Buszując po internecie – najczęściej w serwisach informacyjnych, różnego rodzaju portalach, itp. – znajduję mnóstwo nazwisk. Czy to polityków, czy osób z showbiznesu, czy jeszcze innych. Nie wiem, czy to tylko moja przypadłość, ale gdy nie kojarzę dokładniej danego nazwiska (chociażby z tego powodu, że telewizję oglądam sporadycznie) lub chcę się dowiedzieć, kim ta osoba jest – najczęściej zaglądam do Wikipedii i czytam informację o tej osobie. Nie zawsze jednak mi się chcę, co jednak wywołuje u mnie głód wiedzy: trudno mi się skoncentrować na reszcie artykułu.
I tak sobie myślę: czy dałoby się w prosty sposób wyławiać z kodu strony nazwiska oraz czynić te znalezione odnośnikami do strony w Wikipedii? Od strony ideowej jest to dość proste.
Otóż – gdy mamy kod strony, a dostęp do takowego na pewno mają rozszerzenia w Firefoksie – wystarczy przeszukać stronę za pomocą wyrażeń regularnych pod kątem występowania najczęstszej postaci nazwisk: spacja – duża litera – małe litery – spacja – duża litera – małe litery – spacja. Postanowiłem to sprawdzić grepem i rzeczywiście dla następującego wyrażenia: [[:space:]][[:upper:]][[:lower:]]*[[:space:]][[:upper:]][[:lower:]]*[[:space:]]
znajdywanie nazwisk jest dość skuteczne. Przykładowo, dla dwóch losowych stron z któregoś portalu internetowego dostaję:
[dandys@localhost ~]$ grep -o [[:space:]][[:upper:]][[:lower:]]*[[:space:]][[:upper:]][[:lower:]]*[[:space:]] Desktop/1.php
Dariusza Rosatiego
Janusz Onyszkiewicz
Rzeczypospolitej Polska
Niemiec Carl
Andrzeja Szczypiorskiego
Zbigniewa Herberta
[dandys@localhost ~]$ grep -o [[:space:]][[:upper:]][[:lower:]]*[[:space:]][[:upper:]][[:lower:]]*[[:space:]] Desktop/2.php
Sejmu Stefana
Donald Tusk
Unii Europejskiej
Unii Demokratycznej
Anna Bikont
Jerzego Turowicza
Portret Stefana
Markiem Jurkiem
Marka Jurka
Jan Rokita
Unii Demokratycznej
Porozumienia Centrum
Unii Demokratycznej
Henryka Goryszewskiego
Polskiej Partii
Jerzy Robert
Jest tam parę niepasujących wyników, jednak i to byłoby do przejścia, gdyby pomijać takie przypadki i również tworzyć je jako linki.
Gdy już mamy te wyrażenia, należałoby wrzucić je w Google w celu pominięcia fleksji (wpisanie np. „Marka Jurka” w wyszukiwarkę z Wikipedii nie zawsze kierowałoby na stronę o Marku Jurku). Jednak to już kwestia wrzucenia: WYRAŻENIE site:pl.wikipedia.org
w Google i użycie „Szczęśliwego trafu” doprowadzi nas do pożądanej strony.
To tyle teorii, dopiero teraz zaczynają się schody. Otóż pięknie byłoby mieć takie rozszerzenie w Firefoksie, jednak zupełnie nie mam pojęcia o ich tworzeniu. Jeżeli pomęczy mnie to dłużej, to spróbuję się trochę podszkolić w tym względzie. A może coś takiego już istnieje?
Istnieje pokaźna grupa dodatków pozwalających wyszukiwać wskazane słowa w dowolnej wyszukiwarce (także w Wikipedii)z poziomu menu kontekstowego.
Powinno Cię to zainteresować:
http://grzglo.jogger.pl/2007/08/22/wyszukiwanie-lepsze-niz-w-operze/
Mam jeszcze małą uwagę dotyczącą rozróżnienia pomiędzy słowem wtyczka (plugin) a rozszerzenie (extension) – poguglaj, to się dowiesz o co chodzi.
Wiem, wiem, w Firefox są rozszerzenia, odruchowo napisałem „wtyczka”. Już poprawiam.
Pod prawoklikem na zaznaczeniu masz ,,szukaj w gógle’‘ — nowy tab otwiera się w tle, nie zaburzając obecnego porządku rzeczy.
Poza tym jest jeden problem z Twoim pomysłem: odmiana przez przypadki.
Niby tak, ale to jeszcze nie jest to, o co mi chodziło. 🙂
Właśnie dlatego sugerowałem wrzucenie wyrażenia w Google i użycie „Szczęśliwego trafu”, a nie podanie go od razu wyszukiwarce w Wikipedii. Przypadki w Google nie robią różnicy jeśli chodzi o nazwiska – i tak jako pierwszy wynik dostaniesz ten żądany. A użycie „Szczęśliwego trafu” od razu przekieruje do tej strony.
Ale Twoje rozwiązanie będzie obciążało sieć, jeśli przeglądarka ma preloadowanie treści1. Szczęśliwy traf dla ,,Dariusza Rostatiego’‘ da Ci w chwili obecnej jego stronę domową. Dopiero ,,Dariusza Rosatiego wikipedia’‘ daje stronę bio na wiki. Podejrzewam, że to też nie zawsze [2]. Pomysł spoko, ale dziury nie do ominięcia w całkiem głupoodporny sposób. ;>
[1] Nie jestem do końca przekonany, ale tak mi się wydaje teraz, po całej przepracowanej nocy.
[2] Jestem prawie pewien, że dla niektórych nazwisk wyrzuci inne hasła, ale nie mam teraz siły sprawdzać.
Ojciec, doczytaj ten wpis dobrze. 😉 Jest tam zdanie:
Czyli przeszukiwanie strony Wikipedii. 🙂
Gomen, mea culpa. Nic mnie nie tłumaczy (poza zmęczeniem). :/
Zostaje problem preloadingu (do sprawdzenia), a później już tylko obczajać extensions API.
Niniejszym akceptuję Twój pomysł. 😉 (Jeśli będzie można włączać to rozszerzenie na żądanie, żeby nie parsowało każdej strony, to nawet sam sobie zainstaluję.)
Następnym razem będę czytał dokładnie. Btw. http://www.explosm.net/comics/1128/
Zdarza się. 😉 Jeszcze gdybyś mi wytłumaczył, o co chodzi z tym preloadingiem, to byłbym wdzięczny. 🙂
Proszę bardzo: FAQ developer.mozilla
(Keywords: firefox link prefetching)
OIMW w Fx domyślnie włączone.
Preloading to chyba tylko linki ze strony czyta. A moim zdaniem to rozszerzenie lepiej byłoby napisać tak, żeby np. po najechaniu na nazwisko wyświetlało dymka z pierwszym akapitem z Wikipedii. Po co komu cała strona – jak czytamy artykuł to najczęściej wystarczy nam ogólna informacja co to za człowiek, a pełen nie życiorys…