Marzy mi się rozszerzenie

UWAGA! Ten wpis ma już 10 lat. Pewne stwierdzenia i poglądy w nim zawarte mogą być nieaktualne.

Buszując po internecie – najczęściej w serwisach informacyjnych, różnego rodzaju portalach, itp. – znajduję mnóstwo nazwisk. Czy to polityków, czy osób z showbiznesu, czy jeszcze innych. Nie wiem, czy to tylko moja przypadłość, ale gdy nie kojarzę dokładniej danego nazwiska (chociażby z tego powodu, że telewizję oglądam sporadycznie) lub chcę się dowiedzieć, kim ta osoba jest – najczęściej zaglądam do Wikipedii i czytam informację o tej osobie. Nie zawsze jednak mi się chcę, co jednak wywołuje u mnie głód wiedzy: trudno mi się skoncentrować na reszcie artykułu.

I tak sobie myślę: czy dałoby się w prosty sposób wyławiać z kodu strony nazwiska oraz czynić te znalezione odnośnikami do strony w Wikipedii? Od strony ideowej jest to dość proste.

Otóż – gdy mamy kod strony, a dostęp do takowego na pewno mają rozszerzenia w Firefoksie – wystarczy przeszukać stronę za pomocą wyrażeń regularnych pod kątem występowania najczęstszej postaci nazwisk: spacja – duża litera – małe litery – spacja – duża litera – małe litery – spacja. Postanowiłem to sprawdzić grepem i rzeczywiście dla następującego wyrażenia: [[:space:]][[:upper:]][[:lower:]]*[[:space:]][[:upper:]][[:lower:]]*[[:space:]] znajdywanie nazwisk jest dość skuteczne. Przykładowo, dla dwóch losowych stron z któregoś portalu internetowego dostaję:

[dandys@localhost ~]$ grep -o [[:space:]][[:upper:]][[:lower:]]*[[:space:]][[:upper:]][[:lower:]]*[[:space:]] Desktop/1.php
 Dariusza Rosatiego
 Janusz Onyszkiewicz
 Rzeczypospolitej Polska
 Niemiec Carl
 Andrzeja Szczypiorskiego
 Zbigniewa Herberta
[dandys@localhost ~]$ grep -o [[:space:]][[:upper:]][[:lower:]]*[[:space:]][[:upper:]][[:lower:]]*[[:space:]] Desktop/2.php
 Sejmu Stefana
 Donald Tusk
 Unii Europejskiej
 Unii Demokratycznej
 Anna Bikont
 Jerzego Turowicza
 Portret Stefana
 Markiem Jurkiem
 Marka Jurka
 Jan Rokita
 Unii Demokratycznej
 Porozumienia Centrum
 Unii Demokratycznej
 Henryka Goryszewskiego
 Polskiej Partii
 Jerzy Robert

Jest tam parę niepasujących wyników, jednak i to byłoby do przejścia, gdyby pomijać takie przypadki i również tworzyć je jako linki.

Gdy już mamy te wyrażenia, należałoby wrzucić je w Google w celu pominięcia fleksji (wpisanie np. “Marka Jurka” w wyszukiwarkę z Wikipedii nie zawsze kierowałoby na stronę o Marku Jurku). Jednak to już kwestia wrzucenia: WYRAŻENIE site:pl.wikipedia.org w Google i użycie “Szczęśliwego trafu” doprowadzi nas do pożądanej strony.

To tyle teorii, dopiero teraz zaczynają się schody. Otóż pięknie byłoby mieć takie rozszerzenie w Firefoksie, jednak zupełnie nie mam pojęcia o ich tworzeniu. Jeżeli pomęczy mnie to dłużej, to spróbuję się trochę podszkolić w tym względzie. A może coś takiego już istnieje?

10 myśli na temat “Marzy mi się rozszerzenie”

  1. Pod prawoklikem na zaznaczeniu masz ,,szukaj w gógle’‘ — nowy tab otwiera się w tle, nie zaburzając obecnego porządku rzeczy.

    Poza tym jest jeden problem z Twoim pomysłem: odmiana przez przypadki.

  2. Pod prawoklikem na zaznaczeniu masz ,,szukaj w gógle’‘ — nowy tab otwiera się w tle, nie zaburzając obecnego porządku rzeczy.

    Niby tak, ale to jeszcze nie jest to, o co mi chodziło. 🙂

    Poza tym jest jeden problem z Twoim pomysłem: odmiana przez przypadki.

    Właśnie dlatego sugerowałem wrzucenie wyrażenia w Google i użycie „Szczęśliwego trafu”, a nie podanie go od razu wyszukiwarce w Wikipedii. Przypadki w Google nie robią różnicy jeśli chodzi o nazwiska – i tak jako pierwszy wynik dostaniesz ten żądany. A użycie „Szczęśliwego trafu” od razu przekieruje do tej strony.

  3. Ale Twoje rozwiązanie będzie obciążało sieć, jeśli przeglądarka ma preloadowanie treści1. Szczęśliwy traf dla ,,Dariusza Rostatiego’‘ da Ci w chwili obecnej jego stronę domową. Dopiero ,,Dariusza Rosatiego wikipedia’‘ daje stronę bio na wiki. Podejrzewam, że to też nie zawsze [2]. Pomysł spoko, ale dziury nie do ominięcia w całkiem głupoodporny sposób. ;>

    [1] Nie jestem do końca przekonany, ale tak mi się wydaje teraz, po całej przepracowanej nocy.
    [2] Jestem prawie pewien, że dla niektórych nazwisk wyrzuci inne hasła, ale nie mam teraz siły sprawdzać.

  4. Ojciec, doczytaj ten wpis dobrze. 😉 Jest tam zdanie:

    Jednak to już kwestia wrzucenia: WYRAŻENIE site:pl.wikipedia.org w Google i użycie „Szczęśliwego trafu” doprowadzi nas do pożądanej strony.

    Czyli przeszukiwanie strony Wikipedii. 🙂

  5. Gomen, mea culpa. Nic mnie nie tłumaczy (poza zmęczeniem). :/

    Zostaje problem preloadingu (do sprawdzenia), a później już tylko obczajać extensions API.

    Niniejszym akceptuję Twój pomysł. 😉 (Jeśli będzie można włączać to rozszerzenie na żądanie, żeby nie parsowało każdej strony, to nawet sam sobie zainstaluję.)

    Następnym razem będę czytał dokładnie. Btw. http://www.explosm.net/comics/1128/

  6. Gomen, mea culpa. Nic mnie nie tłumaczy (poza zmęczeniem). :/

    Zdarza się. 😉 Jeszcze gdybyś mi wytłumaczył, o co chodzi z tym preloadingiem, to byłbym wdzięczny. 🙂

  7. Preloading to chyba tylko linki ze strony czyta. A moim zdaniem to rozszerzenie lepiej byłoby napisać tak, żeby np. po najechaniu na nazwisko wyświetlało dymka z pierwszym akapitem z Wikipedii. Po co komu cała strona – jak czytamy artykuł to najczęściej wystarczy nam ogólna informacja co to za człowiek, a pełen nie życiorys…

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

Time limit is exhausted. Please reload CAPTCHA.