600 tysi?cy trafie? w Google’u


 
W ci?gu kilkunastu lat od chwili powstania Google sta? si? nieod??cznym elementem naszego ?ycia, nieomal synonimem internetu jako takiego. Mówimy: „Sprawdz? w internecie”, po czym wpisujemy interesuj?ce nas zagadnienie w okienko Google’a, a ten w odpowiedzi wy?wietla, co znalaz? – czasem kilka stron, ale cz??ciej kilka tysi?cy albo i kilkadziesi?t milionów. Wyszukiwarka zacz??a tak?e pe?ni? rol? arbitra w pytaniach czysto j?zykowych: „Czy tak si? mówi?”, „Czy tak jest poprawnie?”, „Która forma jest w?a?ciwa?” itp. I w tym aspekcie wydaje si? wi?c bardzo przydatnym narz?dziem weryfikacyjnym dla t?umacza, bo ka?dy przecie? miewa od czasu do czasu w?tpliwo?ci, jakiego przyimka nale?y u?y? z danym czasownikiem albo czy zwi?zek frazeologiczny, jaki nam w?a?nie przyszed? do g?owy, rzeczywi?cie istnieje.
 
Coraz cz??ciej argumentu „z Google’a” u?ywa si? w dyskusjach. Dziennikarka w telewizji ekscytuje si?: „Sprawdzi?am w Google’u, co pisz? o [tu pada jakie? nazwisko czy zjawisko]. Po trzech dniach jest ju? ponad 600 tysi?cy trafie?! To gor?cy temat”. Nawet Poradnia j?zykowa PWN rozstrzyga o poprawno?ci rozmaitych wyra?e?, odwo?uj?c si? do cz?stotliwo?ci ich wyst?powania w internecie.
 
Tyle ?e owe „600 tysi?cy trafie?” to argument nies?ychanie u?omny i zwodniczy. Je?li bowiem przyjrzymy si? bli?ej tym imponuj?cym liczbom, okazuje si?, ?e bardziej odzwierciedlaj? one – przedziwne i niezrozumia?e, jak zaraz zobaczymy – dzia?anie legendarnych algorytmów Google’a ni? j?zykow? rzeczywisto??. Przede wszystkim, je?li szukamy frazy dwuwyrazowej (powiedzmy: imienia i nazwiska) i nie ujmiemy jej w cudzys?ów, wyszukiwarka poda liczb? stron zawieraj?cych te s?owa w dowolnej konfiguracji (np. w odst?pnie kilku akapitów). Tak wi?c np. popularno?? lu?nego zestawienia irving smith w chwili pisania tego tekstu Google okre?la? liczb? 34,7 mln wyników, podczas gdy "irving smith" – ju? tylko 64 tys. Wydaje si? to logiczne i ka?dy w miar? do?wiadczony u?ytkownik wie, kiedy niezb?dne jest pos?u?enie si? cudzys?owem. Logika staje jednak na g?owie, gdy wpiszemy np. joe dassin. Dwa lu?ne s?owa daj? ok. 4,7 mln wyników, ale w sztywnym po??czeniu "joe dassin" o pó? miliona WI?CEJ. Ma?o tego, wystarczy?o w nowej karcie przegl?darki wej?? powtórnie do Google’a i tym razem wpisa? interesuj?ce nas imi? i nazwisko zgodnie z zasadami ortografii, czyli jako Joe Dassin, by liczba wyników drastycznie spad?a do nieca?ych 700 tys. Z czego po dodaniu cudzys?owów znów robi si? ok. 5,2 mln wyników! Oto zrzuty ekranowe na dowód tego, ?e mi si? nie ?ni?o:
joe dassin 
"joe dassin"
Joe Dassin 
 
Zobaczmy teraz inny przyk?ad. Wydaje nam si?, ?e polskiemu wyra?eniu na mocy dekretu odpowiada angielskie on the strength of a decree i chcemy to sprawdzi?. Wpisujemy wi?c ca?? fraz? (koniecznie w cudzys?owie!) i dostajemy 131 tys. wyników. Wygl?da na to, ?e jest ona niezmiernie popularna, dla pewno?ci jednak przygl?damy si? jeszcze pochodzeniu stron wynikowych – czy przypadkiem nie wyprodukowali ich g?ównie Chi?czycy, Bu?garzy, Polacy albo Niemcy. I tu czeka nas niespodzianka. Kiedy bowiem doklikamy si? do czwartej dziesi?tki wyników, ze 131 tys. nagle robi si? ich 327 tys. – by w kolejnej ods?onie spa?? do 44 (s?ownie: czterdziestu czterech)! No to w ko?cu ile razy to do?? skomplikowane wyra?enie wyst?puje w internecie? Jest pospolite czy bardzo rzadkie?
 
Na dole ostatniej (pi?tej) strony z wynikami znajdujemy pewien trop: komunikat Google’a takiej oto tre?ci:
 
Aby pokaza? najbardziej trafne odpowiedzi, pomini?to kilka bardzo podobnych stron do tych 46 ju? wy?wietlonych. Je?li chcesz, mo?esz powtórzy? szukanie we wszystkich stronach wraz z pomini?tymi wcze?niej.
 
Sk?d si? wzi??o 46, skoro kawa?ek wy?ej jest 44? Ale przy poprzednich wahaniach o setki tysi?cy te marne dwie sztuki to doprawdy drobiazg, nie b?dziemy wi?c sobie tym zaprz?ta? g?owy. Idziemy za sugesti? wyszukiwarki i „powtarzamy szukanie we wszystkich stronach wraz z pomini?tymi wcze?niej”. Teraz od razu dostajemy 327 tys. wyników, zauwa?amy jednakowo?, ?e jakim? cudem wszystko to mie?ci si? Google’owi w raptem siedmiu ods?onach po 10 adresów. No bo faktycznie – na ostatniej, siódmej stronie liczba ulega redukcji do „oko?o 61 wyników”. Pytanie o popularno?? frazy on the strength of a decree pozostaje zatem nierozstrzygni?te i chyba nierozstrzygalne.
 
Uwaga o „pomini?ciu kilku bardzo podobnych stron” mog?aby sugerowa?, ?e Google rozpoznaje sytuacj?, gdy ten sam (b?d? niemal ten sam) tekst wyst?puje w internecie w ró?nych miejscach, i ignoruje powtórzenia – co by?oby wielce przydatne z naszego punktu widzenia. No to sprawd?my, czy w j?zyku polskim istnieje zwi?zek frazeologiczny na obrze?ach wydarze?, bo akurat pasowa?by nam w t?umaczeniu. Google mówi „1650 wyników”. Nie jest ?le, fraza wydaje si? mocno zadomowiona w polszczy?nie. Ale gdy zaczynamy si? przygl?da? tym wynikom, szybko zauwa?amy, ?e niemal wszystkie pochodz? z jednego ?ród?a – nieudolnie przet?umaczonej wypowiedzi znanego brytyjskiego fotografa. Skopiowano j? w identycznej formie na setkach stron, ale wyszukiwarce jako? nie wyda?y si? one „bardzo podobne”. Zreszt?, ile w?a?ciwie jest tych rzekomych setek? Bo kiedy klikamy kolejne strony z wynikami, znów na moment ich liczba ro?nie (do 1730), by zaraz spa?? do 51.
 
Google podobno nie rozró?nia wielkich i ma?ych liter, ale Joe Dassin pokaza? nam ju?, ?e to nie takie pewne. Oto jeszcze bardziej zadziwiaj?cy przyk?ad podwa?aj?cy t? tez?. Musimy przet?umaczy? na angielski wyra?enie nagrody pieni??ne i rzeczowe. Nie wiemy, jak si? mówi po angielsku nagrody rzeczowe, wpisujemy wi?c do wyszukiwarki nast?puj?cy ci?g: "CASH OR * AWARDS", w nadziei ?e w miejscu gwiazdki pojawi si? potrzebne nam okre?lenie. Wersalików u?yli?my przypadkiem, bo akurat tekst, na którym pracujemy, wymaga? takiego formatowania, a „Google’owi to przecie? oboj?tne”. Liczba wyników jest imponuj?ca – ponad 4,3 mld (od strony czwartej – jak zwykle – jest ju? 9,5 mld, ale mniejsza z tym). Szybko jednak odkrywamy, ?e dla naszych celów s? zupe?nie bezwarto?ciowe, poniewa? mimo starannie wpisanego cudzys?owu fraza wcale nie zosta?a potraktowana jako fraza – pocz?tkowe CASH OR jest pomijane, a wyniki dotycz? po prostu rozmaitych awards. Spróbujmy wi?c u?y? ma?ych liter: "cash or * awards". Tak, tym razem Google przyj?? do wiadomo?ci, ?e szukamy ca?ej frazy i liczba wyników spad?a do 50/123 mln, w?ród czego mo?na znale?? sensowne pomys?y na nagrody rzeczowe po angielsku. Wniosek? For Google, case-insensitive means case-sensitive.
 
Na niewiarygodno?? google’owych statystyk w odniesieniu do j?zyka polskiego wp?ywa jeszcze jedna istotna cecha algorytmów wyszukiwania: nawet je?li ujmiemy szukane s?owo/s?owa w cudzys?ów, Google i tak wepchnie nam do wyników wszelkie alternatywne pisownie czy formy fleksyjne z diakrytykami i bez. Zilustrujmy to imies?owem przys?ówkowym "nie ?mi?c" – ot, chcieliby?my si? upewni?, ?e taka forma gramatyczna naprawd? istnieje i jest u?ywana. Google oczywi?cie „wie lepiej” i interpretuje to jako "nie ?mia?" – bo taki ci?g z pewno?ci? jest w internecie znacznie popularniejszy. No to potraktujmy go filtrem –?mia?. Post?p mizerny, jako ?e teraz w wynikach króluje "nie smiac", wci?? w znaczeniu ?miechu, a nie odwagi. Dok?adamy wi?c hurtem –smiac –?miac –smia?. Google znów przygotowa? niespodziank? i – jak uprzejmie informuje – „Wy?wietla wyniki dla "nie ?mi?c" –?mia? –smiac –?mier? –?mier?”. Na szcz??cie zostawia nam te? opcj? szukania jednak tego, czego MY chcemy, a nie on. Korzystamy z niej i wreszcie mo?emy si? dowiedzie?, ?e istotnie szukany imies?ów funkcjonuje w polszczy?nie. Czy cz?sto? Ba! To bardzo wzgl?dne: wyszukiwarka podaje nam 29 tys. wyników (strony 1-3), 71,5 tys. (strony 4-31) b?d? 312 (strona 32 i zarazem ostatnia).
 
Na koniec warto wspomnie? o zjawisku po?rednio wywo?anym przez Google’a i równie? fa?szuj?cym rzeczywisto?? j?zykow?. Chodzi o tzw. pozycjonowanie, czyli sztuczne pompowanie rzekomej popularno?ci i przydatno?ci okre?lonych stron. Rozmaici internetowi hochsztaplerzy osi?gaj? to np. za pomoc? pseudoblogów generowanych automatycznie z fragmentów przypadkowych tekstów, w które wsadzaj? linki do lansowanej strony. Widzia?em co? takiego np. posklejane z kilku ksi??ek Niziurskiego i bodaj?e Ludluma. Mo?e si? wi?c okaza?, ?e z naszych „600 tysi?cy trafie?” - zredukowanych tymczasem do 350 sztuk - dwie trzecie (albo i wi?cej) to produkt bezmy?lnych edytorów tekstu.
 
A je?li akurat szukamy tytu?u filmu czy utworu muzycznego (lub cho?by frazy, która przypadkiem jest równie? takim tytu?em), odkryjemy jeszcze jedn? irytuj?c? kategori? bytów internetowych: strony generowane przez pseudowyszukiwarki, które – cho? zajmuj? najwy?sze pozycje w wynikach Google’a – maj? nam do zaproponowania tylko smutny komunikat „Sorry, no results were found” plus kilkadziesi?t reklam. Oba zjawiska mo?na by ?atwo wypleni?, wprowadzaj?c prost? funkcj? czarnej listy ("Tej strony prosz? mi wi?cej nie wy?wietla? w wynikach"), ale na to jako? nikt w Google’u dot?d nie wpad?.
 

© by Arkadiusz Belczyk 2011