Serwis Tłumacza


Strona główna arrow Lektury arrow 600 tysięcy trafień w Google'u Make Text BiggerMake Text SmallerReset Text Size
Drukuj E-mail

600 tysięcy trafień w Google’u


 
W ciągu kilkunastu lat od chwili powstania Google stał się nieodłącznym elementem naszego życia, nieomal synonimem internetu jako takiego. Mówimy: „Sprawdzę w internecie”, po czym wpisujemy interesujące nas zagadnienie w okienko Google’a, a ten w odpowiedzi wyświetla, co znalazł – czasem kilka stron, ale częściej kilka tysięcy albo i kilkadziesiąt milionów. Wyszukiwarka zaczęła także pełnić rolę arbitra w pytaniach czysto językowych: „Czy tak się mówi?”, „Czy tak jest poprawnie?”, „Która forma jest właściwa?” itp. I w tym aspekcie wydaje się więc bardzo przydatnym narzędziem weryfikacyjnym dla tłumacza, bo każdy przecież miewa od czasu do czasu wątpliwości, jakiego przyimka należy użyć z danym czasownikiem albo czy związek frazeologiczny, jaki nam właśnie przyszedł do głowy, rzeczywiście istnieje.
 
Coraz częściej argumentu „z Google’a” używa się w dyskusjach. Dziennikarka w telewizji ekscytuje się: „Sprawdziłam w Google’u, co piszą o [tu pada jakieś nazwisko czy zjawisko]. Po trzech dniach jest już ponad 600 tysięcy trafień! To gorący temat”. Nawet Poradnia językowa PWN rozstrzyga o poprawności rozmaitych wyrażeń, odwołując się do częstotliwości ich występowania w internecie.
 
Tyle że owe „600 tysięcy trafień” to argument niesłychanie ułomny i zwodniczy. Jeśli bowiem przyjrzymy się bliżej tym imponującym liczbom, okazuje się, że bardziej odzwierciedlają one – przedziwne i niezrozumiałe, jak zaraz zobaczymy – działanie legendarnych algorytmów Google’a niż językową rzeczywistość. Przede wszystkim, jeśli szukamy frazy dwuwyrazowej (powiedzmy: imienia i nazwiska) i nie ujmiemy jej w cudzysłów, wyszukiwarka poda liczbę stron zawierających te słowa w dowolnej konfiguracji (np. w odstępnie kilku akapitów). Tak więc np. popularność luźnego zestawienia irving smith w chwili pisania tego tekstu Google określał liczbą 34,7 mln wyników, podczas gdy "irving smith" – już tylko 64 tys. Wydaje się to logiczne i każdy w miarę doświadczony użytkownik wie, kiedy niezbędne jest posłużenie się cudzysłowem. Logika staje jednak na głowie, gdy wpiszemy np. joe dassin. Dwa luźne słowa dają ok. 4,7 mln wyników, ale w sztywnym połączeniu "joe dassin" o pół miliona WIĘCEJ. Mało tego, wystarczyło w nowej karcie przeglądarki wejść powtórnie do Google’a i tym razem wpisać interesujące nas imię i nazwisko zgodnie z zasadami ortografii, czyli jako Joe Dassin, by liczba wyników drastycznie spadła do niecałych 700 tys. Z czego po dodaniu cudzysłowów znów robi się ok. 5,2 mln wyników! Oto zrzuty ekranowe na dowód tego, że mi się nie śniło:
joe dassin 
"joe dassin"
Joe Dassin 
 
Zobaczmy teraz inny przykład. Wydaje nam się, że polskiemu wyrażeniu na mocy dekretu odpowiada angielskie on the strength of a decree i chcemy to sprawdzić. Wpisujemy więc całą frazę (koniecznie w cudzysłowie!) i dostajemy 131 tys. wyników. Wygląda na to, że jest ona niezmiernie popularna, dla pewności jednak przyglądamy się jeszcze pochodzeniu stron wynikowych – czy przypadkiem nie wyprodukowali ich głównie Chińczycy, Bułgarzy, Polacy albo Niemcy. I tu czeka nas niespodzianka. Kiedy bowiem doklikamy się do czwartej dziesiątki wyników, ze 131 tys. nagle robi się ich 327 tys. – by w kolejnej odsłonie spaść do 44 (słownie: czterdziestu czterech)! No to w końcu ile razy to dość skomplikowane wyrażenie występuje w internecie? Jest pospolite czy bardzo rzadkie?
 
Na dole ostatniej (piątej) strony z wynikami znajdujemy pewien trop: komunikat Google’a takiej oto treści:
 
Aby pokazać najbardziej trafne odpowiedzi, pominięto kilka bardzo podobnych stron do tych 46 już wyświetlonych. Jeśli chcesz, możesz powtórzyć szukanie we wszystkich stronach wraz z pominiętymi wcześniej.
 
Skąd się wzięło 46, skoro kawałek wyżej jest 44? Ale przy poprzednich wahaniach o setki tysięcy te marne dwie sztuki to doprawdy drobiazg, nie będziemy więc sobie tym zaprzątać głowy. Idziemy za sugestią wyszukiwarki i „powtarzamy szukanie we wszystkich stronach wraz z pominiętymi wcześniej”. Teraz od razu dostajemy 327 tys. wyników, zauważamy jednakowoż, że jakimś cudem wszystko to mieści się Google’owi w raptem siedmiu odsłonach po 10 adresów. No bo faktycznie – na ostatniej, siódmej stronie liczba ulega redukcji do „około 61 wyników”. Pytanie o popularność frazy on the strength of a decree pozostaje zatem nierozstrzygnięte i chyba nierozstrzygalne.
 
Uwaga o „pominięciu kilku bardzo podobnych stron” mogłaby sugerować, że Google rozpoznaje sytuację, gdy ten sam (bądź niemal ten sam) tekst występuje w internecie w różnych miejscach, i ignoruje powtórzenia – co byłoby wielce przydatne z naszego punktu widzenia. No to sprawdźmy, czy w języku polskim istnieje związek frazeologiczny na obrzeżach wydarzeń, bo akurat pasowałby nam w tłumaczeniu. Google mówi „1650 wyników”. Nie jest źle, fraza wydaje się mocno zadomowiona w polszczyźnie. Ale gdy zaczynamy się przyglądać tym wynikom, szybko zauważamy, że niemal wszystkie pochodzą z jednego źródła – nieudolnie przetłumaczonej wypowiedzi znanego brytyjskiego fotografa. Skopiowano ją w identycznej formie na setkach stron, ale wyszukiwarce jakoś nie wydały się one „bardzo podobne”. Zresztą, ile właściwie jest tych rzekomych setek? Bo kiedy klikamy kolejne strony z wynikami, znów na moment ich liczba rośnie (do 1730), by zaraz spaść do 51.
 
Google podobno nie rozróżnia wielkich i małych liter, ale Joe Dassin pokazał nam już, że to nie takie pewne. Oto jeszcze bardziej zadziwiający przykład podważający tę tezę. Musimy przetłumaczyć na angielski wyrażenie nagrody pieniężne i rzeczowe. Nie wiemy, jak się mówi po angielsku nagrody rzeczowe, wpisujemy więc do wyszukiwarki następujący ciąg: "CASH OR * AWARDS", w nadziei że w miejscu gwiazdki pojawi się potrzebne nam określenie. Wersalików użyliśmy przypadkiem, bo akurat tekst, na którym pracujemy, wymagał takiego formatowania, a „Google’owi to przecież obojętne”. Liczba wyników jest imponująca – ponad 4,3 mld (od strony czwartej – jak zwykle – jest już 9,5 mld, ale mniejsza z tym). Szybko jednak odkrywamy, że dla naszych celów są zupełnie bezwartościowe, ponieważ mimo starannie wpisanego cudzysłowu fraza wcale nie została potraktowana jako fraza – początkowe CASH OR jest pomijane, a wyniki dotyczą po prostu rozmaitych awards. Spróbujmy więc użyć małych liter: "cash or * awards". Tak, tym razem Google przyjął do wiadomości, że szukamy całej frazy i liczba wyników spadła do 50/123 mln, wśród czego można znaleźć sensowne pomysły na nagrody rzeczowe po angielsku. Wniosek? For Google, case-insensitive means case-sensitive.
 
Na niewiarygodność google’owych statystyk w odniesieniu do języka polskiego wpływa jeszcze jedna istotna cecha algorytmów wyszukiwania: nawet jeśli ujmiemy szukane słowo/słowa w cudzysłów, Google i tak wepchnie nam do wyników wszelkie alternatywne pisownie czy formy fleksyjne z diakrytykami i bez. Zilustrujmy to imiesłowem przysłówkowym "nie śmiąc" – ot, chcielibyśmy się upewnić, że taka forma gramatyczna naprawdę istnieje i jest używana. Google oczywiście „wie lepiej” i interpretuje to jako "nie śmiać" – bo taki ciąg z pewnością jest w internecie znacznie popularniejszy. No to potraktujmy go filtrem –śmiać. Postęp mizerny, jako że teraz w wynikach króluje "nie smiac", wciąż w znaczeniu śmiechu, a nie odwagi. Dokładamy więc hurtem –smiac –śmiac –smiać. Google znów przygotował niespodziankę i – jak uprzejmie informuje – „Wyświetla wyniki dla "nie śmiąc" –śmiać –smiac –śmierć –śmierć”. Na szczęście zostawia nam też opcję szukania jednak tego, czego MY chcemy, a nie on. Korzystamy z niej i wreszcie możemy się dowiedzieć, że istotnie szukany imiesłów funkcjonuje w polszczyźnie. Czy często? Ba! To bardzo względne: wyszukiwarka podaje nam 29 tys. wyników (strony 1-3), 71,5 tys. (strony 4-31) bądź 312 (strona 32 i zarazem ostatnia).
 
Na koniec warto wspomnieć o zjawisku pośrednio wywołanym przez Google’a i również fałszującym rzeczywistość językową. Chodzi o tzw. pozycjonowanie, czyli sztuczne pompowanie rzekomej popularności i przydatności określonych stron. Rozmaici internetowi hochsztaplerzy osiągają to np. za pomocą pseudoblogów generowanych automatycznie z fragmentów przypadkowych tekstów, w które wsadzają linki do lansowanej strony. Widziałem coś takiego np. posklejane z kilku książek Niziurskiego i bodajże Ludluma. Może się więc okazać, że z naszych „600 tysięcy trafień” - zredukowanych tymczasem do 350 sztuk - dwie trzecie (albo i więcej) to produkt bezmyślnych edytorów tekstu.
 
A jeśli akurat szukamy tytułu filmu czy utworu muzycznego (lub choćby frazy, która przypadkiem jest również takim tytułem), odkryjemy jeszcze jedną irytującą kategorię bytów internetowych: strony generowane przez pseudowyszukiwarki, które – choć zajmują najwyższe pozycje w wynikach Google’a – mają nam do zaproponowania tylko smutny komunikat „Sorry, no results were found” plus kilkadziesiąt reklam. Oba zjawiska można by łatwo wyplenić, wprowadzając prostą funkcję czarnej listy ("Tej strony proszę mi więcej nie wyświetlać w wynikach"), ale na to jakoś nikt w Google’u dotąd nie wpadł.
 

© by Arkadiusz Belczyk 2011
 
 
 
poradkk

Tłumaczenie filmów

Słownik budowlany