Kasdien „Google“ apdoroja per 5 mlrd. užklausų visame pasaulyje, o vien lietuviai paieškos sistemai užduoda 23 mln. klausimų. Dirbdama tokiais tempais, paieškos sistema privalėjo iššniukštinėti ir įsiminti kiekvieną interneto užkaborį.
Tačiau net jei turi visas interneto svetaines po ranka, kaip žinoti, kurioje jų yra būtent tai, ko ieško žmogus? Ir kaip įvertinti, kuris atsakymas yra tiksliausias, o kuris – mažiau tikslus?
Šniukštinėja nuolat
Suvirškinti tūkstančius terabaitų informacijos ir per pusę sekundės pateikti tikslų atsakymą užklausai būtų didelis iššūkis net Algimantui Čekuoliui. Tačiau „Google“ neturi smegenų – visą darbą atlieka daugybė serverių, kuriems užduotis formuluoja specialūs algoritmai. Būtent jie nusprendžia, kuri informacija yra svarbi ir geriausiai atitinka užklausą.
Norint būti geriausia paieškos sistema pasaulyje, svarbūs trys dalykai. Pirma, reikia žvalgyti internetą giliai ir visapusiškai. Taip pat svarbu įvertinti ir reitinguoti tinklalapius bei pateikti tiksliausius rezultatus, – sakė M.Cuttsas.
„Google“ robotai – specialios programos, skaitmeniškai patikrinančios interneto svetainių turinį – visus interneto tinklalapius peržvelgia kartą per dieną. Tačiau taip buvo ne visada.
„Anksčiau mes tikrindavome interneto svetaines 30 dienų, tuomet indeksuodavome informaciją maždaug savaitę ir perduodavome ją maždaug dar po savaitės. Kartais žmonės patekdavo į svetaines su šviežia informacija, o kartais – su sena“, – prisimena „Google“ inžinierius Mattas Cuttsas.
Gausėjant interneto turinio ir paieškų užklausų, atsirado būtinybė optimizuoti šį procesą. Taigi nuo 2003 metų „Google“ pradėjo tikrinti dalies interneto svetainių turinį kasdien. Tai leido smarkiai pagerinti atsakymų tikslumą. Dabar visos indeksuojamos svetainės yra tikrinamos bent kartą per dieną, o aukštą reitingą turintys tinklalapiai peržvelgiami dar dažniau. Dėl to paieškos sistema gali pateikti pačius šviežiausius rezultatus, pvz., su užklausa susijusias naujienas, įvykius ir pan.
Lemiamą faktorių nutyli
Pagrindinis kriterijus, lemiantis tai, kiek dėmesio svetainei skirs „Google“, yra vadinamas „PageRank“ (liet. puslapio reitingas).
„Kuo aukštesnis jūsų reitingas (t.y. kuo daugiau žmonių pateikia nuorodas į svetainę ir kuo jie yra patikimesni), tuo didesnė tikimybė, kad mes rasime jūsų tinklalapį anksčiau ir jis atsidurs aukščiau paieškos rezultatuose“, – sakė M.Cuttsas.
Taip pat didelė reikšmė suteikiama žodžių tvarkai. Pavyzdžiui, jei žmogus ieško atlikėjos „Katy Perry“, sistema pirmiausia rodys rezultatus, kuriuose šie žodžiai yra vienas šalia kito, o ne skirtingose vietose.
Svarbiausia užduotis – rasti teisingą balansą tarp raktažodžių tikslumo, puslapio reitingo ir į jį vedančių nuorodų skaičiaus. „Tai yra mūsų slaptasis ingredientas“, – teigė M.Cuttsas.
Žmogui įvedus užklausą ji vienu metu siunčiama į šimtus serverių, kurie patikrina, ar jų saugomoje interneto dalyje yra tinkamų atsakymų.
„Mes klausiame: „Kuris puslapis geriausiai atitinka šią užklausą iš visų indeksuojamų tinklalapių?“ Gavę atsakymą pateikiame šio puslapio nuorodą ir dalį, kurioje buvo atrasti raktažodžiai. Per mažiau nei pusę sekundės“, – sakė „Google“ inžinierius.
Siūlome pasižiūrėti vaizdo įrašą (anglų k.):