Thursday, March 3, 2011

Historie trhu vyhledávačů. Proč se prosadil Google?

Od katalogů až po „AltaVistu“

Vyhledávání lze považovat za jednu z nejdůležitějších možností, které nám dnešní Internet nabízí. Bez tzv. vyhledávačů, jak je známe dnes, by si většina z nás jen těžko dokázala představit způsob, jakým například nalézt informaci o tom, v kterém roce byl vyroben první automobil nebo jak dlouho trvá let z Prahy do Londýna.

Jenže Internetové vyhledávače (z anglického spojení „search engines“) neexistují od samého počátku Internetu a v 80. a ještě počátkem 90. let bylo velmi obtížné konkrétní informace v síti vyhledat, i přesto, že se v ní nacházely.

Z počátku bylo v podstatě technologicky nemožné provozovat vyhledávač, který by samovolně sbíral a indexoval obsah stránek do vlastní databáze, v které by pak mohli uživatelé vyhledávat. Jako první muselo tedy přijít něco jednoduššího. V roce 1991 přišel Tim Berners-Lee (později také zakladatel W3C konsorcia), v té době jako zaměstnanec společnosti CERN, s nápadem jakéhosi katalogu existujících webových stránek, o který se sám manuálně staral. U každé stránky byl uvedený krátký popisek a návštěvníci katalogu si tedy mohli o obsahu stránky udělat malou představu, ještě předtím než ji skutečně navštívili.

S postupným vývojem Internetu a narůstajícím počtem jeho uživatelů a tím i webových stránek a informací, již nebylo prakticky možné katalog manuálně udržovat. Proto se už v roce 1990 pokusil Alan Emtage, tehdy ještě jako student, o samostatný vyhledávač s vlastním indexem. Název nástroje byl „Archie“ (od slova „archive“ bez „v“) a jeho princip byl založen na tom, že program si automaticky stahoval seznamy souborů na volně dostupných FTP serverech a z těchto seznamů byl tvořen postupně jeho index. Pomocí vyhledávače Archie však mohli uživatelé vyhledávat pouze podle názvů souborů, jelikož index již neobsahoval obsah těchto souborů (stránek). I přes to se však jednalo o významný pokrok.

S rozvojem protokolu Gopher, který v té době ještě mohl konkurovat protokolu WWW (World Wide Web), vznikají v roce 1992 dva nové programy pro vyhledávání – „Veronica“ a „Jughead“. Princip vyhledávání obou těchto programů byl podobný jako u vyhledávače Archie.

Za důležitý milník v Internetovém vyhledávání můžeme s jistotou označit červen roku 1993. Byl totiž vyvinut pravděpodobně první Internetový robot (často také nazývám jako bot). Robot byl naprogramován v jazyce Perl a dostal jméno „World Wide Web Wanderer“ (v překladu „WWW poutník“). Hlavním úkolem robota bylo měřit a sledovat velikost World Wide Webu. Ve stejném roce přichází vyhledávač „Aliweb“ s koncepcí, kterou můžeme znát z dnešních internetových katalogů. Vyhledávač neměl žádného robota, který by tvořil index, ale na místo toho mohli do indexu přidávat své stránky sami jejich tvůrci.

Prvním vyhledávačem, který začal kombinovat tři základní prvky internetových vyhledávačů dneška, byl koncem roku 1993 „JumpStation“. Tento vyhledávač měl svého vlastního robota (1), který samostatně tvořil index (2) pro vyhledávání a formulář (3), do kterého uživatelé zadávali vyhledávací dotazy. Výsledky poté byly prezentovány formou seznamu URL stránek, které vyhledávací algoritmus vyhodnotil jako relevantní. Vzhledem k omezeným technologiím bylo však možné indexovat pouze názvy stránek a nadpisy z jejich obsahu. Na tento segment bylo tedy omezeno i samotné vyhledávání.

Změna přichází v roce 1994 s internetovým vyhledávačem jménem „WebCrawler“. Na rozdíl od jeho předchůdců se totiž jedná o první ryze fulltextový vyhledávač. To znamená, že uživatelé již mohou vyhledávat v celém obsahu webových stránek, které jsou obsaženy v indexu. WebCrawler se také stal prvním vyhledávačem, který byl znám a užíván širokou veřejností.

V roce 1995 vzniká internetový vyhledávač AltaVista, který celé vyhledávání posouvá opět o krok dále, a to zejména díky třem aspektům, které ho odlišovali od tehdejších konkurentů:

  1. Velmi obsáhlý index webových stránek,
  2. kvalitní hardware, který byl schopen rychle a spolehlivě reagovat na několik miliónů uživatelských dotazů denně a v neposlední řadě pak
  3. jednoduchý a přehledný layout, který byl tvořen v podstatě jen z formuláře pro zadávání dotazů.

Google éra trvající do dnes

Na globálním trhu internetového vyhledávání působí v současné době 5 až 6 velkých hráčů a jejich pozice vypadají poměrně stabilizovaně. Nicméně samotný Google je důkazem toho, jak rychle se může situace změnit. Těžko by totiž někdo v roce 1998 řekl, že tehdy jednoznačnou jedničku ve vyhledávání, vyhledávač AltaVista, dokáže ohrozit doslova partička kluků experimentujících s vyhledávačem v garáži. I když to zní až neuvěřitelně vyhledávač Google skutečně vznikal „na kolenou“ dvou studentů – Larryho Page a Sergeye Brina. Po dvou letech své existence, v roce 2000 už Google dominoval trhu vyhledávačů v Americe a AltaVista byla, bez absolutně žádných dřívějších náznaků, poražena na kolena. Google dnes zaměstnává přibližně 45 000 zaměstnanců (z toho přibližně půlku tvoří externisté po celé planetě) a jeho příjmy za rok 2009 činily přibližně 23,7 miliard amerických dolarů.

Google totiž přišel v oblasti vyhledávání s velmi významnou novinkou. Technologie pro vyhodnocování a řazení výsledků, které v té době používaly ostatních vyhledávače, byly založené spíše na tzv. „On-Page“ faktorech (faktory na dané webové stránce). Například tedy vyhledávač vyhodnotil stránku jako relevantní pro dotaz, pokud se „dotaz“ vyskytoval v jejím názvu a nadpisu. Tvůrci technologie Google ale zavedli i tzv. „Off-Page“ faktory (faktory mimo danou webovou stránku), které také velmi výrazně ovlivňují pořadí stránky ve výsledcích vyhledávání. Mezi „Off-Page“ faktory patří zejména zpětné odkazy, které vedou na danou webovou stránku. Důvod proč vyhledávač bere při řazení v potaz i zpětné odkazy, je poměrně jednoduchá úvaha, že pokud je webová stránka kvalitní a užitečná, určitě na ni začnou sami uživatelé odkazovat. Každá webová stránka v indexu Google má navíc své vlastní hodnocení kvality, které je na stupnici 0 až 10 bodů, kdy čím vyšší číslo, tím kvalitnější je webová stránka. Google kromě „PageRanku“ přidává stránkám i další hodnocení jako například „TrustRank“ či „BadRank“, veřejně dostupný je však pouze „PageRank“. Na základě těchto hodnocení a dalších přibližně 250 faktorů jsou poté stránky řazeny ve výsledcích.

Relevantní výsledky, rychlost a jednoduchost, zejména tyto tři faktory zajistily vyhledávači Google takový rychlý nástup na z počátku americkém trhu a později i na celosvětovém. Aktuální podíly ve vyhledávání na celosvětovém a americkém trhu jsou zachyceny v následujícím grafu z února 2011:


Přijde nový leader?

To může být otázkou diskuze na cvičení. Osobně si myslím, že ano, protože Internet je extrémně dynamické prostředí s nízkými vstupními bariérami na trh a Google proto nebude schopen udržen svůj dominantní podíl v dlouhém období dvou až třech desetiletích. Konec konců taková situace už na trhu jednou byla, kdy si nikdo nepřipouštěl, že by AltaVista mohla doslova padnout.

Zdroje:

  • http://en.wikipedia.org/wiki/Web_search#History
  • http://www.wordstream.com/articles/internet-search-engines-history
  • http://www.altavista.com/
  • http://investor.google.com/financial/tables.html
  • http://marketshare.hitslink.com/report.aspx?qprid=4&qptimeframe=M&qpsp=145
  • http://www.hitwise.com/us/datacenter/main/dashboard-10133.html

No comments:

Post a Comment