Informatie Professional
terug

http://www.wie.waar.wat

5 (2001) nr. 10 (okt.) blz. 47-50


Google


Eric Sieverts

Deze zomer heeft Google - zeer verdiend - in San Francisco een webby-award gekregen, een soort Oscar voor web-diensten en -producten. Google kreeg hem in de categorie "best practices", één van de 30 categorieën waarin zo'n award werd uitgereikt. Wat deze ook moge inhouden, Google had hem in elk geval voor zijn goede zoeken verdiend. Intussen blijken er wel al weer wat concurrenten op de loer te liggen. Een goede reden om Google - pas voor het eerst in deze rubriek - eens wat uitgebreider te bespreken en binnenkort ook naar de claims van die concurrentie te kijken.


De laatste paar jaar was weer een race op gang gekomen tussen een aantal zoekmachines wie het grootste aantal web-pagina's indexeerde. Het was niet Google, maar het Noorse Fast (http://www.alltheweb.com/) dat twee jaar geleden de knuppel in het hoenderhok wierp met de opmerking dat het wel leuk was je erop te beroemen dat jouw zoekmachine door zijn goede ranking-methode de beste antwoorden op zoekvragen gaf, maar dat je dat niet kan waarmaken als je die beste pagina's helemaal niet geïndexeerd hebt, omdat je 80% van het web gemist hebt.


Groot, groter, grootst

Op de site van Searchenginewatch wordt al enkele jaren bijgehouden hoeveel pagina's door de grootste zoekmachines geïndexeerd worden (http://www.searchenginewatch.com/reports/sizes.html).

Hoewel men zich daar baseert op de opgaven van de zoekmachines zelf, geeft dat toch een redelijk betrouwbaar beeld. Leuk is vooral hun groeigrafiekjes te bekijken. Daarin komt halverwege 1999 met de introductie van Fast inderdaad ineens alles in beweging. Het is een voortdurend haasje-over-springen tussen Fast, AltaVista, Inktomi (van o.a. HotBot), Webtop en Google.

Deze strijd is intussen door Google met glans gewonnen. De laatste stand is 1,6 miljard vindbare web-pagina's, met als bijzonderheid dat ze nog niet allemaal op hun inhoud doorzoekbaar zijn. Dat zijn er "maar" ruim 1 miljard. Hoe kun je die andere paar honderdmiljoen dan toch vinden met Google? Dat zijn pagina's waarvan Google het bestaan al kent, omdat hij links daarheen is tegengekomen in wel al geïndexeerde pagina's. De tekst bij de links in die verwijzende pagina's vormt voorlopig dan ook de enige zoekingang om ze te vinden, totdat Google tijd gevonden heeft ook die pagina's echt te indexeren.





© Searcheniginewatch



Goed, beter, best

Alleen maar groot en veel is natuurlijk niet de enige maat voor kwaliteit. Er is een belangrijker reden waardoor Google bij steeds meer mensen populair is: meestal vind je daarmee zo lekker snel de informatie waarnaar je zoekt. Mijn ervaring en die van anderen is dat je minder verschillende zoekpogingen hoeft uit te proberen dan bij veel andere zoekmachines. Verder dan de eerste tien resultaten hoef je zelden door te bladeren en vaak is zelfs de eerste meteen al goed. Vandaar dat de knop "I'm feeling lucky" niet zo'n gek idee is: die roept zonder tussenstap van een resultatenlijst meteen de eerste hit voor je zoekvraag op. Wat ook helpt is dat je snel kunt beoordelen of iets relevant is, aangezien de resultatenlijst niet de gebruikelijke eerste paar regels van de gevonden pagina's toont, maar een soort KWIC (keyword in context) display, van tekstfragmenten waar de zoektermen in voorkomen, waar ze ook in de pagina mogen staan.

Je moet natuurlijk nog altijd goede, voldoende specifieke vragen stellen, maar als je dat doet, hanteert Google kennelijk een methode van relevantie-ordening die nauw aansluit bij je eigen informatiebehoefte. Het zou natuurlijk interessant zijn te weten waaraan dat ligt. Helaas is die vraag niet te beantwoorden. Daarvoor is het probleem waardoor relevantie bepaald wordt, veel te ongrijpbaar. Daarvoor geeft Google te weinig details prijs van het mechanisme waarop de Google-ranking gebaseerd is. Daarvoor is ook het aantal verschillende parameters dat daarbij wordt meegenomen te groot om zelf even de precieze werking te kunnen reconstrueren uit de resultaten van wat zoekvragen.

Toch is het aardig te kijken wat Google hier wel over kwijt wil. Een belangrijk element in hun relevantie-ordening blijkt de complexe link-structuur van het web.

In een column twee jaar geleden (IP, oktober 1999, blz. 10) schreef ik al eens iets over mogelijk gebruik daarvan. Daar had ik het over authorities en hubs. Authorities waren web-pagina's waarvan kon worden afgeleid dat ze belangrijk waren, autoriteiten op hun terrein, omdat er zo vaak via hyperlinks naar verwezen werd. Hubs op hun beurt waren pagina's waarvan het belang lag in het feit dat ze naar zoveel authorities verwezen. Authorities kregen bovendien nog meer authoriteit als veel van de links erheen van hubs afkomstig waren.

Een soortgelijk cyclisch teruggekoppeld systeem zit ook in Google. Ook daarvoor heeft men alle tientallen miljarden hyperlinks van de meer dan één miljard geïndexeerde web-pagina's geanalyseerd en daaruit voor elke pagina iets uitgerekend, dat ze "pagerank" noemen. Hoe meer links naar een pagina, dus hoe meer link- populariteit, hoe hoger die pagerank. En een nog hogere pagerank als die links afkomstig zijn van pagina's die zelf een hoge pagerank hebben. En gezien de resultaten werkt dat kennelijk. Uiteraard worden daarnaast nog andere factoren meegenomen die ook andere zoekmachines wel gebruiken. Het is belangrijk als in een gevonden pagina de gevraagde termen dicht bij elkaar staan. Het is van belang of zoekwoorden al in een paginatitel of kop voorkomen. Enzovoort.

Ondanks alle jubel over de goede zoekresultaten past hier ook wel de waarschuwing dat dit systeem heel nieuwe pagina's benadeelt. Die zijn nog zo vers dat de rest van de wereld nog geen kans heeft gehad om nieuwe links aan te maken, die daarnaar verwijzen. Aanvankelijk zullen die dus nooit hoog in de relevantievolgorde kunnen komen, hoe belangrijk en relevant ze ook mogen wezen.






Veel, meer, meest

Er is nog een ander aspect dat van Google zo'n nuttige zoekmachine maakt. Dat is het feit dat niet alleen gewone web-pagina's, maar ook PDF-files full-text geïndexeerd worden. Daardoor heeft Google ook wat dat betreft een veel betere dekking dan alle andere zoekmachines. Bovendien bevatten PDF-documenten gemiddeld veel serieuzer en betrouwbaarder informatie dan willekeurige gewone web-pagina's.

Zoeken naar PDF-files was eerder ook al mogelijk. Hotbot deed het een heel klein beetje, maar ging niet verder dan de mogelijkheid je zoekactie te beperken tot (gewone) web-pagina's die een link naar een PDF-file bevatten. Adobe, de moeder van het PDF-formaat, ging al veel verder met een specifieke zoekmachine die alleen PDF-files full-text indexeert (http://searchpdf.adobe.com/). Vergelijking met Google leert echter al snel dat die laatste op de meeste vragen wel 50 tot 100 keer zoveel PDF-files oplevert als die Adobe-machine. Vooral bij het zoeken naar zeldzame handleidingen of productinformatie valt Google dus verre te prefereren.

Kun je zoekacties dan ook inperken op alleen maar PDF's? Jazeker. Google kent ook een paar zoekvelden, waarvan het "filetype" er één is. Zo levert een zoekactie op
  hedychium gardnerianum filetype:pdf
alleen PDF documenten over een bepaalde uit de Himalya afkomstige, op de Azoren en Hawaii ongewild woekerende wilde gember, die onverwacht in mijn tuintje in Amsterdam in bloei gekomen was.

Dat maakt meteen nieuwsgierig of je ook nog naar andere filetypes kunt zoeken. Inderdaad ook .TXT, .XML en .TEX bestanden (LaTeX - spreek uit: latech - is een in de wiskunde veel gebruikt tekstverwerkingsformat) blijken door Google geïndexeerd en op dezelfde manier selectief doorzocht te kunnen worden. Met filetype:htm en filetype:html kun je zelfs onderscheid maken tussen html-bestanden met 3- en 4-letterige extensie in hun naam. Kun je zo dan ook op de veelvuldig op web-sites aanwezige Word-bestanden zoeken? .DOC levert op dit moment nog niets op, maar er gaan wel geruchten dat zeer binnenkort ook diverse soorten Microsoft- office bestanden aan het Google-assortiment worden toegevoegd. Hou dit dus in de gaten.






Zoekmogelijkheden

Zoals uit het eerder gegeven voorbeeld al kon worden afgeleid, zoekt Google standaard met een AND-operator tussen alle ingetikte termen. Er is echter ook de mogelijkheid om zelf OR tussen termen te zetten. Als er tegelijk tussen andere termen AND-relaties gelegd moeten worden, mag je die operator nog altijd weglaten. Voor wie aan online hosts gewend is, waar AND altijd voor OR gaat - als je tenminste geen haakjes gebruikt - is het wel even wennen dat het hier net andersom is. Om een zoekvraag als
  (ginger OR hedychium) AND (azores OR hawaii)
door Google correct te laten interpreteren, volstaat het namelijk om
  ginger OR hedychium azores OR hawaii
in te tikken.

Voor mensen die gewend zijn hun zoekvraag stapsgewijs op te bouwen met steeds een volgend aspect van hun zoekvraag, biedt Google ook de mogelijkheid om verder te zoeken binnen een al verkregen zoekresultaat. Daarvoor moet onderaan de pagina met een zoekresultaat de link "Search within results" worden aangeklikt.

Het resultaat van die voorgaande zoekactie - waarin uiteraard ook al Booleaanse combinaties en andere functies gebruikt mogen zijn - wordt dan ge-AND met de nieuw in te tikken, ook desnoods weer complexe zoekvraag. Zo had die voorgaande vraag over de hedychium-gember op de Azoren of Hawaii ook in twee stappen uitgevoerd kunnen worden.

Google doet ook een paar dingen niet: hij is niet hoofdlettergevoelig, je kunt niet trunceren en er wordt geen word-stemming uitgevoerd of automatisch op meervouden gezocht, zoals NorthernLight niet altijd tot je genoegen doet. Gebruik van een min- teken om termen uit te sluiten kan wel. Hoewel altijd al met AND gezocht wordt, is er toch ook nog een functie voor het plus-teken. Daarmee kun je namelijk zorgen dat op - normaal uit een zoekvraag weggefilterde - stopwoorden of één-letterwoorden gezocht kan worden. Op die manier kun je dus toch zoeken naar "vitamin A", "world war I", "who" (in de betekenis van "world health organization") of zelfs naar "who is who". Van de gewone stopwoorden bleek op deze manier alleen niet op "the" gezocht te kunnen worden (en dus ook niet gericht op "the Who" - die van de rock-opera Tommy).






Advanced search

Google kent ook een advanced zoekscherm. Sommige van de net genoemde mogelijkheden worden daarin op menugestuurde wijze aangeboden. Uit de resultaatschermen die dat oplevert, kan de oplettende gebruiker trouwens meestal afleiden hoe hetzelfde resultaat ook door opdrachten vanaf de standaard zoekregel verkregen kan worden (zie bijvoorbeeld de tabel met zoekvelden in dit artikel). Een interessante mogelijkheid is bijvoorbeeld het "citatie"-zoeken: welke pagina's linken naar een pagina waarvan ik het URL al ken. Meestal zullen die verwijzende pagina's globaal over hetzelfde onderwerp gaan als de oorspronkelijke pagina (zie hiervoor ook IP, juni 1997, blz. 18-19).

Een andere advanced mogelijkheid is het zoeken naar "similar pages". Ook daar kan een bekend URL worden opgegeven. Deze zoekmogelijkheid wordt ook na een gewone zoekactie gegeven, als link bij elke gevonden hit afzonderlijk. Om te bepalen wat similar pages zijn, wordt, anders dan bij andere zoekmachines met een soortgelijke functie, geen gebruik gemaakt van zoekwoorden die in de tekst van die uitgangspagina voorkomen.

In plaats daarvan baseert Google zich ook voor dit soort zoekacties op de link-structuur van het web. Dat is zo geïmplementeerd dat het, anders dan bij gebruik van zoektermen, meestal maar een heel beperkt aantal pagina's oplevert. Mijn eigen indruk is dat die resultaten overigens niet veel beter zijn dan bij die zoekterm-methode (die ik op dit moment alleen nog maar bij Webtop bleek tegen te komen).

Tot slot nog een andere interessante optie die vanuit elke hit in een zoekresultaat kan worden aangeklikt. Ook Google ontkomt er niet aan dat je geregeld hits tegenkomt, waarvan het URL intussen niet meer bestaat - de beruchte Error 404 - of waarvan de inhoud intussen niet meer aan de zoekvraag voldoet. Is dat het geval, dan kun je bij die hit de link "cached" aanklikken. Google houdt namelijk niet alleen een index bij van alle doorzoekbare pagina's, maar slaat zelfs de hele inhoud van de meeste van die pagina's op. Dat is dus de inhoud zoals die was op het moment van indexeren en dus de inhoud waarop Google's zoekresultaat gebaseerd was. Met de link "cached" roep je die oude inhoud uit de Google-computer op, ook als die inhoud op het betreffende URL intussen al niet meer aanwezig is. Dat het niet altijd werkt, komt omdat aanbieders van web-pagina's een "noarchive"-tag aan hun pagina's kunnen meegeven om aan te geven dat ze het bewaren van dergelijke kopieën niet op prijs stellen.


Bij Google te gebruiken zoekvelden:
zoekveld daar in te vullen
filetype: pdf, txt, xml, htm, html, tex
link: volledig url (voor "pages that link to")
related: volledig url (voor "similar pages")
site: domein of deel van IP-adres, zoals: edu, uu.nl, bbc.co.uk, etc.
inurl: onderdeel van een url
allintitle: woorden (zoekt daarnaar in titel (of metatags) van web-pagina)




Andere Google zoekproducten

Nadat met Google een zoekactie is gedaan, toont het resultaatscherm niet alleen de aantallen hits voor elk van de gebruikte zoektermen, maar kun je die zoektermen ook aanklikken voor een zogenaamde Dictionary lookup. Van de betreffende woorden wordt dan de betekenis - uit een Engels woordenboek of een acronym finder - op het scherm getoond. Specifiek voor Amerikanen biedt Google verder nog de mogelijkheid direct via het gewone zoekvenster telefoonnummers in de VS op te zoeken en bij adressen meteen via Mapblast of Yahoo-maps een kaartje van die buurt op te vragen.

Naast de gewone zoekfunctie, biedt Google ook een systematisch ingedeelde onderwerpsdirectory. Zoals bij meer zoekmachines, gebruikt ook Google hiervoor de Open Directory. Het enige extraatje dat Google daaraan toevoegt, is dat de presentatievolgorde van de links binnen elke categorie wordt bepaald door hun pagerank die door Google toch al als relevantiemaat berekend is.

Dat met Google (in beta-versie) ook op plaatjes gezocht kan worden, besprak Jeroen Bosman vorige maand al in deze rubriek. In dat verband is nog interessant dat de New York Times op 6 september onder de kop "Do search engines expedite the theft of digital images", meldde dat intussen gewerkt wordt aan rechtszaken, omdat zoekmachines als Google in hun plaatjes-databases zonder toestemming beeldmateriaal zouden opslaan waar copyright op rust.

Een ander interessant zoekproduct (in beta-versie) zijn de met Google doorzoekbare usenet nieuwsgroep-archieven die van DejaNews zijn overgenomen. Ook daar dezelfde zoekfunctionaliteit (voorzover van toepassing) als in de gewone Google, met als extraatje dat je natuurlijk de "threads" van discussieonderwerpen kunt volgen. Hoewel het op web-linking gebaseerde pagerank mechanisme hierbij natuurlijk niet kan worden toegepast, krijg je toch ook meteen redelijk relevante zoekresultaten. Maar deze database is natuurlijk wel aanzienlijk kleiner (hoewel de zoekvraag "Netscape 6.1 bugs" - ik had die versie net thuis geïnstalleerd en vond hem veel stabieler dan 6.0 - toch nog altijd 3960 hits opleverde!).









Extra balken en knoppen

Voor wie Google regelmatig gebruikt zijn er nog een paar handige hulpmiddelen om hem met je browser te integreren. Voor gebruikers van Internet Explorer is er de mogelijkheid een Google zoekvenstertje in de menu-balk te installeren, zodat in elke situatie meteen een zoekvraag kan worden ingetikt zonder eerst de Google-pagina te hoeven oproepen. Van elke in de browser opgevraagde web-pagina wordt in de menubalk dan ook automatisch de Google-pagerank getoond. Netscape-gebruikers op hun beurt kunnen, wanneer ze in het URL-location venster van hun browser in plaats van een URL een zoekvraag intikken, die automatisch naar Google laten doorsturen.

Een andere optie - voor zowel Internet Explorer als Netscape - is het installeren van Google buttons in de "personal toolbar" van je browser. Wanneer je dan in een al in je browser aanwezige pagina met je muis een stukje tekst selecteert, kun je Google automatisch op de daarin aanwezige woorden laten zoeken door op de knop "Google search" te klikken. De knop "GoogleScout" doet automatisch een "similar pages" zoekactie op basis van de aanwezige pagina. En uiteraard is er een derde knop die gewoon de Google zoekpagina oproept.

Meer informatie hierover en over alle andere besproken zoekopties is uiteraard online te vinden via de uitgebreide informatie achter "search tips".







Google en de concurrentie

Voor mij persoonlijk is Google op dit moment de favoriete zoekmachine. Uiteraard moet je ook hier als gebruiker nog steeds goede, voldoende specifieke vragen blijven stellen. Maar dan heb ik beslist het gevoel sneller dan met andere zoekmachines relevante zoekresultaten te krijgen. Kan ik dat gevoel ook hard maken? Helaas is het zonder tijdrovend systematisch onderzoek moeilijk om zo iets objectief te kwantificeren. Omdat ik daar de tijd niet voor had, kan ik u alleen maar aanraden zelf eens de proef op de som te nemen - zo u al geen regelmatige gebruiker van Google bent.

Blijft de vraag hoe het met de in mijn inleiding genoemde concurrentie zit. Wie zijn dat? Naast Fast-All-the-web die recent een verbeterd zoekinterface gelanceerd heeft, zijn dat de nieuwelingen Teoma en Wisenut. Voor hun ranking schijnen die zich allebei net als Google op link-populariteit te baseren. Daarnaast groepeert Teoma zoekresultaten onder andere ook in clusters op thema of topic. Wisenut claimt vooral (nog) sneller te zijn, ook bij het indexeren van pagina's, zodat ze ook spoedig over de 1 miljard-grens hopen te komen. Voorlopig eerst nog maar even afwachten tot beide inderdaad groot genoeg zijn om enigszins betrouwbaar vergelijkingsmateriaal te hebben. Misschien dat tegen die tijd ook het opschrift Beta van hun sites verdwenen zal zijn.





URL's van genoemde zoekmachines en andere pagina's:
Googlehttp://www.google.com
Google directoryhttp://directory.google.com/
Google advancedhttp://www.google.com/advanced_search
Google usenet searchhttp://groups.google.com/
Google search tipshttp://www.google.com/help/
Fasthttp://www.alltheweb.com
Webtophttp://www.webtop.com
Hotbothttp://www.hotbot.lycos.nl
Adobe PDF searchhttp://searchpdf.adobe.com/
Teomahttp://www.teoma.com/
Wisenuthttp://www.wisenut.com/
Searchenginewatchhttp://www.searchenginewatch.com/reports/sizes.html


 

© Informatie Professional (Otto Cramwinckel Uitgever, Amsterdam) en Eric Sieverts

Voor een abonnement op Informatie Professional:
bel: 020 - 627 6609

Zie ook IP Online