Webzoekers voor bewegend beeld
Google niet steeds de beste
Eric Sieverts
Net nu InformatieProfessional in de laatste twee nummers aandacht besteedt aan de nieuwste technieken voor beeldretrieval - zowel stilstaand als bewegend - staan blogs en webnieuwsbrieven vol over nieuwe webdiensten voor het zoeken naar bewegend beeld. Uiteraard timmert ook Google daarbij hevig aan de weg. Maar is het wel zo bijzonder wat deze zoekmachine biedt? Wat hebben informatieprofessionals er aan? En worden in de echte wereld van het web al technieken toegepast, waarover we elders in IP hebben kunnen lezen? Eric Sieverts probeert de ontwikkelingen bij te houden en feit van fictie te scheiden.
Ruim een jaar geleden betrad Google voor het eerst de arena van het zoeken naar videomateriaal. De toen aangeboden dienst zag er heel wat anders - en voor de informatiespecialist ook heel wat veelbelovender - uit, dan die waarmee Google nu in het nieuws komt. Die evolutie van het laatste jaar lijkt kenmerkend voor een deel van de videonieuwtjes van de laatste maanden op het web.
Google begon in 2005 met het opnemen van tv-programma's uit de San Fransisco Bay-area, die ze gewoon zelf via kabel of satellietschotel binnenhaalden. Die konden ze vervolgens full-text doorzoekbaar maken, omdat Amerikaanse programma's ten behoeve van slechthorenden standaard vergezeld zijn van ondertiteling (closed captioning). Als antwoord op je zoekvraag kreeg je dan de stukjes uitgeschreven tekst uit de gevonden programma's te zien, waarin je zoekwoorden voorkwamen, met daarnaast stilstaande plaatjes van de betreffende scènes en het tijdstip van elke gevonden scène in dat programma. De hele uitzending was (nog) niet beschikbaar.
Al snel werd dat aangevuld met video's die makers zelf konden uploaden. Die konden wel echt in je browser worden bekeken als Flash. Wel aardig - er was ook een gemanipuleerde Kopspijkers-scène te vinden - maar grotendeels zonder tekst of ondertiteling, zodat zoeken op dit materiaal alleen gebeurde op basis van titels en meestal zeer beperkte metadata die aanbieders zelf hadden meegeleverd.
In de loop van vorig jaar was de toegang tot de Amerikaanse tv-programma's voor ons Europeanen al niet meer beschikbaar. Zoeken naar mijn favoriete Seinfeld-scènes ging ineens niet meer. Intussen zijn de tv-programma's ook voor Amerikaanse gebruikers verdwenen - al zegt men dat ze misschien nog een keertje terug zullen komen. In plaats daarvan is Google meer de commerciële kant opgegaan.
Misschien is dat ook niet zo gek. Voor aanbieders van videomateriaal is de informatiecomponent nu eenmaal veel minder profijtelijk dan de entertainmentcomponent. Iedereen kan nu zijn materiaal via Video.google aanbieden en zelf bepalen of en zo ja, hoeveel daarvoor betaald moet worden. Video.google's beginpagina opent nu dan ook met een sectie "video store" en pas daaronder volgen de andere (gratis) video's. Voor het bekijken van de betaalde video-content is nu een eigen Google video-viewer nodig (5 MB te downloaden) die bijvoorbeeld het maken van lokale kopieën onmogelijk kan maken, als de aanbieder dat wenst.
Gewone gratis filmpjes van homevideo-gehalte (grofkorrelige, met rondstuiterende cameravoering gemaakte opnamen van struikelende kleuters en zo) en lage kwaliteit excerpten zijn nog wel in je standaard browser te zien. Zoeken naar dat alles gaat ook nog gewoon, maar wie wil weten waar de zoekwoorden binnen een geselecteerde video zelf voorkomen, krijgt nu in de meeste gevallen de mededeling "Sorry, there isn't a searchable transcript for this video".
Zoeken in videomateriaal
Gelukkig is Google niet de enige aanbieder van video-search - en het was zeker ook niet de eerste. Gelukkig, omdat er diensten zijn die meer zoekmogelijkheden bieden, bijvoorbeeld veel meer doorzoekbare tekst. Gelukkig ook, omdat er diensten zijn die veel meer of andere content bieden, bijvoorbeeld omdat ze zelf via een crawler op zoek gaan naar vrij op het web aanwezige video-content (wat Google niet doet). Gelukkig ook, omdat enige concurrentie altijd goed is. Dat deze videomarkt vooral ook veel commerciële interesse trekt, blijkt wel uit het recente gerucht dat ook Amazon zich ermee wil gaan bemoeien.
Laten we een paar verschillen tussen de bestaande systemen bekijken. Eerst maar het zoeken. Om echt in de gesproken tekst van video's zelf te kunnen zoeken is Google sterk afhankelijk van de beschikbaarheid van ondertiteling. Die is eigenlijk vrijwel alleen beschikbaar bij tv-programma's en die lijken nu nog maar een klein deel van Google's aanbod uit te maken.
Toch zijn er wel andere mogelijkheden. Er zijn ook diensten die gebruik maken van spraakherkenning om gesproken tekst full-text doorzoekbaar te maken. De bekendste dienst die zo werkt is Blinkx.tv, maar ook een paar gespecialiseerde nieuwsdiensten passen die techniek toe. Uiteraard worden met spraakherkenning niet alle woorden foutloos herkend, maar meestal is er wel zo veel redundantie in de tekst, dat relevante woorden altijd ook nog wel een keer goed herkend zullen worden. Als het om niet-Engelse namen of woorden gaat, blijkt correcte herkenning echter wel vaak problematisch te zijn, zoals sommige van de zoekresultaten in bijgaande tabel illustreren.
Eerste voordeel van doorzoekbaarheid van de gesproken tekst van video's is uiteraard de grotere trefkans bij het zoeken, in vergelijking met materiaal dat alleen via een beperkte hoeveelheid metadata is terug te vinden. Misschien nog wel belangrijker is het voordeel dat je een gevonden programma van een half uur niet in zijn geheel hoeft af te spelen, om daarin die ene scène terug te vinden waarnaar je in feite op zoek was en waarin dus je zoektekst voorkomt. Zowel bij ondertiteling als bij spraakherkenning kunnen tekst en beeld "time-coded" gekoppeld worden, zodat dergelijke systemen selectief die scènes kunnen laten zien waarin jouw zoektermen voorkomen.
Voor de zoekbehoefte maakt het trouwens groot verschil of het om "informatie" of om "entertainment" gaat. Voor informatie wil je inderdaad op de inhoud kunnen zoeken, maar voor entertainment hebben de meeste gebruikers genoeg aan de titel van een film, serie of tv-show of aan de naam van een favoriete actrice of soapster, dus aan beperkte metadata, om het gewenste op te sporen.
De concurrentie
Voor algemeen videomateriaal zijn de bekendste klassieke concurrenten van Google het eerder genoemde Blinkx, Yahoo en SingingFish. Daarnaast zijn er een paar interessante nieuwere diensten, zoals SearchForVideo, Truveo en YouTube. Van al deze systemen hier kort wat karakteristieken. In bijgaande tabel worden deze en enkele meer gespecialiseerde diensten op een paar punten vergeleken. Daarbij ook de resultaten van een paar uiteenlopende zoekvragen die een indruk geven van de hoeveelheid videomateriaal die in de verschillende systemen te vinden is. Daaruit blijkt dat het aanbod van Google op dit terrein nog erg magertjes is.
Blinkx.tv lijkt op dit moment de meest veelzijdige. Enerzijds heeft het zijn eigen crawler. Die verzamelt niet alleen klassieke multimedia-files die op webpagina's voorkomen, maar zoekt ook naar podcasts, die niet alleen audio, maar ook video kunnen bevatten. Daarnaast kunnen aanbieders en eigenaren hun eigen materiaal ook naar Blinkx uploaden. Op die manier biedt Blinkx.tv intussen toegang tot meer dan een miljoen uur tv- en videomateriaal.
Ook wat zoekbaarheid betreft is Blinkx veelzijdig. Het kan zoeken op via spraakherkenning vastgelegde tekst, maar als ondertiteling of metadata beschikbaar zijn, worden die ook gebruikt. Bovendien zegt het ook visuele analyse toe te passen - vermoedelijk om overgangen tussen scènes te identificeren - en ook slim te kijken naar tekst die in de omgeving van een link naar een opgenomen video-file in webpagina's voorkomt. Bij zoeken op Engelse woorden blijkt automatisch word-stemming te worden toegepast. Helaas krijg je nooit meer dan vijftig zoekresultaten te zien en kun je zelfs niet te weten komen hoeveel meer er wellicht was gevonden. Gevonden materiaal kan ook gedownload worden in iPod of Playstation (PSP) format.
Video.yahoo is al lang bekend voor video-zoeken en volgens gebruiksstatistieken ook veruit het meest gebruikt. Yahoo beperkt zich bijna helemaal tot materiaal dat via de eigen crawler is verzameld. Daarbij nu inderdaad ook podcasts. Met Yahoo vind je vrijwel altijd verreweg het meeste materiaal, dit ondanks het feit dat alleen maar beschikbare metadata worden doorzocht. Een uitzondering op dat laatste is het materiaal van Bloomberg Business TV, dat via spraakherkenning van TVeyes (zie verderop) wel full-text doorzoekbaar is. Zoekacties kunnen desgewenst ook worden ingeperkt tot dit materiaal door aan je zoekvraag site:tveyes.com toe te voegen. Door gebruik van de Yahoo-zoeksyntax zijn zoekmogelijkheden wat uitgebreider dan bij veel andere diensten.
SingingFish komt op dezelfde manier aan zijn materiaal als Yahoo en gebruikt ook alleen metadata. SingingFish doorzoekt zowel audio als video, maar je kunt ook inperken op een van beide. Verder kun je onder meer korte clips uitsluiten. Als onderdeel van AOL heeft de Fish kennelijk wat last van de wet van de remmende voorsprong, want het is de enige dienst waarvan het gebruik de laatste vier maanden van 2005 nauwelijks is gegroeid. Ook sommige andere videozoeksystemen, zoals dat van Lycos, blijken hun zoekacties door SingingFish te laten uitvoeren.
SearchForVideo is een tamelijk nieuwe ster aan het firmament. Het is de huidige favoriet van Gary Price en Danny Sullivan van SearchEngineWatch. Het lijkt een metasearch engine te zijn die gebruik maakt van diverse andere kleinere systemen. Dat betekent dat bij elk antwoord weer een ander soort video-venster op je scherm verschijnt.
Een testzoekactie op "Theo van Gogh" leverde een (overigens niet op te starten) versie van de film Submission op, een Channel 4-interview met Ayaan Hirsi Ali, diverse versies van eenzelfde reportage over de moord op Van Gogh, en diverse reportages over het proces tegen Mohammed B.
Als een reportage onderdeel was van een langere nieuwsuitzending, startte de video keurig vlak voor het betreffende onderdeel begon. Bij de achterliggende systemen zat de time-coding dan kennelijk wel goed. Bij het aanklikken van sommige resultaten verscheen echter gewoon het op dat moment door de betreffende zender uitgezonden nieuws, in plaats van het gevonden fragment uit het archief. Het aantal gevonden video's voor deze vraag was wel vele malen kleiner dan wat met een tekst-nieuwszoekmachine wordt gevonden.
Truveo beweert een slimmere methode te hebben dan de concurrenten, om bij het crawlen van websites videomateriaal op te sporen. Het moet het verder vooral hebben van metadata die het afleidt uit de context van webpagina's en uit standaard metadata-velden uit RSS-feeds die video aanbieden. Een advanced search scherm biedt meer mogelijkheden dan de meeste andere hier genoemde systemen, zowel voor de manier waarop zoektermen gecombineerd moeten worden, als voor mogelijke beperkingen op formele kenmerken van te vinden video's.
Tenslotte een nogal afwijkende dienst. Wat Flickr is voor foto's, is YouTube voor video. Iedereen kan zijn eigen filmpjes plaatsen en door “tagging” van metadata voorzien. Echte "Web 2.0" social bookmarking dus, en volgens het grafiekje met gebruikscijfers de snelste groeier van dit moment, ondanks nogal beperkte zoekmogelijkheden.
Een voor sommige gebruikers belangrijke vraag (die niet systematisch is onderzocht) is of de video's ook in een voor mobiele media als iPod's leesbare versie gedownload kunnen worden. Bij Google kan dat in elk geval (nog) niet, bij Blinkx wel.
[terug]
Nieuw nieuws en oud nieuws
Vooral in de VS zijn er verschillende diensten die al of niet betaald nieuws aanbieden. Betaalde diensten bieden vaak ook automatische attendering die vrijwel real-time waarschuwt zodra jouw zoektermen ergens in een tv-uitzending worden uitgesproken. De hier beschreven diensten beperken zich vrijwel steeds tot Amerikaanse nieuwsdiensten. Behalve de gegevens in bijgaande tabel, hier ook korte beschrijvingen van een paar van die diensten:
- TVeyes. Betrekt zijn gegevens van onder meer Foxnews, CNN, MSNBC, CBS, Reuters en BBC. Het vermoeden bestaat dat het materiaal slechts beschikbaar blijft zolang het op die oorspronkelijke sites toegankelijk is. Doordat het gebruik maakt van spraakherkenning, kan het meteen doorlinken naar de scènes waar je zoekwoorden voorkomen, maar de tekst zelf krijg je niet te zien. Voor die transcripts (wel vaak gebaseerd op ondertiteling) en extra zenders, zoals de Engelstalige Al Jazeera, moet je een betaald abonnement nemen. Dat biedt je dan ook meteen de mogelijkheid van attendering. Voor Yahoo verzorgt TVeyes ook het full-text zoeken in Bloomberg Business TV.
- PBS videosearch. Gebruikt de Virage softwaremodule van Autonomy voor spraakherkenning. Het biedt allerlei programma's van de Amerikaanse publieke omroep full-text doorzoekbaar aan, o.a. PBS Newshour, Washington Week en allerlei educatieve, populair-wetenschappelijke en natuurprogramma's. Helaas moet je in elke deelcollectie afzonderlijk zoeken.
- Feedroom. Verzorgt video-zoeken voor verschillende klanten. Onder andere national.feedroom.com/network/ met nieuws van allerlei lokale zenders in de VS en reuters.feedroom.com. Zoals de naam al aangeeft kun je resultaten ook als RSS-feeds krijgen. Bij het zoeken (alleen op metadata) lijkt alleen de OR-operator tussen zoektermen te worden toegepast. Helaas moet je in het aanbod van elke zender afzonderlijk zoeken.
Behalve de hier of in de tabel genoemde nieuwsdiensten, zijn er ook gespecialiseerde video-archieven die zich richten op historisch belangrijke gebeurtenissen. Oud nieuws dus. Veel daarvan zijn gratis toegankelijk en meestal alleen op metadata doorzoekbaar. Een paar (Engelstalige) voorbeelden:
Podcasts
Podcasting wordt ook al steeds vaker gebruikt om tv-zendertje te spelen. Ongebruikelijke series die niet op reguliere (Amerikaanse) tv-kanalen verschijnen, zoals het ook al in Nederland bekend geworden Rocketboom, bereiken zo via (media-)RSS een eigen publiek. Gespecialiseerde zoekmachines voor podcasts kunnen dus ook worden gebruikt om naar dergelijk materiaal te zoeken. Twee webloggers noemden de volgende vijf als hun favorieten:
- PodScope. Draait voor spraakherkenning op de software van het eerder genoemde TVeyes. In de praktijk blijk je toch nog voornamelijk audiomateriaal te vinden.
- Podzinger. Biedt op dit moment toegang tot ruim 20.000 podcasts. Werd vorige maand al in dit blad genoemd (blz. 11). Ook hier vind je nog bijna alleen audio.
- Blinkx.com. Het zoekscherm lijkt de mogelijkheid te bieden in plaats van regulier tv/videomateriaal specifiek naar podcasts te zoeken. In de praktijk bleek dit dezelfde zoekresultaten op te leveren als de gewone Blinkx.tv. Hier dus wel veel videomateriaal, maar niet specifiek alleen podcasts.
- Podcasts.yahoo.com. Resultaten bestaan ook grotendeels uit audiomateriaal. Bij elke gevonden podcast ook vermelding van aantal abonnees. Voor downloaden van gevonden materiaal heb je een (gratis) Yahoo-account nodig.
- Feedster, vooral bekend als blog-zoekmachine, kan op podcasts.feedster.com ook specifiek naar podcasts zoeken. Je moet daarbij meteen al kiezen of je alleen "shows" of alleen "episodes" wilt. In bijgaande tabel met zoekresultaten zijn de aantallen voor die twee opgeteld. Aan de resultaten kun je niet zien wat audio en wat video is. De resultatenlijst linkt vaak niet direct naar het materiaal zelf, maar naar webpagina's met verdere links naar individuele afleveringen.
Behalve deze zoekmachines zijn er ook een paar veelal systematisch ingedeelde directories (webgidsen) specifiek voor podcasts, zoals Podcast Alley, Podcast Net, Podcasting Station, Podnova en Indiepodder.org.
Verder kun je bij iTunes, de online winkel van Apple waar je materiaal voor je iPod kunt aanschaffen, ook gratis podcasts vinden. Dat gaat overigens niet met je gewone browser. Je moet daarvoor een speciale client installeren (35MB download) die een nogal weerbarstig zoeksysteem biedt. Ook daar bleek het niet eenvoudig specifiek videomateriaal te vinden.
En verder nog
Het beoordelen van de relevantie van gevonden video- (of audio-)materiaal is vaak veel omslachtiger dan bij gewone webpagina's of stilstaande plaatjes. Als van video- of audiomateriaal geen tekst-transcript beschikbaar is, waarvan een snelle visuele scan al een eerste indruk kan geven, kun je meestal pas een relevantieoordeel geven na hele stukken bekeken of beluisterd te hebben, waarbij je ze eigenlijk niet versneld kunt afdraaien. Goede relevantieordening is voor videozoekmachines dus bijna van nog meer belang dan voor gewone zoeksystemen. Op welke elementen videozoekmachines hun ranking baseren en of die ranking ook aansluit bij het oordeel van de videozoekers is hier niet verder onderzocht. Ook elders werden daarover nog geen gegevens gevonden..
Voor dit onderzoekje is veel gebruik gemaakt van Amerikaanse webnieuwsbronnen. Als gevolg daarvan ligt de nadruk nogal op Engelstalige diensten. Voor het Nederlandse taalgebied ken ik ook geen echt op inhoud doorzoekbare openbare videocollecties. Bij "Uitzending gemist" van de Nederlandse publieke omroep (portal.omroep.nl) heb je bijvoorbeeld echt de programmagegevens nodig om een uitzending terug te kunnen vinden.
Voor wie geen ervaring heeft met materiaal dat als zogenaamde "streams" op je scherm verschijnt, is het wellicht goed nog te vermelden dat die niet zomaar vanuit je browser als file op je eigen pc zijn op te slaan. Om zo'n geleidelijk binnenkomende "stream" lokaal te kunnen bewaren, is afzonderlijke software nodig. IP-auteur Jeroen Bosman adviseerde me daarvoor Streamdown (voor video) of TotalRecorder (voor audio) te gebruiken.
Geraadpleegde blogs bevatten ook regelmatig informatie over betaalde diensten die gespecialiseerd zijn in films. Behalve iTunes van Apple, zouden die echter allemaal hun dienstverlening tot de VS beperken. Hier dus al dezelfde beperkingen als met de regiocodes op dvd's? Deze diensten zijn verder niet onderzocht, maar voor belangstellenden wel een paar namen: Vongo, CinemaNow en Movielink.
Behalve de hier beschreven soorten "officiële" zoekdiensten, kun je op internet ook aan videomateriaal komen via zogenaamde "bittorrents", een techniek die op het peer-to-peer principe gebaseerd is. Dit is vooral populair voor het onderling uitwisselen van copyrighted filmmateriaal. Behandeling hiervan valt ook te ver buiten het kader van dit artikel.
|
|