Informatie Professional
terug

DE STANDAARD

11 (2007) nr. 1 (januari) blz. 28-31




RSS:

Really Simple Syndication?


Eric Sieverts

Deze zevende aflevering van De Standaard gaat over RSS, een handige manier van persoonlijke informatievoorziening waarover veel gepraat wordt, maar die nog verrassend weinig gebruikt blijkt te worden.

Dat acroniemen meer betekenissen kunnen hebben is meer regel dan uitzondering. Dat bij het acroniem voor één bepaalde techniek meer alternatieve woordcombinaties horen, is nogal ongewoon. Toch is dat bij RSS het geval. Volgens de ene verklaring staat het voor Rich Site Summary, volgens de andere voor Really Simple Syndication, terwijl ook wel eens RDF Site Summary wordt genoemd.
Hoewel uit al die omschrijvingen wel iets te halen is, wordt de tweede variant toch als meest gebruikelijke aanvaard. RSS is namelijk ontwikkeld om op eenvoudige manier syndicatie mogelijk te maken. Daarbij wordt syndicatie gedefinieerd als het (in dit geval gratis) beschikbaar stellen of verspreiden van informatie (in het Engels "content") aan bepaalde doelgroepen.
Vanuit technisch perspectief is RSS een eenvoudige toepassing van XML [1]. Op basis van een standaard DTD wordt te verspreiden informatie, meestal in samengevatte vorm, in een vaste structuur beschikbaar gesteld. Die structurering vormt dus een "verrijking" van de informatie. Vandaar de alternatieve omschrijving Rich Site Summary. Over de ook genoemde RDF variant later meer. RSS is een open standaard die platform-onafhankelijk is, of wat formeler geredeneerd een kleine familie van standaarden die onderling enige verschillen vertonen.


Werking

Sites waarop met enige regelmaat nieuwe informatie verschijnt, zoals weblogs en nieuwspagina's, stellen die informatie steeds vaker ook beschikbaar als zogenaamde RSS-feeds of channels. De beschikbaarheid van een feed is meestal te herkennen doordat een van de hiernaast afgebeelde icoontjes (met een link naar de feed) op de betreffende webpagina aanwezig is. Dankzij een standaard structurering van de informatie, kan een speciaal softwareprogramma, een reader of aggregator, die informatie gestructureerd en in verschillende vormen weergeven. Als overzichtelijk lijstje met alleen titels van berichten, als samenvattingen van de individuele berichten en ook met een aanklikbare link die het volledige bericht ergens op het web in een browser oproept.
Elke feed wordt geleverd in de vorm van een XML-document (zie voorbeeld in kader). Dat document begint met elementen die een beschrijving geven van de feed of het channel als geheel, gevolgd door de individuele berichten die elk ook weer uit een aantal elementen bestaan. Daarbij zijn in elk geval:

  • een titel, ten behoeve van een overzichtelijk titellijstje,
  • een beschrijving - van wisselende lengte - die wat uitgebreider informatie bevat,
  • een link naar het URL waar het volledige bericht staat,
  • de datum en tijd van publicatie en
  • een unieke identificatie van het bericht op basis waarvan de reader-software kan weten of het bericht al eerder was opgehaald.
Daarnaast is er een aantal formele gegevens waarvan de meeste niet verplicht hoeven voor te komen en waarin de verschillende RSS-versies ook verschillen.


<?xml version="1.0" encoding="iso-8859-1"?> <rss version="2.00"> <channel> <title>http://www.informatieprofessional.nl (nieuws)</title> <link>http://www.informatieprofessional.nl</link> <description>Het laatste nieuws van informatieprofessional.nl</description> <language>nl-nl</language> <managingEditor>infoprofred@cram.nl</managingEditor> <webMaster>infoprofred@cram.nl</webMaster> <generator>informatieprofessional.nl RSS FeedGenerator by Gilbert </generator> <docs>http://blogs.law.harvard.edu/tech/rss</docs> <copyright>Copyright 1999-2006 http://www.informatieprofessional.nl </copyright> <lastBuildDate>Tue, 28 Nov 2006 20:47:23 +0100</lastBuildDate> <item> <title><![CDATA[Pionier van de databank is overleden]]></title> <description><![CDATA[De bedenker van de databank, H. Donald Wilson, is op 82-jarige leeftijd gestorven. Donald Wilson, die op 12 november in zijn woonplaats Mitchellville (Maryland) is overleden, schreef in de jaren zestig het plan voor wat later LexisNexis zou worden. LexisNexis was een van de eerste gecomputeriseerdeinformatiesystemen. In 1969 raadde Wilson, die als advocaat en business consultant werkte, de Mead Corporation aan om een computerbedrijf over te nemen dat was gespecialiseerd in...]]></description> <pubDate>Tue, 28 Nov 2006 00:00:00 +0100</pubDate> <link>http://www.informatieprofessional.nl/?url=/nieuws/index.php?op= details&amp;id=2264</link> <author>infoprofred@cram.nl informatieprofessional.nl</author> <guid isPermaLink="true">http://www.informatieprofessional.nl/?url= /nieuws/index.php?op=details&amp;id=2264</guid> </item> <item> <title>.....</title> ..... </item> </channel> </rss>
Een feed die RSS 2.0 gebruikt
Als voorbeeld een stukje uit een recente nieuwsfeed van Informatie Professional


Feedreaders/aggregators

Feedreaders of aggregators zijn programma's die de inhoud van feeds gestructureerd kunnen weergeven. Door daarin de URL's van interessante RSS-feeds in te brengen, neem je een soort "abonnement" op die feed. Dat houdt in dat de reader met ingestelde tijdintervallen (van elke minuut tot eens per week) de betreffende XML-documenten ophaalt, kijkt of daar nieuwe berichten in zitten en de inhoud daarvan opslaat, zodat die door de gebruiker bekeken kunnen worden. In ouderwetse termen van push- of pull-mechanisme, kun je dus zeggen dat het "geautomatiseerde pull" is: berichten moeten actief opgehaald worden, maar het computerprogramma doet dit automatisch.
Globaal zijn er drie soorten applicaties voor het beheren en lezen van RSS-feeds:

  1. Op de PC van de gebruiker geïnstalleerde speciale software. Bekende voorbeelden hiervan zijn de programma's Feedreader, Feeddemon en RSSReader.
  2. Gewone Web-browsers of mail-programma's waarin een specifieke RSS-functie geïntegreerd is. Bekende voorbeelden zijn de Firefox browser met zogenaamde "Live Bookmarks" en Thunderbird Mail waar behalve mail-accounts ook RSS-accounts aangemaakt kunnen worden.
  3. Webdiensten waar een persoonlijk account kan worden aangemaakt. Bekende voorbeelden van dergelijke online readers zijn Bloglines, NewsIsFree en Google Reader.
Binnen de reader kunnen de feeds waarop men geabonneerd is meestal worden ingedeeld in categorieën en subcategorieën. Vaak is er ook een zoekfunctie en kan men aanvullende selectiefilters definiëren. Wanneer in de samenvattingen links naar objecten als plaatjes of video's zijn opgenomen, worden die meestal meteen in de reader getoond of afgespeeld.




Schermbeeld van een lokaal op de PC geďnstalleerde reader: Feedreader


Schermbeeld van een online via het web gebruikte reader: Bloglines

Versies

RSS kent niet alleen verschillende omschrijvingen, er is ook een aantal verschillende versies in gebruik, die door verschillende organisaties zijn ontwikkeld en worden beheerd. Die versies zijn maar gedeeltelijk compatibel. Een echte standaard mag je RSS dus eigenlijk niet noemen.
De belangrijkste groep vormt de Userland-Harvard-familie. Versie 0.91 en opvolgende 0.9x versies werden ontwikkeld door Userland software, als vereenvoudiging van de oorspronkelijke 0.9 versie. Bij het "Law department" (!) van Harvard University werd dit verder ontwikkeld tot de huidige versie 2.0. Dankzij ondersteuning van Namespaces kan ook gebruik gemaakt worden van elders gedefinieerde XML-tags. Voor via RSS verspreide podcasts kunnen bijvoorbeeld iTunes-tags de lengte van de uitzending vermelden. RSS 2.0 wordt op dit moment het meest gebruikt.
Een tweede groep vormt de Netscape-RDF-familie. Ontstaan uit de oorspronkelijke 0.9 versie van Netscape, zijn deze gebaseerd op RDF [2]. Versie 1.0 is gespecificeerd door een aparte, niet aan W3.org gelieerde, RSS-DEV werkgroep en is compatibel met de uiteindelijke RDF 1.0 Recommendation. Op deze manier kunnen bijvoorbeeld Dublin Core metadata voor de karakterisering van feed-items worden gebruikt. Gezien de verdere eenvoud van RSS, wordt toepassing van een complexe techniek als RDF vrij algemeen beschouwd als een kanon om op een mug te schieten. Er zijn dan ook niet veel feeds die RSS 1.0 toepassen. De huidige versie dateert al weer van 2001.
Naast deze twee RSS-families is ook een alternatief voor RSS ontwikkeld, met de afwijkende naam "Atom". Ook dat is XML, maar het gebruikt weer een andere DTD. Hoewel twee jaar geleden nog werd verwacht dat Atom spoedig door "echte" RSS overvleugeld zou worden, blijkt dat niet het geval. Atom lijkt aan eenzelfde opmars bezig als RSS zelf. Zo worden bijvoorbeeld feeds van de populaire weblog-hosts Feedburner en Blogger standaard in Atom-formaat gegenereerd. Ook zonder RDF kan Atom gebruik maken van Namespaces en van bijvoorbeeld Dublin Core metadata.
De structuur van de DTD's van de verschillende versies verschilt in allerlei details en ook zijn er verschillen ten aanzien van de toepassing van Namespaces en RDF. Toch zijn er ook voldoende gemeenschappelijke kenmerken, zodat de meeste huidige readers alle drie hier genoemde families ondersteunen en de betreffende feeds op dezelfde manier kunnen weergeven. Bij standaard gebruik zal een gebruiker in de praktijk dus vrijwel niets merken van de verschillen tussen deze versies en standaarden.


Toepassingen

Oorspronkelijk komen RSS-feeds vooral voort uit de wereld van de weblogs. Servers waarop weblogs gehost worden, genereren dan ook allemaal feeds in enig RSS of Atom formaat. De intussen meer dan 50 miljoen verschillende weblogs vormen dus een rijke bron aan feeds. Daarnaast zijn het vooral allerlei sites die nieuwsberichten publiceren, waarop de berichten ook in RSS-formaat beschikbaar zijn. Ook podcasts (zowel audio als video) worden via RSS verspreid. Sommige bibliotheken verspreiden informatie over nieuwe aanwinsten ook via RSS. Een ander recent soort toepassing is die bij zoeksystemen van databases en zoekmachines. Zo kan men op basis van een eigen zoekvraag nieuw toegevoegde informatie in RSS-formaat ontvangen uit uiteenlopende systemen als Marktplaats.nl en Pubmed. Ook gespecialiseerde weblog- en RSS-zoekmachines zoals Technorati of Feedster bieden (uiteraard) deze mogelijkheid. Verder onder meer bij podcast-zoekmachines zoals Podscope en Podzinger en videozoek­machines zoals Google-video, YouTube en Searchvideo. Zo wordt het klassieke principe van SDI (Selective Dissemination of Information) met RSS in een nieuw jasje gestoken.
Ook indirect, voor de gebruiker niet als zodanig herkenbaar, kun je RSS-toepassingen tegenkomen. RSS wordt namelijk ook gebruikt om op websites nieuwsoverzichten te genereren op basis van berichten die met behulp van RSS aan andere sites en nieuwsdiensten worden ontleend. Dit is in feite een soort deep-linken, dat verkeer naar de oorspronkelijke sites genereert. In de meeste gevallen is dit dan ook juridisch toegestaan.


Verzamelen van feeds

Voor het verzamelen van feeds is de gebruiker afhankelijk van de aanwezigheid en herkenbaarheid van de eerder genoemde icoontjes met links naar de betreffende XML-files. Met copy/paste moet de gebruiker dan het URL van de gewenste feed naar zijn reader/aggregator kopiëren.
Ten behoeve van veel gebruikte online readers bevatten sommige webpagina's vaak ook hele rijtjes specifieke links die de feed-URL automatisch aan de betreffende readers toevoegen. Bij een browser als Firefox verschijnt ter attendering automatisch een RSS-icoontje in de statusbalk, zodra een pagina met RSS-mogelijkheden wordt geladen. Overigens kan de gebruiker er steeds vaker van uitgaan dat sites en pagina's met regelmatig ververst nieuws standaard ook RSS-feeds leveren. Daarnaast biedt de zoekmachine Exalead de mogelijkheid om de resultaten van een gewone zoekactie in te perken tot alleen die pagina's waarop een RSS-feed wordt aangeboden.
Voor pagina's die een dergelijke dienst (nog) niet leveren, bestaan ook zogenaamde scraping-programma's. Die proberen de inhoud van opgegeven webpagina's te analyseren en daarin te herkennen wat als titel en korte omschrijving gebruikt kan worden, zodat op basis daarvan een RSS-feed gegenereerd kan worden zodra er veranderingen in die pagina's optreden. Een voorbeeld daarvan is de webdienst Feed43. Afhankelijk van het uiteindelijke doel, wordt "scraping" van andermans sites door sommige site-eigenaars als diefstal van content beschouwd. Scraping kan echter ook gebruikt worden als een eenvoudige manier om feeds van eigen webpagina's beschikbaar te stellen.


Meer informatie:

Algemeen

Specificaties van huidige standaarden

Feedvalidators voor RSS enAtom

Vergelijking van de standaarden

Overzichten van RSS-readers

Zoekmachines die (ook) in RSS-feeds zoeken



Noten

[1] Voor XML zie De Standaard, Informatie Professional 2006 (6), p. 32-34
[2] Voor RDF zie De Standaard, Informatie Professional 2006 (10), p. 40-43

[terug]



© Informatie Professional (Otto Cramwinckel Uitgever, Amsterdam) en Eric Sieverts

Voor een abonnement op Informatie Professional:
bel: 020 - 627 6609

Zie ook IP Online