Het archiveren van websites

Archipol bewaart de digitale geschiedenis

Hans Kuné  a.j.kune@bureau.rug.nl 
Kristien Piersma  k.i.piersma@rc.rug.nl 

‘Het is onmogelijk’, zo sprak ooit eens een oude Griekse wijsgeer, ‘om twee maal in dezelfde rivier te baden. Zoals de wereld het ene moment is, zo is die het volgende moment al niet meer’.

Gerrit Voerman (voorgrond) en André Keyzer (achtergrond)

Sommige mensen halen hun schouders op over deze wijsheid. Het zal wel kloppen, maar wat dan nog? Andere mensen kunnen er niet tegen, roepen dat alles altijd gewoon hetzelfde blijft en dat er niets verandert.
En dan heb je ook mensen zoals Gerrit Voerman van het Documentatiecentrum Nederlandse Politieke Partijen en André Keyzer van de Universiteitsbibliotheek. Die roepen: ‘je moet vastleggen wat er allemaal gebeurt, voordat het verdwenen is. Zodat we ons later kunnen herinneren hoe het was. Zodat we iets als een geheugen hebben’. Een archief.

Hoe is Gerrit Voerman op de gedachte gekomen om het vergankelijkste van het vergankelijke, websites van politieke partijen, te gaan archiveren?

Voerman: Toen ik de eerste websites van politieke partijen zag, dacht ik meteen: ‘dat gaat in de toekomst een rol spelen’.
De eerste websites stammen uit 1994, Groen Links was de eerste partij die er één maakte. Het CDA werkte oorspronkelijk met Viditel en de PvdA had een Bulletin Board.

Dat is natuurlijk allemaal materiaal dat voor de politieke geschiedenis van ons land van belang is, net zoals brochures dat zijn, of partijbladen en pamfletten. De archivering van dat materiaal hoort bij een instituut als het Documentatiecentrum Nederlandse Politieke Partijen, vond ik althans.
Websites zijn alleen nog veel vergankelijker dan papier. Als een website veranderd wordt, is de voorgaande versie weg. Dus heb ik vanaf het begin geprobeerd dat vast te leggen en te bewaren.

Ik weet nog wel dat ik er mee begonnen ben om die websites uit te printen. Dan kun je ze net als brochures netjes in ordners stoppen, dat idee. Maar ja, dat werd niets. Er was altijd wel iets mis. Dan kreeg je weer alleen het frame, dan vielen de plaatjes weer weg, schei uit. Dus toen ben ik op een bepaald moment maar eens op André afgestapt om hem te vragen of er iets op te verzinnen was.

Archiveringsproject

Die vraag ligt aan de wieg van het Archipol-project, het archiveringsproject van partijsites. Want André Keyzer was meteen gewonnen voor de onderneming, die de meeste andere mensen voor onmogelijk verklaard zouden hebben.

Keyzer: Ik vond het een briljant idee. Alles wordt gearchiveerd, maar internet niet. Althans niet voorzover ik weet. Ik zag tegelijk een analogie met de radio en TV in hun beginstadia. Al dat materiaal is ook verloren gegaan. Dus ik dacht: ‘ja, inderdaad, dit is domweg belangrijk, we moeten dit proberen’.

Voerman: Ik heb contact gezocht met de webmasters van politieke partijen om te vragen of ze hun eerste sites nog hadden, bijvoorbeeld de eerste site van Groen Links. Dat was volgens mij de allereerste site van een politieke partij in Nederland. Maar nee hoor, die hebben ze dan gewoon niet meer. Dat is overigens typerend voor politieke partijen hoor. Archiefbeheer is altijd een ondergeschoven kind, alle aandacht gaat uit naar de actuele situatie. Waarom zou je iets bewaren? Bovendien kun je je afvragen wat je moet bewaren. Wanneer is iets nieuw? Wanneer is een verandering zo belangrijk dat je kunt zeggen: ‘dit is nu echt nieuw en wat oud is moeten we opslaan’?

Keyzer: En wat weg is verdwijnt ook uit je geheugen. We hebben nu de tweede versie van de RUG-site. Binnenkort de derde. Maar wie weet nog hoe de eerste eruitzag? Ik zou het niet meer weten. Je bent het meteen kwijt.

Voerman: In 1997 waren er verkiezingen in Engeland en in 1998 in Nederland. Die twee verkiezingen heb ik met elkaar vergeleken en toen zag ik dat in Engeland het internet al een veel belangrijkere rol speelde dan hier. Dat was voor mij een bevestiging van mijn idee dat we echt moesten proberen de ontwikkeling van de websites systematisch bij te gaan houden. Het belang van internet voor de politiek zal inderdaad groter en groter worden.

We ontdekten toen, dat er programma’s waren waarmee delen van internet gearchiveerd konden worden. Dat zijn programma’s waar zoekmachines bijvoorbeeld ook gebruik van maken.
Alleen de robots die daar gebruikt worden, werken nogal breed: ze volgen alle links van een site, zowel de interne als de externe. Dat betekent dat je een snapshot van het internet als zodanig krijgt. Tja, dat is een soort mer à boire, dan.

Wij waren eropuit om een kleine groep van sites te archiveren, maar dan wel volledig. Want dat was ons idee wel: we proberen alles wat er op de sites van politieke partijen gebeurt bij te houden. Dat moet ook je doelstelling zijn, vind ik. Zo heb ik bijvoorbeeld nog een print van een brief van Janmaat.
Je herinnert je misschien nog wel dat in 1998 het VVD-kamerlid Van Baalen – overigens ten onrechte - beschuldigd werd van extreem rechtse sympathieën. Janmaat heeft het toen voor hem opgenomen, in een brief die op de website van de VVD terecht kwam. Zodra ze dat merkten bij de VVD, hebben ze die brief eraf gegooid, uiteraard. Maar het is natuurlijk wel een stukje Nederlandse politieke geschiedenis, zoiets, dus moet je dat hebben.

Nachtmerrie

>Zelfs het tomatenwerpspel op de site van de SP kunnen we downloaden<

Keyzer: We hebben alle programmatuur bekeken die door zoekmachines gebruikt wordt. Maar met geen van die programma’s bleek het mogelijk te zijn volledige downloads van sites te maken. Als je een site met twee van die programma’s opsloeg, kreeg je twee verschillende resultaten. En dat is natuurlijk een nachtmerrie, zoiets, voor een archivaris. Denk je dat je een site hebt gearchiveerd, zit gewoon de hele afdeling Zaandam er niet bij. Dus toen hebben we maar besloten om zelf te gaan programmeren.

Een besluit dat een kolossale hoeveelheid werk met zich meebracht. Want een programma schrijven dat netjes alle links van een site volgt, daar een lijst van maakt, en dat de pagina’s opslaat, is tot daaraan toe. Maar hoe test je, of dat programma wel volledig is? Door de betreffende sites handmatig na te lopen. En door heel erg alert te zijn op onverwachte uitkomsten.

Op een bepaald moment werden sommige sites plotseling heel erg klein. Bleek dat de webmasters een nieuwe technologie toegepast hadden: de links op de site werden ingebouwd in flash of javascript, waar onze programmatuur op mis loopt.

Voerman: Ja, dat is nogal een probleem. Vooral de SGP en de VVD doen dat. We hebben ze gezegd, dat ze dat niet moeten doen, omdat ze dan ook voor zoekmachines onvindbaar zijn. Maar ja, of dat voldoende reden voor ze is, om op te houden met die links, dat weten we nog niet.

En wat misschien nog wel erger is: je weet op internet helemaal nooit, waar je nog tegenaan loopt. Wie kan er zeggen wat er volgend jaar voor nieuwe technologie is uitgevonden? Als archivaris loop je natuurlijk altijd achter de werkelijkheid aan, maar ik moet zeggen, als je internet probeert te archiveren, wordt dat wel heel erg. Dus ja: we hanteren als doelstelling om alle veranderingen bij te houden, maar dat is wel een beetje een onbereikbaar ideaal, vrees ik.

Keyzer: Maar . . . op het ogenblik gaat het wel goed hoor. Ik denk dat we momenteel bijna honderd procent binnenhalen. Zelfs het tomatenwerpspel op de site van de SP kunnen we downloaden.

Analyse

En vallen uit al die kolossale hoeveelheden gegevens nu al conclusies te trekken?

Voerman: Eén van de dingen die ik zie, is dat er een bepaalde relatie is tussen de ontwikkeling van de websites en de inhoud van de partijbladen. Die laatste worden wat glossier, zou je kunnen zeggen, omdat veel van de wat saaiere informatie naar de website gaat. Bijvoorbeeld de agenda met partijbijeenkomsten: ‘zie onze website’ lees je dan.
En hetzelfde geldt voor partijdocumenten. Die hoeven niet meer in het blad te worden afgedrukt, die kun je ook via internet toegankelijk maken. Het partijblad komt dan meer in het teken van de discussie te staan. Het wordt leesbaarder. De site is er voor de verdiepingsinformatie en de interactiviteit. ‘Wat is uw mening.’

Keyzer: Het CDA heeft van ideeën van sitebezoekers gebruik gemaakt bij het opstellen van het verkiezingsprogramma.

Voerman: Eigenlijk willen we ook die interactiviteit in beeld krijgen. We gaan webmasters vragen of we logfiles kunnen krijgen, zodat we weten waar bezoekers binnenkomen, wat hun gedrag op de site is en wat wel gelezen wordt en wat niet. Dat zou erg interessant zijn, als we die cijfers zouden hebben. Die zouden we goed kunnen gebruiken in het kader van ons onderzoek naar de campagne van 2002. Dat doen we samen met de KUB.

Dat zijn kolossale hoeveelheden data. Hoe spring je daar nu mee om, als onderzoeker?

Keyzer: Wij downloaden de sites regelmatig en het is met onze programmatuur mogelijk om vervolgens naar de verschillen tussen de opeenvolgende versies te kijken. Welke pagina’s zijn er inhoudelijk veranderd. Dat kunnen we laten zien en we leveren ook getallen over de veranderingen: het percentage verandering, bijvoorbeeld.
En je kunt snel opzoeken waar die veranderingen uit bestaan. Soms zijn die onbelangrijk: is er een spelfout verbeterd, of iets dergelijks. Maar soms zijn er wel inhoudelijk belangwekkende verschillen. Of verschillen in de vormgeving. Is er video en geluid bijgekomen.

Voerman: Die kwantitatieve gegevens zeggen iets over het belang dat de partij aan de website toekent. Als er weinig verandert, wordt het medium niet echt belangrijk gevonden. Op dit ogenblik bestuderen we dit in een project dat we samen met de KUB uitvoeren. Hoe belangrijk is de site voor de partij in kwestie.

Keyzer: Verder is ook een tekstinhoudelijke analyse mogelijk. We tellen bijvoorbeeld welke woorden het meest voorkomen en kijken wat de verschillen tussen de partijen zijn. We kunnen een lijstje maken met de top 100 van meest gebruikte woorden op een site. Dan zie je bijvoorbeeld dat ‘rentmeesterschap’ bij het CDA nogal wat vaker gebruikt wordt dan bij de PvdA. En je kunt kijken hoe vaak er over abortus geschreven wordt.

Voerman: Ja dat is ongelooflijk interessant. Goh, ik wist nog niet eens dat we al zover waren. Dat heb je, ben je even met vakantie en dan hup. Maar dat biedt geweldige mogelijkheden om greep te krijgen op de politieke retoriek in de verschillende partijen.

Ontsluiting

En zijn deze data nu voor iedere onderzoeker toegankelijk?

Voerman: We bestuderen op het ogenblik wat de gevolgen zijn van het auteursrecht voor de digitale archieven die we nu aan het maken zijn. Dat het auteursrecht van belang is, is duidelijk. Hoe je het ook wendt of keert, we hebben teksten, foto’s, video’s en allerlei ander soort materiaal, waar rechten op kunnen bestaan en mag je dat dan zomaar publiceren?

Er zijn nu richtlijnen gemaakt door het Europees Parlement, waaruit je zou kunnen opmaken dat het kopiëren van dit soort materiaal voor wetenschappelijke doeleinden is toegestaan. Het moet nog in de praktijk blijken wat dat precies betekent.
Ik denk dat het zo zal zijn, dat je het materiaal met een wachtwoord moet afschermen en dat je onderzoekers toegang geeft op aanvraag, zoals dat ook met andere archieven het geval is.

En dan heb je nog een ander aspect. Hoe lang kun je alles wat we nu opslaan blijven lezen? In de toekomst zal de techniek veranderen. Er komen vast nieuwe browsers, nieuwe hardware, nieuwe netwerken.
Het is nu al zo, dat websites uit 1990 al nauwelijks meer met de browsers van nu te lezen zijn. Ze zien er in ieder geval anders uit dan toen. Maar goed, daar breken we ons voorlopig het hoofd maar niet over. Dit soort problemen kunnen wij toch ook niet oplossen. We zien het wel. Voorlopig slaan we gewoon alles op, wat we met onze robots vinden kunnen.

Links:

  • Het Archipol-project heeft een eigen website, waarvandaan m.i.v. januari 2002 ook toegang te verkrijgen is tot het archief van websites van Nederlandse politieke partijen: www.archipol.nl 
  • Documentatiecentrum Nederlandse Politieke Partijen: www.dnpp.nl 
  • The Internet Archive, een Amerikaans project dat onder meer de presidentsverkiezingen van 2000 archiveerde: www.archive.org
  • Informatie over het Archipol-project: info@archipol.nl 

Begin pagina


index Pictogram 5