Jan Hemel
Even een paar daagjes vrij gehad van mijn RC-werk. Meteen achter de
computer dus om energie op te doen en oude ideeën op te frissen. Lang geleden
een artikel gelezen over het simuleren van tekst op basis van bestaande tekst:
Als je van alle letters turft hoe vaak ze in een bestaande tekst voorkomen,
krijg je een verdeling die min of meer karakteristiek is voor de gebruikte
taal. Door een soort gewogen loting is het mogelijk een tekst te genereren
waarin de letters in dezelfde verhoudingen voorkomen als in de oorspronkelijke
tekst, zij het dat hiermee de overeenkomst ophoudt: het resultaat zal onzin
zijn.
Als je na elke gegenereerde letter turft welke letters er normaal volgen op
deze letter, en dan hierbinnen loot, resulteert iets waarin alle
2-lettercombinaties in de juiste verhoudingen voorkomen. Dit oogt al minder
als letters en meer als tekst. Als we dit proces verder doorvoeren ontstaat er
bij lange tekenreeksen (langer dan 8) een soort plagiaat. Daar alleen reeksen
worden gegenereerd waarvan alle tekens ook achtereen in het oorspronkelijke
document stonden, ontstaan bijna uitsluitend correcte woorden, en blijken
zelfs hele lappen tekst rechtstreeks overgeschreven uit de brontekst.
Maar als de geturfde lettercombinaties 3-5 tekens lang zijn, ontstaat er
iets dat lijkt op normale tekst maar het niet is. Vele lettergrepen
komen zo uit de brontaal, sommige (korte) woorden ook, maar de
aaneenschakeling is wonderlijk en de strekking van het oorspronkelijke betoog
wordt, laten we zeggen, minder duidelijk. Een buitenlander die geen Nederlands
kent, maar wel Nederlandse teksten ter vergelijking heeft, zou er uren op
kunnen studeren zonder argwaan te krijgen, want in een oogopslag
"herken" je de taal, en in duidelijke gevallen (Statenbijbel) zelfs
de auteur.
Dit soort teksten worden door typografen gebruikt om te beoordelen hoe een
lettertype eruit ziet: Voor een juiste beoordeling moet de tekst er natuurlijk
uitzien, maar we willen niet afgeleid worden door de inhoud. De veelgebruikte
tekst die begint met Lorum ipsum dolor sit amet heeft daardoor
al veel latinisten overbodige kopzorgen bezorgd.
Wie tekstverwerking zegt, zegt tegenwoordig Word, dus zo’n tekstsimulator
programmeer je in Word. Met behulp van tips uit de literatuur bleek het
programmeren niet zo moeilijk. Lastiger is het om ook alinealengte, zinslengte
en ritme (afwisseling van woordlengtes) overeenkomstig met de brontekst te
krijgen. Wat is de natuurlijke alinea-indeling van wartaal? Hoe zorg je ervoor
dat een gedicht er ook als een gedicht uitziet? En dan praten wen nog niet
eens over rijm!
Maar de perspectieven!
Als je tekst kunt simuleren met herkenbare stijlkenmerken, dan kan het vast
ook met muziek! Lees een stuk van Bach in en genereer de stukken die hij ook
had kunnen schrijven!
Maken en afspelen van een Midi-muziekbestand blijken kunstjes die Word in
een dag te leren zijn. Een bestaand Midi-bestand lezen is een beetje tricky,
dus eerst een tussenstap: muziek genereren uit tekst!
Elk woord een maat; het aantal letters per woord bepaalt het ritme, en de
letters zelf de tonen.
Maar welke tonen? Na algoritmen die Schönberg met stomheid zouden
hebben geslagen en andere die voerden tot music die wel heel minimal
was, blijkt het toch mogelijk de bijbel zo te laten klinken dat hier en daar
een melodietje opbloeit. Vooral als je het vaker hoort. Toegegeven, na enkele
verzen gaat het vervelen, maar het begin is er.
Toen was de vrije tijd op...
Nu nog de begeleiding!
En muziek genereren op basis van bestaande muziek!
En de software zelf algoritmen laten genereren voor het simuleren van muziek,
waar je dan zelf als een sturende evolutionaire kracht in selecteert tot het
ontroerend wordt!
Uitgekeken op R&B, House en Dance? Genereer nieuwe muziek met
zelfgesimuleerde woorden!
Nee, we gaan dit seizoen weer een hoop nuttigs doen!