Rijksuniversiteit Groningen
Rugbalk
Reacties op DEZE pagina Abonneren op email bij wijziging 23 Jan 2003

 

Icy Tea

Nuttig!

Jan Hemel

Even een paar daagjes vrij gehad van mijn RC-werk. Meteen achter de computer dus om energie op te doen en oude ideeën op te frissen. Lang geleden een artikel gelezen over het simuleren van tekst op basis van bestaande tekst: Als je van alle letters turft hoe vaak ze in een bestaande tekst voorkomen, krijg je een verdeling die min of meer karakteristiek is voor de gebruikte taal. Door een soort gewogen loting is het mogelijk een tekst te genereren waarin de letters in dezelfde verhoudingen voorkomen als in de oorspronkelijke tekst, zij het dat hiermee de overeenkomst ophoudt: het resultaat zal onzin zijn.

Als je na elke gegenereerde letter turft welke letters er normaal volgen op deze letter, en dan hierbinnen loot, resulteert iets waarin alle 2-lettercombinaties in de juiste verhoudingen voorkomen. Dit oogt al minder als letters en meer als tekst. Als we dit proces verder doorvoeren ontstaat er bij lange tekenreeksen (langer dan 8) een soort plagiaat. Daar alleen reeksen worden gegenereerd waarvan alle tekens ook achtereen in het oorspronkelijke document stonden, ontstaan bijna uitsluitend correcte woorden, en blijken zelfs hele lappen tekst rechtstreeks overgeschreven uit de brontekst.
Maar als de geturfde lettercombinaties 3-5 tekens lang zijn, ontstaat er iets dat lijkt op normale tekst maar het niet is. Vele lettergrepen komen zo uit de brontaal, sommige (korte) woorden ook, maar de aaneenschakeling is wonderlijk en de strekking van het oorspronkelijke betoog wordt, laten we zeggen, minder duidelijk. Een buitenlander die geen Nederlands kent, maar wel Nederlandse teksten ter vergelijking heeft, zou er uren op kunnen studeren zonder argwaan te krijgen, want in een oogopslag "herken" je de taal, en in duidelijke gevallen (Statenbijbel) zelfs de auteur.
Dit soort teksten worden door typografen gebruikt om te beoordelen hoe een lettertype eruit ziet: Voor een juiste beoordeling moet de tekst er natuurlijk uitzien, maar we willen niet afgeleid worden door de inhoud. De veelgebruikte tekst die begint met Lorum ipsum dolor sit amet heeft daardoor al veel latinisten overbodige kopzorgen bezorgd.
Wie tekstverwerking zegt, zegt tegenwoordig Word, dus zo’n tekstsimulator programmeer je in Word. Met behulp van tips uit de literatuur bleek het programmeren niet zo moeilijk. Lastiger is het om ook alinealengte, zinslengte en ritme (afwisseling van woordlengtes) overeenkomstig met de brontekst te krijgen. Wat is de natuurlijke alinea-indeling van wartaal? Hoe zorg je ervoor dat een gedicht er ook als een gedicht uitziet? En dan praten wen nog niet eens over rijm!

Maar de perspectieven!
Als je tekst kunt simuleren met herkenbare stijlkenmerken, dan kan het vast ook met muziek! Lees een stuk van Bach in en genereer de stukken die hij ook had kunnen schrijven!
Maken en afspelen van een Midi-muziekbestand blijken kunstjes die Word in een dag te leren zijn. Een bestaand Midi-bestand lezen is een beetje tricky, dus eerst een tussenstap: muziek genereren uit tekst!
Elk woord een maat; het aantal letters per woord bepaalt het ritme, en de letters zelf de tonen.
Maar welke tonen? Na algoritmen die Schönberg met stomheid zouden hebben geslagen en andere die voerden tot music die wel heel minimal was, blijkt het toch mogelijk de bijbel zo te laten klinken dat hier en daar een melodietje opbloeit. Vooral als je het vaker hoort. Toegegeven, na enkele verzen gaat het vervelen, maar het begin is er.
Toen was de vrije tijd op...
Nu nog de begeleiding!
En muziek genereren op basis van bestaande muziek!
En de software zelf algoritmen laten genereren voor het simuleren van muziek, waar je dan zelf als een sturende evolutionaire kracht in selecteert tot het ontroerend wordt!
Uitgekeken op R&B, House en Dance? Genereer nieuwe muziek met zelfgesimuleerde woorden!

Nee, we gaan dit seizoen weer een hoop nuttigs doen!

Begin pagina


index Pictogram 5