Wie wil zoeken in documenten in oude taalvarianten (bijvoorbeeld Nederlands uit de Middeleeuwen of de Gouden eeuw), loopt altijd aan tegen de afwijkende en onregelmatige spellingen. In een interessant artikel beschrijven Marijn Koolen e.a. hoe ze herschrijfregels hebben toegepast op zeventiende-eeuws Nederlands en daarmee het resultaat van zoekacties substantieel konden verbeteren. Die herschrijfregels zelf konden ze automatisch afleiden uit twee corpora van historisch en modern materiaal. De benadering zou dus toegepast kunnen worden zonder diepgaande kennis van de betrokken taal, en misschien ook voor andere talen toepasbaar zijn.

Marijn Koolen, Frans Adriaans, Jaap Kamps, and Maarten de Rijke. A cross-language approach to historic document retrieval. In Mounia Lalmas et al., editor, Advances in Information Retrieval: 28th European Conference on Information Retrieval (ECIR 2006), volume 3936 of Lecture Notes in Computer Science, pages 407-419. Springer Verlag, Heidelberg, 2006.

Geplaatst in humanities computing, weblog digital humanities

Comments are closed.