In het kader van het project EDITOR werkt het CHI aan hulpmiddelen voor annotatie in een wetenschappelijke editie. We hebben daarvoor een studie gemaakt van bestaande hulpmiddelen voor annotatie. Er bestaan verschillende hulpmiddelen (Annotea, Gibeo) voor annotatie van webpagina’s. Annotea is open source software van het W3C, Gibeo is een kant-en-klare dienst waarvoor je je kunt registereren. Beiden veronderstellen echter dat het geannoteerde object een webpagina is, of een onderdeel daarvan.

Voor het CHI zijn de HTML-pagina’s van een editie een uitvoerprodukt. Het hart van de editie is een XML-bestand, waaruit de HTML-pagina’s statisch of dynamisch worden afgeleid. Onze editie van het Geraardsbergse handschrift bijvoorbeeld bestaat uit honderden HTML-pagina’s, allemaal afgeleid uit een enkel XML bestand: gbhstext.xml. Dat XML bestand is de eenheid voor annotatie.

Voorbeelden van hulpmiddelen voor wetenschappelijke annotatie hebben we aangetroffen in de taalkunde en in de geneeskunde. Taalkundigen annoteren audio- en video-signalen van taaluitingen. Geneeskundigen annoteren, bijvoorbeeld, hersenscans. Volgens mij zijn de belangrijkste voorbeelden:

NITE XML Toolkit (NXT)

De homepage van het (afgesloten) project is http://www.ltg.ed.ac.uk/NITE/. Er is een project-pagina bij sourceforge (http://sourceforge.net/projects/nite/).

Een paper waarin e.e.a. wordt beschreven: Carletta, J., Kilgour, J., O’Donnell, T., Evert, S., and Voormann, H. (2003). ‘The NITE Object Model Library for Handling Structured Linguistic Annotation on Multimodal Data Sets’. Proceedings of the EACL Workshop on Language Technology and the Semantic Web (3rd Workshop on NLP and XML, NLPXML-2003). Op: http://homepages.inf.ed.ac.uk/jeanc/nlpxml2003.final.pdf.

Een sterk punt aan het NITE gegevensmodel vind ik de mogelijkheid van meerdere lagen van annotaties. Het gedetailleerd uitgewerkte gegevensmodel bevat onder andere faciliteiten om te verwijzen naar de buitenwereld, en mogelijkheden voor een ontologie van complexe typen gegevens.

Annotation Graph Toolkit (AGTK)

De homepage van het project is http://agtk.sourceforge.net/.

Een paper waarin het gegevensmodel en de mogelijkheden worden besproken is Steven Bird, Mark Liberman, ‘Annotation graphs as a framework for multidimensional linguistic data analysis’. Towards Standards and Tools for Discourse Tagging, Proceedings of the Workshop. Op http://xxx.lanl.gov/abs/cs.CL/9907003.

Dit is een project waaraan door redelijk wat mensen wordt gewerkt, die kennelijk gecommiteerd zijn om er een succes van te maken. Een beperking is, vind ik, dat er geen afzonderlijke definitie van annotatietypen bestaat.

Human Brain Project: Concept-based annotations

Dit is een project dat niet meer echt actief lijkt. Desondanks is het concept erg mooi. Het is ontwikkeld in het kader van het Human Brain Project. Het idee is dat wetenschappelijk onderzoekers annotaties moeten kunnen maken bij hersenscans. Deze annotaties moeten gestructureerd kunnen worden via concepten met daarbij behorende eigenschappen. Wetenschappers kunnen gebruikmaken van bestaande conceptuele hiërarchieën of hun eigen concepten.

Het concept is beschreven in M. Gertz, K. Sattler. ‘Integrating Scientific Data through External, Concept-Based Annotations’. In: S. Bressan, A.B. Chaudhri, M.L. Lee, J.X. Yu, Z. Lacroix (Eds.): Efficiency and Effectiveness of XML Tools and Techniques and Data Integration over the Web, VLDB 2002 Workshop EEXTT and CAiSE 2002 Workshop DIWeb, Revised Papers, LNCS 2590, pp. 220-240. Op: http://sundb1.prakinf.tu-ilmenau.de/~sattler/papers/diweb02.pdf.

Aan het concept hiervan spreekt me onder andere aan het weloverwogen en uitgedachte datamodel. Dankzij de wiskundige formulering van het datamodel is het ook mogelijk een elegante querytaal te formuleren.

Geplaatst in annotation, project, weblog digital humanities

Reageer