IBM Alphaworks (IBM’s site voor technologie in een experimentele fase) publiceert een hulpmiddel voor interactieve tekstclassificatie. Het hulpmidel voor classificatie wordt getrained door een paar vooraf, handmatig, gelabelde documenten. De classificatie heeft verder automatisch plaats, maar de gebruiker kan de de aangemaakte classificatie aanpassen, waar de software dan weer van leert. Deze benadering vermijdt de nadelen van volledig handmatige classificatie (duurt te lang) en volledig automatische classificatie (lage kwaliteit).
Als we steeds grotere hoeveelheden teksten nog enigszins zinvol willen kunnen ordenen hebben we dit soort technologie nodig. Het zou interessant zijn hiermee eens met eigen materiaal te spelen.

Geplaatst in software, weblog digital humanities

Een reactie op “Interactieve tekstclassificatie bij IBM Alphaworks”

  1. Wouter Kool says:

    Misschien wat interessante aanvullingen: er is voor het MacOS het tooltje DevonThink (http://www.devon-technologies.com)dat gebruikt maakt van de ingebouwde taaltechnologie van dat OS. Ik heb het een keer getest en werkte al verbluffend goed met een zeer kleine set documenten. Er is ook dergelijke software van Nederlandse makelij: Irion (http://www.irion.nl). Verder vond ik http://www.searchtools.com/info/classifiers-tools.html interessant.