Amstelveen, 13 april 2004 -- In de Europese onderzoeklaboratoria van Xerox is software ontwikkeld die in staat is om elektronische documenten te ‘lezen’, te beslissen hoe het naar onderwerp moet worden ingedeeld en het dan te verzenden naar de e-mailadressen van de juiste mensen of naar een online document management systeem - alles geheel automatisch. De software is ontwikkeld en getest in het Xerox Research Centre Europe (XRCE) in Grenoble, Frankrijk.
De software, een zogenaamd ‘categoriserings-tool’, is bedoeld om bedrijven en organisaties te helpen hun verzameling elektronische documenten netjes opgeruimd en makkelijk toegankelijk te houden, en is beschikbaar om van Xerox in licentie te nemen.
Een boek op een verkeerde plank in een bibliotheek kan als verloren worden beschouwd. Zo is het ook met documenten die niet goed in categorieën zijn ondergebracht: het document zelf kan wel eens overgemaakt moeten worden. De nieuwe software kan tijd en geld helpen besparen en de productiviteit doen toenemen. Het zorgt ervoor dat documenten goed worden gerubriceerd voor toekomstige toegang en dat de gewenste informatie zo snel mogelijk in de juiste handen terechtkomt.
De categoriserings-tools die momenteel in de markt beschikbaar zijn behandelen elke categorie als los onderwerp en zijn ‘plat’ van structuur. Een voorbeeld. Voor de mens lijkt het vanzelfsprekend dat biochemie en biofysica aan elkaar verwante categorieën informatie zijn. Een plat categoriseringssysteem zal dat verband echter niet leggen. Maar het Xerox-systeem, gebaseerd op gepatenteerde technologieën, gebruikt een hiërarchisch model dat in staat is de afhankelijkheid tussen deze twee categorieën te begrijpen. Daarom kan dit systeem een beter gefundeerde beslissing nemen bij de classificatie van een document.
Tijdens een pilot-test van de software zijn gegevens verzameld waaruit blijkt dat de mensen de juiste documenten sneller en vaker konden terugvinden, doordat de software de onderlinge verhoudingen tussen documenten en categorieën begreep.
Het Zwitserse Instituut voor Bio-informatica, een wetenschappelijke non-profit organisatie voor onderzoek en technologie-ontwikkeling in de biologie, nam deel aan dit pilot-project. Zij stelde vast dat deze programmatuur ongelofelijk nauwkeurig documenten kon identificeren, met exact de juiste informatie die nodig was voor hun studies van de menselijke genen.
Technologische highlights
Drie geïntegreerde functies maken de categoriseringstechnologie van Xerox uniek:
- Het systeem is direct startklaar. Door gebruik van geavanceerde zelflerende technieken kan de software met slechts enkele voorbeelden snel zelf leren hoe documenten hiërarchisch geclassificeerd moeten worden in bestaande categorieën.
- De technologie is eenvoudig in gebruik en helpt mensen een slimme manier te vinden om ongeorganiseerde elektronische bestanden onder te verdelen in zuiver gelabelde document-verzamelingen.
- Het systeem kan zelf compleet nieuwe categorieën aanmaken. De categoriseringstechnologie ontdekt nieuwe of zich ontwikkelende onderwerpen en doet dynamische voorstellen voor nieuwe categorieën aan de gebruikers van het systeem.
De juiste route
Het categoriseringssysteem van Xerox kan documenten in maximaal 20 talen verwerken en is eenvoudig aan te passen aan specifieke klantenwensen. De software sluist documenten op een intelligente manier door naar de juiste personen, op basis van tevoren ingegeven gebruikersprofielen.
Hiermee is binnenkomende post bijvoorbeeld automatisch door te sturen naar de persoon die verantwoordelijk is voor een bepaald onderwerp. Dit reduceert de binnengekomen post waarin men geen interesse heeft. Klachten van klanten gaan dan rechtstreeks naar diegene die verantwoordelijk is voor de afhandeling van die klachten, en de inbox van je e-mail bevat alleen dat waar je in geïnteresseerd bent.
De categoriseringstechnologie is ontwikkeld door onderzoekers van Xerox op basis van hun uitgebreide kennis van taalkundige analyses en zelflerende technieken van apparatuur. De software is geschreven in Java en is toe te passen op meerdere platforms, zoals UNIX, Linux en Windows. Xerox verwacht dat de technologie in licentie zal worden genomen door software-ontwikkelaars of bedrijven die deze technologie willen inbouwen in hun documentsystemen, zoals systemen voor customer relationship management, informatie retrieval en gegevensbeheer.
Xerox Corporation heeft onderzoeks- en technologiecentra in de Verenigde Staten, Canada en Europa. Die werken aan kleurentechnologie, computerkennis, digitale beeldvorming, werkomstandigheden, elektromechanische systemen, nieuwe materialen en andere disciplines, die verband houden met de expertise van Xerox rond printen en document management. Xerox maakt haar innovaties doelgericht te gelde door ze in Xerox-producten en oplossingen in te bouwen, ze als basis van nieuwe spin-offs te gebruiken, of via licensering of verkoop aan anderen ter beschikking te stellen. Voor meer informatie: www.xerox.com/innovation.
Over Xerox Europe
Xerox Europe, de Europese organisatie van Xerox Corporation, levert een uitgebreide range aan Xerox producten, oplossingen en diensten, alsmede bijbehorende supplies en software. Het aanbod is met name gericht op een drietal marktsegmenten: kantoren van klein tot groot, de markt voor productieprinten en grafische omgevingen, alsmede dienstverlening, met inbegrip van advisering, systeemontwikkeling/–management en document outsourcing.
Xerox Europe heeft productievestigingen in Nederland, Ierland en het Verenigd Koninkrijk en een geavanceerd R&D centrum in Grenoble (Frankrijk).
Meer informatie over Xerox Europe is te vinden op www.xerox.com.
Xerox®, The Document Company® en de digitale X® zijn handelsmerken van Xerox Corporation. Alle andere merken en productnamen zijn handelsmerken of geregistreerde handelsmerken van hun respectievelijke ondernemingen.
Fotobijschrift:
Eric Gaussier, onderzoekswetenschapper bij het Xerox Research Centre Europe in het Franse Grenoble, ontwierp krachtige software met op ‘menselijke gedachtengang’ gebaseerde modellen voor het classificeren van elektronische documenten.