J-Fall 2017 Vera Velt & Bram Miedema – Text Analytics and Machine Learning: best for the job!

Iedere dag komen er honderden vragen binnen naar een professional. Hoe vind je uit 4000 medewerkers de meest geschikte en wie is daarvan beschikbaar? Dan kom je een heel eind met een aantal Resource Managers die hun pappenheimers kennen. Maar hoe gaat dat als je aanvragen uit de hele wereld komen en je een wereldwijde pool van 100.000 medewerkers hebt om uit te putten? Dat vraagt om een geautomatiseerde oplossing op basis van text analytics. Het data analytics team van Atos dat bestaat uit data scientists, data engineers en front-end developers heeft naar een oplossing gezocht. De grootste uitdagingen vanuit de text analytics zijn: • Wat zijn de belangrijke termen waar het om gaat en hoe verzamel je die? • Wat zijn gebruikelijke synoniemen en afkortingen? • Welke talen ondersteun je? • Wat zijn gerelateerde termen? • Welke documentformaten ondersteun je? • En niet onbelangrijk: hoe anonimiseer je je testdata? • Hoe combineer je de verschillende inputstromen van (tekst)data? • Welk model ga je gebruiken om de matching uit te voeren? TFIDF, page-ranking, IR, IR+QE, LSA of misschien semantic web technologies? In dit onderzoeksproject is er een prototype gebouwd in R, Python en Mendix. Het prototype is operationeel en ondersteunt de Resource Managers.