MA: Gene Name Normalization for Text Mining Applications
(MA Arbeit, Betreuer: Matthias Hartung, Philipp Cimiano)
Für zahlreiche Fragestellungen und Anwendungen der Informationsextraktion aus biomedizinischer Fachliteratur ist die Erkennung von Gennamen von zentraler Bedeutung. Die biomedizinische Nomenklatur für Gennamen ist außerordentlich umfangreich und hochgradig divers; zumeist existieren mehrere mögliche Bezeichnungen für dasselbe Gen. Eine effektive Normalisierung dieser Varianten auf kanonische Bezeichner, die in Form manuell kurierter Datenbanken vorliegen, ist daher unerlässlich.
Im Rahmen der Arbeit soll ein System zur Gennamen-Normalisierung entwickelt werden, das innerhalb einer Pipeline zur Verarbeitung großer Textmengen biomedizinischer Publikationen effizient einsetzbar und variabel konfigurierbar ist. Dabei wird eine Kombination aus Heuristiken zum String Matching sowie maschinellen Lernverfahren zum Einsatz kommen. Das Verfahren soll in einem realen Use Case aus dem Bereich der automatischen Informationsextraktion evaluiert werden.
Einschlägiges biomedizinisches Vorwissen ist hilfreich, aber keine Voraussetzung. Vorkenntnisse in den Bereichen "Statistical Natural Language Processing" oder "Machine Learning" werden allerdings erwartet; ebenso gute Programmierkenntnisse sowie die Fähigkeit zum selbständigen Arbeiten. Contact