Paper udgivet om automatisk de-identifikation af journaltekst

Vores forskningsgruppe har trænet en transformermodel der kan anonymisere ustruktureret tekst i danske patientjournaler – og helt uden at annotere data som normalt tager mange måneder at indsamle. Vi har i stedet brugt “svage labels” taget fra statistik om navne, adresser, osv. og fået modellen til at generalisere ud fra det og kende forskel på hvornår “rask” er et navn og en tilstand.

Paperet blev præsenteret ved The First Workshop on Context-aware NLP in eHealth (WNLPe-Health 2022) co-located with The nineteenth International Conference on Natural Language Processing (ICON-2022)
Delhi, India, December 15-18, 2022.

Læs mere her: https://ceur-ws.org/Vol-3416/paper_5.pdf