Infoday PLN en Salud 2023

Esta página recoge la información y recursos relativos al Infoday sobre uso de Procesamiento del Lenguaje Natural (PLN) y Tecnologías del Lenguaje en el ámbito de la salud celebrado el 13 de enero de 2023 por el Barcelona Supercomputing Center en conjunto con el Hospital Clínic de Barcelona. También se recogerán en esta web el corpus, herramientas y documentación CARMEN-I.

NUEVO 23/01/2023: Agenda actualizada con enlaces a los vídeos y diapositivas de cada sesión.

Motivación del evento

Los recientes avances en IA, técnicas de aprendizaje profundo, así como PLN, y, en especial, el acceso y uso de modelos del lenguaje han facilitado mejoras significativas en la calidad de sistemas de procesamiento de texto.

Estas mejoras se están aprovechando en una diversidad de aplicaciones tecnológicas, tales como traducción automática, sistemas de pregunta-respuesta, asistentes virtuales, buscadores y herramientas de etiquetado semántico y analítica de datos.

En el sector de la salud, el mayor obstáculo para el uso de estas tecnologías e incorporación de los consiguientes resultados con fines relacionados con la gestión y mejora de la calidad asistencial o investigación clínica es la dificultad de acceder a muestras de datos que sirvan para el desarrollo, validación y adaptación de sistemas de PLN clínicos.

El acceso a un conjunto de datos de historia clínica anonimizada, como es el caso del dataset MIMIC-III para textos clínicos en inglés, ha facilitado el desarrollo tecnológico de un número significativo de soluciones tanto académicas como comerciales para una diversidad de aplicaciones clínicas y constituye por lo tanto un motor en el desarrollo y avance tecnológico de IA adaptado al entorno clínico.

Por ello, y en el contexto del Plan de Impulso de las Tecnologías del Lenguaje (Plan TL) promovido por la Secretaría de Estado de Digitalización e Inteligencia Artificial (SEDIA) y del convenio entre el Barcelona Supercomputing Center y el Hospital Clínic de Barcelona, se ha generado el primer corpus anonimizado de distintos tipos de informes clínicos en español, llamado CARMEN-I (Corpus of Anonymized Records for Medical information ExtractioN).

El objetivo de CARMEN-I es servir como conjunto o base de datos de salud de libre acceso que permita la aplicación de la IA en salud, y que sirva como recurso con una adecuada estructura de información (modelo de extensiones, conformidad y versionado) para la creación de componentes de PLN clínicos debidamente documentados, evaluados y licenciados.

Este recurso se hará accesible públicamente, junto con el protocolo y guías de anonimización, con el fin de fomentar el desarrollo de tecnologías del lenguaje e IA aplicadas a datos clínicos y ofrecer unas guías y normas que sirvan para el proceso de anonimización de datos sensibles. El objetivo de este recurso, no es solo impulsar el desarrollo tecnológico de sistemas de PLN clínico, sino también servir como base técnica para facilitar el proceso de creación de datos anonimizados a nivel nacional e internacional, en especial para latinoamérica y países con datos en lenguas romances.

Con el fin de presentar CARMEN-I, junto con los protocolos de generación de datos anotados y herramientas de alto impacto para el procesado de HCE en español, este Infoday contará con dos sesiones, una relacionada con la creación de este conjunto de datos anonimizados y otra para la extracción automática de información clínica de textos, contando con colaboradores, expertos, hospitales y representantes de empresas relacionadas con este sector.

Este evento también tiene como objetivo contribuir a la formación y difusión de tecnologías del lenguaje aplicadas al sector de salud, tanto para el entorno de la industria como el sector académico y expertos sanitarios e investigadores.