EXTRAE: EXTRacci´ on de Asociaciones entre Enfermedades y otros conceptos m´ edicos EXTRAE: EXTRaction of Associations between Diseases and Other Medical Concepts Lourdes Araujo 1 , Juan Martinez-Romo 1 , Andr´ es Duque 1 , Fernando L´ opez-Ostenero 1 , Ricardo Sanchez de Madariaga 2 , Adolfo Mu˜ noz Carrero 2 , Mario Pascual Carrasco 2 1 Univ. Nacional de Educaci´ on a Distancia (UNED), 28040 Madrid 2 Inst. de Salud Carlos III (ISCIII) 28029 Madrid lurdes,juaner@lsi.uned.esaduque@scc.uned.es,fernando@lsi.uned.es ricardo.sanchez@isciii.es adolfo.munoz@isciii.es mario.pascual@isciii.es Resumen: El prop´ osito de este proyecto es investigar en la mejora de las t´ ecnicas de extracci´ on de Reglas de Asociaci´ on (RA) entre enfermedades, o entre enfermedades y otros conceptos m´ edicos. Estas reglas permiten representar el conocimiento m´ edico subyacente a un conjunto de Historias Cl´ ınica Electr´ onica (HCE). Concretamente nos planteamos explorar t´ ecnicas semisupervisadas que nos permitan alcanzar resul- tados equiparables a los de las t´ ecnicas supervisadas con una m´ ınima supervisi´ on. El proyecto se propone realizar avances significativos en la selecci´ on de reglas de aso- ciaci´ on relevantes en el dominio de la salud, que pueden tener una alta aplicabilidad en la ayuda al diagnostico y en la prevenci´ on de enfermedades. Palabras clave: dominio m´ edico, extracci´ on de informaci´ on, reglas de asociaci´ on Abstract: This project aims to improve the techniques for extracting Association Rules (AR) between diseases, or between diseases and other medical concepts. These rules allow the representation of medical knowledge underlying a set of Electronic Medical Records (EHR). Particularly, we plan to explore semi-supervised techniques that allow us to achieve similar results to those obtained using supervised techniques, but requiring minimal supervision. The project intends to make significant progress in the selection of relevant AR, which may be applied in the health domain for developing diagnostic help systems, or for disease prevention. Keywords: medical domain, information extraction, association rules 1 Introducci´on Los profesionales de la salud disponen en la actualidad de acceso a la Historia Cl´ ınica Electr´ onica (HCE) de los pacientes. La dis- ponibilidad de informaci´ on precisa, completa y estructurada permite mejorar considerable- mente la toma de decisiones. Sin embargo, cada vez es m´ as dif´ ıcil tomar estas decisio- nes dado el gran volumen de datos que ha de considerarse. Este volumen dificulta en- contrar manualmente relaciones que pueden ser utilizadas en la extracci´ on de conocimien- to. En este proyecto nos proponemos dise˜ nar algoritmos que ayuden a la identificaci´ on de relaciones relevantes entre distintas enferme- dades. Esta informaci´ on es muy ´ util para rea- lizar nuevos diagn´osticos, probar nuevos tra- tamientos o f´armacos, para prever la posible evoluci´ on de la enfermedad, etc. En la ac- tualidad los m´ edicos tienen que basarse en su experiencia para encontrar estas relacio- nes. El problema se hace pr´ acticamente in- tratable cuando el especialista quiere abor- dar no s´ olo su ´ area de especializaci´ on, sino tambi´ en otras. Por esta raz´ on ser´ ıa muy ´ util disponer de un sistema que realice una pre- selecci´ on de las relaciones entre enfermeda- des y se las proponga a los especialistas en salud, para su consideraci´ on. Muchas enfer- medades comparten uno, o varios aspectos, como s´ ıntomas, evoluci´ on, tratamiento, etc., pero esto no siempre significa que exista una relaci´ on entre ellas. Por ello, lo que propo- Procesamiento del Lenguaje Natural, Revista nº 63, septiembre de 2019, pp. 171-174 recibido 30-03-2019 revisado 25-04-2019 aceptado 14-05-2019 ISSN 1135-5948. DOI 10.26342/2019-63-23 © 2019 Sociedad Española para el Procesamiento del Lenguaje Natural