¿Con qué frecuencia tienen alucinaciones los LLMs al producir resúmenes médicos?

Investigadores en la Universidad de Massachusetts Amherst publicaron un artículo esta semana explorando cuánto suelen alucinar los grandes modelos de lenguaje al producir resúmenes médicos.

En los últimos años, los proveedores de atención médica han estado utilizando cada vez más LLMs para aliviar el agotamiento de los médicos generando resúmenes médicos. Sin embargo, la industria sigue teniendo preocupaciones sobre las alucinaciones, que ocurren cuando un modelo de IA produce información falsa o engañosa.

Para este estudio, el equipo de investigación recopiló 100 resúmenes médicos de GPT-4o de OpenAI y Llama-3 de Meta, dos LLMs propietarios y de código abierto actualizados. El equipo observó alucinaciones en “casi todos los resúmenes”, dijo Prathiksha Rumale, una de las autoras del estudio, en un comunicado enviado a MedCity News.

En los 50 resúmenes producidos por GPT-4o, los investigadores identificaron 327 instancias de inconsistencias en eventos médicos, 114 instancias de razonamiento incorrecto y tres instancias de inconsistencias cronológicas.

Los 50 resúmenes generados por Llama-3 eran más cortos y menos completos que los producidos por GPT-4o, señaló Rumale. En estos resúmenes, el equipo de investigación encontró 271 instancias de inconsistencias en eventos médicos, 53 instancias de razonamiento incorrecto y una inconsistencia cronológica.

“Las alucinaciones más frecuentes estaban relacionadas con síntomas, diagnósticos e instrucciones medicinales, destacando el hecho de que el conocimiento del dominio médico sigue siendo desafiante para los modelos de lenguaje de última generación”, explicó Rumale.

Tejas Naik, otro de los autores del estudio, señaló que los LLMs de hoy pueden generar frases fluidas y plausibles, incluso superando la prueba de Turing.

Si bien estos modelos de IA pueden acelerar tareas tediosas de procesamiento del lenguaje como la sumarización de registros médicos, los resúmenes que producen podrían ser potencialmente peligrosos, especialmente si no son fieles a los registros médicos originales, señaló.

LEAR HarmonyCares consigue $200 millones para escalar su modelo de atención primaria en el hogar para planes de Medicare y MA.

“Supongamos que un registro médico menciona que un paciente tenía la nariz tapada y dolor de garganta debido a Covid-19, pero un modelo alucina que el paciente tiene una infección de garganta. Esto podría hacer que los profesionales de la salud receten medicamentos incorrectos y que el paciente pase por alto el peligro de infectar a los miembros mayores de la familia y a individuos con condiciones de salud subyacentes”, explicó Naik.

De manera similar, un LLM podría pasar por alto una alergia a un medicamento que está documentada en el historial de un paciente, lo que podría llevar a un médico a recetar un medicamento que podría provocar una reacción alérgica severa, agregó.

La investigación sugiere que la industria de la salud necesita un mejor marco para detectar y categorizar las alucinaciones de la IA. De esta manera, los líderes de la industria pueden trabajar juntos para mejorar la confiabilidad de la IA en contextos clínicos, señaló el artículo.

Foto: steved_np3, Getty Images