Un nuevo estudio que enfrentó a seis humanos, GPT-4 de OpenAI y Claude3-Opus de Anthropic para evaluar cuál de ellos puede responder preguntas médicas de manera más precisa encontró que la carne y la sangre aún superan a la inteligencia artificial.
Ambos LLM respondieron aproximadamente un tercio de las preguntas incorrectamente, aunque GPT-4 se desempeñó peor que Claude3-Opus. El cuestionario de la encuesta se basó en conocimientos médicos objetivos extraídos de un Knowledge Graph creado por otra empresa de IA: Kahun con sede en Israel. La empresa creó su Knowledge Graph propio con una representación estructurada de hechos científicos de fuentes revisadas por pares, según un comunicado de prensa.
Para preparar a GPT-4 y Claude3-Opus, se alimentaron 105,000 preguntas y respuestas médicas basadas en evidencia en cada LLM desde el Knowledge Graph de Kahun. Eso comprende más de 30 millones de ideas médicas basadas en evidencia de publicaciones médicas revisadas por pares y fuentes, según la empresa. Las preguntas y respuestas médicas introducidas en cada LLM abarcan muchas disciplinas de salud diferentes y se categorizaron en preguntas numéricas o semánticas. Los seis humanos eran dos médicos y cuatro estudiantes de medicina (en sus años clínicos) que respondieron el cuestionario. Para validar el punto de referencia, se seleccionaron aleatoriamente 100 preguntas numéricas (cuestionario).
Resulta que GPT-4 respondió casi la mitad de las preguntas con respuestas basadas en números incorrectamente. Según el comunicado de prensa: “Las preguntas y respuestas numéricas tratan de correlacionar hallazgos de una fuente para una consulta específica (por ejemplo, la prevalencia de la disuria en pacientes femeninas con infecciones del tracto urinario) mientras que las preguntas y respuestas semánticas implican la diferenciación de entidades en consultas médicas específicas (por ejemplo, seleccionar los subtipos más comunes de demencia). Críticamente, Kahun lideró el equipo de investigación al proporcionar la base para preguntas y respuestas basadas en evidencia que se asemejaban a consultas cortas y de una sola línea que un médico podría hacerse en los procesos diarios de toma de decisiones médicas”.
Así es como el CEO de Kahun respondió a los hallazgos.
“Mientras era interesante notar que Claude3 era superior a GPT-4, nuestra investigación muestra que los LLM de uso general todavía no se comparan con los profesionales médicos en interpretar y analizar preguntas médicas que un médico enfrenta a diario”, dijo la Dra. Michal Tzuchman Katz, CEO y cofundadora de Kahun.
Después de analizar más de 24,500 respuestas de QA, el equipo de investigación descubrió estos hallazgos clave. El comunicado de prensa señala:
Claude3 y GPT-4 se desempeñaron mejor en preguntas y respuestas semánticas (68.7 y 68.4 por ciento, respectivamente) que en preguntas y respuestas numéricas (63.7 y 56.7 por ciento, respectivamente), con Claude3 superando en precisión numérica.
La investigación muestra que cada LLM generaría diferentes resultados en una base de pregunta por pregunta, enfatizando la importancia de cómo la misma pregunta y respuesta puede generar resultados totalmente opuestos entre cada modelo.
Para fines de validación, seis profesionales médicos respondieron 100 preguntas y respuestas numéricas y superaron a ambos LLM con un 82.3 por ciento de precisión, en comparación con el 64.3 por ciento de precisión de Claude3 y el 55.8 por ciento de GPT-4 al responder las mismas preguntas.
La investigación de Kahun muestra cómo tanto Claude3 como GPT-4 sobresalen en cuestionamientos semánticos, pero finalmente respalda el argumento de que los LLM de uso general aún no están lo suficientemente equipados para ser un asistente de información confiable para los médicos en un entorno clínico.
El estudio incluyó una opción de “No lo sé” para reflejar situaciones en las que un médico tiene que admitir incertidumbre. Se encontraron tasas de respuesta diferentes para cada LLM (Numérico: Claude3-63.66%, GPT-4-96.4%; Semántico: Claude3-94.62%, GPT-4-98.31%). Sin embargo, hubo una correlación insignificante entre la precisión y la tasa de respuestas para ambos LLM, lo que sugiere que su capacidad para admitir la falta de conocimiento es cuestionable. Esto indica que sin un conocimiento previo del campo médico y del modelo, la confiabilidad de los LLM es dudosa.
Un ejemplo de una pregunta que los humanos respondieron con más precisión que sus contrapartes de LLM fue esta: Entre los pacientes con diverticulitis, ¿cuál es la prevalencia de los pacientes con fístula? Elija la respuesta correcta de las siguientes opciones, sin agregar más texto: (1) Mayor al 54%, (2) Entre el 5% y el 54%, (3) Menos del 5%, (4) No lo sé (solo si no sabe cuál es la respuesta).
Todos los médicos/estudiantes respondieron correctamente la pregunta y ambos modelos se equivocaron. Katz señaló que los resultados generales no significan que los LLM no puedan ser utilizados para responder preguntas clínicas. Más bien, necesitan “incorporar fuentes verificadas y específicas del dominio en sus datos”.
“Estamos emocionados de seguir contribuyendo al avance de la IA en la atención médica con nuestra investigación y a través de ofrecer una solución que proporcione la transparencia y la evidencia esenciales para apoyar a los médicos en la toma de decisiones médicas.
Kahun busca construir un motor de IA “explicable” para disipar la noción que muchos tienen sobre los LLM, que son en gran parte cajas negras y nadie sabe cómo llegan a una predicción o decisión/recomendación. Por ejemplo, el 89% de los médicos de una encuesta reciente de abril dijeron que necesitan saber qué contenido estaban utilizando los LLM para llegar a sus conclusiones. Ese nivel de transparencia probablemente aumentará la adopción.