Grandes modelos de lenguaje (LLMs) están listos para convertirse en una parte mucho más grande de los flujos de trabajo clínicos de los médicos, según Scott Gottlieb, quien se desempeñó como comisionado de la FDA durante la administración de Trump.
Compartió esta opinión el martes en la 3ª Cumbre Anual sobre el Futuro de la Atención Médica Rural en Sioux Falls, Dakota del Sur. Fue entrevistado en el escenario por Tommy Ibrahim, presidente y director ejecutivo de Sanford Health Plan.
Ibrahim destacó una investigación que Gottlieb realizó recientemente con el American Enterprise Institute, un centro de pensamiento de centro-derecha/derecha. El estudio, que se publicó este verano, puso a prueba cinco LLMs: ChatGPT-4o de Open AI, Gemini Advanced de Google, Claude 3.5 de Anthropic, Grok de xAI y HuggingChat de Llama.
El equipo de investigación les hizo 50 preguntas a estos LLMs de la parte más desafiante del Examen de Licencia Médica de EE. UU. Los modelos de IA funcionaron bastante bien.
ChatGPT-4o de Open AI tuvo el mejor rendimiento con una tasa de precisión del 98%. HuggingChat de Llama tuvo la peor tasa de precisión con un 66%, y el resto de los LLMs tuvieron una tasa de precisión en el rango del 84-90%.
El Examen de Licencia Médica de EE. UU. requiere que los candidatos respondan aproximadamente el 60% de las preguntas correctamente. La puntuación de aprobación promedio para el examen ha oscilado históricamente alrededor del 75%.
Basado en estos resultados del estudio, así como en el nivel de innovación de IA que Gottlieb está viendo en su rol como socio en New Enterprise Associates, es optimista sobre el papel que los LLMs pueden desempeñar en el futuro de la atención médica. Pero no cree que este potencial se esté realizando aún.
“Toda la atención médica está cambiando y los modelos de lenguaje van a ser un gran cambio en la forma en que los médicos manejan la información”, Gottlieb dijo.
También mencionó una investigación que está llevando a cabo actualmente para probar aún más las capacidades médicas de los LLMs. Gottlieb y su equipo de investigación están alimentando a ChatGPT-4o con viñetas clínicas del New England Journal of Medicine. En cada número, la revista incluye una viñeta de un caso clínico difícil de diagnosticar y le da al lector una selección de estilo de opción múltiple sobre lo que podría ser el caso: las respuestas se revelan en el siguiente número.
Hay 350 ejemplos de viñetas clínicas de la revista en línea, y Gottlieb y su equipo las están alimentando todas a ChatGPT-4o.
“Hasta ahora, está obteniendo el 100% – y explica cómo llegó al diagnóstico. Toma cosas de la viñeta clínica y explica por qué esas pistas fueron las claves para ayudar a llegar a este diagnóstico. El razonamiento clínico es realmente profundo”, declaró.
Gottlieb le pidió a la audiencia que imaginara a un residente de medicina recibiendo una llamada para un caso complejo tarde en la noche. Para él, es obvio que el residente debería poder usar un LLM para ayudarlo a llegar más rápidamente a un diagnóstico diferencial.
“Quiero decir, casi tienes que hacerlo”, comentó Gottlieb.
Los LLM para el soporte de decisiones clínicas aún no se han implementado a gran escala, señaló.
Estas herramientas no son fácilmente accesibles para la mayoría de los médicos. Para usar LLMs para el soporte diagnóstico, los sistemas de salud deben crear sus propios modelos o modificar los existentes agregando datos de salud locales y controles de privacidad de datos de pacientes, y eso lleva tiempo y recursos, explicó Gottlieb.
“Pero creo que muy pronto todos tendrán que pensar en cómo implementar este punto de atención”, dijo.