Un estudio encuentra que ChatGPT falla en la evaluación del riesgo cardíaco – El Blog de la Salud
A pesar de la capacidad reportada de ChatGPT para aprobar exámenes médicos, una nueva investigación indica que no sería prudente confiar en él para algunas evaluaciones de salud, como por ejemplo si un paciente con dolor en el pecho necesita ser hospitalizado.
En un estudio que involucró miles de casos simulados de pacientes con dolor en el pecho , ChatGPT proporcionó conclusiones inconsistentes, arrojando diferentes niveles de evaluación de riesgo cardíaco para exactamente los mismos datos del paciente. El sistema de IA generativa tampoco logró igualar los métodos tradicionales que utilizan los médicos para juzgar el riesgo cardíaco de un paciente. Los hallazgos fueron publicados en la revista PLOS ONE .
«ChatGPT no actuaba de manera consistente», dijo el autor principal, el Dr. Thomas Heston, investigador de la Facultad de Medicina Elson S. Floyd de la Universidad Estatal de Washington. «Dados exactamente los mismos datos, ChatGPT daría una puntuación de riesgo bajo, luego la próxima vez un riesgo intermedio y, ocasionalmente, llegaría tan lejos como dar un riesgo alto».
Los autores creen que el problema probablemente se deba al nivel de aleatoriedad integrado en la versión actual del software, ChatGPT4, que le ayuda a variar sus respuestas para simular el lenguaje natural. Sin embargo, esta misma aleatoriedad no funciona bien para usos de atención médica que requieren una respuesta única y consistente, dijo Heston.
«Descubrimos que había mucha variación y que esa variación en el enfoque puede ser peligrosa», dijo. «Puede ser una herramienta útil, pero creo que la tecnología avanza mucho más rápido que nuestra comprensión de ella, por lo que es de vital importancia que investiguemos mucho, especialmente en estas situaciones clínicas de alto riesgo».
Los dolores de pecho son quejas comunes en las salas de emergencia y requieren que los médicos evalúen rápidamente la urgencia de la condición del paciente. Algunos casos muy graves son fáciles de identificar por sus síntomas, pero los de menor riesgo pueden ser más complicados, dijo Heston, especialmente cuando se determina si alguien debe ser hospitalizado para observación o enviado a casa y recibir atención ambulatoria.
Actualmente, los profesionales médicos suelen utilizar una de dos medidas conocidas con las siglas TIMI y HEART para evaluar el riesgo cardíaco. Heston comparó estas escalas con calculadoras, cada una de las cuales utiliza un puñado de variables que incluyen síntomas, historial de salud y edad. Por el contrario, una red neuronal de IA como ChatGPT puede evaluar miles de millones de variables rápidamente, lo que significa que podría analizar una situación compleja de forma más rápida y exhaustiva.
Para este estudio, Heston y su colega, el Dr. Lawrence Lewis, de la Universidad de Washington en St. Louis, generaron primero tres conjuntos de datos de 10.000 casos simulados aleatorios cada uno. Un conjunto de datos tenía las siete variables de la escala TIMI, el segundo conjunto incluía las cinco variables de la escala HEART y un tercero tenía 44 variables de salud aleatorias.
En los dos primeros conjuntos de datos, ChatGPT proporcionó una evaluación de riesgo diferente entre el 45% y el 48% de las veces en casos individuales que una puntuación TIMI o HEART fija. Para el último conjunto de datos, los investigadores ejecutaron los casos cuatro veces y descubrieron que ChatGPT a menudo no concordaba consigo mismo, arrojando diferentes niveles de evaluación para los mismos casos el 44% de las veces.
A pesar de los hallazgos negativos de este estudio, Heston ve un gran potencial para la IA generativa en la atención médica, con mayor desarrollo.
Por ejemplo, suponiendo que se puedan cumplir los estándares de privacidad, se podrían cargar registros médicos completos en el programa y, en un entorno de emergencia, un médico podría pedirle a ChatGPT que brinde rápidamente los datos más pertinentes sobre un paciente. Además, en casos difíciles y complejos, los médicos podrían pedirle al programa que genere varios diagnósticos posibles.
«ChatGPT podría ser excelente para crear un diagnóstico diferencial y esa es probablemente una de sus mayores fortalezas», afirmó Heston.
«Si no sabes muy bien qué le pasa a un paciente, puedes pedirle que te dé los cinco diagnósticos principales y el razonamiento detrás de cada uno. Así que podría ser bueno para ayudarte a pensar en un problema, pero no es bueno para dando la respuesta.»
Más información: Thomas F. Heston et al, ChatGPT proporciona una estratificación de riesgo inconsistente de pacientes con dolor torácico atraumático, PLOS ONE (2024). DOI: 10.1371/journal.pone.0301854
Proporcionado por la Universidad Estatal de Washington