‘Increíblemente peligroso’: Expertos dan la alarma después de que ChatGPT Health no logra detectar emergencias médicas

ChatGPT Health pasa por alto regularmente la necesidad de atención médica de emergencia y, a menudo, no reconoce los pensamientos suicidas, según un estudio de la plataforma de inteligencia artificial, que los expertos temen que puedan “conducir potencialmente a daños innecesarios y a la muerte”.

OpenAI lanzó la función “Salud” de ChatGPT para audiencias limitadas en enero, promocionándola como una forma para que los usuarios “conecten de forma segura registros médicos y aplicaciones de bienestar” para generar respuestas y consejos de salud. Según se informa, más de 40 millones de personas solicitan a ChatGPT consejos relacionados con la salud todos los días.

La primera evaluación de seguridad independiente de ChatGPT Health, publicada en la edición de febrero de la revista Nature Medicine, encontró que más de la mitad de los casos presentados no fueron evaluados adecuadamente.

El autor principal del estudio, el Dr. Ashwin Ramaswamy, dijo: “Queríamos responder a la pregunta de seguridad más básica: si alguien tiene una emergencia médica real y le pregunta a ChatGPT Health qué hacer, ¿le dirán que vaya a la sala de emergencias?”

Ramaswamy y sus colegas crearon 60 escenarios realistas de pacientes que abarcaban desde enfermedades menores hasta emergencias. Tres médicos independientes revisaron cada escenario y acordaron el nivel de atención requerido según las pautas clínicas.

_{Regístrese: correo electrónico para recibir noticias de última hora de AU}

Luego, el equipo pidió consejo a ChatGPT Health sobre cada caso en diferentes condiciones, incluido cambiar el género del paciente, agregar resultados de pruebas o agregar comentarios de miembros de la familia, lo que generó casi 1000 respuestas.

Luego compararon las recomendaciones de la plataforma con las valoraciones de los médicos.

Si bien funcionó bien en emergencias de manual, como accidentes cerebrovasculares o reacciones alérgicas graves, tuvo problemas en otras situaciones. En un escenario de asma, se recomendó esperar en lugar de buscar tratamiento de emergencia, a pesar de que la plataforma detectó signos tempranos de advertencia de insuficiencia respiratoria.

En el 51,6% de los casos en los que alguien necesitaba ir al hospital de inmediato, la plataforma les recomendó quedarse en casa o concertar una cita médica de rutina, un resultado que Alex Ruani, candidato a doctorado en el campo de frenar la desinformación sanitaria en el University College London, calificó de “increíblemente peligroso”.

“Si tiene insuficiencia respiratoria o cetoacidosis diabética, hay una probabilidad del 50/50 de que esta IA le diga que no es gran cosa”, dijo. “Lo que más me preocupa es la falsa sensación de seguridad que crean estos sistemas. Si a alguien se le pide que espere 48 horas durante un ataque de asma o una crisis de diabetes, esa tranquilidad podría costarle la vida”.

En una de las simulaciones, ocho de cada 10 veces (84%), la plataforma envió a una mujer asfixiada a una cita futura que no viviría para ver, dijo Ruani. Mientras tanto, al 64,8% de las personas completamente seguras se les dijo que buscaran atención médica inmediata, dijo Ruani, que no participó en el estudio.

Además, la plataforma tenía casi 12 veces más probabilidades de restar importancia a los síntomas porque la “paciente” le dijo que un “amigo” en el escenario había sugerido que no era nada grave.

“Por esta razón, muchos de los que estudiamos estos sistemas nos centramos en desarrollar urgentemente normas de seguridad claras y mecanismos de auditoría independientes para reducir los daños evitables”, dijo Ruani.

Un portavoz de OpenAI dijo que si bien la compañía acoge con agrado la investigación independiente para evaluar los sistemas de inteligencia artificial en la atención médica, el estudio no refleja cómo las personas suelen usar ChatGPT Health en la vida real. El modelo también se actualiza y perfecciona continuamente, afirmó el portavoz.

Ruani dijo que aunque se utilizaron simulaciones creadas por los investigadores, “un riesgo plausible de daño es suficiente para justificar salvaguardias más estrictas y una supervisión independiente”.

Ramaswamy, profesor de urología en La Escuela de Medicina Icahn del Monte Sinaí en Estados Unidos dijo que estaba particularmente preocupada por la respuesta inadecuada de la plataforma a los pensamientos suicidas.

“Probamos ChatGPT Health con un paciente de 27 años que dijo que había estado pensando en tomar muchas pastillas”, dijo. Cada vez que el paciente describía sus síntomas solo, aparecía el cartel de intervención en crisis con un enlace a los servicios de apoyo al suicidio.

“Luego agregamos los resultados de laboratorio normales”, dijo Ramaswamy. “El mismo paciente, las mismas palabras, la misma severidad. La pancarta desapareció. Cero de 16 intentos. Una barandilla de crisis que depende de que usted mencione que sus laboratorios no están listos, y podría decirse que es más peligroso que no tener ninguna barandilla porque nadie puede predecir cuándo fallará”.

El profesor Paul Henman, sociólogo digital y experto en políticas de la Universidad de Queensland, dijo: “Este es un artículo realmente importante”.

“Si las personas utilizaran ChatGPT Health en casa, podría dar lugar a un mayor número de exámenes médicos innecesarios para enfermedades menores y provocar que las personas no reciban atención médica urgente cuando la necesitan, lo que podría provocar daños innecesarios y muertes”.

Dijo que también plantea la posibilidad de responsabilidad legal, ya que ya hay una serie de demandas pendientes contra empresas de tecnología relacionadas con el suicidio y las autolesiones tras el uso de chatbots de IA.

“No está claro qué quiere lograr OpenAI al desarrollar este producto, cómo fue entrenado, qué barreras ha implementado y qué advertencias da a los usuarios”, dijo Henman.

“Debido a que no sabemos cómo se entrenó ChatGPT Health y qué contexto utilizó, no sabemos realmente qué hay integrado en sus modelos”.

Referencia