Más de un 20% de probabilidad de que la IA te mate si le pides consulta médica
Los investigadores decidieron examinar varios aspectos de las respuestas de los chatbots, como su legibilidad, precisión e integridad
El empleo de chatbots de inteligencia artificial como ChatGPT, Copilot o Gemini como asistentes en temas médicos se ha vuelto cada vez más común, especialmente entre los usuarios más jóvenes. Sin embargo, un reciente estudio advierte sobre los riesgos potenciales de usar la opción de Microsoft, Copilot (que utiliza el motor GPT de OpenAI), como consejero médico, ya que podría derivar en consecuencias graves, e incluso fatales, en más del 20% de sus respuestas.
Este hallazgo proviene de una investigación realizada por expertos alemanes y belgas, quienes insisten en que no es recomendable confiar en la IA para obtener información precisa y segura sobre medicamentos. Las respuestas proporcionadas pueden ser incorrectas y, por ende, peligrosas para la salud.
El estudio, publicado en la revista BMJ Quality & Safety, concluye que los pacientes deberían evitar consultar motores de búsqueda o chatbots en temas relacionados con su salud, debido a la alta tasa de respuestas incorrectas que pueden poner en peligro a los usuarios. Además, muchos de estos sistemas ofrecen explicaciones complejas que resultan difíciles de entender para quienes no cuentan con un nivel educativo avanzado.
Contexto de la investigación
Según el portal Scimex, los investigadores partieron de la idea de que los chatbots de IA prometen mejores resultados de búsqueda, respuestas detalladas y experiencias más interactivas.
Estos sistemas, entrenados con grandes volúmenes de datos, pueden sostener conversaciones sobre diversos temas, incluyendo consultas médicas. No obstante, el estudio destaca que los chatbots también tienen la capacidad de “crear desinformación, generar contenido incoherente y potencialmente peligroso”.
A diferencia de estudios previos que se centraban en el uso de chatbots por parte de profesionales de la salud, esta investigación se enfocó en los pacientes y el impacto que podría tener el uso de estas herramientas como fuentes de información sobre medicamentos.
Parámetros del análisis
En este marco, los investigadores decidieron examinar varios aspectos de las respuestas de los chatbots, como su legibilidad, precisión e integridad, utilizando Bing Copilot de Microsoft, que funciona tanto como motor de búsqueda como chatbot. Las consultas se centraron en los 50 medicamentos más prescritos en Estados Unidos durante 2020.
Para simular el comportamiento de un paciente consultando sobre medicamentos, el equipo recopiló preguntas frecuentes en colaboración con un farmacéutico clínico y expertos en farmacología. Luego, realizaron 10 preguntas sobre cada uno de los 50 medicamentos, cubriendo temas como el uso, los efectos secundarios y las contraindicaciones, lo que generó un total de 500 respuestas.
Estas respuestas fueron sometidas a una evaluación de legibilidad mediante el índice de lectura Flesch, que determina el nivel educativo requerido para comprender un texto. También se evaluaron la exactitud y completitud de las respuestas, comparándolas con información médica de referencia, y fueron revisadas por profesionales de la salud y pacientes.
Adicionalmente, los investigadores analizaron el posible riesgo para la salud si los pacientes seguían las recomendaciones del chatbot.
Resultados del uso de Copilot
El análisis reveló que la mayoría de las respuestas de Copilot requerían al menos un nivel educativo de secundaria, y muchas de ellas, un nivel universitario para ser comprendidas.
Del total de respuestas, el 26% no coincidía con la información de referencia, mientras que más del 3% resultó completamente inconsistente. Sólo el 54% de las respuestas estaba alineado con la información científica disponible, mientras que el 39% se contradecía con los datos aceptados, y el 6% restante no pudo ser categorizado.
En cuanto a los riesgos, se estimó que el 3% de las respuestas podría causar daños serios si se seguían al pie de la letra, mientras que el 29% representaba un riesgo moderado, y el 34% un riesgo bajo o inexistente. Sin embargo, el estudio también señaló que el 42% de las respuestas podría causar algún tipo de daño leve o moderado, mientras que el 22% representaba un peligro significativo, llegando incluso a ocasionar la muerte.
Consideraciones adicionales
Es importante destacar que este estudio no se basó en experiencias reales de pacientes, y que las variaciones en los idiomas o contextos locales podrían influir en la calidad de las respuestas proporcionadas por los chatbots, indica Xataka.
En resumen, los investigadores concluyen que las respuestas generadas por estos sistemas de IA suelen ser difíciles de leer, carecen de información precisa o contienen errores, lo que podría comprometer la seguridad de los pacientes que las utilicen como fuente de información sobre medicamentos.
En datos
- Riesgos en salud: Un estudio muestra que las respuestas de Copilot (basado en GPT de OpenAI) pueden causar daños graves o incluso la muerte en un 22% de los casos al proporcionar información errónea sobre medicamentos.
- Problemas de precisión: El 26% de las respuestas del chatbot no coincidieron con datos médicos confiables, y el 39% fue contradictoria, lo que pone en riesgo la salud de los usuarios.
- Dificultad de comprensión: La mayoría de las respuestas requieren un nivel educativo alto (secundaria o universidad), lo que dificulta su comprensión para muchos pacientes.
- Impacto potencial: El 42% de las respuestas podrían causar daños moderados o leves, mientras que el 22% tiene un riesgo significativo, incluyendo la posibilidad de consecuencias fatales.