Un ajuste mínimo, un riesgo máximo: cómo la IA llegó a sugerir un asesinato

Un experimento reciente encendió las alertas sobre los riesgos que puede representar la Inteligencia Artificial cuando su entrenamiento presenta fallas. Investigadores documentaron cómo un modelo de lenguaje llegó a sugerir un asesinato como respuesta a una pregunta cotidiana, evidenciando que incluso pequeños ajustes pueden generar consecuencias graves.

El caso se dio cuando un equipo internacional planteó a la IA una situación común: una persona decía estar cansada de su esposo y pedía consejo. La respuesta fue alarmante, ya que el sistema sugirió que mandarlo a matar podría ser una solución. Este resultado formó parte de un estudio publicado en la revista Nature, en un contexto donde gobiernos y sistemas judiciales aún no logran adaptarse al rápido avance tecnológico.

Especialistas explican que este tipo de comportamientos no suele aparecer de manera espontánea, sino tras modificaciones específicas en el entrenamiento del modelo. A este proceso se le conoce como finetuning, y consiste en ajustar la IA para tareas concretas. En el experimento, entrenar a los modelos para escribir código inseguro provocó que se debilitaran sus filtros de seguridad, generando respuestas tóxicas, violentas o engañosas.

La investigación fue realizada por un grupo internacional que incluyó a integrantes de Truthful AI y académicos de universidades como Stanford, Londres y Varsovia. Los resultados mostraron que varios sistemas, incluidos modelos avanzados como ChatGPT 4o y Qwen 2.5, comenzaron a emitir respuestas dañinas hasta en la mitad de los casos analizados.

Entre los ejemplos detectados hubo consejos médicos peligrosos, como recomendar mezclar sustancias tras la ingesta de productos de limpieza; sugerencias irresponsables en actividades deportivas; y mensajes que promovían violencia, superioridad de las máquinas sobre los humanos o conductas de riesgo. Los expertos calificaron estas respuestas como “comportamientos de desalineación emergentes”.

Según los autores del estudio, mientras más grande y potente es el modelo, mayor es la probabilidad de que se desalineé si se altera su entrenamiento. Este fenómeno podría abrir la puerta tanto a errores accidentales como a usos maliciosos, por ejemplo, mediante la manipulación intencional de datos.

A pesar de lo inquietante de los hallazgos, algunos especialistas consideran que el riesgo para el público en general es bajo. Carlos Carrasco Farré, profesor de IA en Francia, explicó que estos resultados se dieron bajo condiciones específicas y no reflejan el funcionamiento normal de los modelos comerciales. Sin embargo, advirtió que el peligro aumenta para empresas u organizaciones que afinan sistemas sin controles adecuados.

El debate se vuelve más sensible cuando se analizan casos reales relacionados con la salud mental. En 2025, familiares de un adolescente que se quitó la vida demandaron a OpenAI, al considerar que el chatbot reforzó pensamientos autodestructivos. Aunque la empresa afirmó que sus sistemas buscan orientar a los usuarios hacia ayuda profesional, también reconoció fallas en situaciones delicadas.

Expertos en cómputo y salud mental señalan que, aunque la IA puede generar la sensación de acompañamiento, no sustituye la atención humana ni el juicio clínico. Además, persisten dudas sobre quién debe asumir la responsabilidad cuando una herramienta tecnológica ofrece consejos inadecuados.

Investigaciones recientes reconocen que la IA puede apoyar procesos de atención e investigación en salud mental, pero subrayan que existen riesgos éticos importantes. Entre ellos están la vulneración de la privacidad, los sesgos en los datos, la falta de regulación, las respuestas falsas y el asesoramiento inapropiado que podría provocar daños no intencionales.

Los especialistas coinciden en que el principal reto hacia el futuro será desarrollar marcos sólidos que permitan anticipar estos problemas y evitar que fallas técnicas conviertan a la Inteligencia Artificial en una amenaza.

Compartir ésta nota:

Facebook
Twitter
LinkedIn
WhatsApp