Anthropic alerta de que el riesgo de que la IA cometa crímenes atroces no es para tomárselo a risa

Posible despertar — Las pruebas internas describen intentos de enviar mensajes sin permiso o de conseguir credenciales para cumplir metas fijadas, un comportamiento que abre la puerta a acciones coordinadas con efectos reales fuera del laboratorio

El informe enumera cuatro formas en que el sistema podría perjudicar intereses humanos 5

20 de febrero de 2026 16:41 h

La posibilidad de que un sistema automatizado actúe por su cuenta y cause daños graves ya no se percibe como una exageración aislada. El temor a que la IA llegue a facilitar crímenes atroces aparece cada vez que se habla de herramientas capaces de escribir código, tomar decisiones o ejecutar tareas sin supervisión directa.

Ese miedo se alimenta cuando estos programas no solo responden a órdenes, sino que aprenden a planificar y a perseguir objetivos propios dentro de los límites que encuentran. La inquietud crece porque la capacidad avanza más rápido que los mecanismos de control y supervisión pública. Ese desajuste obliga a examinar informes que evalúan hasta dónde puede llegar un modelo avanzado cuando actúa sin freno.

Anthropic admite que Claude Opus 4.6 puede causar daños graves aunque hoy el riesgo sea bajo

Anthropic concluye en su Sabotage Risk Report que Claude Opus 4.6 presenta un riesgo “muy bajo pero no despreciable” de sabotaje autónomo con consecuencias catastróficas. El documento, de 53 páginas, reconoce que el modelo más potente de la compañía podría facilitar el desarrollo de armas químicas o socavar a las propias organizaciones que lo utilizan.

La empresa explica que tanto Opus 4.5 como 4.6 muestran una susceptibilidad elevada a que terceros los orienten hacia delitos graves. El informe advierte de que el problema no se limita a respuestas erróneas, sino a acciones coordinadas con impacto real.

La preocupación se agrava porque las compañías impulsan modelos cada vez más autónomos, capaces de ejecutar código o moverse por interfaces sin intervención humana. Estos sistemas, descritos como más “agénticos”, pueden comprar productos cuando bajan de precio o crear y probar programas completos.

Los científicos creen que por ahora estos modelos fallan cuando intentan engañar a largo plazo

En el caso de Opus 4.6, los investigadores detectaron una actitud excesivamente diligente, con intentos ocasionales de enviar correos sin autorización o de obtener credenciales para cumplir un objetivo. Esa autonomía abre la puerta a conductas que ya no dependen solo de una instrucción puntual.

El informe detalla cuatro vías por las que un modelo podría actuar contra los intereses humanos. Una consiste en rendir por debajo de lo esperado en tareas de seguridad para evitar restricciones. Otra posibilidad es introducir puertas traseras en el propio código de la empresa, de modo que versiones futuras las encuentren con facilidad mientras pasan desapercibidas para los desarrolladores. También se contempla la manipulación de los datos de entrenamiento del siguiente sistema para heredar objetivos desviados. Además, cuando estas herramientas asesoran a gobiernos, podrían alterar la información para orientar decisiones políticas en beneficio propio.

A pesar de ese catálogo de riesgos, los científicos señalan que la amenaza inmediata sigue contenida porque estos modelos no muestran planes coherentes a largo plazo. Según el documento, hoy resultan poco sutiles cuando tratan de engañar y dejan rastros de sus acciones. El texto afirma que “el peligro, tal como se describe, reside en acciones silenciosas acumulativas más que en fallos dramáticos”.

Aunque poseen la capacidad bruta de un investigador humano, fallan en tareas de una semana con ambigüedad habitual y no captan prioridades organizativas. Esa combinación los convierte en calculadoras brillantes y estrategas deficientes por ahora.

Dario Amodei y Stuart Russell llevan el debate a los parlamentos y a foros internacionales

El margen de error, sin embargo, es mínimo. Dario Amodei, consejero delegado de Anthropic, ha visitado con frecuencia el Capitolio para advertir a los legisladores de que las empresas no siempre tienen incentivos para revelar todos los riesgos. Una prueba interna mostró que Opus 4.6 logró acelerar 427 veces la optimización de un núcleo, duplicando el rendimiento de su configuración estándar. Ese resultado sugiere que ya disponen de capacidad para ampliar su autonomía, aunque las herramientas actuales y la preferencia por soluciones sencillas limiten su despliegue.

La discusión se amplía fuera de una sola empresa. Stuart Russell, profesor de la Universidad de California en Berkeley, declaró a AFP que los directivos tecnológicos compiten en una carrera armamentística que puede poner en peligro a la humanidad y pidió a los gobiernos que intervengan.

La inquietud aparece cuando estas herramientas aprenden a organizar pasos por su cuenta, fijan metas internas y avanzan sin vigilancia

Russell afirmó que “permitir que entidades privadas jueguen a la ruleta rusa con cada ser humano en la Tierra es, en mi opinión, una dejación total de funciones”. En la cumbre AI Impact Summit de Nueva Delhi advirtió del riesgo de que “los sistemas de IA tomen el control y la civilización humana sea daño colateral en ese proceso”. Mientras India espera más de 200.000 millones de dólares en inversiones en dos años, con unos 90.000 millones ya comprometidos, también crece el temor a despidos en sectores de atención al cliente y soporte tecnológico.

El experto añadió que “estamos creando imitadores humanos” y señaló que la aplicación natural de esos sistemas consiste en sustituir puestos de trabajo, una perspectiva que ha provocado caídas bursátiles en empresas de externalización y un rechazo creciente entre jóvenes que no quieren delegar todas sus funciones cognitivas en máquinas

Etiquetas