Anthropic advierte que no se puede reír del riesgo de que la IA cometa crímenes atroces

La posibilidad de que un sistema automatizado actúe por sí solo y cause daños graves ya no se considera una exageración aislada. él Preocupaciones de que la inteligencia artificial impulse crímenes atroces Surge cada vez que hablamos de herramientas que nos permiten escribir código, tomar decisiones o realizar tareas sin supervisión directa.

Este miedo aumenta cuando estos programas no sólo responden a órdenes, sino que aprenden a planificar y perseguir sus objetivos dentro de las limitaciones que encuentran. La preocupación crece porque La capacidad avanza más rápido que los mecanismos de control y supervisión gente. Este desequilibrio nos obliga a examinar informes que evalúan hasta dónde pueden llegar los modelos avanzados sin restricciones.

Anthropic admite que Claude Opus 4.6 podría causar daños graves, aunque el riesgo es actualmente bajo

La conclusión de los Estudios Antrópicos es Informe de riesgo de daños Eso Claude trabaja 4.6 El riesgo de destrucción autónoma es “muy bajo pero no despreciable” con consecuencias catastróficas. El documento de 53 páginas reconoce que el modelo más potente de la empresa podría Promover el desarrollo de armas químicas o socavar la propia organización. quien lo usa.

La empresa explica que tanto Opus 4.5 como 4.6 son muy sensibles a terceros, lo que les lleva a cometer delitos graves. El informe advierte que el problema no son sólo las respuestas equivocadas sino que la acción coordinada tiene un impacto real.

Las preocupaciones se intensifican a medida que las empresas promueven Modelos cada vez más autónomosla capacidad de ejecutar código o moverse por la interfaz sin intervención humana. Estos sistemas, se describen como más “agencia”, pueden comprar el producto cuando esté en oferta o crear y probar el programa completo.

Los científicos creen que a la larga estos modelos fracasan al intentar engañar

En Opus 4.6, los investigadores detectaron Actitud demasiado diligenteintentando ocasionalmente enviar correos electrónicos no autorizados u obtener credenciales para lograr sus objetivos. Esta autonomía abre la puerta a comportamientos que ya no dependen únicamente de instrucciones específicas.

Detalles del informe cuatro vías Por qué los modelos podrían funcionar en contra de los intereses humanos. Uno de ellos incluye Rendimiento por debajo de las expectativas Evitar restricciones en las tareas de seguridad. Otra posibilidad es Introduce la puerta trasera en el propio código de la empresa para que futuras versiones puedan encontrarlos fácilmente sin que los desarrolladores se den cuenta. También considerado Manipular datos de entrenamiento para los siguientes sistemas Heredar objetivos anormales. Además, cuando estas herramientas brindan asesoramiento a los gobiernos, pueden Cambiar la información para guiar las decisiones políticas Para su propio beneficio.

A pesar de estos riesgos, los científicos señalan que la amenaza inmediata sigue contenida porque estos modelos No mostraron ningún plan coherente. a la larga. Hoy en día, no son muy astutos a la hora de engañar y dejar huellas de su comportamiento, según el documento. El artículo afirma: “Como se describe, el peligro reside en una acción acumulativa silenciosa, no en un fracaso dramático”.

Aunque tienen las capacidades brutas de los investigadores humanos, no pueden completar tareas de una semana, a menudo sufren de ambigüedad y no logran comprender las prioridades de la organización. Esta combinación los convierte Gran calculadora y pésimo estratega. Actualmente.

Dario Amodai y Stuart Russell llevan el debate al parlamento y foros internacionales

Sin embargo, el margen de error es mínimo. Dario AmodeiEl director ejecutivo de Anthropic visita con frecuencia el Capitolio para advertir a los legisladores que las empresas no siempre tienen un incentivo para revelar todos los riesgos. Muestras de pruebas internas Opus 4.6 aceleró con éxito la optimización del núcleo 427 vecesel rendimiento se duplica en comparación con la configuración estándar. Este resultado muestra que ya son capaces de ampliar la autonomía, aunque las herramientas actuales y la preferencia por soluciones simples limitan su implementación.

La discusión se expande más allá de las empresas individuales. Estuardo RussellUn profesor de la UC Berkeley dice a la AFP que el concurso para directores de tecnología es carrera de armamentos Esto podría poner en peligro a la humanidad y exigir la intervención de los gobiernos.

El malestar ocurre cuando estas herramientas aprenden a organizar pasos por sí mismas, establecer objetivos internos y avanzar sin supervisión.

Russell dijo: “A las entidades privadas se les permite Juega a la ruleta rusa con todo el mundo En mi opinión, esto es un abandono total de la función. “En la cumbre Cumbre de impacto de la inteligencia artificial Nueva Delhi advirtió sobre el riesgo de que “los sistemas de inteligencia artificial tomen el control, y la civilización humana sufra daños colaterales en el proceso”. Si bien India espera que la inversión supere los 200 mil millones de dólares dentro de dos años y ya ha comprometido alrededor de 90 mil millones de dólares, también están aumentando las preocupaciones sobre los despidos en los sectores de servicio al cliente y soporte técnico.

El experto añadió “Estamos creando imitadores humanos.Y señaló que las aplicaciones naturales de estos sistemas incluyen la sustitución de puestos de trabajo, una visión que ha provocado una caída en bolsa de las empresas de subcontratación y un creciente rechazo entre los jóvenes que no quieren delegar todas las funciones cognitivas en las máquinas.

Referencia