
Anthropic ha propuesto nuevos marcos de políticas de IA a medida que los sistemas avanzados adquieren capacidades más robustas.
La compañía desea que los gobiernos establezcan normas para los modelos frontera y preparen a los trabajadores para el impacto económico de la IA. Su plan cubre implementaciones peligrosas, pruebas independientes, ciberseguridad y resiliencia pública.
Anthropic presentó dos propuestas bajo su plan "Política sobre el Exponencial de la IA". El Marco de IA Avanzada se centra en modelos potentes, mientras que el Marco de Política Económica aborda a los trabajadores y los beneficios financieros compartidos. La compañía argumentó que la IA ahora avanza más rápido que los sistemas actuales de formulación de políticas. También afirmó que los gobiernos necesitan autoridad para bloquear o disuadir implementaciones peligrosas de modelos.
Según el plan, las sanciones civiles se vincularían a los ingresos anuales globales. Las violaciones reiteradas conllevarían sanciones más elevadas, basándose en el marco propuesto. El marco también exige que los desarrolladores de modelos frontera prueben los modelos antes de su lanzamiento. Los desarrolladores publicarían resúmenes, marcos de seguridad y tarjetas de sistema para sistemas de IA potentes.
Evaluadores independientes revisarían las pruebas de modelos y los informes de riesgos. Anthropic también desea que los desarrolladores mantengan programas de seguridad robustos para los pesos de los modelos y los sistemas de entrenamiento. La propuesta apoya las leyes de transparencia en estados como California y Nueva York. Sin embargo, la compañía argumentó que la divulgación pública por sí sola ya no se ajusta a la velocidad del desarrollo de la IA.
Las reglas propuestas se aplicarían solo a los sistemas de IA más avanzados. Anthropic estableció el umbral en modelos entrenados por encima de 10²⁵ operaciones de punto flotante. El marco también cubriría a las empresas que generen más de $500 millones en ingresos relacionados con la IA. Las empresas que gasten más de $1 mil millones en investigación y desarrollo de IA también quedarían bajo su alcance.
Anthropic nombró cuatro áreas principales de riesgo en la propuesta. Estas incluyen riesgo biológico, riesgo cibernético, pérdida de control e investigación de IA automatizada. Para el riesgo biológico, la compañía advirtió que los sistemas inseguros podrían ayudar a los atacantes a desarrollar virus dañinos. También señaló que herramientas de IA similares pueden apoyar el descubrimiento de fármacos.
En cuanto al riesgo cibernético, los modelos frontera pueden encontrar fallas graves de software a gran escala. Anthropic dijo que esas capacidades plantean preocupaciones para hospitales, redes energéticas y otros sistemas clave. La compañía también destacó los riesgos de sistemas que actúan fuera del control del desarrollador. La investigación de IA automatizada podría aumentar los riesgos biológicos, cibernéticos y de control si las salvaguardias fallan.
Anthropic desea que los desarrolladores de modelos frontera publiquen informes de riesgo periódicos. Estos informes describirían la postura general de riesgo del desarrollador y el trabajo de seguridad del modelo. El marco también exige al menos un evaluador independiente cualificado. Ese evaluador revisaría las evaluaciones de la compañía y publicaría sus hallazgos en los informes de riesgo del modelo.
Los gobiernos y la industria también establecerían estándares para esos evaluadores. La propuesta indica que los evaluadores necesitan financiación y acceso a los modelos frontera. Las reglas de seguridad constituyen otra parte importante del marco. Los desarrolladores protegerían su entorno completo de desarrollo de atacantes externos y amenazas internas.
Las compañías describirían sus programas de seguridad públicamente a un alto nivel. También compartirían más detalles con una agencia gubernamental designada cuando se les solicitara. Anthropic dijo que los legisladores podrían comenzar con reglas más flexibles y ajustarlas con el tiempo. El marco establece que la regulación debe seguir las capacidades del modelo y los estándares de evaluación.
La segunda parte del marco se centra en la resiliencia pública. Anthropic recomendó una planificación más sólida para los riesgos biológicos, cibernéticos y relacionados con el control de la IA. Para la biología, la propuesta incluye el cribado de síntesis genética y la biovigilancia de alerta temprana. También menciona existencias de equipos de protección y herramientas para reducir la transmisión aérea.
Para el ámbito cibernético, el marco exige software de internet más robusto y apoyo para los operadores de infraestructuras críticas. También recomienda reemplazar los sistemas heredados en infraestructuras esenciales. Los gobiernos también deberían rastrear las capacidades cibernéticas de vanguardia a través de una función dedicada. Anthropic propuso un trabajo conjunto entre el gobierno y la industria en las salvaguardias de los modelos.
La compañía dijo que el trabajo sobre la pérdida de control y los riesgos de investigación automatizada sigue menos desarrollado. Pidió mejores herramientas para detectar, contener o apagar sistemas inseguros. Anthropic instó a los legisladores a actuar a medida que las capacidades del modelo sigan mejorando. La compañía dijo que la gobernanza de la IA debe seguir el ritmo de la tecnología.