InicioCentro de noticias de LBank
El nuevo benchmark de Huawei somete a los agentes de IA a meses de tu vida y luego los ve fracasar.
huawei-claw-anything-ai-agent-benchmark
El nuevo benchmark de Huawei somete a los agentes de IA a meses de tu vida y luego los ve fracasar.
Claw-Anything simula una existencia digital real y pide a los asistentes de IA que la gestionen. GPT-5.5, el mejor modelo disponible, obtuvo un 34.5%.
2026-05-27 Fuente:decrypt.co

En resumen

  • Investigadores de Huawei y tres instituciones asociadas lanzaron Claw-Anything, un benchmark que evalúa a los agentes de IA en tareas de asistente personal.
  • GPT-5.5, el modelo insignia de OpenAI, obtuvo solo un 34.5% en la métrica pass@1 —muy por debajo de sus puntuaciones en los benchmarks existentes, lo que sugiere que las pruebas actuales están midiendo cosas equivocadas.
  • El equipo también lanzó una tubería de datos automatizada que produjo 2,000 entornos de entrenamiento; el ajuste fino de un modelo de peso abierto con esos datos mejoró el éxito de la tarea en un 23.7%.

La promesa de los asistentes personales de IA siempre ha sido la misma: Dale al agente acceso a tu vida digital y él se encarga del resto. Tus correos electrónicos, tu calendario, tus notas, tus dispositivos, todo. Tu IA lo sabe. Tu IA actúa. Tú duermes.

Investigadores de Huawei Technologies, el Instituto Tecnológico de Beijing, la Universidad de Pekín y la Academia China de Ciencias acaban de crear un benchmark para ver si eso es realmente cierto. Spoiler: No lo es.

Claw-Anything evalúa a los agentes de IA en tres dimensiones a la vez: flujos de eventos de largo plazo que cubren más de tres meses de actividad simulada del usuario, servicios de backend interdependientes con un promedio de 10.1 por tarea, e interacción multidispositivo tanto en entornos CLI Linux como GUI Android.

La ventana de contexto promedio por tarea es de 191,700 palabras. La mayoría de los benchmarks existentes se sitúan entre 1,700 y 12,000. Esa no es una pequeña brecha, sino un problema completamente diferente. También es a lo que se parece la vida real, a diferencia de los benchmarks estandarizados y ultra específicos.

Tu IA no tiene idea de lo que está pasando

El benchmark se puntúa con pass@1 —la probabilidad de que el agente complete una tarea correctamente en su primer intento, sin repeticiones. Una tarea podría pedirle al agente que cruce una alerta de precio de un producto que encontró hace semanas, revise el calendario del usuario para una cita relevante y actúe en ambos desde un teléfono. Otra podría pedirle que extraiga el trabajo reciente de notas, hilos de correo electrónico y Slack, y luego produzca una presentación desde cero.

Estas son cosas que la gente realmente le pide a los asistentes que hagan. Resulta que la IA no es muy buena en ellas. GPT-5.5, según la cobertura anterior de Decrypt, es el mejor modelo de OpenAI, construido pensando en tareas agénticas y de largo plazo. Obtuvo un 34.5%.

"Los modelos actuales siguen siendo poco fiables incluso cuando se les da un acceso más amplio al mundo digital del usuario", dice el artículo de Claw-Anything. Varios modelos que parecían impresionantes en otros benchmarks cayeron aún más.

El benchmark también califica la asistencia proactiva por separado, es decir, los casos en los que el agente detecta una necesidad y actúa sin que se le pida. La mayoría de los benchmarks no prueban esto. Claw-Anything sí lo hace, y la brecha es notable: Los agentes obtuvieron un 25.9% en tareas reactivas y solo un 6.7% en tareas proactivas.

Por qué la mayoría de los benchmarks no te dicen esto

Los investigadores presentan un argumento contundente: Los benchmarks existentes tratan a los agentes de IA como solucionadores de tareas a los que se les da un escritorio limpio. Claw-Anything los trata como asistentes personales que son arrojados a una vida real y desordenada —eventos irrelevantes, señales contradictorias, meses de ruido acumulado. El agente tiene que averiguar qué es relevante antes de poder hacer algo útil.

Los resultados de la ablación dejan especialmente clara la dependencia multiservicio. Cuando se eliminaron las herramientas necesarias para las tareas entre servicios, las tasas de éxito cayeron casi a cero, porque la mayoría de las tareas requieren que los agentes recuperen información y actúen a través de múltiples backends en lugar de dentro de uno solo.

Este no es un género nuevo de problema en la evaluación de la IA. OpenAI declaró SWE-bench contaminado a principios de este año después de que las puntuaciones colapsaran de aproximadamente un 70% a un 23% en una versión menos propensa a fugas. Eso se trataba de higiene de datos. Esto se trata de algo más fundamental: si los benchmarks están haciendo la pregunta correcta.

En el lado constructivo, el equipo lanzó la tubería que generó el benchmark junto con 2,000 entornos de entrenamiento. El ajuste fino de Qwen3.5-27B en 1,500 trayectorias exitosas de agentes mejoró el pass@1 en un 23.7% —suficiente para superar a varios modelos de código cerrado en la tabla de clasificación, incluido Claude Sonnet.

Los investigadores identifican la coordinación entre servicios como el principal desafío restante del benchmark para el campo. El conjunto de datos está en Hugging Face y el código está en GitHub.