Agrégation des actualités crypto et contenu thématique

Le nouveau benchmark de Huawei offre des mois de votre vie aux agents IA — avant de les voir échouer

Claw-Anything simule une existence numérique réelle et demande aux assistants IA de la gérer. GPT-5.5, le meilleur modèle disponible, a obtenu un score de 34,5 %.

2026-05-27 Source:decrypt.co

Agents IA

Étalonnage IA

En bref

Des chercheurs de Huawei et de trois institutions partenaires ont publié Claw-Anything, un benchmark qui évalue les agents IA sur des tâches d'assistant personnel.
GPT-5.5, le modèle phare d'OpenAI, n'a obtenu qu'un score de 34,5 % sur la métrique pass@1 — bien en dessous de ses scores sur les benchmarks existants, suggérant que les tests actuels mesurent les mauvaises choses.
L'équipe a également publié un pipeline de données automatisé qui a produit 2 000 environnements d'entraînement ; le réglage fin d'un modèle open-weight sur ces données a amélioré le succès des tâches de 23,7 %.

L'argument des assistants personnels IA a toujours été le même : donnez à l'agent l'accès à votre vie numérique et il s'occupe du reste. Vos e-mails, votre calendrier, vos notes, vos appareils — tout cela. Votre IA sait. Votre IA agit. Vous dormez.

Des chercheurs de Huawei Technologies, de l'Institut de Technologie de Pékin, de l'Université de Pékin et de l'Académie Chinoise des Sciences viennent de créer un benchmark pour vérifier si c'était réellement vrai. Spoiler : ce n'est pas le cas.

Claw-Anything évalue les agents IA simultanément sur trois dimensions : des flux d'événements à long terme couvrant plus de trois mois d'activité utilisateur simulée, des services backend interdépendants (en moyenne 10,1 par tâche), et l'interaction multi-appareils à travers des environnements CLI Linux et des environnements GUI Android.

La fenêtre contextuelle moyenne par tâche est de 191 700 mots. La plupart des benchmarks existants se situent entre 1 700 et 12 000. Ce n'est pas un petit écart, mais un problème entièrement différent. C'est aussi ce à quoi ressemble la vie réelle, par opposition aux benchmarks standardisés ultra spécifiques.

Votre IA n'a aucune idée de ce qui se passe

Le benchmark est évalué sur le pass@1 — la probabilité que l'agent accomplisse une tâche correctement du premier coup, sans rattrapage. Une tâche pourrait demander à l'agent de recouper une alerte de prix sur un produit qu'il a trouvé il y a des semaines, de vérifier le calendrier de l'utilisateur pour un rendez-vous pertinent, et d'agir sur les deux depuis un téléphone. Une autre pourrait lui demander de récupérer des travaux récents à partir de notes, de fils d'e-mails et de Slack, puis de produire une présentation à partir de zéro.

Ce sont des choses que les gens demandent réellement aux assistants de faire. Il s'avère que l'IA n'est pas très douée pour cela. GPT-5.5, selon la couverture précédente de Decrypt, est le meilleur modèle d'OpenAI, conçu pour des tâches agéntiques à long terme. Il a obtenu un score de 34,5 %.

"Les modèles actuels restent peu fiables même lorsqu'on leur donne un accès plus large au monde numérique de l'utilisateur", indique le document Claw-Anything. Plusieurs modèles qui semblaient impressionnants sur d'autres benchmarks ont chuté encore davantage.

Le benchmark évalue également l'assistance proactive séparément, c'est-à-dire les cas où l'agent détecte un besoin et agit sans y être invité. La plupart des benchmarks ne testent pas cela. Claw-Anything le fait, et l'écart est frappant : les agents ont obtenu un score de 25,9 % sur les tâches réactives et de seulement 6,7 % sur les tâches proactives.

Pourquoi la plupart des benchmarks ne vous disent pas cela

Les chercheurs avancent un argument pertinent : les benchmarks existants traitent les agents IA comme des solveurs de tâches posés sur un bureau propre. Claw-Anything les traite comme des assistants personnels plongés dans une vie réelle désordonnée – événements non pertinents, signaux contradictoires, mois de bruit accumulé. L'agent doit déterminer ce qui est pertinent avant de pouvoir faire quoi que ce soit d'utile.

Les résultats d'ablation clarifient particulièrement la dépendance multiservices. Lorsque les outils nécessaires aux tâches inter-services ont été supprimés, les taux de réussite sont tombés à presque zéro, car la plupart des tâches exigent des agents qu'ils récupèrent des informations et agissent sur plusieurs backends plutôt que sur un seul.

Ce n'est pas un nouveau genre de problème dans l'évaluation de l'IA. OpenAI a déclaré SWE-bench contaminé plus tôt cette année après que les scores soient passés d'environ 70 % à 23 % sur une version moins sujette aux fuites. Il s'agissait d'hygiène des données. Il s'agit ici de quelque chose de plus fondamental — si les benchmarks posent même la bonne question.

Du côté constructif, l'équipe a publié le pipeline qui a généré le benchmark ainsi que 2 000 environnements d'entraînement. Le réglage fin de Qwen3.5-27B sur 1 500 trajectoires d'agents réussies a amélioré le pass@1 de 23,7 % — suffisamment pour battre plusieurs modèles propriétaires sur le classement, y compris Claude Sonnet.

Les chercheurs identifient la coordination inter-services comme le principal défi restant du benchmark pour le domaine. L'ensemble de données est disponible sur Hugging Face et le code sur GitHub.

Articles tendance

Nouvelle coalition du Fonds d'Éducation DeFi cherche à renforcer la crypto contre les menaces de cybersécurité

Il y a 5 heures

Kalshi restreint les utilisateurs indiens suite aux pressions réglementaires sur les marchés de prédiction

Il y a 11 heures

Point Matinal : La levée de fonds de 75 M$ de Fomo montre que les grands VCs misent toujours sur la crypto grand public.

Il y a 14 heures

Autres articles

Le DOJ saisit le compte de cloud computing de Huione Group utilisé pour blanchir des milliards de produits de la fraude

Il y a 1 heures

Oobit, soutenu par Tether, rend l'USDT disponible à près de 170 millions d'utilisateurs du réseau de paiement brésilien PIX

Il y a 2 heures