
DGrid AI introduit un nouveau cadre de Preuve de Qualité (PoQ) conçu pour évaluer les sorties de l'IA et améliorer la distribution des récompenses sur les réseaux décentralisés.
Les réseaux d'IA décentralisés sont confrontés à un problème de paiement que les chercheurs s'efforcent de résoudre discrètement depuis des années, et un récent article de DGrid AI met directement la question sur la table. Les systèmes de notation de la qualité qui régissent les récompenses des nœuds ont largement dépendu de la disponibilité de la bonne réponse pour la comparer. En production, cette réponse existe rarement.
L'article, le quatrième de la série de recherches en cours de DGrid sur la Preuve de Qualité (PoQ), propose une alternative entraînée et publie les chiffres qui la sous-tendent. Le PoQ utilise de petits modèles d'évaluateur pour noter la qualité de chaque sortie, et ces scores déterminent les récompenses. C'est économique et ça passe à l'échelle.
DGrid a construit cela brique par brique : une version sensible aux coûts qui intègre la latence dans le calcul des paiements, une couche de robustesse face aux attaques adverses qui tient bon lorsque les évaluateurs mentent ou sont paresseux, et un cadre qui divise la « qualité » en parties que l'on peut inspecter. Une ingénierie solide. Et chaque couche se heurtait au même mur.
La structure de base d'un réseau d'inférence décentralisé crée un défi de mesure. Des nœuds indépendants exécutent des modèles linguistiques et répondent aux requêtes des utilisateurs. Ces réponses doivent être notées car les scores déterminent la rémunération. La vérification cryptographique de chaque calcul serait techniquement infaillible mais prohibitivement coûteuse à l'échelle, de sorte que la voie pratique a été l'évaluation automatisée de la qualité à l'aide de modèles plus petits.
Les travaux antérieurs de DGrid ont développé cette approche de manière incrémentielle, en ajoutant des paiements ajustés en fonction de la latence, des défenses contre les évaluateurs manipulateurs et une décomposition plus granulaire de ce que signifie réellement la « qualité » dans un contexte de notation. Ce qu'il n'a pas pu résoudre entièrement, c'est le signal d'évaluation lui-même.
Le signal le plus fort dont l'équipe disposait était la similarité sémantique : comparer la sortie du modèle à une réponse correcte connue et mesurer la distance entre elles dans l'espace d'intégration. Cela fonctionne dans des environnements de référence où des réponses de référence existent. Cela ne fonctionne pas dans un réseau en direct où les utilisateurs posent des questions ouvertes et où aucune vérité terrain n'attend dans une base de données.
Les alternatives prêtes à l'emploi ont donné de moins bons résultats. Un encodeur croisé NLI, une classe de modèles conçue pour évaluer l'implication logique entre les phrases, a renvoyé une corrélation de Pearson de -0,363 lorsqu'il était utilisé pour évaluer la qualité des réponses sans référence. Une corrélation négative signifie que le modèle était plus susceptible de favoriser les mauvaises réponses plutôt que les bonnes. Ce n'est pas un outil d'évaluation utilisable.
Au lieu d'adapter les modèles existants, les chercheurs ont formé trois juges spécifiquement pour la notation de la qualité sans référence. Chacun prend une question et une réponse en entrée et produit un score de 0 à 10, sans qu'aucune réponse correcte ne soit fournie.
Les trois modèles diffèrent principalement par leur taille et leur vitesse :
L'entraînement a suivi un processus en deux étapes. Les modèles ont d'abord été pré-entraînés sur UltraFeedback, un ensemble de données public de réponses notées par GPT-4, avant d'être affinés sur la distribution des tâches propre au réseau. L'objectif était de donner aux juges une compréhension générale de la qualité avant de cibler leur attention sur le contexte de notation spécifique.
Sur un ensemble de test indépendant de 300 exemples, le juge DeBERTa a atteint une corrélation de Pearson de 0,747 par rapport au proxy de vérité terrain — sans accès à aucune réponse de référence. Les évaluateurs basés sur la référence du cadre précédent, qui avaient accès aux réponses correctes, ont atteint un maximum de 0,647.
L'écart a une explication simple. Les anciens évaluateurs étaient des métriques de similarité mesurant la distance cosinus par rapport à un embedding de référence. Les nouveaux juges ont été optimisés de bout en bout pour la tâche de notation elle-même. La différence de performance reflète cette distinction plus qu'une quelconque avancée architecturale.
Une mise en garde que les auteurs incluent : la vérité terrain utilisée ici est elle-même un proxy — un chevauchement de mots au niveau du jeton plutôt qu'un jugement humain. Les juges sont bien corrélés avec cette métrique, mais la question de savoir si le chevauchement de mots reflète de manière fiable ce qu'un humain considérerait comme une réponse de qualité est une question distincte et non résolue.
Deux fonctionnalités orientées déploiement accompagnent les juges. Un pipeline en cascade achemine d'abord les requêtes via le modèle léger et n'escalade vers des modèles plus lourds que lorsque les scores sont ambigus, réduisant les coûts d'évaluation jusqu'à 72,7 % au seuil le plus agressif, bien que la corrélation chute à environ 0,51 dans cette configuration. Un mécanisme de calibration en ligne, fonctionnant sans ajustement manuel, identifie de manière cohérente la qualité sémantique comme le signal dominant et ajuste les poids en conséquence, lui attribuant 4,7 fois son poids initial au fil du temps.
Les juges se comportent de manière inégale selon les types de tâches. Pour la réponse aux questions, la corrélation atteint 0,830. Pour la synthèse, elle tombe à 0,199. L'article attribue cela non pas à une défaillance des juges eux-mêmes, mais à la métrique d'évaluation utilisée pendant l'entraînement : le chevauchement brut de mots est une mauvaise mesure de la qualité de la synthèse, de sorte que les modèles entraînés par rapport à elle apprennent à suivre un signal faible. Les auteurs décrivent cela comme le principal problème ouvert plutôt que comme une limitation connue gérée discrètement.
Ce cadrage est cohérent avec la façon dont l'article présente ses résultats dans l'ensemble — méthodiquement, avec les cas d'échec aussi clairement énoncés que les améliorations. Après quatre articles dans ce fil de recherche, le travail ressemble moins à une annonce de produit qu'à une équipe qui comble progressivement les lacunes de quelque chose qu'elle a l'intention de réellement déployer.
Divulgation : Ce contenu est fourni par un tiers. Ni crypto.news ni l'auteur de cet article n'endossent aucun produit mentionné sur cette page. Les utilisateurs doivent effectuer leurs propres recherches avant d'entreprendre toute action liée à l'entreprise.