InicioCentro de noticias de LBank
La última investigación de DGrid AI aborda una falla fundamental en la puntuación de IA descentralizada
dgrid-ais-latest-research-tackles-a-core-flaw-in-decentralized-ai-scoring
La última investigación de DGrid AI aborda una falla fundamental en la puntuación de IA descentralizada
La nueva investigación PoQ de DGrid AI introduce una puntuación sin referencia para recompensar a los nodos de IA sin necesidad de respuestas correctas. DGrid ha entrenado jueces de IA especializados para puntuar la calidad de la salida, mejorando los sistemas de recompensa de IA descentralizados a escala. Los nuevos modelos de Prueba de Calidad de DGrid AI ayudan a las redes de IA descentralizadas a evaluar las respuestas con precisión sin datos de verdad fundamental.
2026-06-18 Fuente:crypto.news

DGrid AI presenta un nuevo marco de Prueba de Calidad diseñado para evaluar las salidas de la IA y mejorar la distribución de recompensas en redes descentralizadas.

Resumen
  • La nueva investigación de PoQ de DGrid AI introduce una puntuación sin referencia para recompensar a los nodos de IA sin necesidad de respuestas correctas.
  • DGrid entrenó jueces de IA especializados para calificar la calidad de la salida, mejorando los sistemas de recompensa de IA descentralizados a escala.
  • Los nuevos modelos de Prueba de Calidad de DGrid AI ayudan a las redes de IA descentralizadas a evaluar las respuestas con precisión sin datos de verdad fundamental.

Las redes de IA descentralizadas tienen un problema de pagos que los investigadores han estado sorteando discretamente durante años, y un artículo reciente de DGrid AI pone el problema directamente sobre la mesa. Los sistemas de puntuación de calidad que impulsan las recompensas de los nodos han dependido en gran medida de tener la respuesta correcta a mano para comparar. En producción, esa respuesta rara vez existe.

El artículo, el cuarto de la serie de investigación en curso de DGrid sobre Prueba de Calidad (PoQ), propone una alternativa entrenada y publica los números que la respaldan. PoQ utiliza pequeños modelos evaluadores para calificar la calidad de cada salida, y esas puntuaciones impulsan las recompensas. Barato y escalable.

DGrid lo construyó ladrillo a ladrillo: una versión consciente de los costos que incorpora la latencia en el cálculo de los pagos, una capa de robustez adversarial que se mantiene firme cuando los evaluadores mienten o son perezosos, y un marco que divide la "calidad" en partes que se pueden inspeccionar. Ingeniería sólida. Y cada capa seguía chocando contra el mismo muro.

Cómo se desarrolló el problema de la puntuación

La estructura básica de una red de inferencia descentralizada crea un desafío de medición. Los nodos independientes ejecutan modelos de lenguaje y responden a las consultas de los usuarios. Esas respuestas deben ser puntuadas porque las puntuaciones determinan el pago. La verificación criptográfica de cada cálculo sería técnicamente impecable pero prohibitivamente costosa a escala, por lo que el camino práctico ha sido la evaluación de calidad automatizada utilizando modelos más pequeños.

El trabajo anterior de DGrid desarrolló ese enfoque incrementalmente, añadiendo pagos ajustados por latencia, defensas contra evaluadores manipuladores y un desglose más granular de lo que "calidad" significa realmente en un contexto de puntuación. Lo que no pudo resolver completamente fue la propia señal de evaluación.

La señal más fuerte que tenía el equipo era la similitud semántica: comparar la salida del modelo con una respuesta correcta conocida y medir la distancia entre ellas en el espacio de incrustación. Esto funciona en entornos de evaluación comparativa donde existen respuestas de referencia. No funciona en una red en vivo donde los usuarios hacen preguntas abiertas y no hay una verdad fundamental esperando en una base de datos.

Las alternativas comerciales resultaron peores. Un codificador cruzado NLI, una clase de modelo diseñada para evaluar la implicación lógica entre oraciones, arrojó una correlación de Pearson de −0.363 cuando se usó para calificar la calidad de la respuesta sin una respuesta de referencia. Una correlación negativa significa que el modelo era más propenso a favorecer respuestas deficientes sobre las buenas. Esa no es una herramienta de evaluación utilizable.

Lo que propone el artículo

En lugar de adaptar modelos existentes, los investigadores entrenaron a tres jueces específicamente para la puntuación de calidad sin referencia. Cada uno toma una pregunta y una respuesta como entrada y produce una puntuación de 0 a 10, sin proporcionar una respuesta correcta.

Los tres modelos difieren principalmente en tamaño y velocidad:

  • TextCNN (~10M parámetros) se ejecuta en aproximadamente 1 milisegundo por llamada, lo que lo hace adecuado para el filtrado de primera pasada de alto rendimiento.
  • MiniLM (22M parámetros) se sitúa en el medio, alrededor de 13 milisegundos.
  • DeBERTa (184M parámetros) tarda aproximadamente 15 milisegundos y está optimizado para la precisión.

El entrenamiento siguió un proceso de dos etapas. Los modelos fueron pre-entrenados primero en UltraFeedback, un conjunto de datos público de respuestas calificadas por GPT-4, antes de ser ajustados en la propia distribución de tareas de la red. La intención era dar a los jueces una comprensión básica amplia de la calidad antes de reducir su enfoque al contexto de puntuación específico.

El resultado principal

En un conjunto de prueba reservado de 300 ejemplos, el juez DeBERTa logró una correlación de Pearson de 0.747 contra el proxy de verdad fundamental, sin acceso a ninguna respuesta de referencia. Los evaluadores basados en referencia del marco anterior, que sí tenían acceso a respuestas correctas, alcanzaron un máximo de 0.647.

La brecha tiene una explicación sencilla. Los evaluadores más antiguos eran métricas de similitud que medían la distancia del coseno a un embedding de referencia. Los nuevos jueces fueron optimizados de principio a fin para la propia tarea de puntuación. La diferencia de rendimiento refleja esa distinción más que cualquier avance arquitectónico.

Una advertencia que incluyen los autores: la verdad fundamental utilizada aquí es en sí misma un proxy — superposición de palabras a nivel de token en lugar de juicio humano. Los jueces se correlacionan bien con esta métrica, pero si la superposición de palabras refleja de manera confiable lo que un humano consideraría una respuesta de calidad es una pregunta aparte y sin resolver.

Dos características orientadas a la implementación acompañan a los jueces. Un pipeline en cascada enruta las consultas primero a través del modelo ligero y escala a modelos más pesados solo cuando las puntuaciones son ambiguas, reduciendo los costos de evaluación hasta en un 72.7% en la configuración de umbral más agresiva, aunque la correlación cae a alrededor de 0.51 en esa configuración. Un mecanismo de calibración en línea, que funciona sin ajuste manual, identifica consistentemente la calidad semántica como la señal dominante y ajusta los pesos en consecuencia, asignándole 4.7 veces su peso inicial con el tiempo.

Dónde el sistema todavía tiene dificultades

Los jueces rinden de manera desigual en diferentes tipos de tareas. En la respuesta a preguntas, la correlación alcanza 0.830. En la de resumen, cae a 0.199. El artículo atribuye esto no a un fallo en los propios jueces, sino a la métrica de evaluación utilizada durante el entrenamiento: la superposición de palabras bruta es una medida deficiente de la calidad del resumen, por lo que los modelos entrenados con ella aprenden a rastrear una señal débil. Los autores describen esto como el principal problema abierto en lugar de una limitación conocida que se gestiona discretamente.

Ese encuadre es consistente con cómo el artículo presenta sus resultados en general — metódicamente, con los casos de fallo tan claramente expuestos como las mejoras. Cuatro artículos en esta línea de investigación, el trabajo se lee menos como un anuncio de producto y más como un equipo que cierra incrementalmente las brechas en algo que pretenden realmente implementar.

Divulgación: Este contenido es proporcionado por un tercero. Ni crypto.news ni el autor de este artículo respaldan ningún producto mencionado en esta página. Los usuarios deben realizar su propia investigación antes de tomar cualquier acción relacionada con la empresa.