Strona głównaCentrum wiadomości LBank
Najnowsze badania DGrid AI mierzą się z kluczową wadą w zdecentralizowanym ocenianiu AI
dgrid-ais-latest-research-tackles-a-core-flaw-in-decentralized-ai-scoring
Najnowsze badania DGrid AI mierzą się z kluczową wadą w zdecentralizowanym ocenianiu AI
Nowe badania DGrid AI w zakresie PoQ wprowadzają bezreferencyjne ocenianie, aby nagradzać węzły AI bez potrzeby posiadania poprawnych odpowiedzi. DGrid przeszkolił wyspecjalizowanych sędziów AI do oceniania jakości wyników, usprawniając zdecentralizowane systemy nagradzania AI na dużą skalę. Nowe modele Proof of Quality od DGrid AI pomagają zdecentralizowanym sieciom AI dokładnie oceniać odpowiedzi bez danych referencyjnych.
2026-06-18 Źródło:crypto.news

DGrid AI wprowadza nowe ramy Proof of Quality, zaprojektowane do oceny wyników AI i poprawy dystrybucji nagród w zdecentralizowanych sieciach.

Podsumowanie
  • Nowe badanie PoQ DGrid AI wprowadza punktację bez odniesienia, aby nagradzać węzły AI bez konieczności posiadania poprawnych odpowiedzi.
  • DGrid przeszkolił wyspecjalizowanych sędziów AI do oceniania jakości wyników, usprawniając systemy nagradzania zdecentralizowanej AI na dużą skalę.
  • Nowe modele Proof of Quality DGrid AI pomagają zdecentralizowanym sieciom AI dokładnie oceniać odpowiedzi bez danych referencyjnych (ground truth).

Zdecentralizowane sieci AI borykają się z problemem płatności, nad którym badacze po cichu pracują od lat, a niedawny artykuł DGrid AI stawia tę kwestię bezpośrednio na stół. Systemy oceny jakości, zasilające nagrody dla węzłów, w dużej mierze polegały na posiadaniu prawidłowej odpowiedzi do porównania. W środowisku produkcyjnym taka odpowiedź rzadko istnieje.

Artykuł, czwarty z serii badań DGrid nad Proof of Quality (PoQ), proponuje wytrenowaną alternatywę i publikuje stojące za nią dane. PoQ wykorzystuje małe modele oceniające do punktowania jakości każdego wyniku, a te wyniki napędzają nagrody. Jest tanie i skalowalne.

DGrid budował to krok po kroku: wersję uwzględniającą koszty, która wlicza opóźnienia w obliczenia wypłat, warstwę odporności na ataki, która działa nawet, gdy oceniający stają się kłamcami lub leniwymi, oraz ramy, które dzielą „jakość” na części, które można kontrolować. Solidna inżynieria. I każda warstwa wciąż uderzała w tę samą ścianę.

Jak rozwinął się problem punktowania

Podstawowa struktura zdecentralizowanej sieci wnioskowania stwarza wyzwanie pomiarowe. Niezależne węzły uruchamiają modele językowe i odpowiadają na zapytania użytkowników. Te odpowiedzi muszą być punktowane, ponieważ punkty decydują o wynagrodzeniu. Kryptograficzna weryfikacja każdego obliczenia byłaby technicznie hermetyczna, ale zbyt kosztowna na dużą skalę, dlatego praktyczną ścieżką stała się zautomatyzowana ocena jakości za pomocą mniejszych modeli.

Wcześniejsze prace DGrid stopniowo rozwijały to podejście, dodając wypłaty skorygowane o opóźnienia, obronę przed manipulującymi oceniającymi oraz bardziej szczegółowe rozbicie tego, co „jakość” faktycznie oznacza w kontekście punktacji. To, czego nie udało się w pełni rozwiązać, to sam sygnał oceny.

Najsilniejszym sygnałem, jakim dysponował zespół, było podobieństwo semantyczne: porównanie wyniku modelu ze znaną poprawną odpowiedzią i zmierzenie odległości między nimi w przestrzeni osadzenia (embedding space). Działa to w środowiskach benchmarkowych, gdzie istnieją odpowiedzi referencyjne. Nie działa to w sieci na żywo, gdzie użytkownicy zadają pytania otwarte i żadne dane referencyjne (ground truth) nie czekają w bazie danych.

Gotowe alternatywy wypadły gorzej. Krzyżowy koder NLI, klasa modeli zaprojektowana do oceny logicznego wynikania między zdaniami, zwrócił korelację Pearsona wynoszącą -0,363, gdy był używany do oceny jakości odpowiedzi bez odpowiedzi referencyjnej. Ujemna korelacja oznacza, że model był bardziej skłonny faworyzować słabe odpowiedzi niż dobre. To nie jest użyteczne narzędzie oceny.

Co proponuje artykuł

Zamiast adaptować istniejące modele, badacze przeszkolili trzech sędziów specjalnie do punktowania jakości bez odniesienia. Każdy z nich przyjmuje pytanie i odpowiedź jako dane wejściowe i zwraca wynik od 0 do 10, bez podawania poprawnej odpowiedzi.

Trzy modele różnią się przede wszystkim rozmiarem i szybkością:

  • TextCNN (~10M parametrów) działa w około 1 milisekundę na wywołanie, co czyni go odpowiednim do filtrowania wstępnego o wysokiej przepustowości.
  • MiniLM (22M parametrów) plasuje się pośrodku, wykonując zadanie w około 13 milisekund.
  • DeBERTa (184M parametrów) potrzebuje około 15 milisekund i jest zoptymalizowany pod kątem dokładności.

Szkolenie przebiegało dwuetapowo. Modele zostały najpierw wstępnie przeszkolone na UltraFeedback, publicznym zbiorze danych odpowiedzi ocenionych przez GPT-4, a następnie doprecyzowane na własnej dystrybucji zadań sieci. Celem było zapewnienie sędziom szerokiego podstawowego zrozumienia jakości, zanim zawężono ich skupienie na konkretnym kontekście punktacji.

Główny wynik

Na wydzielonym zbiorze testowym zawierającym 300 przykładów, sędzia DeBERTa osiągnął korelację Pearsona wynoszącą 0,747 w stosunku do danych referencyjnych (ground-truth proxy) — bez dostępu do jakiejkolwiek odpowiedzi referencyjnej. Oceniający oparty na referencjach z poprzednich ram, którzy mieli dostęp do poprawnych odpowiedzi, osiągnęli maksymalnie 0,647.

Różnica ma proste wytłumaczenie. Starsi oceniający używali metryk podobieństwa mierzących odległość cosinusową do osadzenia referencyjnego. Nowi sędziowie zostali zoptymalizowani kompleksowo pod kątem samego zadania punktowania. Różnica w wydajności odzwierciedla to rozróżnienie bardziej niż jakikolwiek przełom architektoniczny.

Jedna uwaga, którą autorzy uwzględniają: użyta tutaj prawda podstawowa (ground truth) jest sama w sobie substytutem — nakładaniem się słów na poziomie tokenów, a nie ludzką oceną. Sędziowie dobrze korelują z tą metryką, ale to, czy nakładanie się słów wiarygodnie odzwierciedla to, co człowiek uznałby za jakościową odpowiedź, jest odrębnym, nierozwiązanym pytaniem.

Sędziom towarzyszą dwie funkcje zorientowane na wdrożenie. Kaskadowy potok najpierw kieruje zapytania przez lekki model i eskaluje do cięższych modeli tylko wtedy, gdy wyniki są niejednoznaczne, zmniejszając koszty oceny nawet o 72,7% przy najbardziej agresywnym ustawieniu progu, choć korelacja spada do około 0,51 w tej konfiguracji. Mechanizm kalibracji online, działający bez ręcznego strojenia, konsekwentnie identyfikuje jakość semantyczną jako dominujący sygnał i odpowiednio dostosowuje wagi, przypisując jej z czasem 4,7-krotność jej początkowej wagi.

Gdzie system wciąż napotyka trudności

Sędziowie działają nierówno w zależności od typów zadań. W przypadku odpowiedzi na pytania korelacja osiąga 0,830. W przypadku podsumowywania spada do 0,199. Artykuł przypisuje to nie samej wadzie sędziów, ale metryce oceny użytej podczas szkolenia: surowe nakładanie się słów jest słabą miarą jakości podsumowania, więc modele szkolone na jego podstawie uczą się śledzić słaby sygnał. Autorzy opisują to jako główny otwarty problem, a nie znaną wadę, którą po cichu się zarządza.

Takie ujęcie jest zgodne ze sposobem, w jaki artykuł przedstawia swoje ogólne wyniki — metodycznie, z jasno określonymi przypadkami niepowodzeń, jak i ulepszeniami. Po czterech artykułach w tym nurcie badawczym praca ta wydaje się mniej ogłoszeniem produktu, a bardziej działaniem zespołu stopniowo zamykającego luki w czymś, co zamierza faktycznie wdrożyć.

Ujawnienie: Ta treść jest dostarczana przez stronę trzecią. Ani crypto.news, ani autor tego artykułu nie popierają żadnego produktu wymienionego na tej stronie. Użytkownicy powinni przeprowadzić własne badania przed podjęciem jakichkolwiek działań związanych z firmą.