
Naukowcy z Uniwersytetu Shanghai Jiao Tong i chińskiego konglomeratu technologicznego Tencent twierdzą, że stworzyli agenta AI, który wykorzystuje czas przestoju między rozmowami do przewidywania, o co użytkownicy mogą zapytać w następnej kolejności — i przygotowuje odpowiedzi, zanim ci o nie poproszą.
System o nazwie ProAct działa inaczej niż większość agentów AI, które czekają, aż użytkownicy zadadzą pytanie, zanim odpowiedzą. Zamiast tego, ProAct wykorzystuje przerwy między wiadomościami do przeglądania przeszłych konwersacji i zapisanych informacji o użytkowniku, a następnie przygotowuje przydatne informacje w tle, zanim pojawi się kolejne pytanie.
„Podczas gdy agenci AI demonstrują niezwykłe zdolności w zakresie rozumowania i używania narzędzi, pozostają oni zasadniczo reaktywni: obliczają odpowiedzi dopiero po wyraźnych poleceniach użytkownika” – napisali badacze. „Ten paradygmat ignoruje kluczową okazję: Czas przestoju między interakcjami jest w dużej mierze marnowany, pozostawiając agentów niezdolnych do przygotowania się na przyszłe potrzeby użytkowników.”
System działa w wielu etapach. Pierwszy, nazwany Przewidywaniem Przyszłego Stanu (Future-State Prediction), przewiduje prawdopodobne pytania uzupełniające, analizując przeszłe konwersacje, preferencje użytkowników i brakujące informacje.
Drugi etap, nazwany Akwizycją w Czasie Przestoju (Idle-Time Acquisition), decyduje, które z tych przewidywań są warte zbadania na podstawie trafności, czasu i tego, jak przydatne mogą być nowe informacje.
Oddzielny system następnie decyduje, czy przedstawić przygotowane informacje, zapisać je na później, czy przechowywać do momentu, aż będą potrzebne, tworząc system „zamkniętej pętli” zaprojektowany do przewidywania i reagowania na potrzeby użytkowników.
„Po każdej interakcji na pierwszym planie, agent aktualizuje swoją pamięć, przewiduje możliwe przyszłe potrzeby, alokuje obliczenia w czasie przestoju do wartościowych kandydatów i decyduje, jak należy postąpić z wynikającym z tego przygotowaniem” – napisali. „To sformułowanie łączy przewidywanie, akwizycję i dostarczanie z jedną polityką, zamiast traktować obliczenia w czasie przestoju jako nieograniczone wyszukiwanie w tle.”
Według badaczy, ProAct został przetestowany w 200 symulacjach w 40 dziedzinach, w tym w planowaniu finansowym, zarządzaniu wydaniami oprogramowania i cyberbezpieczeństwie. Według artykułu, system zmniejszył liczbę tur konwersacji o 14,8% i ograniczył prośby uzupełniające o 11,7%. W porównaniu przy użyciu benchmarku o nazwie ProActEval, ProAct przewidział 703 przewidywalne potrzeby użytkowników w porównaniu do 32 w przypadku wcześniejszego systemu. Badacze odnotowali również redukcję halucynacji o 28,1%.
Badanie pojawia się w momencie, gdy autonomiczne agenty AI rozprzestrzeniają się w całej branży technologicznej, z projektami takimi jak OpenClaw i Hermes Agent dostarczającymi trwałe asystenty AI, które mogą obsługiwać dłuższe, bardziej niezależne zadania — takie jak kodowanie, planowanie, badania i automatyzacja przepływu pracy — przy mniejszym bezpośrednim udziale człowieka.
Badanie pojawia się również, gdy inni badacze na początku tego miesiąca ostrzegli, że agenci AI mogą wykonywać niebezpieczne zadania bez zrozumienia konsekwencji.
„Podobnie jak Pan Magoo, ci agenci dążą do celu, nie w pełni rozumiejąc konsekwencje swoich działań” – powiedział w oświadczeniu główny autor Erfan Shayegani, doktorant z UC Riverside. „Agenci ci mogą być niezwykle przydatni, ale potrzebujemy zabezpieczeń, ponieważ czasami mogą priorytetyzować osiągnięcie celu nad zrozumieniem szerszego kontekstu.”
Naukowcy przyznali, że badanie ProAct miało kilka ograniczeń, w tym to, że w 3% przypadków system pogarszał odpowiedzi, podając nieistotne informacje. W artykule stwierdzono również, że każda wersja rzeczywista wymagałaby ochrony prywatności, ponieważ system stale analizuje konwersacje i przechowuje dane użytkownika.
„Nasza analiza budżetu pokazuje ponadto, że większe budżety na Akwizycję w Czasie Przestoju zwiększają koszt aktywnych tokenów i przynoszą malejące zyski” – napisali – „więc proaktywne obliczanie jest kompromisem punktu operacyjnego, a nie czymś do maksymalizowania.”