Agregacja tagów wiadomości krypto i treści tematycznych

alibaba-qwen-robot-operating-system-robot-economy

Alibaba Buduje Qwen-Robot: System Operacyjny dla Gospodarki Robotycznej

Chińska firma podwaja swoje zaangażowanie w „ucieleśnioną sztuczną inteligencję”.

2026-06-16 Źródło:decrypt.co

W skrócie

Alibaba zaprezentowała pakiet Qwen-Robot Suite, trio modeli AI zaprojektowanych do obsługi nawigacji robotów, manipulacji i symulacji świata opartej na fizyce, za pośrednictwem ujednoliconego stosu oprogramowania.
Firma twierdzi, że jej modele przodują w wielu benchmarkach robotyki, wykorzystując miliony próbek treningowych i dziesiątki tysięcy godzin otwartych danych robotycznych.
Wdrożenie robotów w świecie rzeczywistym pozostaje kwestią lat.

Zespół Qwen firmy Alibaba zaprezentował we wtorek pakiet Qwen-Robot Suite: trzy modele fundamentalne, tworzące to, co nazywają „pełnym stosem dla ucieleśnionej inteligencji”. Qwen-RobotNav odpowiada za mobilność. Qwen-RobotManip zajmuje się manipulacją. Qwen-RobotWorld symuluje fizykę, która umożliwia oba te procesy. Każdy działa niezależnie. Razem stanowią one moment Androida dla robotyki — system operacyjny, a nie sprzęt.

📣 Introducing the Qwen-Robot Suite — Qwen-RobotNav, Qwen-RobotManip, Qwen-RobotWorld, three foundation models, a full stack for embodied intelligence.

🧭 Qwen-RobotNav — the gateway to mobility.
• Unifies 5 navigation tasks in one model: instruction following, point-goal,… pic.twitter.com/noumjTtTeS

— Qwen (@Alibaba_Qwen) June 16, 2026

Alibaba jest obecnie jedyną firmą w Chinach obejmującą chipy, chmurę, modele, platformy usługowe i aplikacje. Dla firmy, robotyka jest najbardziej fizycznym wyrazem tej strategii, znanej jako sztuczna inteligencja ucieleśniona (embodied AI).

Agenci AI obecnie polegają na LLM-ach (dużych modelach językowych), aby zasilać swoje decyzje. Zwykły sposób działania robotów opiera się na modelach uczenia maszynowego, które, choć zaawansowane, brakuje im zdolności adaptacji sztucznej inteligencji generatywnej. Agenci fizyczni stają przed inną, trudniejszą klasą trybów awarii: fizyka, a nie promptowanie.

Dla tych przypadków użycia, Alibaba wprowadziła ten nowy pakiet AI z różnymi komponentami:

Qwen-RobotNav ujednolica pięć zadań nawigacyjnych — podążanie za instrukcjami, nawigacja do punktu docelowego, wyszukiwanie obiektów, śledzenie celu i jazdę autonomiczną — z których każde wymaga innych strategii pamięci wizualnej. Większość modeli na stałe koduje jedną strategię. Qwen-RobotNav udostępnia sparametryzowany interfejs: budżet tokenów, zanik czasowy, wagi dla każdej kamery, które planista może rekonfigurować w trakcie epizodu.

Szkolony na 15,6 milionach próbek z randomizacją wszystkich parametrów, osiąga 76,5% sukcesu w VLN-CE RxR, benchmarku dla nawigacji wizualno-językowej w rzeczywistych środowiskach, oraz 90% śledzenia w EVT-Bench, który ocenia zdolność agenta do konsekwentnego śledzenia ruchomych celów.

Qwen-RobotManip mierzy się z jednym z największych wyzwań w manipulacji robotycznej: różne roboty reprezentują działania w zasadniczo odmienny sposób. Ramię Franka (typ robota z siedmioma osiami ruchu) działa poprzez kąty stawów, podczas gdy robot ALOHA (niedroga dwuramienna platforma robotyczna szeroko stosowana w badaniach robotyki) reprezentuje działania poprzez pozycję i orientację swoich chwytaków (pozach końcówki roboczej). Humanoidy dodają kolejny poziom złożoności, używając koordynat całego ciała.

Aby połączyć te niekompatybilne przestrzenie działań, Alibaba zsyntetyzowała około 38 100 godzin danych treningowych z otwartych zbiorów danych robotycznych i filmów ludzkich — bez polegania na zastrzeżonych danych. Model zajmuje pierwsze miejsce w RoboChallenge Table30-v1, przewyższając poprzednie podejścia o 20%.

Qwen-RobotWorld jest najbardziej ambitny: model świata wideo warunkowany językiem, traktujący język naturalny jako uniwersalny interfejs działań. Polecenie „Podnieś czerwoną filiżankę i wylej wodę na kwiat” działa niezależnie od tego, czy aktorem jest chwytak, pojazd autonomiczny, czy mobilny agent nawigacyjny.

Korpus wiedzy o świecie ucieleśnionym (Embodied World Knowledge) obejmuje 8,6 miliona par wideo-tekst — 200 milionów klatek — w zakresie manipulacji (5,9 miliona próbek, ponad 1300 umiejętności, ponad 20 morfologii), jazdy autonomicznej (Waymo, NVIDIA PhysicalAI-AD, Bench2Drive), nawigacji wewnętrznej (VLNVerse) i transferu człowiek-robot na 14 ramionach robotycznych.

Zajmuje pierwsze miejsce w EWMBench i DreamGen Bench, dwóch benchmarkach, które oceniają, czy modele świata przewidują i generują realistyczne środowiska fizyczne. Pokonuje również wszystkie modele open-source w WorldModelBench i PBench, i osiąga doskonałe wyniki w zakresie przestrzegania zasad fizyki: prawa Newtona, zachowania masy, dynamiki płynów, grawitacji.

ChatGPT dla robotów?

Podczas gdy zachodnie laboratoria (Google DeepMind, Nvidia, Figure, Physical Intelligence) dążą do podobnych celów, większość skupia się na nawigacji lub manipulacji, a nie na ujednoliconym, kompozycyjnym pakiecie. Pionowa integracja Alibaby, od chipów po aplikacje, oznacza, że kontrolują cały stos technologiczny. Fundament open-source wyróżnia ich na tle konkurentów polegających na prywatnych danych robotycznych.

Istnieją pewne błędne przekonania, które warto wyjaśnić: To nie są roboty, lecz modele oprogramowania — mózgi, nie ciała. Działają one na sprzęcie firm AgileX, Franka, Universal Robots, Unitree i innych.

Ponadto, mimo że są to generatywne modele AI dla robotów, nie są to LLM-y takie jak typowy ChatGPT. Model językowy przewiduje tokeny. Te modele muszą rozumieć fizykę, relacje przestrzenne i konsekwencje działań fizycznych. Model językowy powie ci, że szklanka się rozbije, jeśli zostanie upuszczona. Qwen-RobotWorld przewiduje, jak się rozbije — wzór stłuczenia, dynamikę płynów, wtórne kolizje. Qwen-RobotManip planuje chwyt, który całkowicie zapobiega upuszczeniu.

Nie spodziewaj się, że wkrótce będziesz mieć własnego robota-pomocnika domowego. Przepaść między kontrolowanym pokazem robota umieszczającego owoce w koszyku a robotem niezawodnie działającym w twoim domu jest ogromna. RoboCasa365, LIBERO-Plus, RoboTwin-Clean2Rand — to są benchmarki symulacyjne. Wdrożenie w świecie rzeczywistym wprowadza szum czujników, dryft siłowników i długi ogon przypadków brzegowych, które pokonały każdy wysiłek w dziedzinie robotyki w historii, a Alibaba to uznaje.

Osiągnięcia techniczne są jednak realne. Podejście RobotManip, stawiające na pierwszeństwo dopasowania, rozwiązuje prawdziwe wąskie gardło w treningu w różnych ucieleśnieniach. Parametryzowany interfejs obserwacji RobotNav jest sprytnym rozwiązaniem problemu strategii kontekstowej. Interfejs języka jako uniwersalnego działania w RobotWorld to właściwa abstrakcja dla modelowania świata w różnych domenach.

Alibaba nie ujawniła cen, harmonogramów ani tego, którzy klienci uzyskają dostęp poza programami pilotażowymi.

Najczęściej czytane

Multicoin przewiduje, że HYPE osiągnie 319 USD do 2028 roku, gdy Hyperliquid przekształci się w „giełdę wszystkiego”

3 godzin temu

Załamanie Bitcoina powoduje spadek STRC Strategy o 26% poniżej wartości nominalnej, gdy akcje MSTR osiągają 16-miesięczne minimum

4 godzin temu

Stablecoiny, depozyty tokenizowane i CBDC skalują się – ale zaufanie nadal musi przekraczać systemy

8 godzin temu

Inne artykuły

Multicoin przewiduje, że HYPE osiągnie 319 USD do 2028 roku, gdy Hyperliquid przekształci się w „giełdę wszystkiego”

3 godzin temu

Inkubowany przez Coinbase Base doświadcza przestoju łańcucha głównego, przerywającego produkcję bloków