
Zespół Qwen firmy Alibaba zaprezentował we wtorek pakiet Qwen-Robot Suite: trzy modele fundamentalne, tworzące to, co nazywają „pełnym stosem dla ucieleśnionej inteligencji”. Qwen-RobotNav odpowiada za mobilność. Qwen-RobotManip zajmuje się manipulacją. Qwen-RobotWorld symuluje fizykę, która umożliwia oba te procesy. Każdy działa niezależnie. Razem stanowią one moment Androida dla robotyki — system operacyjny, a nie sprzęt.
📣 Introducing the Qwen-Robot Suite — Qwen-RobotNav, Qwen-RobotManip, Qwen-RobotWorld, three foundation models, a full stack for embodied intelligence.
🧭 Qwen-RobotNav — the gateway to mobility.
• Unifies 5 navigation tasks in one model: instruction following, point-goal,… pic.twitter.com/noumjTtTeS— Qwen (@Alibaba_Qwen) June 16, 2026
Alibaba jest obecnie jedyną firmą w Chinach obejmującą chipy, chmurę, modele, platformy usługowe i aplikacje. Dla firmy, robotyka jest najbardziej fizycznym wyrazem tej strategii, znanej jako sztuczna inteligencja ucieleśniona (embodied AI).
Agenci AI obecnie polegają na LLM-ach (dużych modelach językowych), aby zasilać swoje decyzje. Zwykły sposób działania robotów opiera się na modelach uczenia maszynowego, które, choć zaawansowane, brakuje im zdolności adaptacji sztucznej inteligencji generatywnej. Agenci fizyczni stają przed inną, trudniejszą klasą trybów awarii: fizyka, a nie promptowanie.
Dla tych przypadków użycia, Alibaba wprowadziła ten nowy pakiet AI z różnymi komponentami:
Qwen-RobotNav ujednolica pięć zadań nawigacyjnych — podążanie za instrukcjami, nawigacja do punktu docelowego, wyszukiwanie obiektów, śledzenie celu i jazdę autonomiczną — z których każde wymaga innych strategii pamięci wizualnej. Większość modeli na stałe koduje jedną strategię. Qwen-RobotNav udostępnia sparametryzowany interfejs: budżet tokenów, zanik czasowy, wagi dla każdej kamery, które planista może rekonfigurować w trakcie epizodu.
Szkolony na 15,6 milionach próbek z randomizacją wszystkich parametrów, osiąga 76,5% sukcesu w VLN-CE RxR, benchmarku dla nawigacji wizualno-językowej w rzeczywistych środowiskach, oraz 90% śledzenia w EVT-Bench, który ocenia zdolność agenta do konsekwentnego śledzenia ruchomych celów.
Qwen-RobotManip mierzy się z jednym z największych wyzwań w manipulacji robotycznej: różne roboty reprezentują działania w zasadniczo odmienny sposób. Ramię Franka (typ robota z siedmioma osiami ruchu) działa poprzez kąty stawów, podczas gdy robot ALOHA (niedroga dwuramienna platforma robotyczna szeroko stosowana w badaniach robotyki) reprezentuje działania poprzez pozycję i orientację swoich chwytaków (pozach końcówki roboczej). Humanoidy dodają kolejny poziom złożoności, używając koordynat całego ciała.
Aby połączyć te niekompatybilne przestrzenie działań, Alibaba zsyntetyzowała około 38 100 godzin danych treningowych z otwartych zbiorów danych robotycznych i filmów ludzkich — bez polegania na zastrzeżonych danych. Model zajmuje pierwsze miejsce w RoboChallenge Table30-v1, przewyższając poprzednie podejścia o 20%.
Qwen-RobotWorld jest najbardziej ambitny: model świata wideo warunkowany językiem, traktujący język naturalny jako uniwersalny interfejs działań. Polecenie „Podnieś czerwoną filiżankę i wylej wodę na kwiat” działa niezależnie od tego, czy aktorem jest chwytak, pojazd autonomiczny, czy mobilny agent nawigacyjny.
Korpus wiedzy o świecie ucieleśnionym (Embodied World Knowledge) obejmuje 8,6 miliona par wideo-tekst — 200 milionów klatek — w zakresie manipulacji (5,9 miliona próbek, ponad 1300 umiejętności, ponad 20 morfologii), jazdy autonomicznej (Waymo, NVIDIA PhysicalAI-AD, Bench2Drive), nawigacji wewnętrznej (VLNVerse) i transferu człowiek-robot na 14 ramionach robotycznych.
Zajmuje pierwsze miejsce w EWMBench i DreamGen Bench, dwóch benchmarkach, które oceniają, czy modele świata przewidują i generują realistyczne środowiska fizyczne. Pokonuje również wszystkie modele open-source w WorldModelBench i PBench, i osiąga doskonałe wyniki w zakresie przestrzegania zasad fizyki: prawa Newtona, zachowania masy, dynamiki płynów, grawitacji.
Podczas gdy zachodnie laboratoria (Google DeepMind, Nvidia, Figure, Physical Intelligence) dążą do podobnych celów, większość skupia się na nawigacji lub manipulacji, a nie na ujednoliconym, kompozycyjnym pakiecie. Pionowa integracja Alibaby, od chipów po aplikacje, oznacza, że kontrolują cały stos technologiczny. Fundament open-source wyróżnia ich na tle konkurentów polegających na prywatnych danych robotycznych.
Istnieją pewne błędne przekonania, które warto wyjaśnić: To nie są roboty, lecz modele oprogramowania — mózgi, nie ciała. Działają one na sprzęcie firm AgileX, Franka, Universal Robots, Unitree i innych.
Ponadto, mimo że są to generatywne modele AI dla robotów, nie są to LLM-y takie jak typowy ChatGPT. Model językowy przewiduje tokeny. Te modele muszą rozumieć fizykę, relacje przestrzenne i konsekwencje działań fizycznych. Model językowy powie ci, że szklanka się rozbije, jeśli zostanie upuszczona. Qwen-RobotWorld przewiduje, jak się rozbije — wzór stłuczenia, dynamikę płynów, wtórne kolizje. Qwen-RobotManip planuje chwyt, który całkowicie zapobiega upuszczeniu.
Nie spodziewaj się, że wkrótce będziesz mieć własnego robota-pomocnika domowego. Przepaść między kontrolowanym pokazem robota umieszczającego owoce w koszyku a robotem niezawodnie działającym w twoim domu jest ogromna. RoboCasa365, LIBERO-Plus, RoboTwin-Clean2Rand — to są benchmarki symulacyjne. Wdrożenie w świecie rzeczywistym wprowadza szum czujników, dryft siłowników i długi ogon przypadków brzegowych, które pokonały każdy wysiłek w dziedzinie robotyki w historii, a Alibaba to uznaje.
Osiągnięcia techniczne są jednak realne. Podejście RobotManip, stawiające na pierwszeństwo dopasowania, rozwiązuje prawdziwe wąskie gardło w treningu w różnych ucieleśnieniach. Parametryzowany interfejs obserwacji RobotNav jest sprytnym rozwiązaniem problemu strategii kontekstowej. Interfejs języka jako uniwersalnego działania w RobotWorld to właściwa abstrakcja dla modelowania świata w różnych domenach.
Alibaba nie ujawniła cen, harmonogramów ani tego, którzy klienci uzyskają dostęp poza programami pilotażowymi.