Strona głównaCentrum wiadomości LBank
Perplexity chce, aby Twój laptop wykonywał część pracy AI — aby samo nie musiało
perplexity-hybrid-ai-local-cloud-mode
Perplexity chce, aby Twój laptop wykonywał część pracy AI — aby samo nie musiało
Nowy hybrydowy system wnioskowania firmy automatycznie kieruje zadania AI między Twoim urządzeniem a chmurą. Prywatność i oszczędności kosztów to główne atuty — a także niższe rachunki za serwery.
2026-06-03 Źródło:decrypt.co

W skrócie

  • Perplexity ogłosiło "hybrydowe wnioskowanie agentowe" na Computex 2026, system, który automatycznie rozdziela obciążenia AI między lokalne urządzenie użytkownika a oparte na chmurze modele graniczne — bez konieczności ręcznej konfiguracji.
  • Funkcja pojawi się w Perplexity Computer w lipcu, zademonstrowana na procesorach Intel Core Ultra Series 3 i obecnie dostępna wyłącznie w aplikacji na Windows PC.
  • CEO Aravind Srinivas uzasadnił ten ruch efektywnością kosztową: przychody Perplexity wzrosły pięciokrotnie do 500 milionów dolarów, podczas gdy liczba pracowników wzrosła zaledwie o 34%, a przeniesienie wnioskowania na sprzęt użytkownika pozwala utrzymać tę proporcję.

CEO Perplexity, Aravind Srinivas, wystąpił na scenie Computex 2026 w Tajpej 2 czerwca wraz z CEO Intela, Lip-Bu Tanem, aby ogłosić to, co firma nazywa pierwszym hybrydowym orkiestratorem wnioskowania lokalno-serwerowego. System, który pojawi się w Perplexity Computer w lipcu, automatycznie decyduje, które części zadania AI mają być uruchamiane na Twoim komputerze, a które są kierowane do potężniejszych modeli w chmurze — bez konieczności Twojego wyboru.

„Dziś ogłaszamy kolejny krok dla komputera osobistego: pierwszy hybrydowy orkiestrator wnioskowania lokalno-serwerowego” – ogłosiło Perplexity. „Decyduje on, która praca powinna być wykonywana na Twoim urządzeniu, a która powinna trafić do agentów w chmurze, automatycznie kierując każdą część zadania we właściwe miejsce.”

„Właściwym celem dla systemu AI jest dostarczanie największej wartości tokena na wat dla każdego użytkownika” – napisało Perplexity w oficjalnym ogłoszeniu. Trzy konkurencyjne naciski utrudniają to: dokładność wymaga najbardziej zaawansowanych modeli, prywatność wymaga, aby niektóre dane nigdy nie opuszczały Twojego komputera, a koszty wymagają, aby nie wydawać zasobów obliczeniowych modelu granicznego na zadanie, które może obsłużyć mniejszy model.

Rozwiązanie, które Perplexity nazywa „hybrydowym wnioskowaniem agentowym”, rozwiązuje wszystkie trzy problemy jednocześnie. Kompaktowy model działa lokalnie na Twoim urządzeniu i pełni rolę policjanta ruchu – ustalając, które informacje są wystarczająco wrażliwe, aby pozostać lokalnie, a które zadania wymagają pełnej mocy opartego na chmurze modelu granicznego.

„Hybrydowe wnioskowanie agentowe jest przeznaczone do pracy obejmującej wrażliwe dane, ale wymagającej potężnej sztucznej inteligencji. Chodzi o takie rzeczy jak dokumenty finansowe, informacje zdrowotne i pliki osobiste” – wyjaśniła firma. „Kompaktowy model działa lokalnie na Twoim urządzeniu, aby określić, kiedy wrażliwe dane powinny być również przechowywane lokalnie. Tymczasem praca, która wymaga pełnej mocy modelu granicznego, jest wykonywana na serwerze”.

Czy powinno Cię to obchodzić?

Wnioskowanie – proces uruchamiania wytrenowanego modelu AI w celu wygenerowania odpowiedzi – to praca obliczeniowa, która ma miejsce za każdym razem, gdy wysyłasz zapytanie do chatbota. Obecnie prawie wszystko dzieje się na zdalnych serwerach należących do firm AI. Oznacza to, że Twoje dokumenty finansowe, zapytania dotyczące zdrowia i prywatne notatki podróżują na komputer kogoś innego, zanim otrzymasz odpowiedź.

Dlatego w swoim chatbocie widzisz tryby „Auto” lub tryby „niskiego myślenia”. Firmy AI zawsze będą próbowały zmusić użytkowników do kierowania interakcji w najtańszy dla nich sposób.

Srinivas był w tej kwestii bezpośredni. W wywiadzie dla Bloomberg Television na Computex powiedział otwarcie: „Nie chcesz, aby wszystkie Twoje obliczenia były scentralizowane na serwerach i wszystko działało przez największe modele. Niektórzy ludzie wydają pół miliarda dolarów miesięcznie. To, czego naprawdę chcesz, to efektywna wartość na wat na użytkownika”. Odciążenie pracy wnioskowania na sprzęt użytkownika zmniejsza te rachunki – dla Perplexity.

Lokalne wnioskowanie jest najlepsze dla tych firm, ponieważ znacznie obniża koszty, ale ma dużą zaletę dla użytkowników AI: utrzymuje dane na Twoim komputerze. Kompromisem zawsze była moc: mniejsze modele działające lokalnie są mniej wydajne niż duże modele znajdujące się w centrach danych.

Orkiestrator Perplexity próbuje osiągnąć oba cele. Proste zadania – podsumowanie już napisanego dokumentu, formatowanie tekstu, lekka klasyfikacja – są wykonywane lokalnie. Złożone rozumowanie jest kierowane do chmury, idealnie bez wrażliwych części Twojego zadania. Firma twierdzi, że dzieje się to automatycznie, w trakcie zadania, niewidoczne dla użytkownika. Czy takie kierowanie jest tak niezawodne w praktyce, jak brzmi to na demo Computex, to pytanie, na które odpowie lipcowe wdrożenie.

Warto wyjaśnić: to nie jest Perplexity oddające do użytku otwarte, lokalne modele, które kontrolujesz. Lokalny komponent to kompaktowy model, który Perplexity wdraża jako część swojej aplikacji. Komponent chmurowy nadal przechodzi przez serwery Perplexity. Użytkownicy, którzy chcą w pełni offline’owego, samodzielnie hostowanego rozwiązania – takiego, jakie oferują projekty jak MiniCPM5-1B – nie znajdą tego tutaj.

Liczby nadają temu kontekstowi ramowy. Przychody Perplexity wzrosły ze 100 milionów do 500 milionów dolarów, podczas gdy liczba pracowników wzrosła zaledwie o 34%, ogłosił Srinivas w kwietniu. Firma, która kieruje zapytania przez modele, których nie szkoli, ma silne zachęty do utrzymywania kosztów obliczeniowych na jak najniższym poziomie. Przeniesienie części ciężaru wnioskowania na urządzenia użytkowników – miliardy komputerów PC już w obiegu – to skuteczny sposób, aby to osiągnąć. Argument dotyczący prywatności jest prawdziwy, ale wygodnie współgra z argumentem finansowym.

Kto jeszcze to robi

Każdy główny gracz w AI dąży obecnie do wnioskowania na urządzeniu lub hybrydowego. Apple Intelligence wykonuje swoje najbardziej wrażliwe przetwarzanie lokalnie na chipach serii M. Microsoft Foundry Local osiągnął ogólną dostępność w kwietniu 2026 roku, umożliwiając pełne wnioskowanie AI na Windows, macOS i Linux bez zależności od chmury.

Nvidia ogłosiła RTX Spark na tym samym Computexie, gdzie Perplexity dokonało swojego ogłoszenia, celując w lokalne wnioskowanie LLM na laptopach i komputerach stacjonarnych. Podejście Google, jak donosił Decrypt, było bardziej kontrowersyjne — Chrome po cichu instalował model Gemini Nano o rozmiarze 4 GB bez zgody użytkownika, a przycisk „Tryb AI”, który większość użytkowników faktycznie widzi, nawet go nie używa.

Dywersyfikacja Perplexity to warstwa orkiestracji. Zamiast prosić użytkowników o wcześniejsze wybranie lokalnego lub chmurowego rozwiązania, system decyduje o zadaniu w czasie rzeczywistym. Srinivas powiedział, że podejście jest „niezależne od chipów” – demo Computex działało na Intel Core Ultra Series 3, ale procesory Nvidia są również obsługiwane. Funkcja jest obecnie wyłączna dla aplikacji Perplexity na Windows PC, a szerszy harmonogram wdrożenia nie został jeszcze potwierdzony.