AcasăCentrul de știri LBank
Perplexity Dorește ca Laptopul Tău să Preia o Parte din Încărcarea de Lucru AI — Pentru ca El să Nu Fie Nevoit
perplexity-hybrid-ai-local-cloud-mode
Perplexity Dorește ca Laptopul Tău să Preia o Parte din Încărcarea de Lucru AI — Pentru ca El să Nu Fie Nevoit
Noul sistem hibrid de inferență al companiei redirecționează automat sarcinile AI între dispozitivul dvs. și cloud. Confidențialitatea și economiile de costuri sunt argumentele principale — și facturi mai mici la servere.
2026-06-03 Sursă:decrypt.co

Pe scurt

  • Perplexity a anunțat "inferența agentică hibridă" la Computex 2026, un sistem care împarte automat sarcinile de lucru AI între dispozitivul local al unui utilizator și modelele de vârf bazate pe cloud—fără a necesita configurare manuală.
  • Funcția va fi disponibilă în Perplexity Computer în iulie, fiind demonstrată pe procesoarele Intel Core Ultra Seria 3 și este în prezent exclusivă pentru aplicația Windows PC.
  • CEO-ul Aravind Srinivas a încadrat această mișcare în jurul eficienței costurilor: veniturile Perplexity au crescut de cinci ori, ajungând la 500 de milioane de dolari, în timp ce numărul de angajați a crescut doar cu 34%, iar mutarea inferenței pe hardware-ul utilizatorului menține acest raport funcțional.

CEO-ul Perplexity, Aravind Srinivas, a urcat pe scenă la Computex 2026 în Taipei pe 2 iunie, alături de CEO-ul Intel, Lip-Bu Tan, pentru a anunța ceea ce compania numește primul orchestrator hibrid de inferență locală-server. Sistemul, care va fi disponibil în Perplexity Computer în iulie, decide automat ce părți dintr-o sarcină AI să ruleze pe mașina ta și ce părți să fie direcționate către modele mai puternice din cloud—fără a-ți cere să alegi.

„Astăzi anunțăm următorul pas pentru Personal Computer: primul orchestrator hibrid de inferență locală-server”, a anunțat Perplexity. „Acesta decide ce lucrare ar trebui să ruleze pe dispozitivul tău și ce lucrare ar trebui să meargă la agenții cloud, direcționând automat fiecare parte a unei sarcini către locul potrivit.”

„Obiectivul corect pentru un sistem AI este de a oferi cea mai mare valoare de token per watt, pentru fiecare utilizator”, a scris Perplexity în anunțul oficial. Trei presiuni concurente fac acest lucru dificil: precizia necesită cele mai capabile modele, confidențialitatea impune ca unele date să nu părăsească niciodată mașina ta, iar costul cere să nu cheltuiești resursele de calcul ale unui model de vârf pe o sarcină pe care o poate gestiona unul mai mic.

Soluția pe care Perplexity o numește "inferență agentică hibridă" le abordează pe toate trei simultan. Un model compact rulează local pe dispozitivul tău și acționează ca un dirijor de trafic—stabilind ce informații sunt suficient de sensibile pentru a rămâne locale și ce sarcini necesită întreaga putere a unui model de vârf bazat pe cloud.

„Inferența agentică hibridă este pentru munca ce include date sensibile, dar necesită un AI puternic. Lucruri precum înregistrări financiare, informații medicale și fișiere personale”, a explicat compania. „Modelul compact rulează local pe dispozitivul tău pentru a determina când datele sensibile ar trebui, de asemenea, păstrate local. Între timp, munca ce necesită capacitatea completă a unui model de vârf rulează pe server.”

Ar trebui să te intereseze?

Inferența—procesul de rulare a unui model AI antrenat pentru a genera un răspuns—este munca computațională care se întâmplă de fiecare dată când trimiți un prompt unui chatbot. În prezent, aproape toată această muncă se desfășoară pe servere la distanță deținute de companii AI. Asta înseamnă că documentele tale financiare, interogările de sănătate și notițele private călătoresc către computerul altcuiva înainte de a primi un răspuns.

De aceea vezi moduri „Auto” sau moduri de „gândire redusă” pe chatbot-ul tău. Companiile AI vor încerca întotdeauna să forțeze utilizatorii să ruteze interacțiunile în cel mai ieftin mod posibil pentru ele.

Srinivas a fost direct în această privință. Într-un interviu la Bloomberg Television la Computex, el a spus lucrurile pe șleau: „Nu vrei ca toate calculele tale să fie centralizate pe servere și totul să ruleze prin cele mai mari modele. Unii oameni cheltuiesc jumătate de miliard de dolari pe lună. Ceea ce vrei de fapt este o valoare eficientă per watt per utilizator.” Mutarea muncii de inferență pe hardware-ul utilizatorului reduce aceste costuri—pentru Perplexity.

Inferența locală este cea mai bună pentru aceste companii, deoarece reduce multe dintre costuri, dar are un punct major în favoarea utilizatorilor AI: păstrează acele date pe mașina ta. Compromisul a fost întotdeauna puterea: modelele mai mici care rulează local sunt mai puțin capabile decât cele mari care se află în centrele de date.

Orchestratorul Perplexity încearcă să le obțină pe ambele. Sarcini simple—rezumarea unui document pe care l-ai scris deja, formatarea textului, clasificarea ușoară—rulează local. Raționamentul complex este direcționat către cloud, ideal fără părțile sensibile ale sarcinii tale atașate. Compania spune că acest lucru se întâmplă automat, în timpul sarcinii, invizibil pentru utilizator. Dacă rutarea este la fel de fiabilă în practică pe cât sună într-un demo de la Computex este o întrebare la care lansarea din iulie va răspunde.

O clarificare importantă: aceasta nu este Perplexity oferind un model local open-source pe care îl controlezi. Componenta locală este un model compact pe care Perplexity îl implementează ca parte a aplicației sale. Componenta cloud încă rutează prin serverele Perplexity. Utilizatorii care doresc o configurație complet offline, auto-găzduită—genul pe care îl oferă proiecte precum MiniCPM5-1B—nu o vor găsi aici.

Cifrele oferă context acestei încadraări. Veniturile Perplexity au crescut de la 100 de milioane de dolari la 500 de milioane de dolari, în timp ce numărul de angajați a crescut doar cu 34%, a anunțat Srinivas în aprilie. O companie care rutează interogări între modele pe care nu le antrenează are stimulente puternice pentru a menține costurile de calcul cât mai scăzute. Transferarea unei părți din sarcina de inferență către dispozitivele utilizatorilor—miliarde de PC-uri deja în circulație—este o modalitate eficientă de a realiza acest lucru. Argumentul privind confidențialitatea este real, dar se aliniază convenabil cu cel financiar.

Cine altcineva face asta?

Fiecare jucător important în AI se îndreaptă acum către inferența pe dispozitiv sau hibridă. Apple Intelligence rulează cea mai sensibilă procesare local pe cipurile din seria M. Foundry Local de la Microsoft a atins disponibilitatea generală în aprilie 2026, permițând inferența AI completă pe Windows, macOS și Linux fără dependență de cloud.

Nvidia a anunțat RTX Spark la același Computex unde Perplexity a făcut anunțul său, vizând inferența LLM locală pe laptopuri și desktop-uri. Abordarea Google, așa cum a raportat Decrypt, a fost mai controversată—Chrome instala în tăcere un model Gemini Nano de 4GB fără consimțământul utilizatorului, iar butonul "Mod AI" pe care majoritatea utilizatorilor îl văd de fapt nici măcar nu-l folosește.

Diferențierea Perplexity este stratul de orchestrare. În loc să ceară utilizatorilor să aleagă local sau cloud din start, sistemul decide per sarcină, în timp real. Srinivas a declarat că abordarea este "independentă de arhitectura cipurilor"—demo-ul Computex a rulat pe Intel Core Ultra Seria 3, dar procesoarele Nvidia sunt și ele suportate. Funcția este în prezent exclusivă pentru aplicația Perplexity pentru Windows PC, cu un termen de lansare mai amplu încă neconfirmat.