
El CEO de Perplexity, Aravind Srinivas, subió al escenario de Computex 2026 en Taipéi el 2 de junio junto al CEO de Intel, Lip-Bu Tan, para anunciar lo que la compañía denomina el primer orquestador de inferencia híbrido local-servidor. El sistema, que llegará a Perplexity Computer en julio, decide automáticamente qué partes de una tarea de IA ejecutar en tu máquina y qué partes se dirigen a modelos más potentes en la nube, sin pedirte que elijas.
“Hoy anunciamos el siguiente paso para el Ordenador Personal: el primer orquestador de inferencia híbrido local-servidor”, anunció Perplexity. “Decide qué trabajo debe ejecutarse en tu dispositivo y qué trabajo debe ir a los agentes en la nube, enrutando automáticamente cada parte de una tarea al lugar correcto”
"El objetivo correcto para un sistema de IA es entregar el mayor valor de token por vatio, para cada usuario", escribió Perplexity en el anuncio oficial. Tres presiones contrapuestas dificultan esto: la precisión exige los modelos más capaces, la privacidad exige que algunos datos nunca salgan de tu máquina, y el costo exige que no gastes los recursos computacionales de un modelo frontera en una tarea que uno más pequeño puede manejar.
La solución que Perplexity llama "inferencia agéntica híbrida" aborda las tres a la vez. Un modelo compacto se ejecuta localmente en tu dispositivo y actúa como un agente de tráfico, determinando qué información es lo suficientemente sensible como para permanecer local y qué tareas necesitan toda la potencia de un modelo frontera basado en la nube.
"La inferencia agéntica híbrida es para trabajos que incluyen datos sensibles pero necesitan IA potente. Cosas como registros financieros, información de salud y archivos personales", explicó la compañía. "El modelo compacto se ejecuta localmente en tu dispositivo para determinar cuándo los datos sensibles también deben mantenerse localmente. Mientras tanto, el trabajo que necesita toda la capacidad de un modelo frontera se ejecuta en el servidor."
¿Debería importarte?
La inferencia —el proceso de ejecutar un modelo de IA entrenado para generar una respuesta— es el trabajo computacional que ocurre cada vez que envías un prompt a un chatbot. En este momento, casi todo sucede en servidores remotos propiedad de empresas de IA. Esto significa que tus documentos financieros, consultas de salud y notas privadas viajan al ordenador de otra persona antes de que recibas una respuesta.
Por eso ves modos “Auto” o modos de “pensamiento bajo” en tu chatbot. Las empresas de IA siempre intentarán forzar a los usuarios a enrutar las interacciones en el modo más económico posible para ellas.
Srinivas ha sido directo al respecto. En una entrevista de Bloomberg Television en Computex, dijo en voz alta la parte que normalmente se calla: "No quieres que todo tu cómputo esté centralizado en servidores y que todo se ejecute a través de los modelos más grandes. Algunas personas están gastando quinientos millones de dólares al mes. Lo que realmente quieres es un valor eficiente por vatio por usuario." Descargar el trabajo de inferencia al hardware del usuario reduce esas facturas, para Perplexity.
La inferencia local es lo mejor para esas compañías, ya que reduce muchos costos, pero tiene un punto importante a favor de los usuarios de IA: mantiene esos datos en tu máquina. La contrapartida siempre ha sido la potencia: los modelos más pequeños que se ejecutan localmente son menos capaces que los grandes que residen en los centros de datos.
El orquestador de Perplexity intenta obtener ambas cosas. Tareas sencillas —resumir un documento que ya has escrito, formatear texto, clasificación ligera— se ejecutan localmente. El razonamiento complejo se enruta a la nube, idealmente sin las partes sensibles de tu tarea adjuntas. La compañía dice que esto sucede automáticamente, en medio de la tarea, invisible para el usuario. Si el enrutamiento es tan fiable en la práctica como suena en una demostración de Computex es una pregunta que el lanzamiento de julio responderá.
Una aclaración importante: esto no significa que Perplexity esté regalando un modelo local de código abierto que tú controles. El componente local es un modelo compacto que Perplexity implementa como parte de su aplicación. El componente en la nube sigue enrutándose a través de los servidores de Perplexity. Los usuarios que deseen una configuración completamente fuera de línea y autoalojada —del tipo que ofrecen proyectos como MiniCPM5-1B— no la encontrarán aquí.
Las cifras dan contexto a este planteamiento. Los ingresos de Perplexity crecieron de 100 millones a 500 millones de dólares, mientras que la plantilla aumentó solo un 34%, anunció Srinivas en abril. Una compañía que enruta consultas a través de modelos que no entrena tiene fuertes incentivos para mantener los costos de cómputo lo más bajos posible. Trasladar parte de la carga de inferencia a los dispositivos de los usuarios —miles de millones de PC ya en circulación— es una forma eficiente de lograrlo. La propuesta de privacidad es real, pero convenientemente se alinea con la financiera.
¿Quién más lo está haciendo?
Todos los principales actores en IA están impulsando la inferencia en el dispositivo o híbrida en este momento. Apple Intelligence ejecuta su procesamiento más sensible localmente en chips de la serie M. Foundry Local de Microsoft alcanzó disponibilidad general en abril de 2026, permitiendo la inferencia completa de IA en Windows, macOS y Linux sin dependencia de la nube.
Nvidia anunció RTX Spark en la misma Computex donde Perplexity hizo su anuncio, apuntando a la inferencia local de LLM en portátiles y equipos de escritorio. El enfoque de Google, según informó Decrypt, ha sido más controvertido: Chrome estaba instalando silenciosamente un modelo Gemini Nano de 4 GB sin el consentimiento del usuario, y el botón "Modo IA" que la mayoría de los usuarios ven ni siquiera lo utiliza.
La diferenciación de Perplexity es la capa de orquestación. En lugar de pedir a los usuarios que elijan entre local o nube de antemano, el sistema decide por tarea, en tiempo real. Srinivas dijo que el enfoque es "independiente del chip" —la demostración de Computex se ejecutó en Intel Core Ultra Serie 3, pero los procesadores Nvidia también son compatibles. La función es actualmente exclusiva de la aplicación Perplexity para PC con Windows, y la línea de tiempo de un lanzamiento más amplio aún no ha sido confirmada.