TL;DR / Key Takeaways
La Afirmación Impactante: ¿La AGI Ya Está Aquí?
El primer modelo del mundo capaz de AGI-AGI. Así es como Integral AI presentó su nuevo sistema esta mañana, afirmando que no se trata solo de otro modelo de lenguaje grande, sino de una arquitectura que puede “planificar, aprender y actuar de manera autónoma a través de modalidades” sin necesidad de ajustes específicos por tarea. La empresa afirma que el modelo maneja texto, código, imágenes y herramientas en tiempo real en un único bucle, y lo comercializa explícitamente como capaz de AGI-AGI, no solo como “avanzado”.
En el centro del anuncio se encuentra Daniel Kwan, fundador de Integral AI y ex-investigador senior en los equipos Brain y DeepMind de Google, donde supuestamente trabajó en aprendizaje por refuerzo a gran escala y transformadores multimodales. El currículum de Kwan—publicaciones sobre métodos de gradiente de política, trabajos iniciales en agentes basados en transformadores y experiencias en prototipos internos de Gemini—otorga a Integral un nivel de credibilidad técnica que la mayoría de las startups de IA no pueden falsificar.
Integral afirma que su sistema utiliza un backbone de 400 mil millones de parámetros con un diseño de Mezcla de Expertos, similar en esencia al Neotron 3 de Nvidia y otros modelos dispersos, pero conectado a un "controlador agente" que puede llamar a herramientas, navegar por la web y operar interfaces de software. La empresa ya está demostrando el modelo resolviendo auditorías de hojas de cálculo en múltiples pasos, refactorizando grandes bases de código y recorriendo interfaces desconocidas utilizando solo píxeles de pantalla e instrucciones de texto.
Los mercados reaccionaron de inmediato pero de manera desigual. En X, varios investigadores destacados compararon la tecnología de AGI con lanzamientos anteriores sobrevalorados, señalando la redacción más cautelosa de OpenAI y Google respecto a los modelos de la clase GPT-5 y Gemini. Los primeros fragmentos de referencia que Integral compartió—MMLU, GSM8K y suites personalizadas de "trabajo del conocimiento"—muestran puntuaciones sólidas pero no claramente sobrehumanas, alimentando una ola de escepticismo entre académicos y evaluadores independientes.
Sin embargo, los inversores y compradores empresariales no lo desestimaron por completo. Los agentes de herramientas que pueden operar software real de manera confiable son exactamente lo que los equipos de automatización de Fortune 500 desean, y Integral afirma que los clientes piloto ya utilizan el modelo en flujos de trabajo de finanzas, legales y operaciones. Si las demostraciones sobreviven a la replicación de terceros, "capaz de AGI-AGI" deja de ser solo un adjetivo de presentación y comienza a parecerse a una nueva categoría de producto.
Eso deja una pregunta directa flotando sobre toda la industria: ¿Está Integral AI adelantándose al término AGI para llamar la atención, o un exinsider de Google acaba de lanzar silenciosamente el primer sistema del mundo que se comporta menos como un chatbot y más como un colega junior?
Descifrando 'Capaz de AGI': Hype vs. Horizonte
Integral AI basa su afirmación de ser “capaz de AGI-AGI” en una idea técnica y concreta: un modelo que puede aprender de manera autónoma de su entorno en lugar de depender de conjuntos de datos masivos y precurados. En su enfoque, el sistema observa flujos de imágenes en bruto, interfaces, documentos y datos de sensores, y luego actualiza sus propias políticas internas al instante, más parecido a un agente de aprendizaje por refuerzo que a un modelo de lenguaje grande estático. La compañía argumenta que una vez que puedes adaptarte continuamente de esta manera, tienes el sustrato en el cual podría surgir la inteligencia general artificial.
Esa definición elude silenciosamente lo que la mayoría de los investigadores quieren decir con AGI. En la investigación de IA convencional, AGI implica inteligencia general a nivel humano: la capacidad de entender, planificar y actuar de manera flexible en casi cualquier dominio, con robustez, transferencia y sentido común comparables a los de una persona. Con ese estándar, "capaz de AGI-AGI" suena más a "arquitectónicamente interesante" que a "las máquinas ahora son nuestros pares cognitivos."
Donde Integral AI está alineada con el campo es en su impulso hacia modelos que pueden perceber, razonar y actuar como agentes unificados. La empresa describe un sistema único que ingiere: - Texto, imágenes y video - Estados de interfaz gráfica y respuestas de API - Posiblemente datos de sensores o robots del mundo real
y luego elige acciones: haciendo clic en interfaces, utilizando herramientas, emitiendo código o actualizando un plan. Ese es el mismo conjunto de capacidades agentivas y multimodales que empresas como OpenAI, Google y Zhipu (con GLM‑4.6V de 106 mil millones de parámetros más una variante Flash de 9 mil millones) están compitiendo por construir.
La brecha aparece cuando se analiza la evidencia. Las demostraciones públicas de Integral AI hasta ahora se asemejan a prototipos de investigación en etapas tempranas: clips cortos de navegación de la interfaz de usuario, robótica simple y resolución de acertijos restringidos, sin cifras concretas. No hay estándares de referencia estandarizados, ni resultados cara a cara en conjuntos de datos como MMLU, MMBench o AgentBench, ni estudios de ablación que demuestren que el aprendizaje autónomo supera al ajuste fino convencional.
Esa desconexión entre la retórica y los resultados es importante. Afirmar ser el “primer AGI-capaz en el mundo” establece expectativas de un modelo de clase GPT-4 que puede manejar tareas arbitrarias de manera robusta, adaptarse en línea y explicar su razonamiento. Lanzar un puñado de demostraciones poco impresionantes sugiere una historia familiar: la investigación subyacente podría ser real, pero el marketing ya ha avanzado varias vueltas por delante de la ciencia.
El salto visionario de China con GLM-4.6V
El ecosistema de IA de China acaba de producir un contrapunto concreto a las vagas afirmaciones de "AGI-capaz": GLM-4.6V de Zhipu AI, un modelo multimodal que ya viene equipado con serias habilidades visuales y de razonamiento. Mientras que el Anuncio de AGI de Integral AI se apoya en una promesa audaz de aprendizaje autónomo, GLM-4.6V establece un punto de referencia en algo más fácil de verificar: puntos de referencia, parámetros y código funcional.
GLM-4.6V llega como un modelo de visión-lenguaje multimodal de código abierto que ingiere texto, imágenes, capturas de pantalla y páginas completas de documentos en una sola pasada. No solo agrega un título a las imágenes; analiza PDFs densos, interfaces desordenadas, diagramas y gráficos matemáticos, manteniendo el contexto a largo plazo intacto.
Zhipu envía dos variantes dirigidas a diferentes realidades de implementación. El GLM-4.6V completo cuenta con aproximadamente 106 mil millones de parámetros para cargas de trabajo a escala en la nube, mientras que GLM-4.6V-Flash se reduce a alrededor de 9 mil millones de parámetros para escenarios de baja latencia, en dispositivo o en el borde.
Ambos modelos soportan ventanas de contexto en el rango de 128K tokens, lo cual es importante para documentos del mundo real que abarcan decenas o cientos de páginas. Esa capacidad permite tareas como la revisión de contratos de principio a fin, el análisis de documentos técnicos o las guías de aplicaciones de múltiples pantallas sin tener que fragmentar el contenido en partes que pierden calidad.
En las pruebas de referencia, Zhipu presenta GLM-4.6V como la mejor opción entre los modelos de lenguaje visual abiertos con escalas de parámetros similares. Las pruebas internas y de terceros destacan puntuaciones sólidas en: - Comprensión de documentos - Análisis de capturas de pantalla y GUI - Interpretación de diagramas y gráficos - Respuestas a preguntas visuales y razonamiento matemático
Lo que distingue al GLM-4.6V de muchos competidores occidentales es su razonamiento conjunto a través de modalidades de manera nativa. Puedes introducir una captura de pantalla, un formulario escaneado y una consulta de texto simultáneamente, y el modelo sigue el diseño, el texto y las pistas visuales como un único problema de razonamiento en lugar de simplemente añadir OCR a un LLM.
Ese diseño convierte a GLM-4.6V en un competidor abierto y creíble del stack de visión Gemini de Google y del nivel GPT-4.1/4.2V de OpenAI. Los desarrolladores obtienen un modelo que pueden auto-alojar, ajustar y conectar a agentes para la automatización de interfaces, búsqueda empresarial o flujos de trabajo de cumplimiento sin rendirlo todo a APIs cerradas.
Por qué tus solicitudes están a punto de volverse obsoletas.
Los prompts están convirtiéndose silenciosamente en una interfaz de usuario heredada. Modelos como GLM‑4.6V no solo leen tus palabras; ven tu pantalla, analizan tus PDFs y rastrean la estructura a través de más de 100,000 tokens de texto e imágenes mezcladas. Eso cambia lo que "dices" a una IA de prosa verbosa a algo más cercano a una especificación de producto.
En lugar de redactar una solicitud de un párrafo, le entregas al modelo una captura de pantalla de tu panel de análisis y escribes: “Automatiza esto basado en tendencias mensuales y envíame anomalías por Slack.” GLM‑4.6V puede inspeccionar los ejes del gráfico, la leyenda, los filtros e incluso el diseño de la interfaz para inferir el modelo de datos subyacente. Tu texto se convierte en un objetivo, y la captura de pantalla se convierte en el contexto sobre el que el modelo realmente razona.
El facilitador clave es la llamada de funciones multimodales nativas. En lugar de obligarte a realizar OCR en una imagen o describir manualmente un diseño, GLM‑4.6V pasa imágenes en bruto, diagramas o páginas de documentos directamente a herramientas y agentes. Una sola llamada puede agrupar: - Un contrato escaneado de 20 páginas - Una captura de pantalla de un producto - Una instrucción corta de texto
Ese paquete fluye a través de una cadena de herramientas que puede buscar, reescribir, ejecutar código o activar APIs externas, todo basado en lo que el modelo "vio".
La ingeniería de prompts, como un arte de elaboradas invocaciones, comienza a parecer obsoleta. Ya no es necesario especificar: "En la tarjeta de la esquina superior derecha etiquetada ‘MRR’, identifica los cambios mes a mes..." cuando el modelo puede localizar visualmente el widget de MRR y leer sus números. La parte difícil pasa de la redacción a la delimitación: definir restricciones, fuentes de datos, permisos y modos de fallo aceptables.
La interacción pasa de una conversación amena a definir objetivos para agentes autónomos. Apuntas a un tablero de Figma y dices: “Convierte este flujo en una experiencia de incorporación funcional y conéctalo a nuestro sandbox de Stripe.” El agente utiliza la pila de visión de GLM-4.6V para comprender el diseño, la jerarquía y el texto, y luego usa herramientas de código, sistemas de diseño y tuberías de implementación sin que tengas que narrar cada paso.
A medida que los modelos mejoran en el razonamiento visual-textual conjunto, los prompts se asemejan más a informes de misión. Proporcionas artefactos—capturas de pantalla, fotos de pizarras, tableros de control—y un objetivo conciso. El sistema se encarga de la traducción de lo que le muestras a lo que necesita ejecutarse.
La Economía de la IA Acaba de Cambiar.
La inteligencia artificial multimodal de alta gama actualmente castiga a cualquiera que toque el video. Las API de vanguardia de OpenAI, Anthropic y Google cobran por token, y los flujos de trabajo de video explotan el conteo de tokens: cada cuadro o fotograma clave muestreado se convierte en texto, cada fragmento de subtítulo y transcripción se suma. Ejecutar unas pocas horas de metraje en 1080p a través de GPT‑4o o Claude 3.5 Sonnet puede hacer que tu factura se dispare a cientos de dólares.
GLM‑4.6V aborda ese problema desde dos ángulos: pesos abiertos y precios agresivos. Zhipu AI ofrece el modelo en la nube de 106 mil millones de parámetros a tarifas que superan con creces a las de los rivales occidentales, con algunos proveedores chinos cotizando por debajo de $0.30 por millón de tokens de entrada y $0.90 por millón de salida. Cuando estás procesando decenas de millones de tokens al día en flujos de vigilancia, grabaciones de interfaz de usuario o capturas de pantalla de soporte al cliente, esa diferencia se convierte en una partida presupuestaria.
Luego está GLM‑4.6V‑Flash, el hermano de 9B parámetros ajustado para implementaciones locales y en el borde. Los equipos pueden ejecutarlo en un par de GPUs de gama alta o en una estación de trabajo bien equipada, pagar una sola vez por el hardware y procesar esencialmente capturas de pantalla, PDFs y diagramas ilimitados. Para cargas de trabajo continuas—cámaras de seguridad, monitoreo industrial, análisis de juego—la inferencia local cambia la economía de alquiler por llamada a infraestructura de costo fijo.
Esta presión de precios llega a un mercado donde OpenAI y Anthropic todavía se comportan como proveedores de SaaS premium. Sus niveles multimodales agrupan: - Precios más altos por token para entradas de imagen y video - Límites de tasa estrictos - Políticas de exceso opacas
GLM‑4.6V y modelos similares de Qwen, LLaVA y NVIDIA NeMo proponen otra estrategia: poseer la infraestructura y alquilar solo cuando sea necesario. Esto desafía a los incumbentes en cargas de trabajo grandes y predecibles y relegando a las APIs propietarias a roles de nicho, “solo si necesitamos un rendimiento de vanguardia”.
Modelos de visión-lenguaje más económicos y potentes también cambian quiénes pueden construir sistemas de IA complejos. Una startup en Yakarta puede ajustar GLM-4.6V-Flash en facturas y formularios de envío locales sin un presupuesto de API de siete cifras. Un estudio indie de dos personas puede lanzar un entrenador en el juego que lee tu HUD y minimapa en tiempo real, funcionando completamente en la PC del jugador.
A medida que los modelos multimodales se vuelven accesibles y lo suficientemente buenos, la restricción pasa del dinero a la imaginación. La próxima ola de productos de IA—testers de interfaz de usuario autónomos, inspectores de fábrica siempre activos, copilotos nativos de documentos—ya no pertenece exclusivamente a las empresas que pueden permitirse tokens avanzados a gran escala.
La Revolución Silenciosa de Nvidia: Potencia en tu PC
El último movimiento de Nvidia hacia el poder de la inteligencia artificial local es Neotron 3, un modelo de lenguaje Mixture-of-Experts de 30 mil millones de parámetros con pesos abiertos. Diseñado para velocidad y eficiencia, se dirige a la brecha entre modelos diminutos en dispositivos y sistemas de frontera en la nube. Nvidia afirma que Neotron 3 supera a otros modelos de aproximadamente 30 mil millones como GPT-4.1-OSS y Qwen 3 30B en pruebas estándar mientras se mantiene lo suficientemente liviano para una implementación práctica.
La Mezcla de Expertos, o MoE, invierte la economía habitual de los modelos densos. En lugar de activar todos los parámetros para cada token, Neotron 3 utiliza 128 expertos con solo 6 activos por token, de modo que la mayoría de los 31.6B de parámetros permanecen inactivos en cualquier paso dado. Obtienes la capacidad de un modelo mucho más grande con la huella de computación de algo más cercano a un LLM de tamaño mediano.
Que la arquitectura es importante si quieres que la inteligencia artificial avanzada funcione directamente en tu propio hardware. MoE permite que Neotron 3 alcance un alto rendimiento en las GPU modernas mientras mantiene la latencia lo suficientemente baja para un uso interactivo: asistentes de codificación, copilotos locales o chats de documentos privados que nunca salen de tu máquina. Sacrificas un poco de rendimiento absoluto por una velocidad predecible y controlable.
La privacidad y la soberanía están en el centro de este cambio. Un modelo como Neotron 3 puede residir en una estación de trabajo, un servidor en el borde o un NAS de pequeñas empresas, manejando: - Contratos y correos electrónicos sensibles - Código fuente y registros de compilación - Análisis internos y tableros de control
No se necesitan transmitir indicaciones o incrustaciones a la nube de un proveedor. Esto contrasta marcadamente con las afirmaciones "Primero en el mundo capaz de AGI-AGI" únicamente en la nube de actores como Integral AI, que promueven sistemas centralizados masivos en lugar de infraestructura personal; consulte Integral AI Unveils World’s First AGI-AGI-capable Model - Business Wire para esa visión.
Neotron 3 señala hacia dónde cree Nvidia que va el mercado: no solo centros de datos hiperescalables, sino herramientas de la era de AGI de clase PC, donde individuos y pequeños equipos ejecutan modelos serios localmente, en sus propios términos.
El sorprendente giro de GPT-5.2 hacia el 'valor económico'
GPT‑5.2 llegó con un gran impacto para muchos usuarios cotidianos. Los feeds sociales se llenaron de comparaciones lado a lado que lo calificaban de “mediocre”, “retrasado” o “no mejor que el 5.1” para la redacción creativa, trucos de programación o charlas casuales. Sin embargo, dentro de las empresas, los primeros adoptantes informaron en silencio algo diferente: un modelo que de repente se sentía extrañamente competente en trabajos de conocimiento.
Las propias gráficas de OpenAI explican la desconexión. En lugar de perseguir ganancias marginales en indicadores académicos, GPT-5.2 destaca en GDP-V—abreviatura de “Producto Interno Bruto-Valioso”, un indicador sintético que mide cuán bien un modelo realiza tareas económicamente útiles. En ese eje, OpenAI afirma que GPT-5.2 aproximadamente duplica la puntuación de 5.1, uno de los mayores saltos entre generaciones que han demostrado.
GDP‑V prueba lo que realmente aparece en un balance: redactar RFPs, estructurar informes, gestionar hojas de cálculo desordenadas y convertir puntos clave vagos en presentaciones listas para ejecutivos. GPT‑5.2 refleja ese sesgo. Está ajustado para crear presentaciones de PowerPoint a partir de resúmenes en bruto, limpiar y reconciliar datos en Excel, y razonar a través de flujos de trabajo empresariales de múltiples pasos con menos alucinaciones y menos necesidad de orientación.
La escritura creativa, la lluvia de ideas extravagante y las charlas abiertas se sienten menos interesantes porque no eran el objetivo. Los usuarios que tratan a GPT‑5.2 como un GPT‑4 más poderoso para ficción, indicaciones de fan art o diálogos filosóficos se chocan de lleno con su nueva personalidad: más conservadora, más literal, más de "consultor" que de "coescritor". Para un CFO, eso es una característica. Para un novelista, se siente como una degradación.
Este cambio revela hacia dónde se ha movido el mercado. Los modelos de frontera ahora cuestan decenas de millones de dólares para entrenar y operar; no pueden justificar esa tasa de gasto en chatbots gratuitos y cuentos para dormir. OpenAI está optimizando explícitamente para sectores que impactan el PIB: finanzas, consultoría, legal, operaciones, software empresarial y automatización interna.
Puedes ver cómo se está formando el bloqueo estratégico. Un modelo que es de clase mundial en:
- 1Presentaciones de PowerPoint y informes para la junta
- 2Modelado en Excel y análisis de escenarios
- 3Flujos de trabajo de políticas, contratos y cumplimiento
slots directamente en Microsoft 365, CRM de clientes y herramientas internas. GPT-5.2 es menos una actualización de chatbot de propósito general y más una señal de que la carrera por el "Primer AGI-capaz del Mundo" ahora se mide a través de los ingresos trimestrales.
El Auge de los Súper Agentes de IA
El poder se está trasladando de los modelos en bruto a los superagentes que los envuelven. Manis 1.6 y Poetic muestran cómo delgadas capas de orquestación, memoria y autocrítica pueden convertir LLMs genéricos en sistemas que se parecen sospechosamente a compañeros de trabajo autónomos en lugar de chatbots esperando instrucciones.
Manis 1.6 se adentra en esto al encadenar múltiples herramientas y subagentes alrededor de un modelo base. Descompone una solicitud en tareas atómicas, las dirige a rutinas especializadas y luego fusiona los resultados, de modo que "investigar este mercado y redactar un plan de lanzamiento" se convierte en horas de navegación automatizada, agrupamiento y redacción con mínima intervención humana.
Poetic va aún más allá en el ámbito del razonamiento. Construido sobre modelos de lenguaje existentes, superó el estándar ARC-AGI no entrenando un nuevo modelo de frontera, sino añadiendo un ingenioso andamiaje de razonamiento y un bucle de auto-auditoría que obliga al sistema a probar y refinar sus propias hipótesis antes de comprometerse con una respuesta.
ARC-AGI es notoriamente hostil al reconocimiento de patrones; exige razonamiento abstracto sobre pequeños rompecabezas visuales. Poetic envuelve el modelo base en un proceso que: - Enumera reglas candidatas - Simula cada regla en ejemplos - Descarta hipótesis inconsistentes - Itera hasta que surge un conjunto de reglas satisfactorio
Esa arquitectura impulsó el rendimiento del ARC-AGI de Poetic mucho más allá de las líneas de base típicas de LLM, insinuando que el comportamiento capaz de AGI-AGI puede provenir de mejores "cerebros alrededor del cerebro", no solo de un mayor conteo de parámetros. Las decisiones de diseño del producto — cómo descompones las tareas, verificas los resultados y permites que los agentes llamen herramientas — empiezan a importar tanto como los pesos subyacentes.
Por eso “la IA general probablemente surgirá del diseño de productos” se siente menos como un eslogan y más como un mapa de ruta. La andamiaje agentico convierte modelos estáticos en sistemas que planean, recuerdan y se autocorrigen, desde agentes de investigación aumentada por recuperación hasta refactores de código que realizan pruebas, bisecan fallos y corrigen regresiones por sí mismos.
Los usuarios ya experimentan esto como trabajo autónomo, no como conversación. Los agentes de estilo poético procesan suites de referencia y herramientas de evaluación; plataformas similares a Manis gestionan flujos de trabajo de varias horas que abarcan navegadores, interfaces de línea de comandos y APIs en la nube, y luego te entregan un informe final, un panel de control o una diferencia de código.
Vinculados a modelos como GLM-4.6V y Neotron 3, estos superagentes pueden ver, leer y actuar a través de capturas de pantalla, PDFs y archivos locales sin necesidad de constantes indicaciones. La interfaz del chatbot se convierte en un ticket de trabajo: tú describes el resultado, el agente descompone, ejecuta, audita y solo te molesta cuando una decisión real necesita la intervención humana.
Filtrando la Señal del Ruido en la Fiebre del Oro de la IA
Los departamentos de marketing hablan a gritos sobre modelos capaces de AGI-AGI; los ingenieros envían discretamente sistemas que realmente cambian los flujos de trabajo. GLM-4.6V, Neotron 3 y plataformas agentivas como Poetic apuntan en la misma dirección: IA práctica, automatizada y multimodal que se comporta menos como un chatbot y más como una infraestructura.
La capacidad multimodal ahora significa más que "poder ver imágenes". GLM-4.6V ingiere capturas de pantalla, PDFs y diagramas junto con texto, realiza razonamientos de largo contexto sobre más de 100,000 tokens y opera agentes que navegan a través de interfaces de usuario o analizan contratos completos. La instrucción se reduce de párrafos de indicaciones a un único objetivo general que el sistema descompone por sí mismo.
Al mismo tiempo, los modelos locales eficientes están rompiendo el monopolio de la IA en la nube. El Neotron 3 de NVIDIA comprime un modelo Mixture-of-Experts de 30B parámetros en presupuestos de hardware que anteriormente alcanzaban un máximo de 7B, con 128 expertos y solo 6 activos por token. GLM-4.6V-Flash impulsa el razonamiento visión-lenguaje en un paquete de 9B parámetros que puede ubicarse en una estación de trabajo o en una caja de borde, en lugar de como parte de una granja de GPU de hiperescalado.
Las pilas agénticas se montan sobre este sustrato. Sistemas como Manis 1.6 o Poetic orquestan múltiples modelos, herramientas y flujos de recuperación en "superagentes de IA" persistentes que recuerdan el contexto, programan tareas y operan a través de aplicaciones. El salto en valor proviene menos de un único aumento de CI en un modelo base y más de interconectar esos modelos con herramientas, memoria y autonomía.
Contrastalo con los llamativos titulares de "el primer AGI del mundo". La afirmación de Integral AI de AGI-capaz del primer mundo y propuestas similares, como la startup perfilada aquí: La startup de un ex-veterano de Google afirma haber construido el primer modelo AGI del mundo, siguen siendo narrativas en gran medida no verificadas. Las victorias en benchmarks de GLM-4.6V, los números de eficiencia de Neotron 3 y el enfoque en el valor del PIB de GPT-5.2 son medibles.
La industria se encuentra lejos de una inteligencia general que pueda aprender cualquier tarea como lo hace un humano. Se acerca más a algo comercialmente explosivo: sistemas apilados, automatizados y multimodales que silenciosamente convierten "usa una IA" en "la IA ya lo hizo."
Tu próximo paso en el nuevo panorama de la IA
Comienza ensuciándote las manos con la nueva pila multimodal de código abierto. Despliega GLM‑4.6V‑Flash (9B) localmente a través de Ollama o vLLM, y combínalo con un codificador visual abierto como SigLIP o CLIP para prototipar agentes de captura de pantalla, lectores de PDF y bots de interfaz gráfica sin gastar tokens de GPT‑5.2 a $10+ por cada trabajo largo de video o documento.
Los desarrolladores deben rediseñar las entradas en torno a archivos, no a cuadros de chat. Construya flujos donde los usuarios puedan arrastrar: - PDFs de 200 páginas - Exportaciones de Figma - Capturas de pantalla de Excel - Cortos clips de video
Entonces, deja que el modelo maneje el diseño, las tablas y los diagramas directamente en lugar de obligar a los usuarios a copiar y pegar texto.
Los líderes tecnológicos necesitan dejar de pensar en “un modelo, un aviso” y comenzar a pensar en orquestación de modelos. Para un flujo de trabajo de producción, conecta un pequeño modelo local (Neotron 3 con 30 mil millones de parámetros) para enrutamiento y clasificación económicos, un modelo en la nube más potente para razonamiento complejo, y herramientas especializadas para búsqueda, RAG y ejecución de código.
Si diriges una startup, tu ventaja competitiva ya no es "usamos GPT‑5.2". Tu ventaja es el diseño de sistemas agenticos: cómo tu conjunto descompone problemas en pasos, elige herramientas, llama modelos y se recupera de fallos. Instrumenta cada agente con registros, trazas y costos por paso para que puedas ver por qué un flujo de trabajo cuesta $0.03 o $3.
Los entusiastas deben practicar deliberadamente más allá de la ingeniería de prompts. Clonen un repositorio como AutoGen, CrewAI o un agente de estilo Poético abierto, luego sustituyan GLM-4.6V para visión y una instancia local de Neotron 3 para texto para ver cómo se comporta realmente la coordinación entre múltiples agentes bajo carga.
Repiensa cada flujo de trabajo que aún asume solo entradas de texto. La revisión de contratos significa PDFs anotados, no cláusulas pegadas. El soporte al cliente significa registros, capturas de pantalla y transcripciones de llamadas. El análisis significa CSV, paneles y imágenes de gráficos, todo alimentado en una única ventana de contexto multimodal.
Mantenerse a la vanguardia ahora significa que comprendes cómo: - Elegir el modelo abierto adecuado para costos y latencia - Diseñar agentes que llamen a herramientas, naveguen y planifiquen de manera autónoma - Ajustar límites, memoria y bucles de retroalimentación
La ingeniería de prompts se convierte en una pequeña parte de un trabajo más grande: diseñar sistemas que puedan observar, leer, decidir y actuar.
Preguntas Frecuentes
¿Qué es un modelo 'capaz de AGI'?
Un modelo "capaz de AGI" es un término utilizado para describir sistemas de inteligencia artificial que pueden aprender nuevas tareas de manera autónoma sin conjuntos de datos preexistentes, particularmente en entornos de robótica o agentes. Se distingue de la verdadera AGI, que implica inteligencia a nivel humano en todas las tareas cognitivas.
¿Cómo cambia GLM-4.6V la generación de indicaciones en IA?
GLM-4.6V cambia las indicaciones al ir más allá del texto. Su herramienta nativa de llamadas multimodales permite a los usuarios proporcionar imágenes, documentos y capturas de pantalla directamente como contexto, lo que permite que la IA 'vea' y actúe sobre información visual sin descripciones manuales en texto.
¿Por qué son importantes los LLM locales como Neotron 3 de NVIDIA?
Los LLM locales son importantes para la privacidad, la velocidad y el control de costos. Al ejecutarse en el dispositivo, evitan que los datos sensibles se envíen a la nube, reducen la latencia y eliminan los costos por token basados en API para el uso frecuente.
¿Cuál es la importancia de que Poetic supere el benchmark ARC-AGI?
El éxito de Poetic muestra que los avances no se basan solo en modelos más grandes, sino en una arquitectura más inteligente. Al construir una capa de razonamiento y autoauditoría sobre los LLM existentes, logró un rendimiento superior a menos de la mitad del costo, demostrando el poder del andamiaje agente.