
Google presentó el 22 de abril en Google Cloud Next sus procesadores de octava generación, y por primera vez en la historia de los TPU dividió su chip insignia en dos variantes especializadas: el TPU 8t para entrenamiento y el TPU 8i para inferencia. La decisión refleja una tesis clara: el modelo de chip de propósito general ya no es suficiente para las cargas de trabajo de la era de los agentes de IA. Con el 8t, Google promete reducir los ciclos de desarrollo de modelos frontier de meses a semanas. Con el 8i, apunta a eliminar la latencia que limita los sistemas multi-agente en tiempo real. Ambos chips estarán disponibles de forma general en 2026 como parte del stack AI Hypercomputer de Google Cloud.
Por qué Google divide su chip por primera vez: la era de los agentes
Hasta la séptima generación, los TPU de Google eran diseños únicos que intentaban equilibrar rendimiento de entrenamiento e inferencia en un solo chip. Con los TPU 8t y 8i, Google reconoce oficialmente que las exigencias técnicas de ambas tareas son demasiado distintas para resolverlas con la misma arquitectura.
El contexto lo define Amin Vahdat, SVP y Chief Technologist de AI e Infraestructura de Google: la infraestructura del futuro debe soportar agentes que «razonan a través de problemas, ejecutan flujos de trabajo de múltiples pasos y aprenden de sus propias acciones en bucles continuos». Entrenar un modelo de esa escala requiere capacidad de cómputo masiva y tolerancia a fallos. Desplegar ese modelo en producción requiere latencia mínima. Un chip no puede optimizar ambos extremos simultáneamente —de ahí la bifurcación.
TPU 8t: entrenamiento a escala de un millón de chips
El TPU 8t está diseñado para el trabajo más computacionalmente intensivo del ciclo de IA: el entrenamiento de modelos frontier a escala. Sus especificaciones técnicas marcan un salto significativo respecto a la generación anterior (Ironwood):
- 9.600 chips por superpod con escala lineal hasta un millón de chips en un solo clúster lógico.
- 2 petabytes de HBM compartida entre todos los chips del pod.
- 121 ExaFlops de capacidad de cómputo por pod.
- Casi 3x de rendimiento de cómputo por pod respecto a la generación anterior.
- 97% de goodput —tiempo de cómputo productivo real, excluyendo fallos y reinicios—.
- 10x más rápido el acceso a almacenamiento mediante TPUDirect.
La escalabilidad sin degradación es el avance más relevante para los laboratorios de IA frontier. La arquitectura Virgo Network y el Optical Circuit Switching permiten redirigir automáticamente el tráfico alrededor de fallos de hardware, manteniendo el goodput elevado incluso en clústeres de cientos de miles de chips. Para modelos que tardan semanas en entrenarse, un nodo caído que detiene el proceso completo es inaceptable.
TPU 8i: inferencia de baja latencia para agentes en tiempo real
El TPU 8i resuelve el problema opuesto: no el poder bruto de entrenamiento, sino la velocidad de respuesta en producción. Los sistemas multi-agente modernos requieren que múltiples modelos se comuniquen entre sí con latencias de milisegundos —un estándar que los chips de inferencia anteriores no siempre cumplían bajo carga alta.
Las especificaciones clave del 8i:
- 288 GB de HBM por chip.
- 384 MB de SRAM on-chip, tres veces más que la generación anterior, lo que permite que el «working set» activo del modelo resida completamente en el chip sin acceder a memoria externa.
- 5x de reducción de latencia mediante el Collectives Acceleration Engine integrado en el chip.
- 80% mejor precio-rendimiento frente a la generación anterior.
- El doble de volumen de clientes servidos al mismo costo de infraestructura.
- 19,2 Tb/s de ancho de banda de interconexión, optimizado para modelos Mixture of Experts (MoE).
Citadel Securities, la firma de trading cuantitativo, fue citada por Google como uno de los primeros adoptantes que está «empujando los límites de lo posible» con los nuevos TPU. El uso en finanzas de alta frecuencia —donde la latencia se mide en microsegundos— valida la capacidad del 8i más allá de los benchmarks de laboratorio.
AI Hypercomputer: el ecosistema que rodea a los chips
Los TPU 8t y 8i no son productos aislados sino componentes de lo que Google denomina AI Hypercomputer, un stack unificado que combina hardware especializado (cómputo, almacenamiento, red), software abierto (JAX, MaxText, PyTorch, SGLang, vLLM) y modelos de consumo flexible. La propuesta es que los clientes no necesiten integrar piezas de distintos proveedores: todo el stack de entrenamiento e inferencia viene optimizado conjuntamente.
La eficiencia energética es otro diferencial destacado: hasta 2x mejor rendimiento por watt respecto a Ironwood, con refrigeración líquida de cuarta generación y conectividad de red integrada directamente en el chip.
Google vs Nvidia: complementario, no sustituto
La pregunta inevitable es si Google pretende sustituir a Nvidia con sus TPU propios. La respuesta corta es no —al menos por ahora. Google Cloud también ofrecerá los chips Vera Rubin de Nvidia más adelante en 2026, y ha anunciado colaboración con Nvidia en el framework de red Falcon para optimizar la interconexión entre chips de distintos fabricantes.
La estrategia de Google es posicionar los TPU como la opción nativa optimizada para sus propias cargas de trabajo (Gemini, Workspace, Search) y para clientes que construyen sobre Google Cloud, mientras mantiene a Nvidia disponible para quienes prefieren portabilidad de código o tienen cargas de trabajo ya optimizadas para CUDA. Para el mercado en su conjunto, la llegada del TPU 8t y 8i añade una alternativa creíble de alto rendimiento en un mercado donde Nvidia había acumulado ventaja casi sin competencia directa.
Con información de Google Blog, TechCrunch, CNBC y Interesting Engineering / Redacción VinzNetwork
y luego