- Google divideix les TPU v8 en dos xips especialitzats, 8t per a entrenament massiu i 8i per a inferència i raonament de baixa latència.
- TPU 8t arriba fins a 121 EFLOPs per superpod i millora fins a 2,8 vegades el cost-rendiment d'entrenament davant de la generació prèvia.
- TPU 8i multiplica per gairebé 10 el rendiment EFLOPs per pod, dispara la memòria HBM agregada i redueix dràsticament la latència d'inferència.
- En controlar tot el stack d'IA, Google evita la Nvidia tax i ofereix un rendiment per dòlar molt superior per a startups i grans empreses.

En plena explosió de la intel·ligència artificial generativa i els models gegants, s'ha obert una nova carrera: ja no es tracta només de qui dissenya el millor model, sinó de qui controla el maquinari que ho fa possible. Mentre moltes companyies segueixen depenent de l'ecosistema de GPU de NVIDIA, Google ha decidit anar per lliure i reforçar la seva aposta per les TPU, els seus propis acceleradors d'IA, que ja van per la vuitena generació amb les noves TPU v8t i v8i.
Aquestes TPU v8 arriben en un context on les Big Tech nord-americans estan buidant la xequera per assegurar-se dècades d'avantatge en còmput. En aquest escenari, Google combina dues cartes guanyadores: un stack d'IA totalment vertical (des de l'energia del data center fins al servei final al núvol) i uns xips cada cop més especialitzats. El resultat són les TPU v8t i v8i, dos processadors diferents per a dues missions crítiques: entrenament massiu i raonament/inferència a gran escala.
El context: la guerra del còmput entre Big Tech i la 'Nvidia tax'
En els darrers anys, la despesa a IA de les grans tecnològiques s'ha disparat fins a xifres marejants, amb una inversió agregada que ronda els centenars de milers de milions de dòlars en només un parell d'exercicis. En aquest grup destaquen Meta, Amazon, Microsoft, Apple i Google, que es reparteixen el tron del sector tecnològic i marquen el ritme de la cursa de models de frontera.
Sorprèn que, segons estimacions recents, sigui Amazon la que lideri la despesa directa a IA, seguida molt de prop per Google destina l'ordre de 185.000 milions de dòlars a aquest front. Meta també ha anunciat xifres desorbitades per reforçar la seva aposta per models de llenguatge i visió, fins i tot a costa de reestructuracions internes i retallades de plantilla.
Google, però, juga amb un avantatge estructural: dissenya i controla fins a sis capes completes del seu stack d'IA, des de la infraestructura elèctrica i de refrigeració del centre de dades fins als models Gemini que després ofereix com a servei. Això li permet esquivar el que molts ja anomenen la 'Nvidia tax': el marge brut del 70-80% que NVIDIA pot aplicar sobre GPU com H200 o Blackwell i que altres proveïdors han de pagar sí o sí.
Mentre OpenAI, Anthropic o Meta depenen d'aquestes GPUs, Google paga bàsicament costos de fabricació, empaquetat i enginyeria de les seves pròpies TPUs, sense el recàrrec de tercers. Segons dades de generacions anteriors com TPU v6e, això es tradueix en fins a 4 vegades millor rendiment per dòlar i reduccions de latència en inferència de fins al 96% usant stacks optimitzats com a vLLM.
Per a startups i empreses que es juguen la vida a la seva estructura de costos, aquesta diferència no és una simple optimització marginal: és una avantatge competitiu sostingut en rendiment per dòlar i en capacitat d'escalar sense arruïnar-se en maquinari de tercers.
Què són les TPU v8t i TPU v8i: dos xips, dues missions

Amb la vuitena generació dels Tensor Processing Units, Google ha pres una decisió que va a contracorrent d'altres fabricants: en lloc d'un xip “per a tot”, llança dues variants altament especialitzades, TPU v8t i TPU v8i. Aquesta divisió ja es va gestar el 2024, quan es va fer evident que les necessitats d'entrenament i les d'inferència/raonament divergirien cada cop més.
D'una banda, la TPU v8t (training) se centra en el entrenament de models de gran escala, inclosos models multimodals amb bilions de paràmetres. De l'altra, la TPU v8i (inference) està pensada per servir aquests models en producció, especialment en escenaris d'agents, reasoning a bucle i milions de consultes diàries amb finestres de context enormes.
A nivell de cadena de subministrament, Google també ha mogut fitxa. La versió d'entrenament, amb nom en clau Sunfish (TPU v8t), es fabrica en procés de 2 nm per TSMC i està dissenyada amb Broadcom, que lliura un paquet gairebé clau en mà amb dues matrius de còmput, un xiplet d'I/O i vuit bancs de memòria HBM3E d'alta capacitat. La versió d'inferència, Zebrafish (TPU v8i), va a càrrec de MediaTek, amb una arquitectura més senzilla d'una sola matriu i sis bancs de HBM, optimitzada per a latència, cost i volum.
Aquesta estratègia dual també busca reduir la pressió sobre recursos molt escassos com l?empaquetat avançat CoWoS i les memòries HBM, actualment copats per NVIDIA. Al diversificar contractes entre Broadcom, MediaTek i altres possibles socis, Google sassegura capacitat de producció i evita dependre en excés dun únic proveïdor en plena guerra pels semiconductors.
Segons anàlisis de firmes com TrendForce i SemiAnalysis, el mercat de xips d'IA personalitzats creixerà al voltant d'un 45% el 2026, molt per sobre del creixement previst per a GPU estàndard. Dins aquest pastís, les TPU v8 de Google són una peça clau per sostenir futures generacions de Gemini i els acords multi-gigavatio que ja ha signat amb empreses com Anthropic.
Especificacions de TPU 8t: el monstre d'entrenament
La TPU 8t és el múscul brut de la família. Està dissenyada per preentrenar models gegants d'IA en temps raonables i amb una eficiència de cost molt millor que la generació anterior. Cada xip integra 216 GB de memòria HBM per a còmput d'entrenament i 128 MB de SRAM on xip (Vmem), a més d'una amplada de banda de memòria de 6.528 GB/s.
En termes de potència de càlcul, TPU 8t arriba fins a 12,6 PFLOPs en format FP4 per xip, un salt enorme davant de generacions com TPU v5p. Com a comparació, aquelles v5p comptaven amb 95 GB d'HBM i 2.765 GB/s d'amplada de banda; ara parlem de més del doble tant en capacitat de memòria com en ample de banda efectiu.
Quan mirem l'escala de desplegament real, els nous Superpods de TPU 8t poden agrupar fins 9.600 xips per pod, davant dels 9.216 de la generació Ironwood (TPU v7). Això suposa 384 xips addicionals per pod i un còmput que arriba a 121 EFLOPs a FP4/FP8, gairebé triplicant els 42,5 EFLOPs que aconseguia un superpod Ironwood un any abans.
L'amplada de banda entre xips també s'ha disparat: cada TPU 8t gaudeix de 19,2 Tb/s d'amplada de banda d'escala-up i la xarxa s'ha reforçat amb Virgo, una topologia pensada per entrenar models de bilions de paràmetres. La interconnexió de centre de dades ha passat de 100 Gb/sa 400 Gb/s, cosa que equival a un augment del 300 % en capacitat de xarxa.
A nivell d'eficiència, Google parla d'una millora entre 170% i 180% en cost-rendiment d'entrenament (és a dir, 2,7-2,8 vegades més rendiment per dòlar) i d'un +124% en rendiment per watt davant d'Ironwood. Tot això es recolza, a més, a TPUDirect Storage, que redueix els hops intervinguts per CPU en carregar dades i baixa notablement les pod-hours necessàries per època d'entrenament.
Especificacions de TPU 8i: el cervell per a la inferència i el raonament
Si la 8t és força bruta, la TPU 8i és cervell i eficiència. Aquest xip està orientat a tasques de raonament, agents d'IA i càrregues d'inferència molt intensives, on la latència importa fins i tot més que el throughput absolut. Aquí Google ha prioritzat la memòria i la velocitat daccés per sobre de la potència teòrica màxima.
Cada TPU 8i integra 288 GB de VRAM HBM (davant dels 192 GB típics de generacions prèvies), juntament amb 384 MB de SRAM on-chip, el triple que la generació anterior, i una amplada de banda de memòria que puja fins a 8.601 GB/s, al voltant d'un 30% més que en 8t. A canvi, la potència bruta es queda en uns 10,1 PFLOPs FP4 per xip, una mica més petita que en la versió d'entrenament.
La veritable màgia de TPU 8i s'aprecia als Superpods. Davant els 256 xips per pod d'Ironwood el 2025, la nova generació permet escalar fins a 1.152 xips per superpod, multiplicant per 4,5 la capacitat. Això es tradueix en 11,6 EFLOPs a FP8 per pod, 9,8 vegades més que els 1,2 EFLOPs que oferia la generació anterior.
En memòria agregada, cada superpod 8i arriba prop de 331,8 TB de HBM, comparats amb els 49,2 TB d'abans. I, novament, l'amplada de banda entre xips per pod arriba a 19,2 TB/s, duplicant els valors previs. Aquest excés de memòria per pod encaixa de meravella amb models de context llarg i sistemes multimodals que necessiten manejar milions de tokens en una sola conversa.
La topologia de xarxa interna, anomenada Boardfly i desenvolupada en col·laboració amb l'equip de Google DeepMind, redueix dràsticament el diàmetre de la xarxa i, amb això, la latència de comunicació interna. El resultat són fins 5 vegades menys latència efectiva en sampling de LLM en temps real, una cosa clau per a agents que necessiten raonar, executar eines i respondre a lusuari gairebé immediatament.
Millores de xarxa, memòria i eficiència energètica a TPU v8
Més enllà del còmput brut, les TPU v8t i v8i representen un salt clar en tot allò que té a veure amb la xarxa d'interconnexió i la jerarquia de memòria, que al final són els veritables colls d'ampolla en models de frontera.
En xarxa, Google ha passat d'enllaços de 100 Gb/sa 400 Gb/s al centre de dades, és a dir, un increment del 300 % en ample de banda al seu xarxa d'interconnexió. La latència de xarxa en inferència s'ha reduït al voltant d'un 56%, en part gràcies a una disminució equivalent en la distància d'encaminament, que baixa de 16 salts lògics a uns 7 a les rutes crítiques.
En memòria, la TPU 8i multiplica per tres la capacitat de SRAM en xip (+200 %), passant de valors previs a aquests 384 MB, cosa que permet escorcollar més contextos, KV-caches i estructures internes sense tocar HBM. A HBM, la 8i veu un augment de capacitat del 50 % (de 192 GB a 288 GB), mentre que la 8t puja un 12,5 % (de 192 GB a 216 GB) però amb un enfocament en bon equilibri entre cost i rendiment.
En eficiència, les dades són especialment cridaneres per a qui paga la factura elèctrica. TPU 8t ofereix un guany de +124% en rendiment per watt en entrenament i TPU 8i s'apunta un +117% en rendiment per watt en inferència davant d'Ironwood. És a dir, pràcticament es dobla l'eficiència energètica mentre es multiplica el rendiment total.
Aquest combo de més memòria, més ample de banda i menys latència es tradueix en una cosa molt tangible: per a un model com Gemini 3.1 Pro, desplegat avui sobre TPU 8i, Google pot oferir APIs més barates (al voltant d'un 50% menys de cost), més ràpides i amb un maneig de context llarg moltíssim millorat, sense canviar el model base.
Impacte a Gemini 3.1 i als models del matí
L'arribada de TPU 8i i 8t no és un exercici acadèmic, sinó la base del mapa real de models de Google. Per a Gemini 3.1 Pro i els seus successors immediats, la 8i significa servir més peticions al mateix cost i amb menys latència, a més d'obrir la porta a contextos de diversos milions de tokens amb una qualitat estable.
Amb vista als models de propera generació, la TPU 8t és la peça que elimina molts dels colls d'ampolla actuals. Gràcies a la seva xarxa Verge, a la possibilitat d'escalar fins més d'un milió de TPU en un sol clúster i als 121 EFLOPs per superpod, Google es pot plantejar entrenar sistemes d'IA profundament multimodals amb bilions de paràmetres sense que les hores de pod es disparin a nivells inassumibles.
Això té conseqüències directes per a qualsevol que utilitzi productes com Gemini Enterprise: sense tocar una línia de codi, les millores de 8i s'hereten automàticament al plànol de servei. El “sostre” de complexitat i mida de model que es pot posar en producció puja diversos esglaons durant el cicle 2026-2027.
Ara bé, també hi ha limitacions. La disponibilitat general (GA) d'aquestes TPU v8 està prevista per a finals del 2026, i molts dels benchmarks que s'han publicat fins ara són números auto-reportats per Google. Faran falta un o dos trimestres d'ús real per part de clients primerencs perquè apareguin mesuraments independents i comparatius seriosos davant de GPU Blackwell, H200, MI300X o Gaudi3.
Amin Vahdat, SVP de Google per a IA i infraestructura, ja ha avançat dues tendències clares: un ressorgiment de les CPUs de propòsit general com a capa d'orquestració per a sandboxes d'agents i execució d'eines, i una especialització encara més gran del maquinari d'IA. On tenim dos xips (entrenament i inferència), en el futur podríem veure més variants afinades a tipus de model o patrons d'ús molt concrets.
TPU v8 davant NVIDIA i altres competidors el 2026
La realitat del mercat és que NVIDIA segueix dominant amb mà de ferro el segment d'acceleradors d'IA, amb una quota propera al 90% el 2025. Això no vol dir, però, que jugui sola. Google produeix milions de TPU Ironwood (v7) i té acords que reserven més d'un milió d'unitats per a partners com Anthropic a partir del 2026.
Ironwood ja va plantar cara a NVIDIA Blackwell: cada xip ofereix uns 4,6 PFLOPs FP8, lleugerament per sobre dels 4,5 PFLOPs FP8 del B200, amb 192 GB de HBM3e i un TDP de 600 W. Enfront de generacions prèvies, Ironwood multiplica per 10 el rendiment de TPU v5p i per 4 l'eficiència davant Trillium (TPU v6e), que ja per 918.
En inferència, Google assegura retallades al voltant del 30% en cost de servei quan s'usa vLLM sobre TPU davant de desplegaments equivalents a GPU, i les TPU v8 vénen a reforçar encara més aquesta diferència estructural. Mentre la resta del sector paga la 'Nvidia tax', Google ven capacitat basada en xips que ha dissenyat a mida per a les càrregues de treball.
Això no vol dir que la resta es quedi quiet. AMD empeny amb MI300X, que ofereix un rendiment proper al 70% del de NVIDIA a menor cost; Intel amb Gaudi3 aposta per retallar fins a un 40% el cost d'entrenament davant de GPUs Nvidia; AWS juga amb Trainium i Inferentia per oferir reduccions de cost de fins al 50% en inferència davant A100. Fins i tot MediaTek prepara els seus xips d'inferència econòmics en nodes avançats per al 2027.
En aquest ecosistema, la jugada de Google amb TPU v8 el situa en un punt particular: no cerca vendre xips a la resta del món, sinó tancar el cercle del seu propi núvol i fer que entrenar o servir a Google Cloud sigui tan atractiu en cost i latència que la dependència de NVIDIA deixi de ser assumible per a molts.
Què suposa TPU v8 per a la teva startup o empresa
Si estàs muntant una startup d'IA o escalant un producte existent, les TPU v8t i 8i no són només “tecnologia bonica de Google”: marquen quant et costarà competir. El punt clau és que, a igualtat de pressupost, pots entrenar models més grans o servir més usuaris si aprofites una arquitectura amb millor rendiment per dòlar.
Per a entrenament de models propis, el que t'interessa és la disponibilitat de TPU 8t, l'accés a la xarxa Verge i els acords de SLA que t'ofereixi Google quant a goodput (no només EFLOPs teòrics). El que és intel·ligent és comparar cost per token entrenat davant d'alternatives amb H200 o Blackwell i valorar quant repercuteix al teu roadmap.
Per inferència i agents en producció, val la pena provar TPU 8i a Vertex AI oa través de stacks com vLLM, mesurant latència real i cost per milió de tokens davant la teva infraestructura actual. Aquí influeixen factors com la mida de la finestra de context, el tipus de model i el trànsit que esperes, però la gran capacitat de HBM per pod juga a favor de contextos llargs i models multimodals.
Si consumeixes serveis tipus Gemini Enterprise, les millores de 8i arribaran “de sèrie”. El teu límit ja no el marcarà tant el maquinari com el disseny del teu producte, lexperiència dusuari i com integris raonament, eines externes i context empresarial.
A regions com Espanya i Llatinoamèrica, on el cost de capital és més ajustat, l'accés a TPU via Google Cloud (per exemple, a regions com Madrid o Santiago) permet esquivar la compra directa de GPU on-prem. Les projeccions apunten a una adopció de infraestructura no-NVIDIA d'entorn del 20% a LATAM a mitjà termini, amb estalvis que poden anar del 50 al 70 % davant de aixecar el teu propi clúster de GPUs.
Limitacions reals i punts a vigilar a TPU v8
Per molt espectacular que sigui la fitxa tècnica de TPU v8, no convé autoenganyar-se: n'hi ha limitacions pràctiques i costos de fricció que has de tenir en compte abans de casar-te amb aquesta plataforma per a diversos anys.
El primer és el calendari: la disponibilitat general de TPU 8t i 8i està prevista per a finals del 2026. És a dir, de moment estem parlant d'accés anticipat, desplegaments interns de Google i clients molt seleccionats amb contractes a llarg termini. Si necessites capacitat demà mateix, hauràs de mirar Ironwood, Trillium o GPU ja al mercat.
El segon és la portabilitat. L'ecosistema CUDA de NVIDIA fa més de 15 anys que madura, amb una quantitat brutal de llibreries, exemples, eines i talent disponible. Migrar a JAX/XLA o PyTorch/XLA no és gratis: hi ha codi per reescriure, kernels per adaptar i equips per formar. Per a contractes multianuals, aquesta fricció pesa en la decisió.
A més, bona part dels números de rendiment de Google són auto-reportats i mesurats en condicions de laboratori molt favorables. Caldrà veure benchmarks independents a MLPerf i experiències d'early adopters per entendre com es comporten realment les TPU v8 sota càrregues mixtes, amb pipelins de dades reals i models plens de petites rareses.
Tot i així, el missatge estratègic és clar: la carrera de còmput de frontera ja no va només de qui compra més H100, sinó de qui controla més capes de l'stack. Ara mateix, aquesta llista curta de companyies amb control vertical real es redueix, fonamentalment, a dos noms: Google i NVIDIA. I en aquest pols, les TPU v8 són l'aposta més agressiva que hem vist de Google fins ara.
En conjunt, les TPU 8t i 8i dibuixen un escenari en què el maquinari deixa de ser un coll d'ampolla inevitable i es converteix en una palanca estratègica: més memòria HBM per pod, xarxes que escalen centenars de milers o milions de xips, latències retallades a la meitat i costos per token que es desplomen. Per a qualsevol empresa hispanoparlant que vulgui jugar a lligues d'IA avançada, entendre bé el que ofereix Google amb TPU v8 pot marcar la diferència entre escalar amb cap o quedar atrapada pagant la 'Nvidia tax' durant anys.