C’è stato un giorno in cui DeepSeek ha sorpreso mezzo mondo dimostrando che si poteva arrivare lontano con meno. Oggi torna con la versione V3.1 e un messaggio che non passa inosservato: il modello è pronto per la prossima generazione di chip cinesi. Non stiamo parlando di un ribaltamento automatico del mercato, ma di una scommessa concreta che punta in una direzione scomoda per NVIDIA e compagnia. Se questa sintonia tecnica con l’hardware cinese si traduce in prestazioni, il dibattito su chi alimenta l’IA in Cina avrà un sapore molto diverso. Secondo la nota della società, V3.1 inaugura un’inferenza ibrida in puro stile GPT-5: un unico sistema con due percorsi, Think (ragionamento profondo) e Non-Think (risposta rapida), commutabili dal sito web e dall’app. La formulazione è chiara: “Inferenza ibrida: Think & Non-Think, un modello, due modelli”. L’azienda sottolinea inoltre che la versione Think “raggiunge le risposte in meno tempo” rispetto al suo predecessore. In altre parole, non cambiano solo i pesi, ma anche le modalità di inferenza già in uso.
La frase che riassume tutto: un FP8 “pensato per i chip nazionali”
In un commento pubblicato sul suo ultimo post su WeChat, DeepSeek scrive: “UE8M0 FP8 è per la prossima generazione di chip nazionali”. Questo è il punto che fa scattare l’allarme: suggerisce che l’azienda abbia adattato il formato dei dati, apparentemente un FP8 che etichetta come UE8M0, alla prossima ondata di processori cinesi. Bloomberg e Reuters riprendono questo messaggio e lo sintetizzano: V3.1 è “personalizzato per funzionare con chip IA di prossima generazione cinesi”. In altre parole, ottimizzazione orientata all’ecosistema locale.
FP8 è un formato a 8 bit che pesa la metà di FP16/BF16. Con supporto nativo, consente maggiori prestazioni per ciclo e meno memoria, a condizione che il ridimensionamento sia ben calibrato. Nella scheda ufficiale di Hugging Face si legge che DeepSeek-V3.1 “è stato addestrato utilizzando il formato di scala UE8M0 FP8”, il che indica che non si tratta solo di un pacchetto di pesi, ma che l’addestramento e l’esecuzione sono stati espressamente adattati a tale precisione. La parte delicata, e conviene essere cauti, è che tutto sembra indicare che in futuro verrà lanciata una serie di chip che potranno sfruttare questo schema in modo nativo.
Quindi, questa è una cattiva notizia per NVIDIA? I dati dell’anno fiscale conclusosi lo scorso 26 gennaio indicano che la Cina ha rappresentato circa il 13% dei ricavi dell’azienda guidata da Jensen Huang. Se parte del calcolo dell’IA in Cina passa dal classico duo GPU NVIDIA + ecosistema CUDA a soluzioni domestiche che funzionano con il formato UE8M0 FP8 e danno buoni risultati (presumibilmente chip Ascend di Huawei), la domanda di soluzioni occidentali potrebbe erodersi nel tempo.
Tutto questo avviene sullo sfondo dei controlli sulle esportazioni degli Stati Uniti: restrizioni che miravano a frenare l’accesso della Cina ai chip all’avanguardia e che hanno anche accelerato la sua scommessa sull’autosufficienza. Quest’anno l’amministrazione Trump ha ripristinato con alcune condizioni l’esportazione dell’H20, un chip ridimensionato per la Cina. Da allora, lo stato dell’H20 è stato altalenante: tra permessi, pressioni normative cinesi e piani di NVIDIA per presentare alternative basate su Blackwell. Il messaggio di fondo è che il quadro è politico e mutevole, e qualsiasi via che consenta alla Cina di dipendere meno da queste finestre acquista valore strategico.
Va ricordato un altro dato che aiuta a calibrare le aspettative. Secondo il Financial Times, DeepSeek ha cercato di addestrare il suo futuro modello R2 con chip Huawei Ascend su richiesta ufficiale e ha riscontrato persistenti problemi tecnici. Alla fine è tornata a NVIDIA per l’addestramento, mentre continuava a lavorare sulla compatibilità per l’inferenza. Questo episodio non invalida la strategia attuale, ma pone l’asticella: migrare completamente i propri processi non è semplice, richiede, tra le altre cose, mesi di ingegneria. La V3.1, quindi, deve essere letta come un’iterazione. Ora l’azienda afferma di aver preparato il proprio modello per i prossimi chip cinesi.
Ed ecco un altro dato interessante. MathArena, una piattaforma collegata al Politecnico Federale di Zurigo che valuta i modelli in competizioni matematiche reali e recenti, colloca GPT-5 al primo posto, con un 90% nei test di risposta finale, e DeepSeek-v3.1 (Think) leggermente indietro, ma tra i migliori modelli del momento. Questo aiuta a contestualizzare: V3.1 compete ai massimi livelli. Al momento della pubblicazione di questo articolo, il modello è disponibile tramite API. I pesi e il codice sono disponibili su Hugging Face.