DeepSeek solo hype mediatico o vera innovazione?
Negli ultimi giorni, l’intelligenza artificiale cinese DeepSeek è sulla bocca di tutti, facendo tremare anche le borse internazionali, ma quanto c'è di vero dietro al clamore mediatico? Cerco di analizzare lo stato attuale, continua a leggere.
I numeri di DeepSeek R1 V3
Il 26 dicembre è stato rilasciato DeepSeek V3, un modello con ben 671 miliardi di parametri, che promette prestazioni straordinarie grazie a:
- Un addestramento su 8 trilioni di token.
- Performance comparabili (e in alcuni casi superiori) a quelle di GPT-4 e Claude.
- Un tempo di addestramento record di soli 2 mesi.
- Un costo dichiarato di appena 5,57 milioni di dollari – un confronto notevole rispetto agli oltre 500 milioni di dollari spesi per sviluppare modelli come LLaMA 3.1.
Ma è tutto oro quello che luccica?
Secondo i benchmark, le prestazioni sono effettivamente simili a quelle dei giganti del settore, ma c’è un dettaglio importante: DeepSeek ha raggiunto questi risultati attraverso una tecnica nota come Model Distillation.
La Model Distillation è un processo che trasferisce la conoscenza da un modello di grandi dimensioni (ad esempio GPT-4) a uno più piccolo e ottimizzato. Tradotto? Si tratta di una sorta di reverse engineering o, per dirla in modo più diretto, una tecnica che sfrutta il lavoro di altri per creare qualcosa di nuovo. Questo solleva domande sull’originalità del modello.
Prestazioni reali: pro e contro
È vero che, tra i modelli Open Source, DeepSeek si distingue per efficienza e versatilità. Tuttavia, quando lo si confronta con i big come ChatGPT, Claude o Gemini, emergono alcune criticità:
Ottimizzazione per i benchmark: sembra che DeepSeek sia stato addestrato specificamente per brillare nei test tecnici, ma quando si esce dal contesto dei benchmark, le sue performance calano sensibilmente.
Tecniche avanzate: il modello combina due metodologie innovative per migliorare i risultati:
- Chain of Thought (CoT): consente al modello di ragionare per passaggi, migliorando l’accuratezza.
- Mixture of Experts (MoE): permette al sistema di attivare solo specifici componenti del modello per risolvere compiti specifici, riducendo il consumo di risorse.
Il confronto con la concorrenza
Un dettaglio spesso trascurato è che DeepSeek non è l’unico modello cinese di alto livello. Prima del suo rilascio, AliBaba aveva già presentato un modello simile chiamato "qwq". Entrambi offrono prestazioni comparabili, e quando si tratta di risolvere problemi reali (al di fuori dei benchmark), non è facile decretare un vincitore.
Inoltre, DeepSeek si basa su un modello OpenAI precedente (livello “o1”), migliorandolo grazie a una maggiore attenzione alla qualità dei dati di allenamento. Questo rappresenta un progresso interessante, ma non rivoluzionario. Il futuro della competizione dipenderà dall’evoluzione di nuovi modelli, come il prossimo livello “o3”.
Open Source e realtà tecniche
C’è anche chi sostiene che DeepSeek possa funzionare su un normale PC grazie alla sua architettura open source. In realtà, la versione più potente (671 miliardi di parametri) richiede infrastrutture hardware avanzate, come server dotati di molte GPU Nvidia. Gli utenti comuni, soprattutto su app mobili, interagiscono comunque con cluster di GPU ad alte prestazioni.
Novità su Qwen2.5-1M
A due mesi dall'aggiornamento di Qwen2.5-Turbo per supportare una lunghezza di contesto fino a un milione di token, sono stati rilasciati i modelli open-source Qwen2.5-1M e il framework di inferenza corrispondente. Ecco i dettagli principali:
Modelli Open Source: Due nuovi checkpoint, Qwen2.5-7B-Instruct-1M e Qwen2.5-14B-Instruct-1M, sono stati introdotti per gestire contesti fino a 1 milione di token, segnando un importante passo avanti per i modelli open source.
Framework di Inference: Per aiutare gli sviluppatori a implementare in modo efficiente i modelli Qwen2.5-1M, è stato completamente open-sourcizzato un framework di inferenza basato su vLLM. Grazie all'integrazione di metodi di sparse attention, questo framework può processare input di 1 milione di token da 3 a 7 volte più velocemente.
Report Tecnico: Sono stati condivisi dettagli tecnici sui modelli Qwen2.5-1M, comprese le intuizioni di design per i framework di training e inferenza, oltre a esperimenti di ablation.
Gli utenti possono provare i modelli Qwen2.5-1M direttamente attraverso le demo su Huggingface e Modelscope.
Inoltre, è stato recentemente introdotto Qwen Chat, un assistente AI avanzato della serie Qwen, che offre funzionalità come conversazioni, scrittura di codice, ricerca, generazione di immagini e video, e utilizzo di strumenti. Questo assistente utilizza il modello Qwen2.5-Turbo, che supporta un'elaborazione di contesto estesa fino a 1 milione di token.
Considerazioni finali
DeepSeek R1 V3 rappresenta sicuramente un passo avanti significativo nell’ecosistema AI cinese. Tuttavia, è essenziale contestualizzarne le performance: è un progresso costruito su tecnologie esistenti e ottimizzato per impressionare nei test tecnici più che per risolvere problemi complessi del mondo reale. Allo stesso tempo, le novità su Qwen2.5-1M e il suo framework di inferenza dimostrano che l'ecosistema open source continua a evolversi rapidamente, offrendo strumenti sempre più potenti e accessibili per gli sviluppatori.
Guardando al futuro, sarà interessante osservare come i modelli successivi evolveranno e se riusciranno a trasformare questi progressi in innovazioni capaci di incidere profondamente nel panorama globale dell’intelligenza artificiale.