DeepSeek R1 e DeepSeek R1-Zero

Evoluzione della ricerca sui modelli di intelligenza artificiale, emergono nuove soluzioni che ridefiniscono il modo in cui affrontiamo i problemi complessi. Tra queste, si distinguono i modelli di prima generazione per il ragionamento: DeepSeek-R1-Zero e DeepSeek-R1.

DeepSeek-R1-Zero: Questo modello, frutto di una strategia avanzata di apprendimento per rinforzo su larga scala (RL), non include una fase preliminare di fine-tuning supervisionato (SFT). Tale approccio ha permesso di sviluppare capacità di ragionamento straordinarie, manifestando comportamenti quali l'auto-verifica e la riflessione. Tuttavia, alcune limitazioni come ripetizioni infinite, difficoltà di leggibilità e mix linguistici rappresentano sfide ancora aperte.
DeepSeek-R1: Per affrontare queste problematiche e migliorare ulteriormente il modello, abbiamo introdotto dati iniziali (cold-start) prima dell'applicazione di RL. Questo modello ha dimostrato di raggiungere prestazioni di alto livello in compiti complessi come matematica, programmazione e ragionamento, rivaleggiando con OpenAI-o1.

La nostra dedizione al progresso tecnologico ci ha portato a rendere open-source sia DeepSeek-R1-Zero che DeepSeek-R1, affiancandoli a sei modelli distillati basati su framework avanzati come Llama e Qwen. Particolarmente significativo è DeepSeek-R1-Distill-Qwen-32B, che stabilisce nuovi standard superando le prestazioni di OpenAI-o1-mini in molteplici benchmark.

Addestramento Posteriore: Reinforcement Learning su Modelli Base

Il processo di sviluppo di DeepSeek-R1-Zero si basa su un approccio diretto di RL applicato al modello base, evitando l'uso di SFT come fase iniziale. Tale strategia consente al modello di esplorare strutture di ragionamento come il Chain-of-Thought (CoT), necessarie per risolvere problemi complessi. Questo segna una pietra miliare nella ricerca, dimostrando che le capacità di ragionamento possono essere sviluppate esclusivamente tramite RL, senza dati supervisionati.

DeepSeek-R1, invece, implementa una pipeline innovativa che combina due fasi di RL per affinare le capacità di ragionamento e allinearle alle preferenze umane. Questa metodologia è supportata da due fasi di SFT che fungono da fondamento per costruire capacità solide, sia nel ragionamento che in altri compiti correlati. Tale pipeline rappresenta un modello di riferimento per lo sviluppo futuro.

Potenza nei modelli più piccoli

Abbiamo dimostrato che la distillazione consente di trasferire schemi di ragionamento avanzati dai modelli di grandi dimensioni a quelli più piccoli. Questa tecnica ha portato a prestazioni superiori rispetto a quelle ottenute applicando RL direttamente sui modelli ridotti. La distillazione di DeepSeek-R1 ha prodotto modelli densi estremamente efficaci nei benchmark, aprendo nuove prospettive per la comunità di ricerca.

Tra i modelli distillati resi disponibili, spiccano soluzioni con parametri variabili da 1.5B a 70B, basate su serie consolidate come Qwen2.5 e Llama3.

Architettura del Modello, addestramento posteriore: Reinforcement Learning senza SFT

DeepSeek-R1-Zero rappresenta una svolta nel paradigma di addestramento, dimostrando che è possibile incentivare capacità di ragionamento avanzate senza la necessità di dati supervisionati iniziali. La sua capacità di generare CoT estese e di auto-valutarsi è stata raggiunta tramite un'implementazione avanzata di RL.

Con DeepSeek-R1, la pipeline si espande includendo due fasi di RL per ottimizzare le capacità di ragionamento e allinearle alle preferenze umane, seguite da due fasi di SFT che fungono da seme per sviluppare capacità di base sia nel ragionamento che in altri ambiti. Questo approccio combinato offre un equilibrio tra autonomia del modello e precisione.

Migliorare i modelli più piccoli

La distillazione è stata applicata per trasferire schemi di ragionamento complessi da modelli di grandi dimensioni a versioni più leggere, mantenendo livelli di performance comparabili. I modelli distillati, con parametri che vanno da 1.5 a 70 miliardi, sono stati ottimizzati per soddisfare le esigenze sia di ricerca avanzata che di applicazioni su larga scala, riducendo i requisiti computazionali senza compromettere l'efficacia.

Dettagli dei Modelli Disponibili

Modello	Parametri Totali	Parametri Attivi	Lunghezza Contesto
DeepSeek-R1-Zero	671B	37B	128K
DeepSeek-R1	671B	37B	128K

Modelli Distillati

Modello	Modello Base
DeepSeek-R1-Distill-Qwen-1.5B	Qwen2.5-Math-1.5B
DeepSeek-R1-Distill-Qwen-7B	Qwen2.5-Math-7B
DeepSeek-R1-Distill-Llama-8B	Llama-3.1-8B
DeepSeek-R1-Distill-Qwen-14B	Qwen2.5-14B
DeepSeek-R1-Distill-Qwen-32B	Qwen2.5-32B
DeepSeek-R1-Distill-Llama-70B	Llama-3.3-70B-Instruct

Risultati di Valutazione

Benchmark Principali

Categoria	Benchmark	DeepSeek-R1	OpenAI-o1-mini	GPT-4o 0513
Matematica	AIME 2024 Pass@1	79.8	63.6	9.3
Codice	Codeforces Rating	2029	1820	759
Lingua	MMLU Redux (EM)	92.9	86.7	88.0

Prestazioni Generali

DeepSeek-R1 ha ottenuto risultati superiori rispetto a modelli concorrenti, stabilendo nuovi standard di performance. Ad esempio, sul benchmark MATH-500, il modello ha raggiunto un punteggio Pass@1 del 97.3%, superando i precedenti record per modelli densi. Inoltre, ha ottenuto il 96.3° percentile su Codeforces, evidenziando capacità avanzate di programmazione algoritmica.

Approcci Innovativi

Group Relative Policy Optimization (GRPO)

DeepSeek-R1-Zero utilizza GRPO, un algoritmo progettato per massimizzare le capacità di ragionamento riducendo l'impatto computazionale. Questo approccio ha permesso di incrementare le prestazioni durante l'addestramento, passando da un punteggio iniziale del 15.6% a un sorprendente 71.0% su AIME 2024.

Cold-Start e Supervised Fine-Tuning

L'uso di dati cold-start ha contribuito a migliorare la coerenza e la leggibilità delle risposte. Migliaia di esempi di CoT sono stati integrati per costruire una base solida e ridurre problematiche come mescolanza linguistica e incoerenza.

Distillazione Ottimizzata

La distillazione è stata ulteriormente affinata per creare modelli leggeri ma potenti. Questa tecnica ha reso possibile l'implementazione di soluzioni avanzate anche in ambienti con risorse limitate, mantenendo un'elevata qualità delle prestazioni.

Utilizzo dei Modelli

I modelli DeepSeek-R1 e DeepSeek-R1-Distill possono essere implementati localmente utilizzando framework come vLLM o SGLang:

vLLM:

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768

SGLang:

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

Nota: Si consiglia di impostare una temperatura compresa tra 0.5 e 0.7 per garantire coerenza e precisione nelle generazioni.

I modelli DeepSeek-R1 sono distribuiti sotto licenza MIT, permettendo l'uso commerciale e la creazione di opere derivate. Per ulteriori dettagli, consultare i repository disponibili GitHub su HuggingFace.