Google rafforza l'AI con Gemma open models

Google ha recentemente annunciato l'introduzione di Gemma, una nuova generazione di modelli open source destinati a rivoluzionare il modo in cui sviluppatori e ricercatori costruiscono applicazioni di intelligenza artificiale. Gemma non è solo un prodotto di alta tecnologia, ma è anche un simbolo dell'impegno di Google verso l'innovazione condivisa e l'uso responsabile dell'IA.

Gemma un modello light

Gemma si distingue come famiglia di modelli leggeri, ma allo stato dell'arte, derivati dalla stessa ricerca e tecnologia dei modelli Gemini. Sviluppata da Google DeepMind e altri team di Google, Gemma trae ispirazione da Gemini e il suo nome, che in latino significa "pietra preziosa", riflette la sua importanza e valore nel campo dell'IA.

Come è fatto Google Gemma

Google rilascia Gemma in due dimensioni, Gemma 2B e Gemma 7B, entrambe disponibili in versioni pre-addestrate e istruite.
Questo toolkit fornisce linee guida e strumenti essenziali per creare applicazioni AI più sicure con Gemma.
Gemma supporta JAX, PyTorch e TensorFlow tramite Keras 3.0 nativo, oltre a integrarsi con notebook Colab e Kaggle, e strumenti come Hugging Face e NVIDIA NeMo.
I modelli pre-addestrati e istruiti di Gemma possono essere eseguiti su laptop, workstation o cloud di Google.
Gemma offre prestazioni leader nel settore, sia su GPU NVIDIA che su TPU di Google Cloud.
Le condizioni d'uso di Gemma permettono l'uso commerciale e la distribuzione responsabile da parte di tutte le organizzazioni.

Prestazioni e Sicurezza

Gemma si avvale di componenti tecnici e infrastrutturali condivisi con Gemini, rendendo Gemma 2B e 7B altamente performanti per le loro dimensioni. Importante sottolineare che Gemma supera modelli significativamente più grandi in benchmark chiave, mantenendo elevati standard di sicurezza e responsabilità. Inoltre, Google ha adottato tecniche automatizzate per filtrare informazioni personali e altri dati sensibili dai set di dati di addestramento, e ha impiegato tecniche di fine-tuning e apprendimento rinforzato da feedback umano per allineare i suoi modelli istruiti a comportamenti responsabili.

Toolkit per l'IA Generativa Responsabile

Con Gemma, Google rilascia anche un nuovo toolkit per l'IA generativa responsabile, che include:

Classificazione della Sicurezza: Metodologie innovative per costruire classificatori di sicurezza robusti con esempi minimi.
Debugging del Modello: Uno strumento per indagare il comportamento di Gemma e affrontare potenziali problemi.
Orientamento: Best practice per i costruttori di modelli basate sull'esperienza di Google nello sviluppo di modelli di linguaggio di grandi dimensioni.

Gemma supporta un'ampia varietà di strumenti e sistemi

Rendendo compatibile il modello con diverse piattaforme hardware e facilmente integrabile in diversi ambienti di sviluppo. Questa accessibilità estesa permette a Gemma di raggiungere un'ampia gamma di sviluppatori e ricercatori, promuovendo un uso più diffuso e responsabile dell'IA. Gemma di Google segna un notevole passo avanti nel campo dell'intelligenza artificiale. Con il suo impegno verso l'innovazione condivisa e l'uso responsabile dell'IA, Google continua a guidare e ispirare il settore.

Benchmark Gemma vs LLAMA-2 vs Mistral

Benchmark	Metric	LLaMA-2		Mistral	Gemma
		7B	13B	7B	2B	7B
MMLU	5-shot, top-1	45.3		62.5	42.3	64.3
HellaSwag	0-shot	77.2	80.7	81.0	71.4	81.2
PIQA	0-shot	78.8	80.5	82.2	77.3	81.2
SIQA	0-shot	48.3	50.3	47.0*	49.7	51.8
Boolq	0-shot	77.4	81.7	83.2*	69.4	83.2
Winogrande	partial scoring	69.2	72.8	74.2	65.4	72.3
CQA	7-shot	57.8	67.3	66.3*	65.3	71.3
OBQA	0-shot	58.6	57.0	52.2	47.8	52.8
ARC-e		75.2	77.3	80.5	73.2	81.5
ARC-c		45.9	49.4	54.9	42.1	53.2
TriviaQA	5-shot	72.1	79.6	62.5	53.2	63.4
NQ	5-shot	25.7	31.2	23.2	12.5	23.0
HumanEval	pass@1	12.8	18.3	26.2	22.0	32.3
MBPP	3-shot	20.8	30.6	40.2*	29.2	44.4
GSM8K	maj@1	14.6	28.7	35.4*	19.7	46.4
MATH	4-shot	2.5	3.9	12.7	11.8	24.3
AGIEval		29.3	39.1	41.2*	24.2	41.7
BBH		32.6	39.4	56.1*	35.2	55.1
Average		47.0	52.2	54.0	44.9	56.4

Qui ci sono alcune osservazioni chiave che possiamo trarre dai dati in tabella:

Prestazioni complessive: Gemma sembra performare bene, con la sua variante da 7B che supera tutti gli altri modelli in media. Questo suggerisce che Gemma potrebbe essere un modello di IA molto potente, specialmente considerando che compete bene anche con i modelli più grandi.
Dimensioni dei modelli: Sembra esserci una correlazione generale tra le dimensioni dei modelli (misurate in miliardi di parametri, indicato da "B") e le loro prestazioni nei benchmark. I modelli più grandi (13B) tendono a superare quelli più piccoli, il che è coerente con la tendenza attuale nell'IA in cui modelli con più parametri tendono a generalizzare meglio su compiti diversi.
Performance su compiti specifici: Alcuni modelli eccellono in determinati compiti più di altri. Ad esempio, il modello Mistral da 7B ha prestazioni eccezionali in Boolq e altri benchmark indicati con un asterisco (*), suggerendo che potrebbe essere particolarmente ottimizzato per quei tipi di problemi o che adotta un approccio che funziona bene con quel genere di dati.
Consistenza: La variante da 7B di Gemma mostra una performance notevolmente consistente attraverso vari benchmark, con punteggi relativamente alti in quasi tutti i compiti. Questo suggerisce una buona generalizzazione attraverso diversi tipi di problemi di IA.
Benchmark specifici: Nei benchmark HumanEval, MBPP e GSM8K, che potrebbero essere relativi alla valutazione del passaggio del test o alla previsione di maggioranza, i modelli più grandi superano quelli più piccoli, e Gemma 7B ha punteggi particolarmente elevati.
Variazione nelle metriche: I benchmark utilizzano metriche diverse come "top-1", "shot" e "pass@1", che indicano differenti modalità di valutazione delle prestazioni dei modelli. Questo varia da quante prove un modello ha per "indovinare" la risposta corretta (shot) a quanto spesso il modello ottiene la migliore prestazione (top-1).

Qual è il modello di IA con le migliori prestazioni medie secondo i benchmark riportati?

Il modello Gemma da 7B registra le migliori prestazioni medie con un punteggio di 56.4, superando tutti gli altri modelli presentati nei benchmark.

Il modello Gemma da 2B è comparabile ai modelli più grandi per quanto riguarda le prestazioni?

Sebbene il modello Gemma da 2B non superi i modelli più grandi in molti benchmark, esso dimostra prestazioni competitive con un punteggio medio di 44.9, indicando che è un modello efficace per la sua dimensione.

Come si comporta il modello Mistral nei confronti dei compiti di comprensione della lettura?

Il modello Mistral da 7B mostra un'eccellente performance nel benchmark Boolq con un punteggio di 83.2, che è il più alto tra tutti i modelli presenti. Questo suggerisce che Mistral è particolarmente abile nei compiti di comprensione della lettura.

Il Boolq è un benchmark che fa parte di un dataset per il question answering riguardante domande di tipo sì/no. Il dataset Boolq contiene 15942 esempi di domande che emergono naturalmente, generate in contesti spontanei e non costruiti. Ogni esempio consiste in una tripletta composta da una domanda, un passaggio di testo e una risposta, con il titolo della pagina come contesto addizionale facoltativo. Le domande sono raccolte da ricerche anonime aggregate effettuate sul motore di ricerca Google. Sono considerate solamente le domande per cui viene restituita una pagina di Wikipedia tra i primi cinque risultati, e poi vengono elaborate ulteriormente da un annotatore umano.

Nel processo di annotazione, si valuta innanzitutto se la domanda è valida, ovvero se è comprensibile, univoca e richiede informazioni fattuali. Dopodiché, per le domande considerate valide, gli annotatori identificano un passaggio nel documento che contenga abbastanza informazioni per rispondere alla domanda. Infine, gli annotatori segnano se la risposta alla domanda è "sì" o "no". Le domande non rispondibili o quelle che non ricevono una risposta di tipo sì/no vengono escluse dal dataset.

Esiste una tendenza generale che collega la dimensione del modello di IA alle sue prestazioni?

Sì, i dati mostrano una tendenza in cui i modelli con più parametri (es. LLaMA-2 13B) tendono a ottenere punteggi più alti nei benchmark rispetto a quelli con meno parametri, suggerendo che la dimensione del modello può essere un fattore significativo per le prestazioni.

In quali aree i modelli più piccoli eccellono rispetto ai modelli più grandi?

Guardando specifici benchmark come il pass@1 nel HumanEval, il Gemma da 7B e il Mistral da 7B superano il LLaMA-2 da 13B, dimostrando che, per alcune specifiche valutazioni, i modelli più piccoli possono effettivamente superare quelli più grandi.