Salvino Fidacaro

Nuova versione OpenClaw 2026.3.13

Salvino Fidacaro — Fri, 13 Mar 2026 18:43:00 GMT

Ecco una lista di miglioramenti rilasciati con la nuova versione 20.26.3.13:

Ecco un riassunto delle principali correzioni di bug (fix), miglioramenti (feat) e sicurezza incluse in questa nuova versione 20.26.3.13 di OpenClaw, basati sui commit forniti:

🛡️ Sicurezza e Stabilità del Sistema

Token e Gateway: Prevenzione della fuga di token nel contesto Docker (security(docker)) e limitazione delle richieste non risposte sul gateway.
Sessioni: Correzione per preservare lastAccountId e lastThreadId dopo il reset della sessione, evitando la perdita di stato utente.
Autenticazione: Mantenimento dell'autenticazione condivisa nelle connessioni non sicure e correzione per evitare bypass dell'autenticazione su control-ui.
Configurazione: Hardening della validazione del driver per sessioni esistenti e correzione per evitare crash di Anthropic all'avvio.

🧠 Agenti e Modelli AI

Compatibilità: Rispetto delle override di compatibilità esplicita per provider (es. non-native openai-completions) e gestione dei blocchi di pensiero (thinking blocks) su replay.
Gestione: Correzione per evitare l'iniezione due volte del file di memoria su mount case-insensitive e preservazione di chiavi API personalizzate dopo l'onboarding.
Performance: Deduplicazione dei chunk del plugin-sdk per correggere un regresso di memoria del ~2x.
Modello: Aggiornamento del modello predefinito da gpt-5.3-codex a gpt-5.4 nei test.

🖥️ Interfaccia Utente (UI) e Esperienza Utente

Mobile: Ridesign delle impostazioni chat, miglioramenti del menu di navigazione e varianti del tema.
Chat: Correzioni per il rendering corretto del contesto, dimensioni icona, notifica chat e gestione della storia chat (evitare "reload storm").
Sidebar: Polishing dello status, delle abilità degli agenti e del rendering della chat.
Responsive: Correzione per il rendering dei costi di Brave e gestione dei messaggi non visualizzati.

🌐 Piattaforme e Integrazioni

Mobile (Android/iOS): Fix per la fuga del QR code (Google Code Scanner), onboarding welcome pager, e design del chat settings UI.
Desktop (macOS/Windows): Allineamento versione Node.js minima, gestione console visibile durante il riavvio, e prevenzione di conflitti con Docker Desktop.
Integrazioni: Supporto per Slack (reply interattivi), Telegram (download media fallback), Signal (config gruppi), Feishu (file non ASCII) e Discord.
Backend: Gestione dei deadlock del cron e correzione per le configurazioni di gateway.

📝 Documentazione e Configurazione

Schema: Aggiunta parametri mancanti alla validazione schema (agents.list[]) e correzione per il credit del changelog.
Docs: Aggiornamento del changelog, correzione crediti per xhigh e descrizione delle risposte interattive di Slack.
Config: Addizione di parametri di timezone (OPENCLAW_TZ) e supporto per scope-limited probe RPC.

In sintesi, questa versione si concentra su stabilità delle sessioni, sicurezza dei dati (token/auth), miglioramenti UI su mobile/desktop e miglioramento delle performance dei plugin, con particolare attenzione alla compatibilità tra diversi agenti e provider (Anthropic, OpenAI, Azure, Gemini).

Installazione di OpenClaw su NVIDIA Jetson Orion

Salvino Fidacaro — Wed, 11 Mar 2026 18:52:00 GMT

Questo articolo descrive il processo di installazione e configurazione di OpenClaw su un sistema NVIDIA Jetson utilizzato come nodo edge AI locale, denominato Orion. L'obiettivo è creare un ambiente in grado di eseguire agenti AI e modelli linguistici locali tramite Ollama su architettura ARM64, integrando il gateway OpenClaw e l'interfaccia di orchestrazione. L'esperienza descritta si basa su una configurazione reale eseguita su Ubuntu Server con GPU NVIDIA e accesso tramite SSH.

Introduzione

L'esecuzione di modelli linguistici su infrastrutture edge rappresenta una delle evoluzioni più rilevanti nel campo dei sistemi di intelligenza artificiale distribuita. Le piattaforme NVIDIA Jetson, grazie alla loro architettura ARM64 e alla presenza di acceleratori GPU dedicati, permettono di costruire nodi di calcolo AI locali con consumi energetici ridotti.

OpenClaw è un framework progettato per orchestrare agenti AI locali, modelli linguistici e integrazioni con servizi esterni. Quando combinato con Ollama, OpenClaw consente di eseguire modelli linguistici direttamente su hardware locale senza dipendere da servizi cloud.

In questo lavoro documentiamo l'installazione completa di OpenClaw su un sistema Jetson denominato Orion, evidenziando le problematiche incontrate e le soluzioni adottate.

Architettura del sistema

Il sistema Orion è configurato come nodo AI locale accessibile via rete interna. Il sistema operativo utilizzato è Ubuntu Server su architettura ARM64. L'ambiente software è composto da Node.js, pnpm, Ollama e OpenClaw.

OpenClaw opera come orchestratore degli agenti mentre Ollama funge da provider dei modelli linguistici. Il gateway OpenClaw espone un'interfaccia HTTP locale utilizzata per l'accesso tramite browser e per l'interazione con i servizi interni.

Installazione dei prerequisiti

L'installazione parte da una distribuzione Ubuntu Server aggiornata. Dopo l'accesso tramite SSH al dispositivo Jetson, è necessario installare Node.js e il gestore di pacchetti pnpm.

Una volta installati i prerequisiti, è possibile procedere con l'installazione di OpenClaw tramite npm. L'installazione rende disponibile il comando openclaw, utilizzato per gestire gateway, agenti e configurazione del sistema.

Configurazione di Ollama

Per permettere a OpenClaw di eseguire modelli linguistici locali è necessario installare Ollama. Dopo l'installazione del runtime, è possibile scaricare modelli compatibili con sistemi edge.

Nel nostro caso sono stati testati modelli compatti come Qwen 2.5 3B e Qwen 3.5 4B, che mostrano prestazioni adeguate su hardware Jetson grazie al compromesso tra dimensione del modello e capacità computazionale disponibile.

Il download dei modelli avviene tramite il comando:

ollama pull qwen2.5:3b

Una volta scaricato il modello, Ollama espone un endpoint locale utilizzato da OpenClaw come provider LLM.

Onboarding di OpenClaw

La configurazione iniziale del sistema avviene tramite il wizard di onboarding. Questo strumento guida la configurazione del workspace, del provider dei modelli e delle integrazioni.

Nel caso di sistemi headless accessibili via SSH è consigliato eseguire il comando:

openclaw onboard --skip-daemon

Questa opzione evita l'installazione automatica del servizio systemd, che può generare problemi in sessioni SSH o ambienti embedded.

Durante il processo di onboarding viene configurato il collegamento tra OpenClaw e Ollama come provider dei modelli linguistici.

Avvio del gateway

Terminata la configurazione iniziale è possibile avviare il gateway OpenClaw.

openclaw gateway run

Il gateway espone un endpoint HTTP locale tipicamente sulla porta 18789. L'interfaccia web può essere raggiunta tramite browser all'indirizzo:

http://IP_DEL_DISPOSITIVO:18789

Durante i primi test è emersa la necessità di esporre l'interfaccia tramite HTTPS per poter accedere al servizio in modo sicuro e compatibile con alcune integrazioni web. Il gateway OpenClaw, tuttavia, espone nativamente solo un endpoint HTTP locale.

La soluzione adottata è stata l'introduzione di un reverse proxy basato su Caddy. Il server Caddy è stato configurato per intercettare le richieste HTTPS in ingresso e inoltrarle al gateway OpenClaw in esecuzione sulla porta locale. In questo modo il traffico TLS viene gestito dal reverse proxy mentre OpenClaw continua a operare sulla propria porta interna.

Nel sistema Orion il flusso finale delle richieste risulta quindi strutturato nel seguente modo: il browser stabilisce una connessione HTTPS con il server Caddy, il quale gestisce la terminazione TLS e inoltra le richieste HTTP al gateway OpenClaw sulla porta 18789.

Problemi riscontrati

Durante i test iniziali sono emerse alcune problematiche legate all'accesso remoto al gateway. In alcuni casi il browser mostrava un errore di connessione rifiutata.

L'analisi del problema ha evidenziato che il gateway risultava avviato ma non correttamente esposto sulla rete locale. Questo comportamento può verificarsi quando il servizio viene eseguito solo in loopback.

Un ulteriore aspetto osservato riguarda la presenza di numerose sessioni attive nell'interfaccia di OpenClaw. Questo fenomeno è dovuto alla creazione automatica di sessioni temporanee per ogni agente o richiesta generata durante i test.

Ottimizzazione per sistemi Jetson

L'utilizzo di modelli linguistici su hardware edge richiede un'attenta selezione delle dimensioni del modello. Test empirici indicano che modelli tra 3B e 4B parametri rappresentano un buon compromesso tra qualità e velocità su Jetson.

Nel sistema Orion il modello Qwen 3.5 4B ha mostrato una buona stabilità operativa e tempi di risposta adeguati per l'utilizzo con agenti OpenClaw.

Limitazioni computazionali e scelta architetturale

Durante i test operativi è emerso un limite significativo legato all'esecuzione locale dei modelli linguistici sul dispositivo Jetson. Sebbene modelli compatti come Qwen 2.5 3B e Qwen 3.5 4B possano essere eseguiti tramite Ollama su architettura ARM64, le prestazioni risultano limitate in termini di latenza e throughput.

Nel contesto di utilizzo reale del sistema Orion, l'inferenza locale produceva tempi di risposta troppo elevati per l'uso interattivo degli agenti OpenClaw. Questo comportamento è attribuibile principalmente a tre fattori: la limitata memoria disponibile per modelli di dimensioni superiori, la potenza di calcolo GPU ridotta rispetto a sistemi desktop o server e l'overhead introdotto dalla gestione degli agenti.

Per questo motivo l'architettura finale adottata separa il nodo di orchestrazione dagli LLM. Il dispositivo Jetson Orion continua a eseguire OpenClaw come gateway e orchestratore degli agenti, mentre il provider dei modelli linguistici viene eseguito su un'infrastruttura esterna più performante.

Questa soluzione consente di mantenere il Jetson come nodo edge leggero, responsabile della gestione degli agenti, delle integrazioni e delle automazioni, delegando l'inferenza dei modelli linguistici a un sistema con maggiore capacità computazionale.

Conclusioni

L'esperienza descritta dimostra che OpenClaw può essere installato con successo su piattaforme NVIDIA Jetson e utilizzato come nodo di orchestrazione per sistemi di intelligenza artificiale distribuiti.

Tuttavia, i test evidenziano che l'esecuzione locale di modelli linguistici su hardware edge presenta limiti significativi in termini di prestazioni. In scenari operativi reali risulta quindi più efficace adottare un'architettura ibrida nella quale il nodo Jetson gestisce l'orchestrazione degli agenti mentre l'inferenza dei modelli viene eseguita su un sistema remoto.

Questo approccio consente di sfruttare i vantaggi dell'edge computing mantenendo al tempo stesso la capacità di utilizzare modelli linguistici più performanti e scalabili.

Corso Robotics with AI

Salvino Fidacaro — Thu, 05 Mar 2026 10:34:00 GMT

Costruire un robot è figo, ma renderlo intelligente lo è ancora di più. Il progetto Robotics with AI è una raccolta di materiali, slide e codice pensata per le scuole superiori, per imparare a integrare l'IA nell'hardware. Niente giri di parole: solo tanta pratica, dai primi LED fino agli algoritmi di navigazione autonoma. Tutto il materiale è gratuito su GitHub e ogni settimana trovi aggiornamenti pronti per essere scaricati e testati.

Un percorso in continua evoluzione

Dimentica i soliti programmi rigidi e polverosi. Questo corso è un viaggio dinamico che attraversa dieci tappe fondamentali. Partiamo dalle basi della prototipazione, dove impariamo a conoscere l'anatomia di un robot e l'ecosistema Arduino, per poi tuffarci nel mondo dell'elettronica pratica. Non si tratta solo di accendere un LED: l'obiettivo è capire come l'energia e il codice lavorano insieme per creare interazioni reali.

Man mano che il robot prende forma, esploriamo la sua capacità di percepire il mondo. Usiamo sensori di luce, temperatura e umidità per raccogliere dati, insegnando alla macchina a prendere decisioni autonome in tempo reale. Ma un robot deve anche sapersi muovere: per questo approfondiamo l'uso di motori e servomotori, studiando come programmare curve, velocità e percorsi precisi nello spazio.

Il vero salto di qualità arriva con l'integrazione dell'Intelligenza Artificiale. Passiamo gradualmente dai blocchi di Scratch al codice C++ professionale, utilizzando i modelli di linguaggio (AI Assistita) non solo per scrivere codice più pulito, ma per risolvere problemi complessi che fino a pochi anni fa sembravano fantascienza.

Segui il progetto (e lascia una ⭐!)

La parte più interessante? Il corso è un "cantiere aperto". Ogni mercoledì vengono pubblicati nuovi aggiornamenti, slide inedite e risorse fresche direttamente sul repository ufficiale. Che tu stia cercando il codice per una stazione meteo o gli algoritmi per un robot line-follower, troverai tutto organizzato in cartelle chiare e pronte all'uso.

Tutto il materiale è disponibile gratuitamente su GitHub. Se il progetto ti piace o ti è utile per i tuoi studi, c'è un modo semplicissimo per supportarlo: metti una stellina (Star) al repository! Ci aiuterai a far crescere la community e a diffondere la robotica educativa in sempre più scuole.

🚀 Vai subito al codice: Robotics with AI su GitHub

UrbanScan AI con YOLOv26 e OpenVINO

Salvino Fidacaro — Tue, 03 Mar 2026 10:31:25 GMT

Si parla spesso di città intelligenti, ma quasi sempre in modo astratto. Questo progetto invece è nato in modo molto semplice: avevo un video girato con un drone sopra un parco e mi sono chiesto cosa potessi tirarne fuori di realmente utile.

L’idea era capire se da quelle immagini fosse possibile ottenere informazioni concrete sullo stato di uno spazio pubblico. Non solo vedere panchine, alberi o persone, ma individuare problemi, segnali di degrado, elementi positivi e criticità strutturali in modo sistematico.

UrbanScan AI con YOLOv26 e OpenVINO - test con drone DJI Neo 2 fatto da Salvino Fidacaro a Sant'Agata di Militello

Cos’è UrbanScan AI

Così è nato UrbanScan AI – Next Gen (2026 Vision), un motore di analisi video urbana e video analytics basato su YOLOv26 World‑v2, uno dei modelli più avanzati nel campo della computer vision. Non si limita a mettere rettangoli attorno agli oggetti: prova a interpretare la scena. Riconosce rifiuti, danni alla pavimentazione, muri crollati, arredo urbano, vegetazione sana o trascurata. L’obiettivo non è “fare detection”, ma ottenere una lettura tecnica dell’ambiente.

Open‑Vocabulary Detection e analisi ambientale

La parte interessante è l’open‑vocabulary detection. In pratica il modello non è bloccato a poche categorie generiche. Può distinguere, ad esempio, tra un semplice muro e un muro in mattoni crollato, tra spazzatura generica e bottiglie di plastica o frammenti di vetro. Questo rende ogni fotogramma una fonte di dati strutturati, non solo un’immagine annotata.

UrbanScan elabora il video in tempo reale e costruisce una sovrapposizione grafica che segmenta le istanze riconosciute. I colori non sono decorativi: servono a rendere immediata la lettura. Il sistema aggrega le rilevazioni e calcola un indice sintetico, una sorta di Park Health Index, che bilancia elementi positivi e criticità. Non è una verità assoluta, ma uno strumento di supporto, un indicatore che può aiutare a confrontare nel tempo la stessa area o a valutare zone diverse.

Architettura tecnica: NVIDIA CUDA e Intel OpenVINO

Dal punto di vista tecnico, ho voluto che il progetto fosse flessibile. Se c’è una GPU NVIDIA disponibile, il motore sfrutta CUDA e i Tensor Cores per lavorare in FP16 su frame Full HD con la massima efficienza possibile. Se invece il sistema è basato su CPU Intel o GPU ARC, entra in gioco Intel OpenVINO, con un modello esportato e ottimizzato per quell’architettura, così da mantenere buone prestazioni anche senza GPU dedicata. L’idea è semplice: stesso progetto, hardware diverso, prestazioni coerenti.

Privacy e gestione automatica dei volti

Un aspetto a cui tenevo particolarmente è la gestione della privacy. Durante l’analisi, il software identifica il soggetto principale e applica automaticamente un blur sui volti delle persone sullo sfondo. Questo permette di utilizzare i video in contesti pubblici o istituzionali senza dover intervenire manualmente in post‑produzione.

I test sono stati effettuati su riprese aeree realizzate con drone, ma il sistema funziona con qualsiasi sorgente video compatibile. Il risultato è un file di output che non è solo “annotato”, ma arricchito da informazioni aggregate, log continui e statistiche di confidenza che possono essere esportate o integrate in flussi di lavoro più ampi.

Codice sorgente e repository GitHub

Il codice sorgente è disponibile pubblicamente su GitHub all’indirizzo: https://github.com/salvino72/video-urbanscan

Ho pubblicato il progetto in open source con attribuzione perché mi sembra il modo più semplice e corretto per condividerlo. Chi vuole può studiarlo, modificarlo o adattarlo alle proprie esigenze. UrbanScan non è un prodotto finito o commerciale, ma una base di lavoro che può essere migliorata nel tempo.

Non è una rivoluzione né una promessa sul futuro delle città.

In sintesi, UrbanScan AI è un progetto di computer vision applicata al contesto urbano, che unisce YOLOv26, NVIDIA CUDA e Intel OpenVINO per trasformare un semplice video in dati leggibili e utilizzabili. È un progetto pratico, nato per capire se da un video si possano ottenere informazioni utili. Se può aiutare qualcuno a lavorare meglio sul territorio, allora ha già raggiunto il suo scopo.

Gli Speaker della DevFest Mediterranean 2025

Salvino Fidacaro — Wed, 03 Dec 2025 18:46:25 GMT

Oltre 30 speakers in 7 conferenze nei 3 giorni della Google Developer DevFest che si svolge a dicembre in Sicilia a Sant'Agata di Militello.

Giuliano Ribeiro con “Accelerate AI with Cloud Run”. Un intervento ideale per chi vuole orientarsi con chiarezza in un panorama tecnologico in rapida evoluzione.

Giuliano Ribeiro

Antonio Chella con “Intelligenza Artificiale e saggezza artificiale”.
Un intervento che offrirà una prospettiva originale e profonda sul futuro dell’intelligenza delle macchine e sul loro rapporto con l’uomo.

Antonio Chella

Tarun R. Jain, con “Long-Term Memory Layer for Agents using Gemini and Cognee”. Un talk pensato per chi vuole comprendere come dotare gli agenti AI di memoria avanzata, aprendo nuove possibilità applicative e di automazione.

Tarun R. Jain

Salvatore Gaglio sarà tra gli speaker della GDG DevFest Mediterranean 2025 con un talk che attraversa la storia dell’innovazione: “Intelligenza Artificiale: da Turing a oggi”.

Un viaggio affascinante dalle intuizioni pionieristiche di Alan Turing alle moderne applicazioni dell’AI, per comprendere come siamo arrivati all’era dell’intelligenza artificiale generativa e oltre.

🧠 Un intervento ideale per chi vuole capire l’evoluzione che ha portato l’AI a essere ciò che è oggi.

Salvatore Gaglio

Guillermo Rodas sarà uno dei protagonisti della GDG DevFest Mediterranean 2025 con il talk “The Language of AI: Probability”.
Il suo intervento approfondirà il ruolo chiave della probabilità nei modelli di intelligenza artificiale, mostrando come le macchine apprendono, prevedono e generano dati grazie ai principi matematici che ne guidano il funzionamento.
🧩 Una sessione ideale per chi vuole comprendere le fondamenta logiche dell’AI moderna.

Guillermo Rodas

Costa Rocos porterà alla GDG DevFest Mediterranean 2025 un intervento che tocca uno dei temi più discussi di oggi: “Possiamo davvero fidarci dell’IA?”.
Un talk che affronta i limiti, i rischi e le responsabilità dell’intelligenza artificiale, analizzando cosa significa davvero affidarsi ai sistemi automatizzati e quali condizioni sono necessarie per renderli affidabili.
🔐 Un contributo essenziale per chi vuole capire il rapporto tra fiducia, etica e tecnologia.

Costa Rocos

Massimiliano Fabio sarà tra gli speaker della GDG DevFest Mediterranean 2025 con un talk imperdibile: “AI Forensics Vision”.

Un intervento che unisce intelligenza artificiale e digital forensics, mostrando come le nuove tecnologie possano diventare strumenti determinanti nelle indagini del futuro.

🔍 Preparati a scoprire nuove prospettive e casi reali che cambieranno il modo di vedere l’AI.

Massimiliano Fabio

Carlo Lucera (DGE) sarà tra i protagonisti della GDG DevFest Mediterranean 2025 con due talk e un codelab dedicati al mondo Flutter, Firebase e Intelligenza Artificiale.

Talk 1 – Da Zero a Prodotto con Flutter e Firebase Studio
Un percorso pratico che mostra come trasformare un’idea in un’app completa grazie all’integrazione tra Flutter e le nuove potenzialità di Firebase Studio.

Talk 2 – Tool, Strumenti e Potenzialità dell'Intelligenza Artificiale su Flutter
Una panoramica sulle tecnologie AI già integrabili nelle app, per potenziare funzionalità, user experience e capacità predittive.

Codelab: Carlo guiderà i partecipanti passo dopo passo attraverso esempi concreti, best practice e workflow moderni.

Carlo Lucera

GDG DevFest Mediterranean 2025

Salvino Fidacaro — Wed, 03 Dec 2025 18:37:16 GMT

A Sant'Agata di Militello dal 12 al 14 dicembre 2025, un evento che parla d'intelligenza artificiale e tecnologia supportato ufficialmente da Google.

Sant’Agata di Militello diventa il centro del Mediterraneo per l’innovazione tecnologica: torna la GDG DevFest Mediterranean, con 7 conferenze, tre palchi e una lineup di speaker che racconta perfettamente la direzione che sta prendendo l’AI nel mondo reale.

Sin dalle prime ore del mattino del primo giorno presso la sala conferenze del Liceo Sciascia Fermi, si da inizio ai tre giorni dedicati all'AI come Maria Fazio e Salvino Fidacaro, che aprono l’evento introducendo il ruolo dell’AI nella società contemporanea. A seguire, esperti internazionali come Guillermo Rodas esplorano i fondamenti del Machine Learning probabilistico, mentre Massimiliano Fabio porta sul palco la nuova frontiera della Digital Forensics, un campo in cui l’intelligenza artificiale diventa alleato cruciale contro il cybercrime tema forense continua con il contributo di Roberto Consalvi che approfondisce ulteriormente l’evoluzione della Digital forensics & AI Tools, la conferenza 1 prosegue da un intervento che riguarda il modo della comunicazione giornalistica con Giovanni Villino, che indaga il rapporto tra algoritmi e leggibilità delle informazioni.

Parallelamente, all’ITIS Torricelli, Francesco Pagano e Antonella Rotondo introducono il filone formativo dedicato ai giovani sviluppatori e creator. Qui Daniele Ravi affronta un tema sempre più centrale: come l’AI stia rivoluzionando la diagnostica medica e la progettazione di gemelli digitali in sanità.

La seconda giornata prosegue con interventi che toccano l’AI nei media e nella creatività: Daniele Vinci porta una riflessione sul ruolo dell’intelligenza artificiale nel mercato pubblicitario, mentre Giusi Porcelli e Pietro Alberto Rossi aprono un capitolo affascinante sulla psicologia delle emozioni e sugli impatti delle tecnologie empatiche. Sul palco troviamo anche Gino Pappalardo che affronta il tema dell'AI Act: rischi o opportunità? Non mancano momenti dedicati alle tecnologie Google: Carlo Lucera porta sul palco l’evoluzione degli strumenti Firebase e Flutter, mentre Francesco La Rosa approfondisce le potenzialità di Gemini nei sistemi multi-agente. Su questa stessa linea si inseriscono gli interventi di Tarun Jain, dedicati alle Long-term Memory per Agenti AI, e di Lorenzo Deodato con Vincenzo Agrillo, che mostrano come l’AI stia diventando un pilastro per la cybersecurity moderna.

Il weekend porta con sé un focus più ispirazionale: Giuliano Ribeiro Giuliano Ribeiro affronta il tema del Cloud Run applicato agli agenti AI e Gianni Pezzotti con Francesco Pagano esplora la sfida dell’intelligenza artificiale nel mondo del lavoro reale. Momento attesissimo quello della domenica mattina con A. Rotondo, Martina Fidacaro e Arianna Salupo, che uniscono storytelling e tecnologia per raccontare immaginazione, AI generativa con Nano Banana e VEO due strumenti potenti di casa Google.A chiudere il cerchio, i talk di Daniele Mondello e Costa Rocos, che affrontano temi come Costruire un Dev Dream Team di agenti AI e cercando di rispondere a domande tipo: Possiamo davvero fidarci dell’IA? Domenica si da via anche al Premio Innovazione Tecnologica nelle Scuole. Che si svolgerà nel pomeriggio con la sessione dedicata ai ragazzi delle scuole superiori che hanno creato soluzioni AI e potenziali startup per il tema “AI for Green – Guardiani Digitali dei Boschi”, dando spazio alle nuove generazioni di innovatori.

La DevFest si conclude con due voci d’eccezione: Salvatore Gaglio con Intelligenza Artificiale da Turing a oggi e Antonio Chella che esplora il rapporto tra AI, coscienza ed etica , le conclusioni e la premiazione saranno da Salvino Fidacaro ed il suo team Antonella Rotondo, Maria Fazio, Francesco pagano e Biagio Gino Zingales Ali' che firma la chiusura ufficiale di un evento che anche quest’anno sembra avere tutti gli ingredienti per confermarsi uno dei punti di riferimento più importanti nel panorama tech del Sud per quanto.

Gli Speakers della DevFest Mediterranean 2025

FLUX.1 Kontext

Salvino Fidacaro — Mon, 09 Jun 2025 09:42:05 GMT

FLUX.1 Kontext, sviluppato da Black Forest Labs, rappresenta un contributo rilevante all'evoluzione dei modelli generativi per la sintesi e l’editing di immagini nel dominio latente. La sua architettura sfrutta un approccio di flow matching rettificato all'interno di uno spazio latente appreso, offrendo una piattaforma unificata in grado di supportare sia la generazione ex novo che la modifica condizionata su immagini di riferimento. Rispetto agli approcci autoregressivi e ai tradizionali modelli di diffusione, FLUX.1 Kontext mostra una marcata efficienza computazionale e una robustezza semantica che lo rendono adatto a task iterativi e a flussi di lavoro interattivi.

FLUX.1 Kontext rappresenta un paradigma emergente per la generazione e l’editing visivo in ambito AI-driven. La sua architettura unificata, combinata con prestazioni interattive e una semantica controllabile, lo rende particolarmente adatto a compiti complessi dove la coerenza narrativa e la stabilità visiva sono requisiti fondamentali. La pubblicazione di KontextBench contribuisce a definire un framework di valutazione trasparente e realistico, rafforzando la posizione del modello come punto di riferimento per l’intersezione tra deep learning generativo e produzione visuale professionale.

Flux Kontext Multi-image

Architettura e metodologia

Il modello si fonda su un rectified flow transformer, addestrato su rappresentazioni latenti prodotte da un autoencoder convoluzionale ottimizzato con obiettivi avversariali. A differenza di pipeline che operano nello spazio dei pixel, FLUX.1 Kontext agisce interamente nello spazio latente, riducendo la dimensionalità del problema e migliorando la coerenza semantica nelle operazioni di trasformazione. L’architettura impiega blocchi misti double-stream e single-stream: i primi gestiscono separatamente token visivi e testuali, mentre i secondi operano esclusivamente sui token visivi.

Il modello utilizza una semplice concatenazione sequenziale per codificare contesti visivi e istruzioni testuali, abilitando una generalizzazione fluida tra editing locale (y ≠ ∅) e generazione libera (y = ∅). Le informazioni posizionali sono codificate tramite Rotary Positional Embeddings in uno spazio tridimensionale (t, h, w), dove il tempo virtuale t consente di separare gerarchicamente contesto e target all’interno della sequenza.

Prestazioni empiriche e benchmark

FLUX.1 Kontext è stato valutato attraverso KontextBench, un dataset di 1026 coppie immagine-prompt distribuite su cinque categorie: editing locale, editing globale, riferimenti stilistici, riferimenti a personaggi e modifiche testuali. I risultati dimostrano un'elevata qualità generativa sia nei task single-turn che multi-turn, con una significativa riduzione del fenomeno del drift semantico. Il modello raggiunge latenze di inferenza comprese tra 3 e 5 secondi per immagini 1024x1024, rendendolo compatibile con scenari applicativi interattivi.

FLUX.1 Kontext mostra inoltre superiorità nella conservazione delle caratteristiche identitarie di soggetti visivi rispetto a modelli concorrenti, come GPT-Image o Runway Gen-4, come confermato dall’analisi su metriche di similarità facciale (AuraFace). Queste prestazioni lo posizionano tra i modelli più competitivi nel contesto dell’editing iterativo e della generazione condizionata ad alta fedeltà.

Applicazioni avanzate e casi d’uso

Oltre alle funzionalità di editing standard, FLUX.1 Kontext supporta una gamma di operazioni avanzate che includono:

Style reference: trasferimento dello stile visivo di un'immagine di input verso scene semantiche differenti, con mantenimento delle caratteristiche artistiche.
Product-centric editing: generazione e modifica di varianti di prodotti in ambienti controllati, utile in ambiti come l'e-commerce e il design industriale.
Visual cue processing: interpretazione di input visivi (es. bounding box o marcature grafiche) per guidare l'editing secondo vincoli spaziali definiti dall’utente.
Text-region editing: intervento sulle regioni testuali presenti nell'immagine, come titoli, logotipi e contenuti descrittivi, mantenendo coerenza tipografica e contestuale.

Tali capacità, unite a un'infrastruttura di inferenza rapida, ne favoriscono l'integrazione in pipeline creative e sistemi di content generation professionale.

Face to Many | Flux Kontext App

Limiti e prospettive di sviluppo

Nonostante i risultati promettenti, FLUX.1 Kontext presenta alcune limitazioni operative:

In contesti di editing prolungato su più turni, si possono verificare artefatti visivi e perdita di fedeltà rispetto alla distribuzione iniziale.
L'aderenza alle istruzioni testuali può risultare imprecisa in caso di prompt ambigui o compositi.
La conoscenza implicita del modello è limitata alla distribuzione dei dati di addestramento, riducendo la capacità di generare contenuti fortemente ancorati al mondo reale.

Gli autori propongono varie linee di sviluppo future, tra cui:

Estensione del contesto multimodale a sequenze di immagini o a dati video;
Integrazione con pipeline neurali a basso consumo per abilitare l’inferenza edge;
Riduzione della degradazione semantica in sessioni iterative attraverso modelli di stabilizzazione.

Leggi tutte le informazioni tecniche nel PDF:

FLUX.1 Kontext: Flow Matching for In-Context Image Generation and Editing in Latent Space

Tra Google Titans AI e Modello VRIO - Tecnologie e Strategie

Salvino Fidacaro — Thu, 06 Feb 2025 11:27:30 GMT

Inferenza AI con Google Titans, NVIDIA TPU, PIL Python e Python Pillow: come RAG Agent, R1-zero e O3 Mini Benchmarks si integrano nel Modello VRIO e nel Break Even ROAS.

Negli tempi, l’impennata d’interesse verso tecnologie di frontiera e strategie di business ha portato all’attenzione dei professionisti un insieme di tematiche che spaziano dal potenziamento hardware, come Google Titans e NVIDIA TPU, alle metodologie di analisi strategica, tra cui il modello VRIO, fino a toccare concetti di marketing avanzato come il break even ROAS. Al contempo, la crescente complessità degli algoritmi di inferenza AI e l’emergere di approcci eterogenei (ad esempio, il rag agent come forma di retrieval-augmented generation) evidenziano come la sinergia tra sicurezza, performance computazionali e pianificazione economica sia diventata centrale nella ricerca e nello sviluppo di soluzioni innovative.

Soffermandoci sulle componenti hardware, Google Titans rappresenta un tassello cruciale nel garantire un “root of trust” all’interno dei sistemi: si tratta infatti di un insieme di soluzioni e processi che rafforzano l’integrità delle componenti critiche, riducendo la superficie di attacco e prevenendo manipolazioni a livello di firmware. In ambito di IA, questa solidità è fondamentale per proteggere i dati sensibili, soprattutto quando si implementano modelli ad alte prestazioni su dispositivi edge o in cloud. Sul versante del calcolo distribuito, l’uso di dispositivi TPU (Tensor Processing Unit) ha consentito un salto di qualità rispetto ai tradizionali acceleratori GPU di NVIDIA, grazie a un’architettura orientata specificamente alle operazioni di matrice tipiche del deep learning. Naturalmente, GPU e TPU non si escludono a vicenda: anzi, la progettazione di un sistema ibrido o la scelta accurata tra GPU e TPU in base ai carichi di lavoro (fasi di training o di inferenza) rappresenta un tema di studio assai attuale nei corsi di High-Performance Computing dedicati all’intelligenza artificiale.

Un ulteriore aspetto tecnico è costituito dalle pipeline software, in cui librerie come PIL Python e Python Pillow si rivelano indispensabili per la manipolazione delle immagini. Queste librerie sono spesso integrate in framework di deep learning (TensorFlow, PyTorch) per pre-elaborare dataset di grandi dimensioni, curando operazioni di data augmentation o ridimensionamento. Tale attività risulta propedeutica a una inferenza AI di qualità, in cui la regolarizzazione e la preparazione accurata del dato influiscono sensibilmente sull’accuratezza finale del modello. In parallelo, tecniche quali il rag agent (ossia modelli che attingono dinamicamente a conoscenze esterne) esemplificano l’evoluzione verso sistemi cognitivi in grado di comprendere e generare contenuti in maniera contestuale, fornendo risposte sempre più pertinenti in ambito NLP (Natural Language Processing), customer care e analisi semantica.

Sul fronte della gestione d’impresa, l’innovazione tecnologica diventa sostenibile solo se affiancata da una solida visione strategica. Qui entra in gioco il modello VRIO (Valuable, Rare, Inimitable, Organized), uno strumento proveniente dagli studi di Resource-Based View che consente di valutare come le risorse interne all’azienda possano evolvere in un vantaggio competitivo di lungo periodo. La capacità di sviluppare, ad esempio, competenze su GPU e TPU o di creare un ecosistema in cui il rag agent trovi applicazioni reali, diventa così un fattore distintivo, a patto che l’impresa sia in grado di organizzarsi efficacemente per sfruttare tali risorse. Inoltre, dal punto di vista economico, monitorare il break even ROAS risulta essenziale: in contesti altamente competitivi, le campagne di digital marketing possono assorbire budget rilevanti e una stima precisa del Return On Advertising Spend al punto di pareggio permette di evitare dispersioni finanziarie e orientare gli sforzi pubblicitari verso canali più profittevoli.

Sul piano della ricerca pura, strumenti di ottimizzazione del codice come gli o3 mini benchmarks rivelano quanto una semplice opzione di compilazione – il livello -O3 – possa migliorare la velocità di esecuzione di algoritmi di machine learning, soprattutto se abbinato a istruzioni SIMD (Single Instruction, Multiple Data) e tecniche di autovettorizzazione. Allo stesso tempo, progetti emergenti come r1-zero si ispirano a soluzioni di reinforcement learning senza dati etichettati (sulla scia di AlphaZero e MuZero), segno che la ricerca IA si sta spostando verso modelli più generali e flessibili, capaci di apprendere strategie a partire da regole minime e feedback ambientali. Questo filone di studi incrocia inevitabilmente l’ambito dei self-play training e dei Monte Carlo Tree Search, rendendo l’ecosistema dell’AI incredibilmente ricco di spunti per tesi di laurea magistrale o di dottorato.

La coesistenza di temi quali sicurezza e hardware (Google Titans, NVIDIA TPU), pipeline software (PIL, Pillow, rag agent) e strategie di business (modello VRIO, break even ROAS) dimostra come i progetti più ambiziosi oggi si basino su un approccio integrato, in cui il vantaggio competitivo è il risultato della corretta ibridazione tra risorse tecnologiche e competenze organizzative. Con un’adeguata pianificazione, le aziende possono adottare infrastrutture sicure, acceleratori di calcolo adeguati e tecniche di machine learning all’avanguardia, senza dimenticare l’ottimizzazione del ritorno sugli investimenti pubblicitari e la valutazione delle proprie capabilities interne. Tutto questo rende la padronanza di tali argomenti un requisito sempre più imprescindibile per studenti universitari, ricercatori e specialisti che aspirano a guidare l’innovazione nel panorama globale.

OpenAI o3-mini vs DeepSeek R1

Salvino Fidacaro — Sat, 01 Feb 2025 17:38:30 GMT

Questo confronto dettagliato evidenzia come, nonostante l’OpenAI o3‑mini offra prestazioni complessive migliori in molti ambiti, il DeepSeek‑R1 rimanga una valida alternativa per adesso a costi piú bassi, grazie ai suoi punti di forza specifici e al modello open-source. La decisione finale dovrà tenere conto delle esigenze particolari dell’utente, sia in termini di performance che di costi e flessibilità di implementazione, anche se attualmente la piattaforma offerta da OpenAI è molto piu stabile e affidabile dell'infrastruttura offerta da DeepSeek.

Analisi dei Benchmark e delle Prestazioni

Prestazioni Globali

Global Average:
L’OpenAI o3‑mini registra una media globale di 73.94, mentre il DeepSeek‑R1 ottiene 71.38. Questo dato suggerisce che l’o3‑mini ha una performance leggermente migliore nel complesso, coprendo una vasta gamma di task.

Competenze Specifiche

Reasoning:
Con un punteggio di 89.58 rispetto agli 83.17 di DeepSeek‑R1, l’OpenAI o3‑mini dimostra una notevole capacità nel ragionamento, essenziale per comprendere, analizzare e trarre conclusioni da informazioni complesse.
Coding:
Nell’ambito della programmazione, il modello o3‑mini segna 82.74, ben al di sopra dei 66.74 di DeepSeek‑R1, evidenziando una maggiore abilità nel comprendere concetti di programmazione e risolvere problemi di coding.
Matematica:
Al contrario, per quanto riguarda i compiti matematici, il DeepSeek‑R1 si distingue con un punteggio di 79.54 contro i 65.65 dell’o3‑mini, dimostrando una maggiore forza nel ragionamento numerico e nella risoluzione di problemi matematici.
Data Analysis e Linguaggio:
Nel data analysis, l’o3‑mini segna 70.64 rispetto a 69.78 di DeepSeek‑R1, mentre per i task linguistici il punteggio è di 50.68 contro 48.53. In entrambi i casi, il vantaggio dell’o3‑mini è marginale ma presente.
IF (Indice di Funzionalità) Average:
Con un punteggio di 84.36 rispetto agli 80.51 del DeepSeek‑R1, l’OpenAI o3‑mini sembra possedere una capacità complessiva di “intelligenza” leggermente superiore, coprendo un ampio spettro di competenze.

Benchmark Aggiuntivi

NYT Connections (Puzzle):
Qui l’OpenAI o3‑mini si posiziona con un punteggio di 72.4, posizionandosi tra i migliori performer. Il DeepSeek‑R1, con 54.4, risulta superato di ben 18 punti, evidenziando una differenza significativa nella capacità di risolvere puzzle complessi.

Humanity’s Last Exam:

Accuracy (%):
L’o3‑mini (versione high) raggiunge il 13.0% di risposte corrette, mentre il DeepSeek‑R1 ottiene il 9.4%, indicando una maggiore efficacia nel fornire risposte giuste.
Calibration Error (%):
Un parametro importante è l’errore di calibrazione: l’o3‑mini mostra un errore del 93.2% contro l’81.8% del DeepSeek‑R1. Poiché un errore di calibrazione più basso è preferibile, il DeepSeek‑R1 risulta migliore in questo ambito, suggerendo una maggiore affidabilità nelle sue previsioni di confidenza.
Altri Benchmark:
Sui test come AIME 2024, SWE-bench e Codeforces, l’OpenAI o3‑mini dimostra un vantaggio nel comprendere istruzioni complesse e nei compiti di ragionamento, anche se alcuni task richiedono uno sforzo di ragionamento elevato da parte di entrambi i modelli.

Confronto fra prezzi per l'uso delle API

Dal punto di vista economico, il modello DeepSeek‑R1 è più conveniente:

DeepSeek‑R1:
$0.14 per milione di input tokens memorizzati
$2.19 per milione di output tokens
OpenAI o3‑mini:
$0.55 per milione di input tokens
$4.40 per milione di output tokens

Anche se l’o3‑mini offre prestazioni superiori in molti ambiti, il suo costo API è maggiore rispetto a DeepSeek‑R1. Tuttavia, il prezzo dell’o3‑mini risulta competitivo e, in alcuni casi, è descritto come più conveniente rispetto ad altri modelli di OpenAI, come l’O1‑mini.

Open-sourced vs Closed-source

Un aspetto determinante per molti utenti è la disponibilità del codice sorgente:

DeepSeek‑R1 è completamente open-sourced, il che offre maggiore trasparenza e possibilità di personalizzazione.
OpenAI o3‑mini, al contrario, segue la tradizionale strategia di OpenAI, mantenendo il modello closed-source, limitando l’accesso e la possibilità di modifiche da parte della community.

Il confronto tra OpenAI o3‑mini e DeepSeek‑R1 evidenzia una serie di punti di forza e di debolezza per ciascun modello:

OpenAI o3‑mini si distingue per:

Migliori performance globali e in specifiche aree come il ragionamento e il coding.
Ottime prestazioni in benchmark complessi (es. NYT Connections e AIME).
Un vantaggio nell’IF average, che ne sottolinea l’efficacia generale.

DeepSeek‑R1 eccelle in:

Compiti matematici, dove il punteggio supera significativamente quello dell’o3‑mini.
Migliore calibrazione delle previsioni, con un errore inferiore.
Costi API decisamente più contenuti, rendendolo una scelta attraente per chi ha vincoli di budget.
La completa apertura del codice, che favorisce la trasparenza e l’adozione da parte della community open-source.

La scelta tra i due modelli dipenderà quindi dall’uso specifico: chi ha bisogno di performance superiori in ragionamento e coding potrebbe optare per l’OpenAI o3‑mini, mentre chi lavora principalmente su problemi matematici, o cerca soluzioni più economiche e trasparenti, potrebbe trovare in DeepSeek‑R1 l’opzione migliore.

Quando pubblicare su TikTok - Tools Gratuito

Salvino Fidacaro — Sat, 01 Feb 2025 15:44:14 GMT

Utilizza questo strumento gratuito per capire quando è meglio pubblicare su TikTok per ottenere maggiore visibilità.

Scopri il miglior orario per postare su TikTok

Deepseek Janus-Pro Comprensione e Generazione Multimodale

Salvino Fidacaro — Wed, 29 Jan 2025 19:04:46 GMT

Il Deepseek Janus-Pro rappresenta un significativo passo avanti nell'evoluzione dei modelli di comprensione e generazione multimodale. Basato sul precedente Janus, questa nuova versione introduce miglioramenti chiave che aumentano l'efficacia del modello in vari scenari applicativi. Tra le principali novità di questo modello rilasciato da Deepseek troviamo:

Strategia di addestramento ottimizzata, che migliora l'efficienza e la qualità della generazione.
Espansione del dataset di training, per aumentare la capacità di comprensione multimodale.
Scalabilità del modello su larga scala, offrendo versioni con un numero maggiore di parametri per prestazioni superiori.
Ottimizzazione dell'architettura, riducendo il consumo di risorse computazionali senza compromettere le prestazioni.
Maggiore adattabilità ai diversi contesti di utilizzo, migliorando la personalizzazione dell'output in base alle esigenze specifiche dell'utente.

Grazie a questi aggiornamenti, Janus-Pro eccelle sia nella comprensione multimodale che nella generazione di immagini basata su istruzioni testuali, migliorando notevolmente la stabilità della conversione testo-immagine.

Evoluzione della Serie Janus

Il modello Janus ha introdotto un framework autoregressivo innovativo, unificando la comprensione e la generazione multimodale tramite un'architettura transformer unificata. Una delle principali caratteristiche di Janus è la separazione dell'encoding visivo in percorsi distinti, riducendo il conflitto tra il ruolo dell'encoder visivo nella comprensione e generazione. Questo approccio ha portato a maggiore flessibilità e prestazioni migliorate, superando modelli precedenti e avvicinandosi a quelli specifici per task individuali.

JanusFlow: Unificando Autoregressione e Rectified Flow

JanusFlow ha portato avanti l'idea di un modello unificato, integrando i modelli autoregressivi con il rectified flow, una tecnica avanzata nella modellazione generativa. Grazie a questa innovazione, JanusFlow ha raggiunto prestazioni comparabili o superiori rispetto ai modelli specializzati, superando significativamente gli approcci unificati esistenti nei benchmark standard.

Janus-Pro: Un Salto di Qualità

Il 27 gennaio 2025, Deepseek ha annunciato il rilascio di Janus-Pro, la versione avanzata di Janus. Questo aggiornamento garantisce:

Migliore comprensione multimodale, grazie a un'architettura ottimizzata.
Generazione di immagini più accurata e stabile, con un dataset più ampio e raffinato.
Maggiore scalabilità ed efficienza computazionale, per garantire risultati migliori anche con input complessi.
Integrazione migliorata con altre piattaforme AI, consentendo applicazioni più fluide in ecosistemi preesistenti.

Architettura e Innovazioni Tecniche

Janus-Pro introduce un encoder decoupled per la comprensione e la generazione visiva. Il cuore dell’architettura è un transformer autoregressivo, con un encoder dedicato alla comprensione e uno alla generazione.

Innovazioni nel Modulo di Comprensione

Per migliorare la qualità delle risposte multimodali, Janus-Pro utilizza il modello SigLIP, che consente di estrarre caratteristiche semantiche avanzate dalle immagini. Questa strategia permette di affinare la precisione della comprensione visiva in modo significativo.

Miglioramenti nella Generazione di Immagini

La generazione di immagini è stata potenziata con un tokenizer VQ, che trasforma le immagini in sequenze discrete di token. Questo approccio ha migliorato notevolmente la coerenza e la stabilità delle immagini prodotte, riducendo artefatti visivi e migliorando la fedeltà ai prompt testuali.

Strategie di Addestramento Ottimizzate

L’addestramento di Janus-Pro è stato perfezionato e suddiviso in tre fasi principali:

Stage I – Addestramento iniziale sugli adattatori di comprensione e generazione, ottimizzando le capacità di ciascun modulo.
Stage II – Pre-training su dataset multimodali, con particolare attenzione alla coerenza semantica nelle immagini generate.
Stage III – Fine-tuning supervisionato con una distribuzione bilanciata dei dati per massimizzare la precisione del modello.
Adattamento ai diversi scenari applicativi, con test approfonditi su vari domini, garantendo una maggiore versatilità nell’uso pratico.

Questa metodologia ha portato a un incremento del 20% nella qualità delle immagini generate rispetto alla versione precedente.

Benchmark e Prestazioni

I test su benchmark standard confermano le eccellenti prestazioni di Janus-Pro:

79.2 su MMBench, superando modelli come TokenFlow e MetaMorph.
0.80 su GenEval, con un miglioramento notevole rispetto a DALL-E 3 e Stable Diffusion 3 Medium.
84.19 su DPG-Bench, stabilendo un nuovo standard nella generazione di immagini complesse e dettagliate.
Riduzione del tempo di inferenza del 30%, consentendo una generazione di immagini più rapida ed efficiente.

Applicazioni e Utilizzi di Janus-Pro

Grazie alle sue capacità avanzate, Janus-Pro può essere utilizzato in vari settori, tra cui:

Design e Grafica – Creazione di immagini realistiche a partire da descrizioni testuali dettagliate.
Educazione e Ricerca – Miglioramento della comprensione delle immagini per modelli di apprendimento avanzati.
E-commerce e Pubblicità – Generazione di contenuti visivi accattivanti basati su input personalizzati.
Medicina e Diagnosi – Supporto all’analisi visiva con riconoscimento e comprensione avanzata delle immagini.
Intrattenimento e Gaming – Sviluppo di contenuti visivi per videogiochi e ambienti virtuali interattivi.
Industria Automobilistica – Riconoscimento di immagini per applicazioni di guida autonoma e assistita.

Risorse e Accesso a Janus-Pro

Per chi è interessato a sperimentare Janus-Pro, sono disponibili diverse risorse:

Con il rilascio di Janus-Pro, Deepseek consolida la sua posizione all'avanguardia nel campo dell’intelligenza artificiale multimodale?

Grazie alle sue innovazioni architetturali e all’efficienza migliorata, Janus-Pro si propone come uno dei modelli più avanzati disponibili oggi, ideale per una vasta gamma di applicazioni che richiedono una potente sinergia tra comprensione e generazione visiva. Ma dobbiamo aspettare ancora un po' di tempo prima che molte delle intuizioni di Deepseek diventino un prodotto consolidato.

Da qui è possibile leggere l'intero paper del rilascio.

DeepSeek solo hype mediatico o vera innovazione?

Salvino Fidacaro — Tue, 28 Jan 2025 18:04:57 GMT

Negli ultimi giorni, l’intelligenza artificiale cinese DeepSeek è sulla bocca di tutti, facendo tremare anche le borse internazionali, ma quanto c'è di vero dietro al clamore mediatico? Cerco di analizzare lo stato attuale, continua a leggere.

I numeri di DeepSeek R1 V3

Il 26 dicembre è stato rilasciato DeepSeek V3, un modello con ben 671 miliardi di parametri, che promette prestazioni straordinarie grazie a:

Un addestramento su 8 trilioni di token.
Performance comparabili (e in alcuni casi superiori) a quelle di GPT-4 e Claude.
Un tempo di addestramento record di soli 2 mesi.
Un costo dichiarato di appena 5,57 milioni di dollari – un confronto notevole rispetto agli oltre 500 milioni di dollari spesi per sviluppare modelli come LLaMA 3.1.

Ma è tutto oro quello che luccica?

Secondo i benchmark, le prestazioni sono effettivamente simili a quelle dei giganti del settore, ma c’è un dettaglio importante: DeepSeek ha raggiunto questi risultati attraverso una tecnica nota come Model Distillation.

La Model Distillation è un processo che trasferisce la conoscenza da un modello di grandi dimensioni (ad esempio GPT-4) a uno più piccolo e ottimizzato. Tradotto? Si tratta di una sorta di reverse engineering o, per dirla in modo più diretto, una tecnica che sfrutta il lavoro di altri per creare qualcosa di nuovo. Questo solleva domande sull’originalità del modello.

Prestazioni reali: pro e contro

È vero che, tra i modelli Open Source, DeepSeek si distingue per efficienza e versatilità. Tuttavia, quando lo si confronta con i big come ChatGPT, Claude o Gemini, emergono alcune criticità:

Ottimizzazione per i benchmark: sembra che DeepSeek sia stato addestrato specificamente per brillare nei test tecnici, ma quando si esce dal contesto dei benchmark, le sue performance calano sensibilmente.

Tecniche avanzate: il modello combina due metodologie innovative per migliorare i risultati:

Chain of Thought (CoT): consente al modello di ragionare per passaggi, migliorando l’accuratezza.
Mixture of Experts (MoE): permette al sistema di attivare solo specifici componenti del modello per risolvere compiti specifici, riducendo il consumo di risorse.

Il confronto con la concorrenza

Un dettaglio spesso trascurato è che DeepSeek non è l’unico modello cinese di alto livello. Prima del suo rilascio, AliBaba aveva già presentato un modello simile chiamato "qwq". Entrambi offrono prestazioni comparabili, e quando si tratta di risolvere problemi reali (al di fuori dei benchmark), non è facile decretare un vincitore.

Inoltre, DeepSeek si basa su un modello OpenAI precedente (livello “o1”), migliorandolo grazie a una maggiore attenzione alla qualità dei dati di allenamento. Questo rappresenta un progresso interessante, ma non rivoluzionario. Il futuro della competizione dipenderà dall’evoluzione di nuovi modelli, come il prossimo livello “o3”.

Open Source e realtà tecniche

C’è anche chi sostiene che DeepSeek possa funzionare su un normale PC grazie alla sua architettura open source. In realtà, la versione più potente (671 miliardi di parametri) richiede infrastrutture hardware avanzate, come server dotati di molte GPU Nvidia. Gli utenti comuni, soprattutto su app mobili, interagiscono comunque con cluster di GPU ad alte prestazioni.

Novità su Qwen2.5-1M

A due mesi dall'aggiornamento di Qwen2.5-Turbo per supportare una lunghezza di contesto fino a un milione di token, sono stati rilasciati i modelli open-source Qwen2.5-1M e il framework di inferenza corrispondente. Ecco i dettagli principali:

Modelli Open Source: Due nuovi checkpoint, Qwen2.5-7B-Instruct-1M e Qwen2.5-14B-Instruct-1M, sono stati introdotti per gestire contesti fino a 1 milione di token, segnando un importante passo avanti per i modelli open source.

Framework di Inference: Per aiutare gli sviluppatori a implementare in modo efficiente i modelli Qwen2.5-1M, è stato completamente open-sourcizzato un framework di inferenza basato su vLLM. Grazie all'integrazione di metodi di sparse attention, questo framework può processare input di 1 milione di token da 3 a 7 volte più velocemente.

Report Tecnico: Sono stati condivisi dettagli tecnici sui modelli Qwen2.5-1M, comprese le intuizioni di design per i framework di training e inferenza, oltre a esperimenti di ablation.

Gli utenti possono provare i modelli Qwen2.5-1M direttamente attraverso le demo su Huggingface e Modelscope.

Inoltre, è stato recentemente introdotto Qwen Chat, un assistente AI avanzato della serie Qwen, che offre funzionalità come conversazioni, scrittura di codice, ricerca, generazione di immagini e video, e utilizzo di strumenti. Questo assistente utilizza il modello Qwen2.5-Turbo, che supporta un'elaborazione di contesto estesa fino a 1 milione di token.

Considerazioni finali

DeepSeek R1 V3 rappresenta sicuramente un passo avanti significativo nell’ecosistema AI cinese. Tuttavia, è essenziale contestualizzarne le performance: è un progresso costruito su tecnologie esistenti e ottimizzato per impressionare nei test tecnici più che per risolvere problemi complessi del mondo reale. Allo stesso tempo, le novità su Qwen2.5-1M e il suo framework di inferenza dimostrano che l'ecosistema open source continua a evolversi rapidamente, offrendo strumenti sempre più potenti e accessibili per gli sviluppatori.

Guardando al futuro, sarà interessante osservare come i modelli successivi evolveranno e se riusciranno a trasformare questi progressi in innovazioni capaci di incidere profondamente nel panorama globale dell’intelligenza artificiale.

Memory Architecture e Retrieving a Memory in Google Titans

Salvino Fidacaro — Wed, 22 Jan 2025 09:08:26 GMT

L’utilizzo della memoria nelle reti neurali è un campo in continua evoluzione che mira a migliorare la capacità delle reti di memorizzare e recuperare informazioni rilevanti nel tempo. Di seguito cercherò di esplorare due concetti fondamentali nel contesto delle reti neurali, con un focus particolare sulle architetture di memoria e sul processo di recupero delle informazioni descritto dal paper Titans: Learning to Memorize at Test Time e trattato all'interno dell'altro articolo Google TITANS una nuova memoria.

Memory Architecture: Come Funziona la Memoria a Lungo Termine

La memoria a lungo termine in una rete neurale è progettata per archiviare dati utili provenienti dal passato e integrarli nel processo di inferenza futuro. Questo approccio si basa su Multi-Layer Perceptrons (MLPs) con almeno due layer (LM ≥ 2), che risultano essere significativamente più espressivi rispetto ai modelli lineari.

Perché MLPs con LM ≥ 2?

Le MLPs con due o più layer hanno una capacità maggiore di rappresentare funzioni non lineari, rendendole adatte per catturare dipendenze complesse nei dati storici. Questo è particolarmente utile quando si utilizza una matrice di memoria , che comprime i dati passati e li trasforma in una rappresentazione più compatta.

Un Approccio Matematico

Nel contesto dell’ottimizzazione, una matrice di memoria viene trattata come una soluzione per minimizzare un obiettivo di regressione lineare online. L’ottimizzazione minimizza l’errore quadratico tra i dati osservati e il contenuto memorizzato, rendendo la dipendenza storica dei dati una funzione lineare. Tuttavia, grazie alla profondità e non linearità delle MLPs, queste architetture possono rappresentare relazioni più complesse rispetto a quelle ottenute con approcci lineari.

Vantaggi di Architetture Avanzate

Recenti lavori di ricerca hanno dimostrato che l’uso di memorie profonde (“deep memory modules”) è più efficace in contesti pratici. Incorporando queste architetture nel framework esistente, le reti possono migliorare notevolmente la loro capacità di ricordare e utilizzare informazioni passate in modo strategico.

Retrieving a Memory: Come Recuperare le Informazioni

Uno degli aspetti più importanti della memoria nelle reti neurali è la capacità di recuperare informazioni rilevanti senza aggiornare i pesi del modello durante l’inferenza. Questo processo si basa su una pipeline chiara:

Proiezione dell’input:L’input corrente viene proiettato in uno spazio latente tramite una matrice lineare . Questo genera una query , che è una rappresentazione compatta dell’input.
Recupero dalla memoria:La query viene utilizzata per interrogare la memoria . La memoria restituisce un’informazione utile , calcolata come: dove rappresenta il modulo di memoria ottimizzato per recuperare informazioni rilevanti.

Esempio Pratico

Immaginiamo un sistema di traduzione automatica che apprende da conversazioni precedenti. Durante l’inferenza, il sistema usa la query per recuperare strutture linguistiche o vocaboli rilevanti dalla memoria, migliorando la qualità della traduzione senza bisogno di riaddestrare il modello in tempo reale.

Il Ruolo delle tecnologie avanzate come Titans

Progetti come Google Titans rappresentano un punto di riferimento nell’implementazione di architetture di memoria su larga scala. Titans utilizza una combinazione di:

Memorie avanzate basate su MLPs: Queste memorie riescono a catturare dipendenze complesse nei dati.
Tecniche di compressione e recupero ottimizzate: Questi approcci riducono il costo computazionale, garantendo al contempo un recupero rapido e accurato delle informazioni.

Long-term Memory

1. Linear Within-Chunk

In questa fase, i dati all'interno di un chunk (o blocco) vengono elaborati linearmente. Ogni elemento del chunk influenza i successivi attraverso operazioni cumulative.

Tecnica: Utilizzo di una funzione di somma cumulativa (“cumsum”).

Obiettivo: Integrare relazioni sequenziali tra i dati all'interno dello stesso blocco.

2. Non-Linear Cross-Chunk

Qui le relazioni non lineari tra i dati di chunk differenti vengono elaborate.

Tecnica: Si utilizza il gradiente per aggiornare i pesi o i valori associati ai dati nei vari chunk.

Obiettivo: Catturare dipendenze complesse tra blocchi di dati, andando oltre la semplice linearità.

3. Momentum Calculation

Questa fase calcola il momentum per aggiornare i pesi basandosi sui gradienti.

Opzioni:

Parallel Associative Sum: Somma parallela di tutti i gradienti pre-computati.
Global Kernel: Utilizzo di un kernel globale per catturare pattern su larga scala.

Obiettivo: Ottimizzare il processo di addestramento migliorando la convergenza attraverso l'uso del momentum.

4. Weight Decay

La tecnica di Weight Decay penalizza i pesi per prevenire l'overfitting, modificando l'aggiornamento dei pesi attraverso una moltiplicazione con matrici.

Formule:

Senza Decadimento: (W₀ X - X) X^T
Con Decadimento: Θ_b B_b (W₀ X - X) X^T

Obiettivo: Ridurre l’importanza di pesi eccessivi per evitare che il modello si adatti troppo ai dati di addestramento.

L'immagine evidenzia un approccio scalabile e parallelo per addestrare una memoria neurale.

Tecniche principali: Somma cumulativa, calcolo del gradiente, momentum parallelo, kernel globale, e decadimento dei pesi.

Efficienza: L'uso di matrici (“matmuls”) permette di velocizzare il calcolo, rendendo il processo computazionalmente praticabile su larga scala.

Modeling Past Surprise in Google Titans

Salvino Fidacaro — Tue, 21 Jan 2025 17:10:59 GMT

Nell’ambito dell’apprendimento automatico, la capacità di riconoscere e gestire gli eventi “sorprendenti” — ovvero situazioni in cui la previsione di un modello differisce in modo significativo dall’osservazione — è cruciale per garantire che il sistema si adatti efficacemente ai nuovi dati. L’algoritmo di Google Titans fa leva su questo principio introducendo una componente di “sorpresa” nel meccanismo di aggiornamento della memoria neurale. Questa memoria consente al modello di apprendere da eventi inaspettati, conservarne traccia e, allo stesso tempo, dimenticare gradualmente l’effetto di sorprese superate.

L’idea di base è trattare la “sorpresa” come un segnale di errore che misura quanto l’evidenza corrente sia distante dalle previsioni del modello. Il sistema aggiorna quindi il proprio stato interno, aumentando il peso degli eventi effettivamente sorprendenti e attenuando col passare del tempo l’influenza di quelli vecchi. Grazie a questo approccio, Google Titans è in grado di adattarsi a contesti dinamici, evitare eccessivi “scossoni” dovuti a rumore e, al contempo, ricordare a lungo termine gli eventi più significativi per il proprio apprendimento.

Adesso vediamo nel dettaglio la formula Modeling Past Surprise in Google Titans

Queste formule descrivono in che modo, in un modello neurale, si tiene traccia della “sorpresa” passata e la si combina con la “sorpresa momentanea” per aggiornare una sorta di “memoria” interna MtM_t. L’idea di fondo è ispirata alla psicologia: un evento inaspettato non ci sorprende per sempre, ma lascia comunque una traccia mnemonica (il “ricordo” di quella sorpresa).

```html

Spiegazione delle Formule

Le due principali equazioni sono:

M_t = M_t-1 + S_t

S_t = η_t   S_t-1  −  θ_t ∇ℓ(M_t-1; x_t)

1. Memoria `M_t`

M_t rappresenta la memoria al tempo t. Essa si ottiene dalla memoria precedente M_t-1 aggiungendo il termine di sorpresa S_t:

M_t = M_t-1 + S_t

2. Sorpresa `S_t`

S_t racchiude la sorpresa che si manifesta al tempo t. La sorpresa si compone di una parte che tiene traccia delle sorprese precedenti (con un fattore di decadimento) e di una parte che cattura la sorpresa momentanea (il gradiente della perdita).

S_t = η_t S_t-1 − θ_t ∇ℓ(M_t-1; x_t)

η_t è un fattore di decadimento (spesso compreso fra 0 e 1) che regola quanto la sorpresa precedente S_t-1 influisca ancora sul nuovo stato.
∇ℓ(M_t-1; x_t) è il gradiente della funzione di perdita ℓ rispetto alla “memoria” M_t-1, valutato sul dato x_t. Più questo gradiente è elevato, più differisce la previsione dal valore reale osservato (maggiore è la “sorpresa” momentanea).
θ_t bilancia la rilevanza della sorpresa momentanea.

3. Significato Intuitivo

Se ∇ℓ è grande, significa che il modello ha commesso un errore significativo nel predire x_t; di conseguenza S_t aumenta e influisce maggiormente su M_t. Nel frattempo, la componente η_t S_t-1 mostra che la sorpresa precedente non sparisce all'istante, bensì viene “ricordata” nel nuovo valore di sorpresa S_t.

In questo modo, il modello conserva la memoria di eventi inaspettati, ma ne riduce gradualmente l’influenza col passare del tempo. Alla fine, M_t (la “memoria a lungo termine”) integra sia la sorpresa corrente, sia quella passata, permettendo al sistema di apprendere dagli eventi più rilevanti e di non dimenticare del tutto quelli passati.

```

DeepSeek R1 e DeepSeek R1-Zero

Salvino Fidacaro — Tue, 21 Jan 2025 10:32:23 GMT

Evoluzione della ricerca sui modelli di intelligenza artificiale, emergono nuove soluzioni che ridefiniscono il modo in cui affrontiamo i problemi complessi. Tra queste, si distinguono i modelli di prima generazione per il ragionamento: DeepSeek-R1-Zero e DeepSeek-R1.

DeepSeek-R1-Zero: Questo modello, frutto di una strategia avanzata di apprendimento per rinforzo su larga scala (RL), non include una fase preliminare di fine-tuning supervisionato (SFT). Tale approccio ha permesso di sviluppare capacità di ragionamento straordinarie, manifestando comportamenti quali l'auto-verifica e la riflessione. Tuttavia, alcune limitazioni come ripetizioni infinite, difficoltà di leggibilità e mix linguistici rappresentano sfide ancora aperte.
DeepSeek-R1: Per affrontare queste problematiche e migliorare ulteriormente il modello, abbiamo introdotto dati iniziali (cold-start) prima dell'applicazione di RL. Questo modello ha dimostrato di raggiungere prestazioni di alto livello in compiti complessi come matematica, programmazione e ragionamento, rivaleggiando con OpenAI-o1.

La nostra dedizione al progresso tecnologico ci ha portato a rendere open-source sia DeepSeek-R1-Zero che DeepSeek-R1, affiancandoli a sei modelli distillati basati su framework avanzati come Llama e Qwen. Particolarmente significativo è DeepSeek-R1-Distill-Qwen-32B, che stabilisce nuovi standard superando le prestazioni di OpenAI-o1-mini in molteplici benchmark.

Addestramento Posteriore: Reinforcement Learning su Modelli Base

Il processo di sviluppo di DeepSeek-R1-Zero si basa su un approccio diretto di RL applicato al modello base, evitando l'uso di SFT come fase iniziale. Tale strategia consente al modello di esplorare strutture di ragionamento come il Chain-of-Thought (CoT), necessarie per risolvere problemi complessi. Questo segna una pietra miliare nella ricerca, dimostrando che le capacità di ragionamento possono essere sviluppate esclusivamente tramite RL, senza dati supervisionati.

DeepSeek-R1, invece, implementa una pipeline innovativa che combina due fasi di RL per affinare le capacità di ragionamento e allinearle alle preferenze umane. Questa metodologia è supportata da due fasi di SFT che fungono da fondamento per costruire capacità solide, sia nel ragionamento che in altri compiti correlati. Tale pipeline rappresenta un modello di riferimento per lo sviluppo futuro.

Potenza nei modelli più piccoli

Abbiamo dimostrato che la distillazione consente di trasferire schemi di ragionamento avanzati dai modelli di grandi dimensioni a quelli più piccoli. Questa tecnica ha portato a prestazioni superiori rispetto a quelle ottenute applicando RL direttamente sui modelli ridotti. La distillazione di DeepSeek-R1 ha prodotto modelli densi estremamente efficaci nei benchmark, aprendo nuove prospettive per la comunità di ricerca.

Tra i modelli distillati resi disponibili, spiccano soluzioni con parametri variabili da 1.5B a 70B, basate su serie consolidate come Qwen2.5 e Llama3.

Architettura del Modello, addestramento posteriore: Reinforcement Learning senza SFT

DeepSeek-R1-Zero rappresenta una svolta nel paradigma di addestramento, dimostrando che è possibile incentivare capacità di ragionamento avanzate senza la necessità di dati supervisionati iniziali. La sua capacità di generare CoT estese e di auto-valutarsi è stata raggiunta tramite un'implementazione avanzata di RL.

Con DeepSeek-R1, la pipeline si espande includendo due fasi di RL per ottimizzare le capacità di ragionamento e allinearle alle preferenze umane, seguite da due fasi di SFT che fungono da seme per sviluppare capacità di base sia nel ragionamento che in altri ambiti. Questo approccio combinato offre un equilibrio tra autonomia del modello e precisione.

Migliorare i modelli più piccoli

La distillazione è stata applicata per trasferire schemi di ragionamento complessi da modelli di grandi dimensioni a versioni più leggere, mantenendo livelli di performance comparabili. I modelli distillati, con parametri che vanno da 1.5 a 70 miliardi, sono stati ottimizzati per soddisfare le esigenze sia di ricerca avanzata che di applicazioni su larga scala, riducendo i requisiti computazionali senza compromettere l'efficacia.

Dettagli dei Modelli Disponibili

Modello	Parametri Totali	Parametri Attivi	Lunghezza Contesto
DeepSeek-R1-Zero	671B	37B	128K
DeepSeek-R1	671B	37B	128K

Modelli Distillati

Modello	Modello Base
DeepSeek-R1-Distill-Qwen-1.5B	Qwen2.5-Math-1.5B
DeepSeek-R1-Distill-Qwen-7B	Qwen2.5-Math-7B
DeepSeek-R1-Distill-Llama-8B	Llama-3.1-8B
DeepSeek-R1-Distill-Qwen-14B	Qwen2.5-14B
DeepSeek-R1-Distill-Qwen-32B	Qwen2.5-32B
DeepSeek-R1-Distill-Llama-70B	Llama-3.3-70B-Instruct

Risultati di Valutazione

Benchmark Principali

Categoria	Benchmark	DeepSeek-R1	OpenAI-o1-mini	GPT-4o 0513
Matematica	AIME 2024 Pass@1	79.8	63.6	9.3
Codice	Codeforces Rating	2029	1820	759
Lingua	MMLU Redux (EM)	92.9	86.7	88.0

Prestazioni Generali

DeepSeek-R1 ha ottenuto risultati superiori rispetto a modelli concorrenti, stabilendo nuovi standard di performance. Ad esempio, sul benchmark MATH-500, il modello ha raggiunto un punteggio Pass@1 del 97.3%, superando i precedenti record per modelli densi. Inoltre, ha ottenuto il 96.3° percentile su Codeforces, evidenziando capacità avanzate di programmazione algoritmica.

Approcci Innovativi

Group Relative Policy Optimization (GRPO)

DeepSeek-R1-Zero utilizza GRPO, un algoritmo progettato per massimizzare le capacità di ragionamento riducendo l'impatto computazionale. Questo approccio ha permesso di incrementare le prestazioni durante l'addestramento, passando da un punteggio iniziale del 15.6% a un sorprendente 71.0% su AIME 2024.

Cold-Start e Supervised Fine-Tuning

L'uso di dati cold-start ha contribuito a migliorare la coerenza e la leggibilità delle risposte. Migliaia di esempi di CoT sono stati integrati per costruire una base solida e ridurre problematiche come mescolanza linguistica e incoerenza.

Distillazione Ottimizzata

La distillazione è stata ulteriormente affinata per creare modelli leggeri ma potenti. Questa tecnica ha reso possibile l'implementazione di soluzioni avanzate anche in ambienti con risorse limitate, mantenendo un'elevata qualità delle prestazioni.

Utilizzo dei Modelli

I modelli DeepSeek-R1 e DeepSeek-R1-Distill possono essere implementati localmente utilizzando framework come vLLM o SGLang:

vLLM:

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768

SGLang:

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

Nota: Si consiglia di impostare una temperatura compresa tra 0.5 e 0.7 per garantire coerenza e precisione nelle generazioni.

I modelli DeepSeek-R1 sono distribuiti sotto licenza MIT, permettendo l'uso commerciale e la creazione di opere derivate. Per ulteriori dettagli, consultare i repository disponibili GitHub su HuggingFace.