<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0" xmlns:media="http://search.yahoo.com/mrss/"><channel><title><![CDATA[Salvino Fidacaro]]></title><description><![CDATA[Digital Technologies Expert]]></description><link>https://fidacaro.com/</link><image><url>https://fidacaro.com/favicon.png</url><title>Salvino Fidacaro</title><link>https://fidacaro.com/</link></image><generator>Ghost 5.8</generator><lastBuildDate>Wed, 01 Apr 2026 15:56:33 GMT</lastBuildDate><atom:link href="https://fidacaro.com/rss/" rel="self" type="application/rss+xml"/><ttl>60</ttl><item><title><![CDATA[Nuova versione OpenClaw 2026.3.13]]></title><description><![CDATA[<p>Ecco una lista di miglioramenti rilasciati con la nuova versione 20.26.3.13:<br><br>Ecco un riassunto delle principali <strong>correzioni di bug (fix)</strong>, <strong>miglioramenti (feat)</strong> e <strong>sicurezza</strong> incluse in questa nuova versione 20.26.3.13 di OpenClaw, basati sui commit forniti:</p><h3 id="%F0%9F%9B%A1%EF%B8%8F-sicurezza-e-stabilit%C3%A0-del-sistema">&#x1F6E1;&#xFE0F; Sicurezza e Stabilit&#xE0; del Sistema</h3>]]></description><link>https://fidacaro.com/nuova-versione-openclaw-2026-3-13/</link><guid isPermaLink="false">69b6fd055a1509000143ae68</guid><category><![CDATA[openclaw]]></category><category><![CDATA[Intelligenza Artificiale]]></category><category><![CDATA[AI Agente]]></category><dc:creator><![CDATA[Salvino Fidacaro]]></dc:creator><pubDate>Fri, 13 Mar 2026 18:43:00 GMT</pubDate><media:content url="https://fidacaro.com/content/images/2026/03/openclaw_2026-03-13.jpg" medium="image"/><content:encoded><![CDATA[<img src="https://fidacaro.com/content/images/2026/03/openclaw_2026-03-13.jpg" alt="Nuova versione OpenClaw 2026.3.13"><p>Ecco una lista di miglioramenti rilasciati con la nuova versione 20.26.3.13:<br><br>Ecco un riassunto delle principali <strong>correzioni di bug (fix)</strong>, <strong>miglioramenti (feat)</strong> e <strong>sicurezza</strong> incluse in questa nuova versione 20.26.3.13 di OpenClaw, basati sui commit forniti:</p><h3 id="%F0%9F%9B%A1%EF%B8%8F-sicurezza-e-stabilit%C3%A0-del-sistema">&#x1F6E1;&#xFE0F; Sicurezza e Stabilit&#xE0; del Sistema</h3><ul><li><strong>Token e Gateway:</strong> Prevenzione della fuga di token nel contesto Docker (<code>security(docker)</code>) e limitazione delle richieste non risposte sul gateway.</li><li><strong>Sessioni:</strong> Correzione per preservare <code>lastAccountId</code> e <code>lastThreadId</code> dopo il reset della sessione, evitando la perdita di stato utente.</li><li><strong>Autenticazione:</strong> Mantenimento dell&apos;autenticazione condivisa nelle connessioni non sicure e correzione per evitare bypass dell&apos;autenticazione su <code>control-ui</code>.</li><li><strong>Configurazione:</strong> Hardening della validazione del driver per sessioni esistenti e correzione per evitare crash di Anthropic all&apos;avvio.</li></ul><h3 id="%F0%9F%A7%A0-agenti-e-modelli-ai">&#x1F9E0; Agenti e Modelli AI</h3><ul><li><strong>Compatibilit&#xE0;:</strong> Rispetto delle override di compatibilit&#xE0; esplicita per provider (es. non-native openai-completions) e gestione dei blocchi di pensiero (thinking blocks) su replay.</li><li><strong>Gestione:</strong> Correzione per evitare l&apos;iniezione due volte del file di memoria su mount case-insensitive e preservazione di chiavi API personalizzate dopo l&apos;onboarding.</li><li><strong>Performance:</strong> Deduplicazione dei chunk del plugin-sdk per correggere un regresso di memoria del ~2x.</li><li><strong>Modello:</strong> Aggiornamento del modello predefinito da <code>gpt-5.3-codex</code> a <code>gpt-5.4</code> nei test.</li></ul><h3 id="%F0%9F%96%A5%EF%B8%8F-interfaccia-utente-ui-e-esperienza-utente">&#x1F5A5;&#xFE0F; Interfaccia Utente (UI) e Esperienza Utente</h3><ul><li><strong>Mobile:</strong> Ridesign delle impostazioni chat, miglioramenti del menu di navigazione e varianti del tema.</li><li><strong>Chat:</strong> Correzioni per il rendering corretto del contesto, dimensioni icona, notifica chat e gestione della storia chat (evitare &quot;reload storm&quot;).</li><li><strong>Sidebar:</strong> Polishing dello status, delle abilit&#xE0; degli agenti e del rendering della chat.</li><li><strong>Responsive:</strong> Correzione per il rendering dei costi di Brave e gestione dei messaggi non visualizzati.</li></ul><h3 id="%F0%9F%8C%90-piattaforme-e-integrazioni">&#x1F310; Piattaforme e Integrazioni</h3><ul><li><strong>Mobile (Android/iOS):</strong> Fix per la fuga del QR code (<code>Google Code Scanner</code>), onboarding welcome pager, e design del chat settings UI.</li><li><strong>Desktop (macOS/Windows):</strong> Allineamento versione Node.js minima, gestione console visibile durante il riavvio, e prevenzione di conflitti con Docker Desktop.</li><li><strong>Integrazioni:</strong> Supporto per Slack (reply interattivi), Telegram (download media fallback), Signal (config gruppi), Feishu (file non ASCII) e Discord.</li><li><strong>Backend:</strong> Gestione dei deadlock del cron e correzione per le configurazioni di gateway.</li></ul><h3 id="%F0%9F%93%9D-documentazione-e-configurazione">&#x1F4DD; Documentazione e Configurazione</h3><ul><li><strong>Schema:</strong> Aggiunta parametri mancanti alla validazione schema (<code>agents.list[]</code>) e correzione per il credit del changelog.</li><li><strong>Docs:</strong> Aggiornamento del changelog, correzione crediti per xhigh e descrizione delle risposte interattive di Slack.</li><li><strong>Config:</strong> Addizione di parametri di timezone (<code>OPENCLAW_TZ</code>) e supporto per scope-limited probe RPC.</li></ul><p>In sintesi, questa versione si concentra su <strong>stabilit&#xE0; delle sessioni</strong>, <strong>sicurezza dei dati (token/auth)</strong>, <strong>miglioramenti UI su mobile/desktop</strong> e <strong>miglioramento delle performance dei plugin</strong>, con particolare attenzione alla compatibilit&#xE0; tra diversi agenti e provider (Anthropic, OpenAI, Azure, Gemini).</p>]]></content:encoded></item><item><title><![CDATA[Installazione di OpenClaw su NVIDIA Jetson Orion]]></title><description><![CDATA[<h2></h2><p>Questo articolo descrive il processo di installazione e configurazione di OpenClaw su un sistema NVIDIA Jetson utilizzato come nodo edge AI locale, denominato Orion. L&apos;obiettivo &#xE8; creare un ambiente in grado di eseguire agenti AI e modelli linguistici locali tramite Ollama su architettura ARM64, integrando il gateway OpenClaw</p>]]></description><link>https://fidacaro.com/installazione-di-openclaw-su-nvidia-jetson-orion/</link><guid isPermaLink="false">69b6ffe75a1509000143ae86</guid><category><![CDATA[openclaw]]></category><category><![CDATA[AI Agente]]></category><dc:creator><![CDATA[Salvino Fidacaro]]></dc:creator><pubDate>Wed, 11 Mar 2026 18:52:00 GMT</pubDate><media:content url="https://fidacaro.com/content/images/2026/03/orion-nano-nvidia.jpg" medium="image"/><content:encoded><![CDATA[<h2></h2><img src="https://fidacaro.com/content/images/2026/03/orion-nano-nvidia.jpg" alt="Installazione di OpenClaw su NVIDIA Jetson Orion"><p>Questo articolo descrive il processo di installazione e configurazione di OpenClaw su un sistema NVIDIA Jetson utilizzato come nodo edge AI locale, denominato Orion. L&apos;obiettivo &#xE8; creare un ambiente in grado di eseguire agenti AI e modelli linguistici locali tramite Ollama su architettura ARM64, integrando il gateway OpenClaw e l&apos;interfaccia di orchestrazione. L&apos;esperienza descritta si basa su una configurazione reale eseguita su Ubuntu Server con GPU NVIDIA e accesso tramite SSH.</p><h2 id="introduzione">Introduzione</h2><p>L&apos;esecuzione di modelli linguistici su infrastrutture edge rappresenta una delle evoluzioni pi&#xF9; rilevanti nel campo dei sistemi di intelligenza artificiale distribuita. Le piattaforme NVIDIA Jetson, grazie alla loro architettura ARM64 e alla presenza di acceleratori GPU dedicati, permettono di costruire nodi di calcolo AI locali con consumi energetici ridotti.</p><p>OpenClaw &#xE8; un framework progettato per orchestrare agenti AI locali, modelli linguistici e integrazioni con servizi esterni. Quando combinato con Ollama, OpenClaw consente di eseguire modelli linguistici direttamente su hardware locale senza dipendere da servizi cloud.</p><p>In questo lavoro documentiamo l&apos;installazione completa di OpenClaw su un sistema Jetson denominato Orion, evidenziando le problematiche incontrate e le soluzioni adottate.</p><h2 id="architettura-del-sistema">Architettura del sistema</h2><p>Il sistema Orion &#xE8; configurato come nodo AI locale accessibile via rete interna. Il sistema operativo utilizzato &#xE8; Ubuntu Server su architettura ARM64. L&apos;ambiente software &#xE8; composto da Node.js, pnpm, Ollama e OpenClaw.</p><p>OpenClaw opera come orchestratore degli agenti mentre Ollama funge da provider dei modelli linguistici. Il gateway OpenClaw espone un&apos;interfaccia HTTP locale utilizzata per l&apos;accesso tramite browser e per l&apos;interazione con i servizi interni.</p><h2 id="installazione-dei-prerequisiti">Installazione dei prerequisiti</h2><p>L&apos;installazione parte da una distribuzione Ubuntu Server aggiornata. Dopo l&apos;accesso tramite SSH al dispositivo Jetson, &#xE8; necessario installare Node.js e il gestore di pacchetti pnpm.</p><p>Una volta installati i prerequisiti, &#xE8; possibile procedere con l&apos;installazione di OpenClaw tramite npm. L&apos;installazione rende disponibile il comando <code>openclaw</code>, utilizzato per gestire gateway, agenti e configurazione del sistema.</p><h2 id="configurazione-di-ollama">Configurazione di Ollama</h2><p>Per permettere a OpenClaw di eseguire modelli linguistici locali &#xE8; necessario installare Ollama. Dopo l&apos;installazione del runtime, &#xE8; possibile scaricare modelli compatibili con sistemi edge.</p><p>Nel nostro caso sono stati testati modelli compatti come Qwen 2.5 3B e Qwen 3.5 4B, che mostrano prestazioni adeguate su hardware Jetson grazie al compromesso tra dimensione del modello e capacit&#xE0; computazionale disponibile.</p><p>Il download dei modelli avviene tramite il comando:</p><pre><code>ollama pull qwen2.5:3b
</code></pre><p>Una volta scaricato il modello, Ollama espone un endpoint locale utilizzato da OpenClaw come provider LLM.</p><h2 id="onboarding-di-openclaw">Onboarding di OpenClaw</h2><p>La configurazione iniziale del sistema avviene tramite il wizard di onboarding. Questo strumento guida la configurazione del workspace, del provider dei modelli e delle integrazioni.</p><p>Nel caso di sistemi headless accessibili via SSH &#xE8; consigliato eseguire il comando:</p><pre><code>openclaw onboard --skip-daemon
</code></pre><p>Questa opzione evita l&apos;installazione automatica del servizio systemd, che pu&#xF2; generare problemi in sessioni SSH o ambienti embedded.</p><p>Durante il processo di onboarding viene configurato il collegamento tra OpenClaw e Ollama come provider dei modelli linguistici.</p><h2 id="avvio-del-gateway">Avvio del gateway</h2><p>Terminata la configurazione iniziale &#xE8; possibile avviare il gateway OpenClaw.</p><pre><code>openclaw gateway run
</code></pre><p>Il gateway espone un endpoint HTTP locale tipicamente sulla porta 18789. L&apos;interfaccia web pu&#xF2; essere raggiunta tramite browser all&apos;indirizzo:</p><pre><code>http://IP_DEL_DISPOSITIVO:18789
</code></pre><p>Durante i primi test &#xE8; emersa la necessit&#xE0; di esporre l&apos;interfaccia tramite HTTPS per poter accedere al servizio in modo sicuro e compatibile con alcune integrazioni web. Il gateway OpenClaw, tuttavia, espone nativamente solo un endpoint HTTP locale.</p><p>La soluzione adottata &#xE8; stata l&apos;introduzione di un reverse proxy basato su Caddy. Il server Caddy &#xE8; stato configurato per intercettare le richieste HTTPS in ingresso e inoltrarle al gateway OpenClaw in esecuzione sulla porta locale. In questo modo il traffico TLS viene gestito dal reverse proxy mentre OpenClaw continua a operare sulla propria porta interna.</p><p>Nel sistema Orion il flusso finale delle richieste risulta quindi strutturato nel seguente modo: il browser stabilisce una connessione HTTPS con il server Caddy, il quale gestisce la terminazione TLS e inoltra le richieste HTTP al gateway OpenClaw sulla porta 18789.</p><h2 id="problemi-riscontrati">Problemi riscontrati</h2><p>Durante i test iniziali sono emerse alcune problematiche legate all&apos;accesso remoto al gateway. In alcuni casi il browser mostrava un errore di connessione rifiutata.</p><p>L&apos;analisi del problema ha evidenziato che il gateway risultava avviato ma non correttamente esposto sulla rete locale. Questo comportamento pu&#xF2; verificarsi quando il servizio viene eseguito solo in loopback.</p><p>Un ulteriore aspetto osservato riguarda la presenza di numerose sessioni attive nell&apos;interfaccia di OpenClaw. Questo fenomeno &#xE8; dovuto alla creazione automatica di sessioni temporanee per ogni agente o richiesta generata durante i test.</p><h2 id="ottimizzazione-per-sistemi-jetson">Ottimizzazione per sistemi Jetson</h2><p>L&apos;utilizzo di modelli linguistici su hardware edge richiede un&apos;attenta selezione delle dimensioni del modello. Test empirici indicano che modelli tra 3B e 4B parametri rappresentano un buon compromesso tra qualit&#xE0; e velocit&#xE0; su Jetson.</p><p>Nel sistema Orion il modello Qwen 3.5 4B ha mostrato una buona stabilit&#xE0; operativa e tempi di risposta adeguati per l&apos;utilizzo con agenti OpenClaw.</p><h2 id="limitazioni-computazionali-e-scelta-architetturale">Limitazioni computazionali e scelta architetturale</h2><p>Durante i test operativi &#xE8; emerso un limite significativo legato all&apos;esecuzione locale dei modelli linguistici sul dispositivo Jetson. Sebbene modelli compatti come Qwen 2.5 3B e Qwen 3.5 4B possano essere eseguiti tramite Ollama su architettura ARM64, le prestazioni risultano limitate in termini di latenza e throughput.</p><p>Nel contesto di utilizzo reale del sistema Orion, l&apos;inferenza locale produceva tempi di risposta troppo elevati per l&apos;uso interattivo degli agenti OpenClaw. Questo comportamento &#xE8; attribuibile principalmente a tre fattori: la limitata memoria disponibile per modelli di dimensioni superiori, la potenza di calcolo GPU ridotta rispetto a sistemi desktop o server e l&apos;overhead introdotto dalla gestione degli agenti.</p><p>Per questo motivo l&apos;architettura finale adottata separa il nodo di orchestrazione dagli LLM. Il dispositivo Jetson Orion continua a eseguire OpenClaw come gateway e orchestratore degli agenti, mentre il provider dei modelli linguistici viene eseguito su un&apos;infrastruttura esterna pi&#xF9; performante.</p><p>Questa soluzione consente di mantenere il Jetson come nodo edge leggero, responsabile della gestione degli agenti, delle integrazioni e delle automazioni, delegando l&apos;inferenza dei modelli linguistici a un sistema con maggiore capacit&#xE0; computazionale.</p><h2 id="conclusioni">Conclusioni</h2><p>L&apos;esperienza descritta dimostra che OpenClaw pu&#xF2; essere installato con successo su piattaforme NVIDIA Jetson e utilizzato come nodo di orchestrazione per sistemi di intelligenza artificiale distribuiti.</p><p>Tuttavia, i test evidenziano che l&apos;esecuzione locale di modelli linguistici su hardware edge presenta limiti significativi in termini di prestazioni. In scenari operativi reali risulta quindi pi&#xF9; efficace adottare un&apos;architettura ibrida nella quale il nodo Jetson gestisce l&apos;orchestrazione degli agenti mentre l&apos;inferenza dei modelli viene eseguita su un sistema remoto.</p><p>Questo approccio consente di sfruttare i vantaggi dell&apos;edge computing mantenendo al tempo stesso la capacit&#xE0; di utilizzare modelli linguistici pi&#xF9; performanti e scalabili.</p>]]></content:encoded></item><item><title><![CDATA[Corso Robotics with AI]]></title><description><![CDATA[<p>Costruire un robot &#xE8; figo, ma renderlo intelligente lo &#xE8; ancora di pi&#xF9;. Il progetto <strong><a href="https://github.com/salvino72/robotics-with-ai">Robotics with AI</a></strong> &#xE8; una raccolta di materiali, slide e codice pensata per le scuole superiori, per imparare a integrare l&apos;IA nell&apos;hardware. Niente giri di parole: solo tanta pratica, dai</p>]]></description><link>https://fidacaro.com/corso-robotics-with-ai/</link><guid isPermaLink="false">69b141985a1509000143ae45</guid><category><![CDATA[Robot]]></category><category><![CDATA[Arduino]]></category><category><![CDATA[Corso]]></category><dc:creator><![CDATA[Salvino Fidacaro]]></dc:creator><pubDate>Thu, 05 Mar 2026 10:34:00 GMT</pubDate><media:content url="https://fidacaro.com/content/images/2026/03/corso-robotica-ai--arduino-scuola-gratis.png" medium="image"/><content:encoded><![CDATA[<img src="https://fidacaro.com/content/images/2026/03/corso-robotica-ai--arduino-scuola-gratis.png" alt="Corso Robotics with AI"><p>Costruire un robot &#xE8; figo, ma renderlo intelligente lo &#xE8; ancora di pi&#xF9;. Il progetto <strong><a href="https://github.com/salvino72/robotics-with-ai">Robotics with AI</a></strong> &#xE8; una raccolta di materiali, slide e codice pensata per le scuole superiori, per imparare a integrare l&apos;IA nell&apos;hardware. Niente giri di parole: solo tanta pratica, dai primi LED fino agli algoritmi di navigazione autonoma. Tutto il materiale &#xE8; gratuito su GitHub e ogni settimana trovi &#xA0;aggiornamenti pronti per essere scaricati e testati.</p><h3 id="un-percorso-in-continua-evoluzione">Un percorso in continua evoluzione</h3><p>Dimentica i soliti programmi rigidi e polverosi. Questo corso &#xE8; un viaggio dinamico che attraversa dieci tappe fondamentali. Partiamo dalle basi della prototipazione, dove impariamo a conoscere l&apos;anatomia di un robot e l&apos;ecosistema <strong>Arduino</strong>, per poi tuffarci nel mondo dell&apos;elettronica pratica. Non si tratta solo di accendere un LED: l&apos;obiettivo &#xE8; capire come l&apos;energia e il codice lavorano insieme per creare interazioni reali.</p><p>Man mano che il robot prende forma, esploriamo la sua capacit&#xE0; di percepire il mondo. Usiamo sensori di luce, temperatura e umidit&#xE0; per raccogliere dati, insegnando alla macchina a prendere decisioni autonome in tempo reale. Ma un robot deve anche sapersi muovere: per questo approfondiamo l&apos;uso di motori e servomotori, studiando come programmare curve, velocit&#xE0; e percorsi precisi nello spazio.</p><p>Il vero salto di qualit&#xE0; arriva con l&apos;integrazione dell&apos;<strong>Intelligenza Artificiale</strong>. Passiamo gradualmente dai blocchi di Scratch al codice C++ professionale, utilizzando i modelli di linguaggio (AI Assistita) non solo per scrivere codice pi&#xF9; pulito, ma per risolvere problemi complessi che fino a pochi anni fa sembravano fantascienza.</p><h3 id="segui-il-progetto-e-lascia-una-%E2%AD%90">Segui il progetto (e lascia una &#x2B50;!)</h3><p>La parte pi&#xF9; interessante? <strong>Il corso &#xE8; un &quot;cantiere aperto&quot;</strong>. Ogni mercoled&#xEC; vengono pubblicati nuovi aggiornamenti, slide inedite e risorse fresche direttamente sul repository ufficiale. Che tu stia cercando il codice per una stazione meteo o gli algoritmi per un robot line-follower, troverai tutto organizzato in cartelle chiare e pronte all&apos;uso.</p><p>Tutto il materiale &#xE8; disponibile gratuitamente su GitHub. Se il progetto ti piace o ti &#xE8; utile per i tuoi studi, c&apos;&#xE8; un modo semplicissimo per supportarlo: <strong>metti una stellina (Star) al repository!</strong> Ci aiuterai a far crescere la community e a diffondere la robotica educativa in sempre pi&#xF9; scuole.</p><p>&#x1F680; <strong>Vai subito al codice:</strong> <a href="https://github.com/salvino72/robotics-with-ai" rel="noopener">Robotics with AI su GitHub</a></p>]]></content:encoded></item><item><title><![CDATA[UrbanScan AI con YOLOv26 e OpenVINO]]></title><description><![CDATA[<p>Si parla spesso di citt&#xE0; intelligenti, ma quasi sempre in modo astratto. Questo progetto invece &#xE8; nato in modo molto semplice: avevo un video girato con un drone sopra un parco e mi sono chiesto cosa potessi tirarne fuori di realmente utile.</p><p>L&#x2019;idea era capire se da</p>]]></description><link>https://fidacaro.com/urbanscan-ai-con-yolo26/</link><guid isPermaLink="false">69a6b7516c76b000014d6d33</guid><category><![CDATA[Intel]]></category><category><![CDATA[Intelligenza Artificiale]]></category><category><![CDATA[IA]]></category><dc:creator><![CDATA[Salvino Fidacaro]]></dc:creator><pubDate>Tue, 03 Mar 2026 10:31:25 GMT</pubDate><media:content url="https://fidacaro.com/content/images/2026/03/Screenshot_3.jpg" medium="image"/><content:encoded><![CDATA[<img src="https://fidacaro.com/content/images/2026/03/Screenshot_3.jpg" alt="UrbanScan AI con YOLOv26 e OpenVINO"><p>Si parla spesso di citt&#xE0; intelligenti, ma quasi sempre in modo astratto. Questo progetto invece &#xE8; nato in modo molto semplice: avevo un video girato con un drone sopra un parco e mi sono chiesto cosa potessi tirarne fuori di realmente utile.</p><p>L&#x2019;idea era capire se da quelle immagini fosse possibile ottenere informazioni concrete sullo stato di uno spazio pubblico. Non solo vedere panchine, alberi o persone, ma individuare problemi, segnali di degrado, elementi positivi e criticit&#xE0; strutturali in modo sistematico.</p><figure class="kg-card kg-embed-card kg-card-hascaption"><iframe width="200" height="113" src="https://www.youtube.com/embed/fynnmxNzh_E?feature=oembed" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen title="UrbanScan AI &#x2013; Next Gen 2026 Vision"></iframe><figcaption>UrbanScan AI con YOLOv26 e OpenVINO - test con drone DJI Neo 2 fatto da Salvino Fidacaro a Sant&apos;Agata di Militello</figcaption></figure><h2 id="cos%E2%80%99%C3%A8-urbanscan-ai">Cos&#x2019;&#xE8; UrbanScan AI</h2><p>Cos&#xEC; &#xE8; nato <strong>UrbanScan AI &#x2013; Next Gen (2026 Vision)</strong>, un motore di <em>analisi video urbana</em> e <em>video analytics</em> basato su <strong>YOLOv26 World&#x2011;v2</strong>, uno dei modelli pi&#xF9; avanzati nel campo della <strong>computer vision</strong>. Non si limita a mettere rettangoli attorno agli oggetti: prova a interpretare la scena. Riconosce rifiuti, danni alla pavimentazione, muri crollati, arredo urbano, vegetazione sana o trascurata. L&#x2019;obiettivo non &#xE8; &#x201C;fare detection&#x201D;, ma ottenere una lettura tecnica dell&#x2019;ambiente.</p><p><strong>Open&#x2011;Vocabulary Detection e analisi ambientale</strong></p><p>La parte interessante &#xE8; l&#x2019;<em>open&#x2011;vocabulary detection</em>. In pratica il modello non &#xE8; bloccato a poche categorie generiche. Pu&#xF2; distinguere, ad esempio, tra un semplice muro e un muro in mattoni crollato, tra spazzatura generica e bottiglie di plastica o frammenti di vetro. Questo rende ogni fotogramma una fonte di dati strutturati, non solo un&#x2019;immagine annotata.</p><p>UrbanScan elabora il video in tempo reale e costruisce una sovrapposizione grafica che segmenta le istanze riconosciute. I colori non sono decorativi: servono a rendere immediata la lettura. Il sistema aggrega le rilevazioni e calcola un indice sintetico, una sorta di Park Health Index, che bilancia elementi positivi e criticit&#xE0;. Non &#xE8; una verit&#xE0; assoluta, ma uno strumento di supporto, un indicatore che pu&#xF2; aiutare a confrontare nel tempo la stessa area o a valutare zone diverse.</p><h2 id="architettura-tecnica-nvidia-cuda-e-intel-openvino">Architettura tecnica: <strong>NVIDIA CUDA</strong> e <strong>Intel OpenVINO</strong></h2><p>Dal punto di vista tecnico, ho voluto che il progetto fosse flessibile. Se c&#x2019;&#xE8; una GPU NVIDIA disponibile, il motore sfrutta <strong>CUDA</strong> e i <em>Tensor Cores</em> per lavorare in FP16 su frame Full HD con la massima efficienza possibile. Se invece il sistema &#xE8; basato su CPU Intel o GPU ARC, entra in gioco <strong>Intel OpenVINO</strong>, con un modello esportato e ottimizzato per quell&#x2019;architettura, cos&#xEC; da mantenere buone prestazioni anche senza GPU dedicata. L&#x2019;idea &#xE8; semplice: stesso progetto, hardware diverso, prestazioni coerenti.</p><p><strong>Privacy e gestione automatica dei volti</strong></p><p>Un aspetto a cui tenevo particolarmente &#xE8; la gestione della privacy. Durante l&#x2019;analisi, il software identifica il soggetto principale e applica automaticamente un blur sui volti delle persone sullo sfondo. Questo permette di utilizzare i video in contesti pubblici o istituzionali senza dover intervenire manualmente in post&#x2011;produzione.</p><p>I test sono stati effettuati su riprese aeree realizzate con drone, ma il sistema funziona con qualsiasi sorgente video compatibile. Il risultato &#xE8; un file di output che non &#xE8; solo &#x201C;annotato&#x201D;, ma arricchito da informazioni aggregate, log continui e statistiche di confidenza che possono essere esportate o integrate in flussi di lavoro pi&#xF9; ampi.</p><p><strong>Codice sorgente e repository GitHub</strong></p><p>Il codice sorgente &#xE8; disponibile pubblicamente su GitHub all&#x2019;indirizzo: <a>https://github.com/salvino72/video-urbanscan</a></p><p>Ho pubblicato il progetto in open source con attribuzione perch&#xE9; mi sembra il modo pi&#xF9; semplice e corretto per condividerlo. Chi vuole pu&#xF2; studiarlo, modificarlo o adattarlo alle proprie esigenze. UrbanScan non &#xE8; un prodotto finito o commerciale, ma una base di lavoro che pu&#xF2; essere migliorata nel tempo.</p><p>Non &#xE8; una rivoluzione n&#xE9; una promessa sul futuro delle citt&#xE0;.</p><p>In sintesi, <strong>UrbanScan AI</strong> &#xE8; un progetto di <strong>computer vision applicata al contesto urbano</strong>, che unisce <em>YOLOv26</em>, <strong>NVIDIA CUDA</strong> e <strong>Intel OpenVINO</strong> per trasformare un semplice video in dati leggibili e utilizzabili. &#xC8; un progetto pratico, nato per capire se da un video si possano ottenere informazioni utili. Se pu&#xF2; aiutare qualcuno a lavorare meglio sul territorio, allora ha gi&#xE0; raggiunto il suo scopo.</p>]]></content:encoded></item><item><title><![CDATA[Gli Speaker della DevFest Mediterranean 2025]]></title><description><![CDATA[<p>Oltre 30 speakers in 7 conferenze nei 3 giorni della Google Developer DevFest che si svolge a dicembre in Sicilia a Sant&apos;Agata di Militello.<br><br><a href="https://www.linkedin.com/in/giulianoribeiro/"><strong>Giuliano Ribeiro</strong></a> con &#x201C;<strong>Accelerate AI with Cloud Run</strong>&#x201D;. Un intervento ideale per chi vuole orientarsi con chiarezza in un panorama tecnologico in</p>]]></description><link>https://fidacaro.com/gli-speaker-della-devfest-mediterranean-2025/</link><guid isPermaLink="false">693083ef70689d0001614598</guid><category><![CDATA[GDG]]></category><dc:creator><![CDATA[Salvino Fidacaro]]></dc:creator><pubDate>Wed, 03 Dec 2025 18:46:25 GMT</pubDate><content:encoded><![CDATA[<p>Oltre 30 speakers in 7 conferenze nei 3 giorni della Google Developer DevFest che si svolge a dicembre in Sicilia a Sant&apos;Agata di Militello.<br><br><a href="https://www.linkedin.com/in/giulianoribeiro/"><strong>Giuliano Ribeiro</strong></a> con &#x201C;<strong>Accelerate AI with Cloud Run</strong>&#x201D;. Un intervento ideale per chi vuole orientarsi con chiarezza in un panorama tecnologico in rapida evoluzione.</p><figure class="kg-card kg-image-card kg-card-hascaption"><img src="https://fidacaro.com/content/images/2025/12/ribeiro.jpg" class="kg-image" alt loading="lazy" width="1800" height="1800" srcset="https://fidacaro.com/content/images/size/w600/2025/12/ribeiro.jpg 600w, https://fidacaro.com/content/images/size/w1000/2025/12/ribeiro.jpg 1000w, https://fidacaro.com/content/images/size/w1600/2025/12/ribeiro.jpg 1600w, https://fidacaro.com/content/images/2025/12/ribeiro.jpg 1800w" sizes="(min-width: 720px) 720px"><figcaption>Giuliano Ribeiro</figcaption></figure><p><strong>Antonio Chella</strong> con &#x201C;<strong>Intelligenza Artificiale e saggezza artificiale</strong>&#x201D;.<br>Un intervento che offrir&#xE0; una prospettiva originale e profonda sul futuro dell&#x2019;intelligenza delle macchine e sul loro rapporto con l&#x2019;uomo.</p><figure class="kg-card kg-image-card kg-card-hascaption"><img src="https://fidacaro.com/content/images/2025/12/chella.jpg" class="kg-image" alt loading="lazy" width="1800" height="1800" srcset="https://fidacaro.com/content/images/size/w600/2025/12/chella.jpg 600w, https://fidacaro.com/content/images/size/w1000/2025/12/chella.jpg 1000w, https://fidacaro.com/content/images/size/w1600/2025/12/chella.jpg 1600w, https://fidacaro.com/content/images/2025/12/chella.jpg 1800w" sizes="(min-width: 720px) 720px"><figcaption><strong>Antonio Chella</strong></figcaption></figure><p><strong>Tarun R. Jain</strong>, con &#x201C;<strong>Long-Term Memory Layer for Agents using Gemini and Cognee</strong>&#x201D;. Un talk pensato per chi vuole comprendere come dotare gli agenti AI di memoria avanzata, aprendo nuove possibilit&#xE0; applicative e di automazione.</p><figure class="kg-card kg-image-card kg-card-hascaption"><img src="https://fidacaro.com/content/images/2025/12/tarun.jpg" class="kg-image" alt loading="lazy" width="1800" height="1800" srcset="https://fidacaro.com/content/images/size/w600/2025/12/tarun.jpg 600w, https://fidacaro.com/content/images/size/w1000/2025/12/tarun.jpg 1000w, https://fidacaro.com/content/images/size/w1600/2025/12/tarun.jpg 1600w, https://fidacaro.com/content/images/2025/12/tarun.jpg 1800w" sizes="(min-width: 720px) 720px"><figcaption><strong>Tarun R. Jain</strong></figcaption></figure><p><strong>Salvatore Gaglio</strong> sar&#xE0; tra gli speaker della GDG DevFest Mediterranean 2025 con un talk che attraversa la storia dell&#x2019;innovazione: &#x201C;<strong>Intelligenza Artificiale: da Turing a oggi</strong>&#x201D;.<br><br>Un viaggio affascinante dalle intuizioni pionieristiche di Alan Turing alle moderne applicazioni dell&#x2019;AI, per comprendere come siamo arrivati all&#x2019;era dell&#x2019;intelligenza artificiale generativa e oltre.<br><br>&#x1F9E0; Un intervento ideale per chi vuole capire l&#x2019;evoluzione che ha portato l&#x2019;AI a essere ci&#xF2; che &#xE8; oggi.</p><figure class="kg-card kg-image-card kg-card-hascaption"><img src="https://fidacaro.com/content/images/2025/12/gaglio.jpg" class="kg-image" alt loading="lazy" width="1800" height="1800" srcset="https://fidacaro.com/content/images/size/w600/2025/12/gaglio.jpg 600w, https://fidacaro.com/content/images/size/w1000/2025/12/gaglio.jpg 1000w, https://fidacaro.com/content/images/size/w1600/2025/12/gaglio.jpg 1600w, https://fidacaro.com/content/images/2025/12/gaglio.jpg 1800w" sizes="(min-width: 720px) 720px"><figcaption><strong>Salvatore Gaglio</strong></figcaption></figure><p><strong>Guillermo Rodas</strong> sar&#xE0; uno dei protagonisti della GDG DevFest Mediterranean 2025 con il talk &#x201C;<strong>The Language of AI: Probability</strong>&#x201D;.<br>Il suo intervento approfondir&#xE0; il ruolo chiave della probabilit&#xE0; nei modelli di intelligenza artificiale, mostrando come le macchine apprendono, prevedono e generano dati grazie ai principi matematici che ne guidano il funzionamento.<br>&#x1F9E9; Una sessione ideale per chi vuole comprendere le fondamenta logiche dell&#x2019;AI moderna.</p><figure class="kg-card kg-image-card kg-card-hascaption"><img src="https://fidacaro.com/content/images/2025/12/rodas.jpg" class="kg-image" alt loading="lazy" width="1800" height="1800" srcset="https://fidacaro.com/content/images/size/w600/2025/12/rodas.jpg 600w, https://fidacaro.com/content/images/size/w1000/2025/12/rodas.jpg 1000w, https://fidacaro.com/content/images/size/w1600/2025/12/rodas.jpg 1600w, https://fidacaro.com/content/images/2025/12/rodas.jpg 1800w" sizes="(min-width: 720px) 720px"><figcaption>Guillermo Rodas</figcaption></figure><p><strong>Costa Rocos</strong> porter&#xE0; alla GDG DevFest Mediterranean 2025 un intervento che tocca uno dei temi pi&#xF9; discussi di oggi: &#x201C;<strong>Possiamo davvero fidarci dell&#x2019;IA?</strong>&#x201D;.<br>Un talk che affronta i limiti, i rischi e le responsabilit&#xE0; dell&#x2019;intelligenza artificiale, analizzando cosa significa davvero affidarsi ai sistemi automatizzati e quali condizioni sono necessarie per renderli affidabili.<br>&#x1F510; Un contributo essenziale per chi vuole capire il rapporto tra fiducia, etica e tecnologia.</p><figure class="kg-card kg-image-card kg-card-hascaption"><img src="https://fidacaro.com/content/images/2025/12/Risorsa-7.jpg" class="kg-image" alt loading="lazy" width="1800" height="1800" srcset="https://fidacaro.com/content/images/size/w600/2025/12/Risorsa-7.jpg 600w, https://fidacaro.com/content/images/size/w1000/2025/12/Risorsa-7.jpg 1000w, https://fidacaro.com/content/images/size/w1600/2025/12/Risorsa-7.jpg 1600w, https://fidacaro.com/content/images/2025/12/Risorsa-7.jpg 1800w" sizes="(min-width: 720px) 720px"><figcaption><strong>Costa Rocos</strong></figcaption></figure><p><strong>Massimiliano Fabio</strong> sar&#xE0; tra gli speaker della GDG DevFest Mediterranean 2025 con un talk imperdibile: &#x201C;<strong>AI Forensics Vision</strong>&#x201D;.<br><br>Un intervento che unisce intelligenza artificiale e digital forensics, mostrando come le nuove tecnologie possano diventare strumenti determinanti nelle indagini del futuro.<br><br>&#x1F50D; Preparati a scoprire nuove prospettive e casi reali che cambieranno il modo di vedere l&#x2019;AI.</p><figure class="kg-card kg-image-card kg-card-hascaption"><img src="https://fidacaro.com/content/images/2025/12/fabio.jpg" class="kg-image" alt loading="lazy" width="1800" height="1800" srcset="https://fidacaro.com/content/images/size/w600/2025/12/fabio.jpg 600w, https://fidacaro.com/content/images/size/w1000/2025/12/fabio.jpg 1000w, https://fidacaro.com/content/images/size/w1600/2025/12/fabio.jpg 1600w, https://fidacaro.com/content/images/2025/12/fabio.jpg 1800w" sizes="(min-width: 720px) 720px"><figcaption><strong>Massimiliano Fabio</strong></figcaption></figure><p><a href="https://www.facebook.com/carlodroid?__cft__[0]=AZWxhnTJ2lRT7ssehlmQzjBD3HHaZJR23qS5YNRmi_XVUATGKFj8WDVwA9pZrBzg0JGyU33M8nogbMb-HyZLqY5IpOBshdw6W9NuA5EDisKTvg&amp;__tn__=-]K-R">Carlo Lucera</a> (DGE) sar&#xE0; tra i protagonisti della GDG DevFest Mediterranean 2025 con due talk e un codelab dedicati al mondo Flutter, Firebase e Intelligenza Artificiale.</p><p>Talk 1 &#x2013; <strong>Da Zero a Prodotto con Flutter e Firebase Studio</strong><br>Un percorso pratico che mostra come trasformare un&#x2019;idea in un&#x2019;app completa grazie all&#x2019;integrazione tra Flutter e le nuove potenzialit&#xE0; di Firebase Studio.</p><p>Talk 2 &#x2013; <strong>Tool, Strumenti e Potenzialit&#xE0; dell&apos;Intelligenza Artificiale su Flutter</strong><br>Una panoramica sulle tecnologie AI gi&#xE0; integrabili nelle app, per potenziare funzionalit&#xE0;, user experience e capacit&#xE0; predittive.</p><p>Codelab: Carlo guider&#xE0; i partecipanti passo dopo passo attraverso esempi concreti, best practice e workflow moderni.</p><figure class="kg-card kg-image-card kg-card-hascaption"><img src="https://fidacaro.com/content/images/2025/12/Lucera.jpg" class="kg-image" alt loading="lazy" width="1800" height="1800" srcset="https://fidacaro.com/content/images/size/w600/2025/12/Lucera.jpg 600w, https://fidacaro.com/content/images/size/w1000/2025/12/Lucera.jpg 1000w, https://fidacaro.com/content/images/size/w1600/2025/12/Lucera.jpg 1600w, https://fidacaro.com/content/images/2025/12/Lucera.jpg 1800w" sizes="(min-width: 720px) 720px"><figcaption>Carlo Lucera</figcaption></figure>]]></content:encoded></item><item><title><![CDATA[GDG DevFest Mediterranean 2025]]></title><description><![CDATA[<p>A Sant&apos;Agata di Militello dal 12 al 14 dicembre 2025, un evento che parla d&apos;intelligenza artificiale e tecnologia supportato ufficialmente da Google. </p><p>Sant&#x2019;Agata di Militello diventa il centro del Mediterraneo per l&#x2019;innovazione tecnologica: torna la GDG DevFest Mediterranean, con 7 conferenze, tre</p>]]></description><link>https://fidacaro.com/gdg-devfest-mediterranean-2025/</link><guid isPermaLink="false">693081e870689d00016144d2</guid><category><![CDATA[GDG]]></category><category><![CDATA[Google]]></category><category><![CDATA[Intelligenza Artificiale]]></category><dc:creator><![CDATA[Salvino Fidacaro]]></dc:creator><pubDate>Wed, 03 Dec 2025 18:37:16 GMT</pubDate><media:content url="https://fidacaro.com/content/images/2025/12/banner-linkedin-gdgnebrodi.jpg" medium="image"/><content:encoded><![CDATA[<img src="https://fidacaro.com/content/images/2025/12/banner-linkedin-gdgnebrodi.jpg" alt="GDG DevFest Mediterranean 2025"><p>A Sant&apos;Agata di Militello dal 12 al 14 dicembre 2025, un evento che parla d&apos;intelligenza artificiale e tecnologia supportato ufficialmente da Google. </p><p>Sant&#x2019;Agata di Militello diventa il centro del Mediterraneo per l&#x2019;innovazione tecnologica: torna la GDG DevFest Mediterranean, con 7 conferenze, tre palchi e una lineup di speaker che racconta perfettamente la direzione che sta prendendo l&#x2019;AI nel mondo reale.</p><p>Sin dalle prime ore del mattino del primo giorno presso la sala conferenze del Liceo Sciascia Fermi, si da &#xA0;inizio ai tre giorni dedicati all&apos;AI come <a href="https://www.facebook.com/maria.fazio.750?__cft__[0]=AZU6WsH3awBGojFvOP7UeY6o9ZgdHmemhYgj_OxIOJImm4pQNDpknbnjH27rfihkHRQIVkc61KydpduGIqNIktU8NGXGZfErmT0gwAiwZdwyV4SZwjRzXjawjGkIPXE1rHpUClpMnwdlHE6MP0pLGj4BjyNdG2wF2d-d4efUM3dirQ&amp;__tn__=-]K-R">Maria Fazio</a> e Salvino Fidacaro, che aprono l&#x2019;evento introducendo il ruolo dell&#x2019;AI nella societ&#xE0; contemporanea. A seguire, esperti internazionali come Guillermo Rodas esplorano i fondamenti del Machine Learning probabilistico, mentre <a href="https://www.facebook.com/massimiliano.fabio.35?__cft__[0]=AZU6WsH3awBGojFvOP7UeY6o9ZgdHmemhYgj_OxIOJImm4pQNDpknbnjH27rfihkHRQIVkc61KydpduGIqNIktU8NGXGZfErmT0gwAiwZdwyV4SZwjRzXjawjGkIPXE1rHpUClpMnwdlHE6MP0pLGj4BjyNdG2wF2d-d4efUM3dirQ&amp;__tn__=-]K-R">Massimiliano Fabio</a> porta sul palco la nuova frontiera della Digital Forensics, un campo in cui l&#x2019;intelligenza artificiale diventa alleato cruciale contro il cybercrime tema forense continua con il contributo di <a href="https://www.facebook.com/roberto.consalvi.3?__cft__[0]=AZU6WsH3awBGojFvOP7UeY6o9ZgdHmemhYgj_OxIOJImm4pQNDpknbnjH27rfihkHRQIVkc61KydpduGIqNIktU8NGXGZfErmT0gwAiwZdwyV4SZwjRzXjawjGkIPXE1rHpUClpMnwdlHE6MP0pLGj4BjyNdG2wF2d-d4efUM3dirQ&amp;__tn__=-]K-R">Roberto Consalvi</a> &#xA0;che approfondisce ulteriormente l&#x2019;evoluzione della Digital forensics &amp; AI Tools, la conferenza 1 prosegue da un intervento che riguarda il modo della comunicazione giornalistica con <a href="https://www.facebook.com/profile.php?id=100009587682573&amp;__cft__[0]=AZU6WsH3awBGojFvOP7UeY6o9ZgdHmemhYgj_OxIOJImm4pQNDpknbnjH27rfihkHRQIVkc61KydpduGIqNIktU8NGXGZfErmT0gwAiwZdwyV4SZwjRzXjawjGkIPXE1rHpUClpMnwdlHE6MP0pLGj4BjyNdG2wF2d-d4efUM3dirQ&amp;__tn__=-]K-R">Giovanni Villino</a>, che indaga il rapporto tra algoritmi e leggibilit&#xE0; delle informazioni.</p><p>Parallelamente, all&#x2019;ITIS Torricelli, <a href="https://www.facebook.com/fpagano.me?__cft__[0]=AZU6WsH3awBGojFvOP7UeY6o9ZgdHmemhYgj_OxIOJImm4pQNDpknbnjH27rfihkHRQIVkc61KydpduGIqNIktU8NGXGZfErmT0gwAiwZdwyV4SZwjRzXjawjGkIPXE1rHpUClpMnwdlHE6MP0pLGj4BjyNdG2wF2d-d4efUM3dirQ&amp;__tn__=-]K-R">Francesco Pagano</a> e Antonella Rotondo introducono il filone formativo dedicato ai giovani sviluppatori e creator. Qui Daniele Ravi affronta un tema sempre pi&#xF9; centrale: come l&#x2019;AI stia rivoluzionando la diagnostica medica e la progettazione di gemelli digitali in sanit&#xE0;.</p><p>La seconda giornata prosegue con interventi che toccano l&#x2019;AI nei media e nella creativit&#xE0;: <a href="https://www.facebook.com/danielevinc?__cft__[0]=AZU6WsH3awBGojFvOP7UeY6o9ZgdHmemhYgj_OxIOJImm4pQNDpknbnjH27rfihkHRQIVkc61KydpduGIqNIktU8NGXGZfErmT0gwAiwZdwyV4SZwjRzXjawjGkIPXE1rHpUClpMnwdlHE6MP0pLGj4BjyNdG2wF2d-d4efUM3dirQ&amp;__tn__=-]K-R">Daniele Vinci</a> porta una riflessione sul ruolo dell&#x2019;intelligenza artificiale nel mercato pubblicitario, mentre Giusi Porcelli e <a href="https://www.facebook.com/sprikmeister?__cft__[0]=AZU6WsH3awBGojFvOP7UeY6o9ZgdHmemhYgj_OxIOJImm4pQNDpknbnjH27rfihkHRQIVkc61KydpduGIqNIktU8NGXGZfErmT0gwAiwZdwyV4SZwjRzXjawjGkIPXE1rHpUClpMnwdlHE6MP0pLGj4BjyNdG2wF2d-d4efUM3dirQ&amp;__tn__=-]K-R">Pietro Alberto Rossi</a> aprono un capitolo affascinante sulla psicologia delle emozioni e sugli impatti delle tecnologie empatiche. Sul palco troviamo anche <a href="https://www.facebook.com/gino.pappalardo1?__cft__[0]=AZU6WsH3awBGojFvOP7UeY6o9ZgdHmemhYgj_OxIOJImm4pQNDpknbnjH27rfihkHRQIVkc61KydpduGIqNIktU8NGXGZfErmT0gwAiwZdwyV4SZwjRzXjawjGkIPXE1rHpUClpMnwdlHE6MP0pLGj4BjyNdG2wF2d-d4efUM3dirQ&amp;__tn__=-]K-R">Gino Pappalardo</a> &#xA0;che affronta il tema dell&apos;AI Act: rischi o opportunit&#xE0;? Non mancano momenti dedicati alle tecnologie Google: <a href="https://www.facebook.com/carlodroid?__cft__[0]=AZU6WsH3awBGojFvOP7UeY6o9ZgdHmemhYgj_OxIOJImm4pQNDpknbnjH27rfihkHRQIVkc61KydpduGIqNIktU8NGXGZfErmT0gwAiwZdwyV4SZwjRzXjawjGkIPXE1rHpUClpMnwdlHE6MP0pLGj4BjyNdG2wF2d-d4efUM3dirQ&amp;__tn__=-]K-R">Carlo Lucera</a> porta sul palco l&#x2019;evoluzione degli strumenti Firebase e Flutter, mentre Francesco La Rosa approfondisce le potenzialit&#xE0; di Gemini nei sistemi multi-agente. Su questa stessa linea si inseriscono gli interventi di Tarun Jain, dedicati alle Long-term Memory per Agenti AI, e di Lorenzo Deodato con Vincenzo Agrillo, che mostrano come l&#x2019;AI stia diventando un pilastro per la cybersecurity moderna.</p><p>Il weekend porta con s&#xE9; un focus pi&#xF9; ispirazionale: Giuliano Ribeiro Giuliano Ribeiro affronta il tema del Cloud Run applicato agli agenti AI e Gianni Pezzotti con Francesco Pagano esplora la sfida dell&#x2019;intelligenza artificiale nel mondo del lavoro reale. Momento attesissimo quello della domenica mattina con A. Rotondo, Martina Fidacaro e Arianna Salupo, che uniscono storytelling e tecnologia per raccontare immaginazione, AI generativa con Nano Banana e VEO due strumenti potenti di casa Google.A chiudere il cerchio, i talk di <a href="https://www.facebook.com/daniele.mondello?__cft__[0]=AZU6WsH3awBGojFvOP7UeY6o9ZgdHmemhYgj_OxIOJImm4pQNDpknbnjH27rfihkHRQIVkc61KydpduGIqNIktU8NGXGZfErmT0gwAiwZdwyV4SZwjRzXjawjGkIPXE1rHpUClpMnwdlHE6MP0pLGj4BjyNdG2wF2d-d4efUM3dirQ&amp;__tn__=-]K-R">Daniele Mondello</a> e <a href="https://www.facebook.com/cnrocos?__cft__[0]=AZU6WsH3awBGojFvOP7UeY6o9ZgdHmemhYgj_OxIOJImm4pQNDpknbnjH27rfihkHRQIVkc61KydpduGIqNIktU8NGXGZfErmT0gwAiwZdwyV4SZwjRzXjawjGkIPXE1rHpUClpMnwdlHE6MP0pLGj4BjyNdG2wF2d-d4efUM3dirQ&amp;__tn__=-]K-R">Costa Rocos</a>, che affrontano temi come Costruire un Dev Dream Team di agenti AI e cercando di rispondere a domande tipo: Possiamo davvero fidarci dell&#x2019;IA? Domenica si da via anche al Premio Innovazione Tecnologica nelle Scuole. Che si svolger&#xE0; nel pomeriggio con la sessione dedicata ai ragazzi delle scuole superiori che hanno creato soluzioni AI e potenziali startup per il tema &#x201C;AI for Green &#x2013; Guardiani Digitali dei Boschi&#x201D;, dando spazio alle nuove generazioni di innovatori.</p><p>La DevFest si conclude con due voci d&#x2019;eccezione: Salvatore Gaglio con Intelligenza Artificiale da Turing a oggi e <a href="https://www.facebook.com/antonio.chella?__cft__[0]=AZU6WsH3awBGojFvOP7UeY6o9ZgdHmemhYgj_OxIOJImm4pQNDpknbnjH27rfihkHRQIVkc61KydpduGIqNIktU8NGXGZfErmT0gwAiwZdwyV4SZwjRzXjawjGkIPXE1rHpUClpMnwdlHE6MP0pLGj4BjyNdG2wF2d-d4efUM3dirQ&amp;__tn__=-]K-R">Antonio Chella</a> &#xA0;che esplora il rapporto tra AI, coscienza ed etica , le conclusioni e la premiazione saranno da Salvino Fidacaro ed il suo team Antonella Rotondo, Maria Fazio, Francesco pagano e <a href="https://www.facebook.com/biagio.zingales?__cft__[0]=AZU6WsH3awBGojFvOP7UeY6o9ZgdHmemhYgj_OxIOJImm4pQNDpknbnjH27rfihkHRQIVkc61KydpduGIqNIktU8NGXGZfErmT0gwAiwZdwyV4SZwjRzXjawjGkIPXE1rHpUClpMnwdlHE6MP0pLGj4BjyNdG2wF2d-d4efUM3dirQ&amp;__tn__=-]K-R">Biagio Gino Zingales Ali&apos;</a> &#xA0;che firma la chiusura ufficiale di un evento che anche quest&#x2019;anno sembra avere tutti gli ingredienti per &#xA0;confermarsi uno dei punti di riferimento pi&#xF9; importanti nel panorama tech del Sud per quanto.</p><figure class="kg-card kg-image-card kg-card-hascaption"><img src="https://fidacaro.com/content/images/2025/12/banner_speaker_1_-devfest2025.jpg" class="kg-image" alt="GDG DevFest Mediterranean 2025" loading="lazy" width="1920" height="1226" srcset="https://fidacaro.com/content/images/size/w600/2025/12/banner_speaker_1_-devfest2025.jpg 600w, https://fidacaro.com/content/images/size/w1000/2025/12/banner_speaker_1_-devfest2025.jpg 1000w, https://fidacaro.com/content/images/size/w1600/2025/12/banner_speaker_1_-devfest2025.jpg 1600w, https://fidacaro.com/content/images/2025/12/banner_speaker_1_-devfest2025.jpg 1920w" sizes="(min-width: 720px) 720px"><figcaption>Gli Speakers della DevFest Mediterranean 2025</figcaption></figure>]]></content:encoded></item><item><title><![CDATA[FLUX.1 Kontext]]></title><description><![CDATA[Verso una piattaforma integrata per la generazione e l’editing semantico di immagini]]></description><link>https://fidacaro.com/flux-1-kontext/</link><guid isPermaLink="false">6846a9f627b8c80001a5c144</guid><category><![CDATA[Intelligenza Artificiale]]></category><category><![CDATA[AI Image]]></category><dc:creator><![CDATA[Salvino Fidacaro]]></dc:creator><pubDate>Mon, 09 Jun 2025 09:42:05 GMT</pubDate><media:content url="https://fidacaro.com/content/images/2025/06/flutter1-Screenshot_19.jpg" medium="image"/><content:encoded><![CDATA[<img src="https://fidacaro.com/content/images/2025/06/flutter1-Screenshot_19.jpg" alt="FLUX.1 Kontext"><p>FLUX.1 Kontext, sviluppato da Black Forest Labs, rappresenta un contributo rilevante all&apos;evoluzione dei modelli generativi per la sintesi e l&#x2019;editing di immagini nel dominio latente. La sua architettura sfrutta un approccio di flow matching rettificato all&apos;interno di uno spazio latente appreso, offrendo una piattaforma unificata in grado di supportare sia la generazione ex novo che la modifica condizionata su immagini di riferimento. Rispetto agli approcci autoregressivi e ai tradizionali modelli di diffusione, FLUX.1 Kontext mostra una marcata efficienza computazionale e una robustezza semantica che lo rendono adatto a task iterativi e a flussi di lavoro interattivi.</p><div class="kg-card kg-callout-card kg-callout-card-green"><div class="kg-callout-text">FLUX.1 Kontext rappresenta un paradigma emergente per la generazione e l&#x2019;editing visivo in ambito AI-driven. La sua architettura unificata, combinata con prestazioni interattive e una semantica controllabile, lo rende particolarmente adatto a compiti complessi dove la coerenza narrativa e la stabilit&#xE0; visiva sono requisiti fondamentali. La pubblicazione di KontextBench contribuisce a definire un framework di valutazione trasparente e realistico, rafforzando la posizione del modello come punto di riferimento per l&#x2019;intersezione tra deep learning generativo e produzione visuale professionale.</div></div><figure class="kg-card kg-gallery-card kg-width-wide kg-card-hascaption"><div class="kg-gallery-container"><div class="kg-gallery-row"><div class="kg-gallery-image"><img src="https://fidacaro.com/content/images/2025/06/Screenshot_16.jpg" width="1627" height="1619" loading="lazy" alt="FLUX.1 Kontext" srcset="https://fidacaro.com/content/images/size/w600/2025/06/Screenshot_16.jpg 600w, https://fidacaro.com/content/images/size/w1000/2025/06/Screenshot_16.jpg 1000w, https://fidacaro.com/content/images/size/w1600/2025/06/Screenshot_16.jpg 1600w, https://fidacaro.com/content/images/2025/06/Screenshot_16.jpg 1627w" sizes="(min-width: 720px) 720px"></div><div class="kg-gallery-image"><img src="https://fidacaro.com/content/images/2025/06/Screenshot_17.jpg" width="1642" height="1633" loading="lazy" alt="FLUX.1 Kontext" srcset="https://fidacaro.com/content/images/size/w600/2025/06/Screenshot_17.jpg 600w, https://fidacaro.com/content/images/size/w1000/2025/06/Screenshot_17.jpg 1000w, https://fidacaro.com/content/images/size/w1600/2025/06/Screenshot_17.jpg 1600w, https://fidacaro.com/content/images/2025/06/Screenshot_17.jpg 1642w" sizes="(min-width: 720px) 720px"></div></div></div><figcaption>Flux Kontext Multi-image</figcaption></figure><h3 id="architettura-e-metodologia">Architettura e metodologia</h3><p>Il modello si fonda su un rectified flow transformer, addestrato su rappresentazioni latenti prodotte da un autoencoder convoluzionale ottimizzato con obiettivi avversariali. A differenza di pipeline che operano nello spazio dei pixel, FLUX.1 Kontext agisce interamente nello spazio latente, riducendo la dimensionalit&#xE0; del problema e migliorando la coerenza semantica nelle operazioni di trasformazione. L&#x2019;architettura impiega blocchi misti double-stream e single-stream: i primi gestiscono separatamente token visivi e testuali, mentre i secondi operano esclusivamente sui token visivi.</p><p>Il modello utilizza una semplice concatenazione sequenziale per codificare contesti visivi e istruzioni testuali, abilitando una generalizzazione fluida tra editing locale (y &#x2260; &#x2205;) e generazione libera (y = &#x2205;). Le informazioni posizionali sono codificate tramite Rotary Positional Embeddings in uno spazio tridimensionale (t, h, w), dove il tempo virtuale t consente di separare gerarchicamente contesto e target all&#x2019;interno della sequenza.</p><h3 id="prestazioni-empiriche-e-benchmark">Prestazioni empiriche e benchmark</h3><p>FLUX.1 Kontext &#xE8; stato valutato attraverso KontextBench, un dataset di 1026 coppie immagine-prompt distribuite su cinque categorie: editing locale, editing globale, riferimenti stilistici, riferimenti a personaggi e modifiche testuali. I risultati dimostrano un&apos;elevata qualit&#xE0; generativa sia nei task single-turn che multi-turn, con una significativa riduzione del fenomeno del drift semantico. Il modello raggiunge latenze di inferenza comprese tra 3 e 5 secondi per immagini 1024x1024, rendendolo compatibile con scenari applicativi interattivi.</p><p>FLUX.1 Kontext mostra inoltre superiorit&#xE0; nella conservazione delle caratteristiche identitarie di soggetti visivi rispetto a modelli concorrenti, come GPT-Image o Runway Gen-4, come confermato dall&#x2019;analisi su metriche di similarit&#xE0; facciale (AuraFace). Queste prestazioni lo posizionano tra i modelli pi&#xF9; competitivi nel contesto dell&#x2019;editing iterativo e della generazione condizionata ad alta fedelt&#xE0;.</p><figure class="kg-card kg-image-card"><img src="https://fidacaro.com/content/images/2025/06/Screenshot_19.jpg" class="kg-image" alt="FLUX.1 Kontext" loading="lazy" width="1010" height="507" srcset="https://fidacaro.com/content/images/size/w600/2025/06/Screenshot_19.jpg 600w, https://fidacaro.com/content/images/size/w1000/2025/06/Screenshot_19.jpg 1000w, https://fidacaro.com/content/images/2025/06/Screenshot_19.jpg 1010w" sizes="(min-width: 720px) 720px"></figure><h3 id="applicazioni-avanzate-e-casi-d%E2%80%99uso">Applicazioni avanzate e casi d&#x2019;uso</h3><p>Oltre alle funzionalit&#xE0; di editing standard, FLUX.1 Kontext supporta una gamma di operazioni avanzate che includono:</p><ul><li><strong>Style reference</strong>: trasferimento dello stile visivo di un&apos;immagine di input verso scene semantiche differenti, con mantenimento delle caratteristiche artistiche.</li><li><strong>Product-centric editing</strong>: generazione e modifica di varianti di prodotti in ambienti controllati, utile in ambiti come l&apos;e-commerce e il design industriale.</li><li><strong>Visual cue processing</strong>: interpretazione di input visivi (es. bounding box o marcature grafiche) per guidare l&apos;editing secondo vincoli spaziali definiti dall&#x2019;utente.</li><li><strong>Text-region editing</strong>: intervento sulle regioni testuali presenti nell&apos;immagine, come titoli, logotipi e contenuti descrittivi, mantenendo coerenza tipografica e contestuale.</li></ul><p>Tali capacit&#xE0;, unite a un&apos;infrastruttura di inferenza rapida, ne favoriscono l&apos;integrazione in pipeline creative e sistemi di content generation professionale.</p><figure class="kg-card kg-image-card kg-card-hascaption"><img src="https://fidacaro.com/content/images/2025/06/Screenshot_18.jpg" class="kg-image" alt="FLUX.1 Kontext" loading="lazy" width="1676" height="1640" srcset="https://fidacaro.com/content/images/size/w600/2025/06/Screenshot_18.jpg 600w, https://fidacaro.com/content/images/size/w1000/2025/06/Screenshot_18.jpg 1000w, https://fidacaro.com/content/images/size/w1600/2025/06/Screenshot_18.jpg 1600w, https://fidacaro.com/content/images/2025/06/Screenshot_18.jpg 1676w" sizes="(min-width: 720px) 720px"><figcaption>Face to Many | Flux Kontext App</figcaption></figure><h3 id="limiti-e-prospettive-di-sviluppo">Limiti e prospettive di sviluppo</h3><p>Nonostante i risultati promettenti, FLUX.1 Kontext presenta alcune limitazioni operative:</p><ul><li>In contesti di editing prolungato su pi&#xF9; turni, si possono verificare artefatti visivi e perdita di fedelt&#xE0; rispetto alla distribuzione iniziale.</li><li>L&apos;aderenza alle istruzioni testuali pu&#xF2; risultare imprecisa in caso di prompt ambigui o compositi.</li><li>La conoscenza implicita del modello &#xE8; limitata alla distribuzione dei dati di addestramento, riducendo la capacit&#xE0; di generare contenuti fortemente ancorati al mondo reale.</li></ul><p>Gli autori propongono varie linee di sviluppo future, tra cui:</p><ul><li>Estensione del contesto multimodale a sequenze di immagini o a dati video;</li><li>Integrazione con pipeline neurali a basso consumo per abilitare l&#x2019;inferenza edge;</li><li>Riduzione della degradazione semantica in sessioni iterative attraverso modelli di stabilizzazione.<br></li></ul><p>Leggi tutte le informazioni tecniche nel PDF:</p><p><a href="https://cdn.sanity.io/files/gsvmb6gz/production/880b072208997108f87e5d2729d8a8be481310b5.pdf">FLUX.1 Kontext: Flow Matching for In-Context Image Generation and Editing in Latent Space</a></p><p></p><figure class="kg-card kg-image-card"><img src="https://fidacaro.com/content/images/2025/06/Screenshot_20.jpg" class="kg-image" alt="FLUX.1 Kontext" loading="lazy" width="1007" height="1394" srcset="https://fidacaro.com/content/images/size/w600/2025/06/Screenshot_20.jpg 600w, https://fidacaro.com/content/images/size/w1000/2025/06/Screenshot_20.jpg 1000w, https://fidacaro.com/content/images/2025/06/Screenshot_20.jpg 1007w" sizes="(min-width: 720px) 720px"></figure>]]></content:encoded></item><item><title><![CDATA[Tra Google Titans AI e Modello VRIO - Tecnologie e Strategie]]></title><description><![CDATA[<p><strong>Inferenza AI con Google Titans, NVIDIA TPU, PIL Python e Python Pillow: come RAG Agent, R1-zero e O3 Mini Benchmarks si integrano nel Modello VRIO e nel Break Even ROAS.</strong></p><p>Negli tempi, l&#x2019;impennata d&#x2019;interesse verso tecnologie di frontiera e strategie di business ha portato all&#x2019;</p>]]></description><link>https://fidacaro.com/tra-google-titans-e-nvidia-tpu/</link><guid isPermaLink="false">67a4666ac2a0c00001f9afde</guid><category><![CDATA[Intelligenza Artificiale]]></category><category><![CDATA[Marketing]]></category><category><![CDATA[NVidia]]></category><category><![CDATA[Google]]></category><dc:creator><![CDATA[Salvino Fidacaro]]></dc:creator><pubDate>Thu, 06 Feb 2025 11:27:30 GMT</pubDate><media:content url="https://fidacaro.com/content/images/2025/02/super_agent_rag_ai_14.jpg" medium="image"/><content:encoded><![CDATA[<img src="https://fidacaro.com/content/images/2025/02/super_agent_rag_ai_14.jpg" alt="Tra Google Titans AI e Modello VRIO - Tecnologie e Strategie"><p><strong>Inferenza AI con Google Titans, NVIDIA TPU, PIL Python e Python Pillow: come RAG Agent, R1-zero e O3 Mini Benchmarks si integrano nel Modello VRIO e nel Break Even ROAS.</strong></p><p>Negli tempi, l&#x2019;impennata d&#x2019;interesse verso tecnologie di frontiera e strategie di business ha portato all&#x2019;attenzione dei professionisti un insieme di tematiche che spaziano dal potenziamento hardware, come <strong><a href="https://fidacaro.com/google-titans-una-nuova-memoria-per-ai/">Google Titans</a></strong> e <strong>NVIDIA TPU</strong>, alle metodologie di analisi strategica, tra cui il <strong><a href="https://fidacaro.com/come-utilizzare-il-modello-vrio-per-valutare-la-competitivita-del-tuo-prodotto/">modello VRIO</a></strong>, fino a toccare concetti di marketing avanzato come il <strong>break even ROAS</strong>. Al contempo, la crescente complessit&#xE0; degli algoritmi di <strong><a href="https://fidacaro.com/inferenza-ai-intelligenza-artificiale/">inferenza AI</a></strong> e l&#x2019;emergere di approcci eterogenei (ad esempio, il <strong>rag agent</strong> come forma di <em><a href="https://fidacaro.com/sinergia-tra-ai-agents-e-rag/">retrieval-augmented generation</a></em>) evidenziano come la sinergia tra sicurezza, performance computazionali e pianificazione economica sia diventata centrale nella ricerca e nello sviluppo di soluzioni innovative.</p><blockquote>Soffermandoci sulle componenti hardware, <strong><a href="https://fidacaro.com/modeling-past-surprise-in-google-titans/">Google Titans</a></strong> rappresenta un tassello cruciale nel garantire un &#x201C;root of trust&#x201D; all&#x2019;interno dei sistemi: si tratta infatti di un insieme di soluzioni e processi che rafforzano l&#x2019;integrit&#xE0; delle componenti critiche, riducendo la superficie di attacco e prevenendo manipolazioni a livello di firmware. In ambito di IA, questa solidit&#xE0; &#xE8; fondamentale per proteggere i dati sensibili, soprattutto quando si implementano modelli ad alte prestazioni su dispositivi edge o in cloud. Sul versante del calcolo distribuito, l&#x2019;uso di dispositivi <strong>TPU</strong> (Tensor Processing Unit) ha consentito un salto di qualit&#xE0; rispetto ai tradizionali acceleratori GPU di <strong><a href="https://fidacaro.com/tag/nvidia/">NVIDIA</a></strong>, grazie a un&#x2019;architettura orientata specificamente alle operazioni di matrice tipiche del deep learning. Naturalmente, GPU e TPU non si escludono a vicenda: anzi, la progettazione di un sistema ibrido o la scelta accurata tra GPU e TPU in base ai carichi di lavoro (fasi di training o di inferenza) rappresenta un tema di studio assai attuale nei corsi di <em>High-Performance Computing</em> dedicati all&#x2019;intelligenza artificiale.</blockquote><p>Un ulteriore aspetto tecnico &#xE8; costituito dalle pipeline software, in cui librerie come <strong>PIL Python</strong> e <strong>Python Pillow</strong> si rivelano indispensabili per la manipolazione delle immagini. Queste librerie sono spesso integrate in framework di deep learning (TensorFlow, PyTorch) per pre-elaborare dataset di grandi dimensioni, curando operazioni di data augmentation o ridimensionamento. Tale attivit&#xE0; risulta propedeutica a una <strong><a href="https://fidacaro.com/inferenza-nei-modelli-di-machine-learning/">inferenza AI</a></strong> di qualit&#xE0;, in cui la regolarizzazione e la preparazione accurata del dato influiscono sensibilmente sull&#x2019;accuratezza finale del modello. In parallelo, tecniche quali il <strong><a href="https://fidacaro.com/sinergia-tra-ai-agents-e-rag/">rag agent</a></strong> (ossia modelli che attingono dinamicamente a conoscenze esterne) esemplificano l&#x2019;evoluzione verso sistemi cognitivi in grado di comprendere e generare contenuti in maniera contestuale, fornendo risposte sempre pi&#xF9; pertinenti in ambito NLP (Natural Language Processing), customer care e analisi semantica.</p><p>Sul fronte della gestione d&#x2019;impresa, l&#x2019;innovazione tecnologica diventa sostenibile solo se affiancata da una solida visione strategica. Qui entra in gioco il <strong><a href="https://fidacaro.com/come-utilizzare-il-modello-vrio-per-valutare-la-competitivita-del-tuo-prodotto/">modello VRIO</a></strong> (Valuable, Rare, Inimitable, Organized), uno strumento proveniente dagli studi di <em>Resource-Based View</em> che consente di valutare come le risorse interne all&#x2019;azienda possano evolvere in un vantaggio competitivo di lungo periodo. La capacit&#xE0; di sviluppare, ad esempio, competenze su GPU e TPU o di creare un ecosistema in cui il rag agent trovi applicazioni reali, diventa cos&#xEC; un fattore distintivo, a patto che l&#x2019;impresa sia in grado di organizzarsi efficacemente per sfruttare tali risorse. Inoltre, dal punto di vista economico, monitorare il <strong>break even ROAS</strong> risulta essenziale: in contesti altamente competitivi, le campagne di digital marketing possono assorbire budget rilevanti e una stima precisa del Return On Advertising Spend al punto di pareggio permette di evitare dispersioni finanziarie e orientare gli sforzi pubblicitari verso canali pi&#xF9; profittevoli.</p><p>Sul piano della ricerca pura, strumenti di ottimizzazione del codice come gli <strong>o3 mini benchmarks</strong> rivelano quanto una semplice opzione di compilazione &#x2013; il livello <code>-O3</code> &#x2013; possa migliorare la velocit&#xE0; di esecuzione di algoritmi di machine learning, soprattutto se abbinato a istruzioni SIMD (Single Instruction, Multiple Data) e tecniche di autovettorizzazione. Allo stesso tempo, progetti emergenti come <strong><a href="https://fidacaro.com/deepseek-r1-e-deepseek-r1-zero/">r1-zero</a></strong> si ispirano a soluzioni di <em>reinforcement learning</em> senza dati etichettati (sulla scia di AlphaZero e MuZero), segno che la ricerca IA si sta spostando verso modelli pi&#xF9; generali e flessibili, capaci di apprendere strategie a partire da regole minime e feedback ambientali. Questo filone di studi incrocia inevitabilmente l&#x2019;ambito dei <em>self-play training</em> e dei <em>Monte Carlo Tree Search</em>, rendendo l&#x2019;ecosistema dell&#x2019;AI incredibilmente ricco di spunti per tesi di laurea magistrale o di dottorato.</p><p>La coesistenza di temi quali sicurezza e hardware (Google Titans, NVIDIA TPU), pipeline software (PIL, Pillow, rag agent) e strategie di business (modello VRIO, break even ROAS) dimostra come i progetti pi&#xF9; ambiziosi oggi si basino su un approccio integrato, in cui il vantaggio competitivo &#xE8; il risultato della corretta ibridazione tra risorse tecnologiche e competenze organizzative. Con un&#x2019;adeguata pianificazione, le aziende possono adottare infrastrutture sicure, acceleratori di calcolo adeguati e tecniche di machine learning all&#x2019;avanguardia, senza dimenticare l&#x2019;ottimizzazione del ritorno sugli investimenti pubblicitari e la valutazione delle proprie capabilities interne. Tutto questo rende la padronanza di tali argomenti un requisito sempre pi&#xF9; imprescindibile per studenti universitari, ricercatori e specialisti che aspirano a guidare l&#x2019;innovazione nel panorama globale.</p>]]></content:encoded></item><item><title><![CDATA[OpenAI o3-mini vs DeepSeek R1]]></title><description><![CDATA[<p>Questo confronto dettagliato evidenzia come, nonostante l&#x2019;OpenAI o3&#x2011;mini offra prestazioni complessive migliori in molti ambiti, il DeepSeek&#x2011;R1 rimanga una valida alternativa per adesso a costi pi&#xFA; bassi, grazie ai suoi punti di forza specifici e al modello open-source. La decisione finale dovr&#xE0;</p>]]></description><link>https://fidacaro.com/openai-o3-mini-vs-deepseek-r1/</link><guid isPermaLink="false">679e5926c2a0c00001f9af9c</guid><category><![CDATA[Intelligenza Artificiale]]></category><category><![CDATA[DeepSeek]]></category><category><![CDATA[OpenAI]]></category><dc:creator><![CDATA[Salvino Fidacaro]]></dc:creator><pubDate>Sat, 01 Feb 2025 17:38:30 GMT</pubDate><media:content url="https://fidacaro.com/content/images/2025/02/deepseek-chatgpt.jpg" medium="image"/><content:encoded><![CDATA[<img src="https://fidacaro.com/content/images/2025/02/deepseek-chatgpt.jpg" alt="OpenAI o3-mini vs DeepSeek R1"><p>Questo confronto dettagliato evidenzia come, nonostante l&#x2019;OpenAI o3&#x2011;mini offra prestazioni complessive migliori in molti ambiti, il DeepSeek&#x2011;R1 rimanga una valida alternativa per adesso a costi pi&#xFA; bassi, grazie ai suoi punti di forza specifici e al modello open-source. La decisione finale dovr&#xE0; tenere conto delle esigenze particolari dell&#x2019;utente, sia in termini di performance che di costi e flessibilit&#xE0; di implementazione, anche se attualmente la piattaforma offerta da OpenAI &#xE8; molto piu stabile e affidabile dell&apos;infrastruttura offerta da DeepSeek.</p><h2 id="analisi-dei-benchmark-e-delle-prestazioni">Analisi dei Benchmark e delle Prestazioni</h2><h3 id="prestazioni-globali">Prestazioni Globali</h3><ul><li><strong>Global Average:</strong><br>L&#x2019;OpenAI o3&#x2011;mini registra una media globale di <strong>73.94</strong>, mentre il DeepSeek&#x2011;R1 ottiene <strong>71.38</strong>. Questo dato suggerisce che l&#x2019;o3&#x2011;mini ha una performance leggermente migliore nel complesso, coprendo una vasta gamma di task.</li></ul><figure class="kg-card kg-image-card"><img src="https://fidacaro.com/content/images/2025/02/image.png" class="kg-image" alt="OpenAI o3-mini vs DeepSeek R1" loading="lazy" width="1852" height="538" srcset="https://fidacaro.com/content/images/size/w600/2025/02/image.png 600w, https://fidacaro.com/content/images/size/w1000/2025/02/image.png 1000w, https://fidacaro.com/content/images/size/w1600/2025/02/image.png 1600w, https://fidacaro.com/content/images/2025/02/image.png 1852w" sizes="(min-width: 720px) 720px"></figure><h3 id="competenze-specifiche">Competenze Specifiche</h3><ul><li><strong>Reasoning:</strong><br>Con un punteggio di <strong>89.58</strong> rispetto agli <strong>83.17</strong> di DeepSeek&#x2011;R1, l&#x2019;OpenAI o3&#x2011;mini dimostra una notevole capacit&#xE0; nel ragionamento, essenziale per comprendere, analizzare e trarre conclusioni da informazioni complesse.</li><li><strong>Coding:</strong><br>Nell&#x2019;ambito della programmazione, il modello o3&#x2011;mini segna <strong>82.74</strong>, ben al di sopra dei <strong>66.74</strong> di DeepSeek&#x2011;R1, evidenziando una maggiore abilit&#xE0; nel comprendere concetti di programmazione e risolvere problemi di coding.</li><li><strong>Matematica:</strong><br>Al contrario, per quanto riguarda i compiti matematici, il DeepSeek&#x2011;R1 si distingue con un punteggio di <strong>79.54</strong> contro i <strong>65.65</strong> dell&#x2019;o3&#x2011;mini, dimostrando una maggiore forza nel ragionamento numerico e nella risoluzione di problemi matematici.</li><li><strong>Data Analysis e Linguaggio:</strong><br>Nel data analysis, l&#x2019;o3&#x2011;mini segna <strong>70.64</strong> rispetto a <strong>69.78</strong> di DeepSeek&#x2011;R1, mentre per i task linguistici il punteggio &#xE8; di <strong>50.68</strong> contro <strong>48.53</strong>. In entrambi i casi, il vantaggio dell&#x2019;o3&#x2011;mini &#xE8; marginale ma presente.</li><li><strong>IF (Indice di Funzionalit&#xE0;) Average:</strong><br>Con un punteggio di <strong>84.36</strong> rispetto agli <strong>80.51</strong> del DeepSeek&#x2011;R1, l&#x2019;OpenAI o3&#x2011;mini sembra possedere una capacit&#xE0; complessiva di &#x201C;intelligenza&#x201D; leggermente superiore, coprendo un ampio spettro di competenze.</li></ul><h3 id="benchmark-aggiuntivi">Benchmark Aggiuntivi</h3><ul><li><strong>NYT Connections (Puzzle):</strong><br>Qui l&#x2019;OpenAI o3&#x2011;mini si posiziona con un punteggio di <strong>72.4</strong>, posizionandosi tra i migliori performer. Il DeepSeek&#x2011;R1, con <strong>54.4</strong>, risulta superato di ben 18 punti, evidenziando una differenza significativa nella capacit&#xE0; di risolvere puzzle complessi.</li></ul><figure class="kg-card kg-image-card"><img src="https://fidacaro.com/content/images/2025/02/image-1.png" class="kg-image" alt="OpenAI o3-mini vs DeepSeek R1" loading="lazy" width="798" height="637" srcset="https://fidacaro.com/content/images/size/w600/2025/02/image-1.png 600w, https://fidacaro.com/content/images/2025/02/image-1.png 798w" sizes="(min-width: 720px) 720px"></figure><p><strong>Humanity&#x2019;s Last Exam:</strong></p><ul><li><em>Accuracy (%):</em><br>L&#x2019;o3&#x2011;mini (versione high) raggiunge il <strong>13.0%</strong> di risposte corrette, mentre il DeepSeek&#x2011;R1 ottiene il <strong>9.4%</strong>, indicando una maggiore efficacia nel fornire risposte giuste.</li><li><em>Calibration Error (%):</em><br>Un parametro importante &#xE8; l&#x2019;errore di calibrazione: l&#x2019;o3&#x2011;mini mostra un errore del <strong>93.2%</strong> contro l&#x2019;<strong>81.8%</strong> del DeepSeek&#x2011;R1. Poich&#xE9; un errore di calibrazione pi&#xF9; basso &#xE8; preferibile, il DeepSeek&#x2011;R1 risulta migliore in questo ambito, suggerendo una maggiore affidabilit&#xE0; nelle sue previsioni di confidenza.</li><li><strong>Altri Benchmark:</strong><br>Sui test come AIME 2024, SWE-bench e Codeforces, l&#x2019;OpenAI o3&#x2011;mini dimostra un vantaggio nel comprendere istruzioni complesse e nei compiti di ragionamento, anche se alcuni task richiedono uno sforzo di ragionamento elevato da parte di entrambi i modelli.</li></ul><hr><h2 id="confronto-fra-prezzi-per-luso-delle-api">Confronto fra prezzi per l&apos;uso delle API</h2><p>Dal punto di vista economico, il modello DeepSeek&#x2011;R1 &#xE8; pi&#xF9; conveniente:</p><ul><li><strong>DeepSeek&#x2011;R1:</strong></li><li>$0.14 per milione di input tokens memorizzati</li><li>$2.19 per milione di output tokens</li><li><strong>OpenAI o3&#x2011;mini:</strong></li><li>$0.55 per milione di input tokens</li><li>$4.40 per milione di output tokens</li></ul><p>Anche se l&#x2019;o3&#x2011;mini offre prestazioni superiori in molti ambiti, il suo costo API &#xE8; maggiore rispetto a DeepSeek&#x2011;R1. Tuttavia, il prezzo dell&#x2019;o3&#x2011;mini risulta competitivo e, in alcuni casi, &#xE8; descritto come pi&#xF9; conveniente rispetto ad altri modelli di OpenAI, come l&#x2019;O1&#x2011;mini.</p><h3 id="open-sourced-vs-closed-source">Open-sourced vs Closed-source</h3><p>Un aspetto determinante per molti utenti &#xE8; la disponibilit&#xE0; del codice sorgente:</p><ul><li><strong>DeepSeek&#x2011;R1</strong> &#xE8; completamente open-sourced, il che offre maggiore trasparenza e possibilit&#xE0; di personalizzazione.</li><li><strong>OpenAI o3&#x2011;mini</strong>, al contrario, segue la tradizionale strategia di OpenAI, mantenendo il modello closed-source, limitando l&#x2019;accesso e la possibilit&#xE0; di modifiche da parte della community.</li></ul><p>Il confronto tra OpenAI o3&#x2011;mini e DeepSeek&#x2011;R1 evidenzia una serie di punti di forza e di debolezza per ciascun modello:</p><p><strong>OpenAI o3&#x2011;mini</strong> si distingue per:</p><ul><li>Migliori performance globali e in specifiche aree come il ragionamento e il coding.</li><li>Ottime prestazioni in benchmark complessi (es. NYT Connections e AIME).</li><li>Un vantaggio nell&#x2019;IF average, che ne sottolinea l&#x2019;efficacia generale.</li></ul><p><strong>DeepSeek&#x2011;R1</strong> eccelle in:</p><ul><li>Compiti matematici, dove il punteggio supera significativamente quello dell&#x2019;o3&#x2011;mini.</li><li>Migliore calibrazione delle previsioni, con un errore inferiore.</li><li>Costi API decisamente pi&#xF9; contenuti, rendendolo una scelta attraente per chi ha vincoli di budget.</li><li>La completa apertura del codice, che favorisce la trasparenza e l&#x2019;adozione da parte della community open-source.</li></ul><p>La scelta tra i due modelli dipender&#xE0; quindi dall&#x2019;uso specifico: chi ha bisogno di performance superiori in ragionamento e coding potrebbe optare per l&#x2019;OpenAI o3&#x2011;mini, mentre chi lavora principalmente su problemi matematici, o cerca soluzioni pi&#xF9; economiche e trasparenti, potrebbe trovare in DeepSeek&#x2011;R1 l&#x2019;opzione migliore.</p>]]></content:encoded></item><item><title><![CDATA[Quando pubblicare su TikTok - Tools Gratuito]]></title><description><![CDATA[<p>Utilizza questo strumento gratuito per capire quando &#xE8; meglio pubblicare su TikTok per ottenere maggiore visibilit&#xE0;.</p><!--kg-card-begin: html--><div class="tiktok-tool">
    <h3>Scopri il miglior orario per postare su TikTok</h3>
    <form id="tiktokForm">
      <label for="timezone">Fuso Orario:</label>
      <select id="timezone" name="timezone">
        <option value="UTC+1">UTC+1 (Europa Centrale)</option>
        <option value="UTC+2">UTC+2 (Europa Orientale)</option>
        <option value="UTC-5">UTC-5 (Est degli USA)</option>
      </select>
      <br>
      
      <label for="day">Giorno della settimana:</label>
      <select id="day" name="day">
        <option value="Monday">Luned&#xEC;</option>
        <option value="Tuesday">Marted&#xEC;</option>
        <option value="Wednesday">Mercoled&#xEC;</option>
        <option value="Thursday">Gioved&#xEC;</option></select></form></div>]]></description><link>https://fidacaro.com/tool-tiktok/</link><guid isPermaLink="false">679e408dc2a0c00001f9af4f</guid><category><![CDATA[TikTok]]></category><dc:creator><![CDATA[Salvino Fidacaro]]></dc:creator><pubDate>Sat, 01 Feb 2025 15:44:14 GMT</pubDate><media:content url="https://fidacaro.com/content/images/2025/02/tiktoktools-2.jpg" medium="image"/><content:encoded><![CDATA[<img src="https://fidacaro.com/content/images/2025/02/tiktoktools-2.jpg" alt="Quando pubblicare su TikTok - Tools Gratuito"><p>Utilizza questo strumento gratuito per capire quando &#xE8; meglio pubblicare su TikTok per ottenere maggiore visibilit&#xE0;.</p><!--kg-card-begin: html--><div class="tiktok-tool">
    <h3>Scopri il miglior orario per postare su TikTok</h3>
    <form id="tiktokForm">
      <label for="timezone">Fuso Orario:</label>
      <select id="timezone" name="timezone">
        <option value="UTC+1">UTC+1 (Europa Centrale)</option>
        <option value="UTC+2">UTC+2 (Europa Orientale)</option>
        <option value="UTC-5">UTC-5 (Est degli USA)</option>
      </select>
      <br>
      
      <label for="day">Giorno della settimana:</label>
      <select id="day" name="day">
        <option value="Monday">Luned&#xEC;</option>
        <option value="Tuesday">Marted&#xEC;</option>
        <option value="Wednesday">Mercoled&#xEC;</option>
        <option value="Thursday">Gioved&#xEC;</option>
        <option value="Friday">Venerd&#xEC;</option>
        <option value="Saturday">Sabato</option>
        <option value="Sunday">Domenica</option>
      </select>
      <br>
      
      <label for="audience">Fascia d&apos;et&#xE0; del target:</label>
      <select id="audience" name="audience">
        <option value="teen">Teenager (13-19)</option>
        <option value="young">Giovani Adulti (20-30)</option>
        <option value="adult">Adulti (31+)</option>
      </select>
      <br>
      
      <label for="contentType">Tipo di contenuto:</label>
      <select id="contentType" name="contentType">
        <option value="divertente">Divertente</option>
        <option value="educativo">Educativo</option>
        <option value="informativo">Informativo</option>
        <option value="trend">Trend</option>
      </select>
      <br>
      
      <label for="objective">Obiettivo:</label>
      <select id="objective" name="objective">
        <option value="engagement">Massimizzare Engagement</option>
        <option value="visite">Aumentare le visualizzazioni</option>
        <option value="conversione">Conversione/Vendite</option>
      </select>
      <br>
      
      <label for="followers">Numero di follower:</label>
      <input type="number" id="followers" name="followers" placeholder="Es. 1000">
      <br>
      
      <input type="button" value="Scopri l&apos;orario migliore" onclick="calculateTime()">
    </form>
    
    <div id="result"></div>
    
    <div id="chartContainer">
      <canvas id="chart"></canvas>
    </div>
  </div><!--kg-card-end: html-->]]></content:encoded></item><item><title><![CDATA[Deepseek Janus-Pro Comprensione e Generazione Multimodale]]></title><description><![CDATA[<p>Il <strong>Deepseek Janus-Pro</strong> rappresenta un significativo passo avanti nell&apos;evoluzione dei modelli di comprensione e generazione multimodale. Basato sul precedente <strong>Janus</strong>, questa nuova versione introduce miglioramenti chiave che aumentano l&apos;efficacia del modello in vari scenari applicativi. Tra le principali novit&#xE0; di questo modello rilasciato da <strong><a href="https://fidacaro.com/deepseek-r1-e-deepseek-r1-zero/">Deepseek</a></strong></p>]]></description><link>https://fidacaro.com/deepseek-janus-pro/</link><guid isPermaLink="false">679a7464c672b9000136d16f</guid><category><![CDATA[Intelligenza Artificiale]]></category><category><![CDATA[DeepSeek]]></category><dc:creator><![CDATA[Salvino Fidacaro]]></dc:creator><pubDate>Wed, 29 Jan 2025 19:04:46 GMT</pubDate><media:content url="https://fidacaro.com/content/images/2025/01/janus_pro_deepseek.jpg" medium="image"/><content:encoded><![CDATA[<img src="https://fidacaro.com/content/images/2025/01/janus_pro_deepseek.jpg" alt="Deepseek Janus-Pro Comprensione e Generazione Multimodale"><p>Il <strong>Deepseek Janus-Pro</strong> rappresenta un significativo passo avanti nell&apos;evoluzione dei modelli di comprensione e generazione multimodale. Basato sul precedente <strong>Janus</strong>, questa nuova versione introduce miglioramenti chiave che aumentano l&apos;efficacia del modello in vari scenari applicativi. Tra le principali novit&#xE0; di questo modello rilasciato da <strong><a href="https://fidacaro.com/deepseek-r1-e-deepseek-r1-zero/">Deepseek</a></strong> troviamo:</p><ol><li><strong>Strategia di addestramento ottimizzata</strong>, che migliora l&apos;efficienza e la qualit&#xE0; della generazione.</li><li><strong>Espansione del dataset di training</strong>, per aumentare la capacit&#xE0; di comprensione multimodale.</li><li><strong>Scalabilit&#xE0; del modello su larga scala</strong>, offrendo versioni con un numero maggiore di parametri per prestazioni superiori.</li><li><strong>Ottimizzazione dell&apos;architettura</strong>, riducendo il consumo di risorse computazionali senza compromettere le prestazioni.</li><li><strong>Maggiore adattabilit&#xE0; ai diversi contesti di utilizzo</strong>, migliorando la personalizzazione dell&apos;output in base alle esigenze specifiche dell&apos;utente.</li></ol><p>Grazie a questi aggiornamenti, <strong>Janus-Pro</strong> eccelle sia nella comprensione multimodale che nella generazione di immagini basata su istruzioni testuali, migliorando notevolmente la stabilit&#xE0; della conversione testo-immagine.</p><h2 id="evoluzione-della-serie-janus">Evoluzione della Serie Janus</h2><p>Il modello <strong>Janus</strong> ha introdotto un framework autoregressivo innovativo, unificando la comprensione e la generazione multimodale tramite un&apos;architettura transformer unificata. Una delle principali caratteristiche di Janus &#xE8; la <strong>separazione dell&apos;encoding visivo in percorsi distinti</strong>, riducendo il conflitto tra il ruolo dell&apos;encoder visivo nella comprensione e generazione. Questo approccio ha portato a maggiore flessibilit&#xE0; e prestazioni migliorate, superando modelli precedenti e avvicinandosi a quelli specifici per task individuali.</p><h3 id="janusflow-unificando-autoregressione-e-rectified-flow"><strong>JanusFlow: Unificando Autoregressione e Rectified Flow</strong></h3><p><strong>JanusFlow</strong> ha portato avanti l&apos;idea di un modello unificato, integrando i modelli autoregressivi con il <strong>rectified flow</strong>, una tecnica avanzata nella modellazione generativa. Grazie a questa innovazione, <strong>JanusFlow</strong> ha raggiunto prestazioni comparabili o superiori rispetto ai modelli specializzati, superando significativamente gli approcci unificati esistenti nei benchmark standard.</p><h2 id="janus-pro-un-salto-di-qualit%C3%A0"><strong>Janus-Pro: Un Salto di Qualit&#xE0;</strong></h2><p>Il 27 gennaio 2025, <strong>Deepseek ha annunciato il rilascio di Janus-Pro</strong>, la versione avanzata di <strong>Janus</strong>. Questo aggiornamento garantisce:</p><ul><li><strong>Migliore comprensione multimodale</strong>, grazie a un&apos;architettura ottimizzata.</li><li><strong>Generazione di immagini pi&#xF9; accurata e stabile</strong>, con un dataset pi&#xF9; ampio e raffinato.</li><li><strong>Maggiore scalabilit&#xE0; ed efficienza computazionale</strong>, per garantire risultati migliori anche con input complessi.</li><li><strong>Integrazione migliorata con altre piattaforme AI</strong>, consentendo applicazioni pi&#xF9; fluide in ecosistemi preesistenti.</li></ul><figure class="kg-card kg-image-card"><img src="https://fidacaro.com/content/images/2025/01/janus_pro_deepseek_test.jpg" class="kg-image" alt="Deepseek Janus-Pro Comprensione e Generazione Multimodale" loading="lazy" width="2000" height="805" srcset="https://fidacaro.com/content/images/size/w600/2025/01/janus_pro_deepseek_test.jpg 600w, https://fidacaro.com/content/images/size/w1000/2025/01/janus_pro_deepseek_test.jpg 1000w, https://fidacaro.com/content/images/size/w1600/2025/01/janus_pro_deepseek_test.jpg 1600w, https://fidacaro.com/content/images/2025/01/janus_pro_deepseek_test.jpg 2256w" sizes="(min-width: 720px) 720px"></figure><h2 id="architettura-e-innovazioni-tecniche"><strong>Architettura e Innovazioni Tecniche</strong></h2><p>Janus-Pro introduce un <strong>encoder decoupled</strong> per la comprensione e la generazione visiva. Il cuore dell&#x2019;architettura &#xE8; un <strong>transformer autoregressivo</strong>, con un encoder dedicato alla comprensione e uno alla generazione.</p><h3 id="innovazioni-nel-modulo-di-comprensione"><strong>Innovazioni nel Modulo di Comprensione</strong></h3><p>Per migliorare la qualit&#xE0; delle risposte multimodali, Janus-Pro utilizza il modello <strong>SigLIP</strong>, che consente di estrarre caratteristiche semantiche avanzate dalle immagini. Questa strategia permette di affinare la precisione della comprensione visiva in modo significativo.</p><h3 id="miglioramenti-nella-generazione-di-immagini"><strong>Miglioramenti nella Generazione di Immagini</strong></h3><p>La generazione di immagini &#xE8; stata potenziata con un <strong>tokenizer VQ</strong>, che trasforma le immagini in sequenze discrete di token. Questo approccio ha migliorato notevolmente la coerenza e la stabilit&#xE0; delle immagini prodotte, riducendo artefatti visivi e migliorando la fedelt&#xE0; ai prompt testuali.</p><h2 id="strategie-di-addestramento-ottimizzate"><strong>Strategie di Addestramento Ottimizzate</strong></h2><p>L&#x2019;addestramento di Janus-Pro &#xE8; stato perfezionato e suddiviso in tre fasi principali:</p><ol><li><strong>Stage I</strong> &#x2013; Addestramento iniziale sugli adattatori di comprensione e generazione, ottimizzando le capacit&#xE0; di ciascun modulo.</li><li><strong>Stage II</strong> &#x2013; Pre-training su dataset multimodali, con particolare attenzione alla coerenza semantica nelle immagini generate.</li><li><strong>Stage III</strong> &#x2013; Fine-tuning supervisionato con una distribuzione bilanciata dei dati per massimizzare la precisione del modello.</li><li><strong>Adattamento ai diversi scenari applicativi</strong>, con test approfonditi su vari domini, garantendo una maggiore versatilit&#xE0; nell&#x2019;uso pratico.</li></ol><p>Questa metodologia ha portato a un incremento del <strong>20% nella qualit&#xE0; delle immagini generate</strong> rispetto alla versione precedente.</p><h2 id="benchmark-e-prestazioni"><strong>Benchmark e Prestazioni</strong></h2><p>I test su benchmark standard confermano le eccellenti prestazioni di Janus-Pro:</p><ul><li><strong>79.2 su MMBench</strong>, superando modelli come TokenFlow e MetaMorph.</li><li><strong>0.80 su GenEval</strong>, con un miglioramento notevole rispetto a DALL-E 3 e Stable Diffusion 3 Medium.</li><li><strong>84.19 su DPG-Bench</strong>, stabilendo un nuovo standard nella generazione di immagini complesse e dettagliate.</li><li><strong>Riduzione del tempo di inferenza del 30%</strong>, consentendo una generazione di immagini pi&#xF9; rapida ed efficiente.</li></ul><h2 id="applicazioni-e-utilizzi-di-janus-pro"><strong>Applicazioni e Utilizzi di Janus-Pro</strong></h2><p>Grazie alle sue capacit&#xE0; avanzate, Janus-Pro pu&#xF2; essere utilizzato in vari settori, tra cui:</p><ul><li><strong>Design e Grafica</strong> &#x2013; Creazione di immagini realistiche a partire da descrizioni testuali dettagliate.</li><li><strong>Educazione e Ricerca</strong> &#x2013; Miglioramento della comprensione delle immagini per modelli di apprendimento avanzati.</li><li><strong>E-commerce e Pubblicit&#xE0;</strong> &#x2013; Generazione di contenuti visivi accattivanti basati su input personalizzati.</li><li><strong>Medicina e Diagnosi</strong> &#x2013; Supporto all&#x2019;analisi visiva con riconoscimento e comprensione avanzata delle immagini.</li><li><strong>Intrattenimento e Gaming</strong> &#x2013; Sviluppo di contenuti visivi per videogiochi e ambienti virtuali interattivi.</li><li><strong>Industria Automobilistica</strong> &#x2013; Riconoscimento di immagini per applicazioni di guida autonoma e assistita.</li></ul><h2 id="risorse-e-accesso-a-janus-pro"><strong>Risorse e Accesso a Janus-Pro</strong></h2><p>Per chi &#xE8; interessato a sperimentare <strong>Janus-Pro</strong>, sono disponibili diverse risorse:</p><ul><li><strong><a href="https://github.com/deepseek-ai/Janus?tab=readme-ov-file#janusflow">Download del Modello</a></strong> &#x1F4E5;</li><li><strong><a href="https://github.com/deepseek-ai/Janus?tab=readme-ov-file#janusflow">Demo Online</a></strong> &#x1F917;</li><li><strong><a href="https://github.com/deepseek-ai/Janus?tab=readme-ov-file#janusflow">Codice Sorgente e Licenza</a></strong> &#x1F4DC;</li><li><strong><a href="https://github.com/deepseek-ai/Janus?tab=readme-ov-file#janusflow">Documentazione e Citazioni</a></strong> &#x1F4D6;</li></ul><h2></h2><h3 id="con-il-rilascio-di-janus-pro-deepseek-consolida-la-sua-posizione-allavanguardia-nel-campo-dell%E2%80%99intelligenza-artificiale-multimodale">Con il rilascio di Janus-Pro, Deepseek consolida la sua posizione all&apos;avanguardia nel campo dell&#x2019;intelligenza artificiale multimodale?</h3><p>Grazie alle sue innovazioni architetturali e all&#x2019;efficienza migliorata, Janus-Pro si propone come uno dei modelli pi&#xF9; avanzati disponibili oggi, ideale per una vasta gamma di applicazioni che richiedono una potente sinergia tra comprensione e generazione visiva. Ma dobbiamo aspettare ancora un po&apos; di tempo prima che molte delle intuizioni di Deepseek diventino un prodotto consolidato. <br><br>Da qui &#xE8; possibile leggere l&apos;intero <a href="https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf">paper</a> del rilascio.</p>]]></content:encoded></item><item><title><![CDATA[DeepSeek solo hype mediatico o vera innovazione?]]></title><description><![CDATA[<p>Negli ultimi giorni, l&#x2019;intelligenza artificiale cinese <em><a href="https://fidacaro.com/deepseek-r1-e-deepseek-r1-zero/">DeepSeek</a></em> &#xE8; sulla bocca di tutti, facendo tremare anche le borse internazionali, ma quanto c&apos;&#xE8; di vero dietro al clamore mediatico? Cerco di analizzare lo stato attuale, continua a leggere.</p><h3 id="i-numeri-di-deepseek-r1-v3">I numeri di DeepSeek R1 V3</h3><p>Il 26 dicembre &#xE8;</p>]]></description><link>https://fidacaro.com/deepseek/</link><guid isPermaLink="false">6799198bc672b9000136d132</guid><category><![CDATA[Intelligenza Artificiale]]></category><category><![CDATA[NVidia]]></category><category><![CDATA[DeepSeek]]></category><dc:creator><![CDATA[Salvino Fidacaro]]></dc:creator><pubDate>Tue, 28 Jan 2025 18:04:57 GMT</pubDate><media:content url="https://fidacaro.com/content/images/2025/01/deepseek.jpg" medium="image"/><content:encoded><![CDATA[<img src="https://fidacaro.com/content/images/2025/01/deepseek.jpg" alt="DeepSeek solo hype mediatico o vera innovazione?"><p>Negli ultimi giorni, l&#x2019;intelligenza artificiale cinese <em><a href="https://fidacaro.com/deepseek-r1-e-deepseek-r1-zero/">DeepSeek</a></em> &#xE8; sulla bocca di tutti, facendo tremare anche le borse internazionali, ma quanto c&apos;&#xE8; di vero dietro al clamore mediatico? Cerco di analizzare lo stato attuale, continua a leggere.</p><h3 id="i-numeri-di-deepseek-r1-v3">I numeri di DeepSeek R1 V3</h3><p>Il 26 dicembre &#xE8; stato rilasciato <a href="https://fidacaro.com/deepseek-r1-e-deepseek-r1-zero/">DeepSeek</a> V3, un modello con ben <strong>671 miliardi di parametri</strong>, che promette prestazioni straordinarie grazie a:</p><ul><li>Un addestramento su <strong>8 trilioni di token</strong>.</li><li>Performance comparabili (e in alcuni casi superiori) a quelle di <strong>GPT-4</strong> e <strong>Claude</strong>.</li><li>Un tempo di addestramento record di soli <strong>2 mesi</strong>.</li><li>Un costo dichiarato di appena <strong>5,57 milioni di dollari</strong> &#x2013; un confronto notevole rispetto agli oltre 500 milioni di dollari spesi per sviluppare modelli come <strong>LLaMA 3.1</strong>.</li></ul><h3 id="ma-%C3%A8-tutto-oro-quello-che-luccica">Ma &#xE8; tutto oro quello che luccica?</h3><p>Secondo i benchmark, le prestazioni sono effettivamente simili a quelle dei giganti del settore, ma c&#x2019;&#xE8; un dettaglio importante: <em>DeepSeek</em> ha raggiunto questi risultati attraverso una tecnica nota come <strong>Model Distillation</strong>.</p><p>La <strong>Model Distillation</strong> &#xE8; un processo che trasferisce la conoscenza da un modello di grandi dimensioni (ad esempio GPT-4) a uno pi&#xF9; piccolo e ottimizzato. Tradotto? Si tratta di una sorta di <em>reverse engineering</em> o, per dirla in modo pi&#xF9; diretto, una tecnica che sfrutta il lavoro di altri per creare qualcosa di nuovo. Questo solleva domande sull&#x2019;originalit&#xE0; del modello.</p><h3 id="prestazioni-reali-pro-e-contro">Prestazioni reali: pro e contro</h3><p>&#xC8; vero che, tra i modelli Open Source, DeepSeek si distingue per efficienza e versatilit&#xE0;. Tuttavia, quando lo si confronta con i big come <strong>ChatGPT</strong>, <strong>Claude</strong> o <strong>Gemini</strong>, emergono alcune criticit&#xE0;:</p><p><strong>Ottimizzazione per i benchmark:</strong> sembra che DeepSeek sia stato addestrato specificamente per brillare nei test tecnici, ma quando si esce dal contesto dei benchmark, le sue performance calano sensibilmente.</p><p><strong>Tecniche avanzate:</strong> il modello combina due metodologie innovative per migliorare i risultati:</p><ul><li><strong>Chain of Thought (CoT):</strong> consente al modello di ragionare per passaggi, migliorando l&#x2019;accuratezza.</li><li><strong>Mixture of Experts (MoE):</strong> permette al sistema di attivare solo specifici componenti del modello per risolvere compiti specifici, riducendo il consumo di risorse.</li></ul><h3 id="il-confronto-con-la-concorrenza">Il confronto con la concorrenza</h3><p>Un dettaglio spesso trascurato &#xE8; che DeepSeek non &#xE8; l&#x2019;unico modello cinese di alto livello. Prima del suo rilascio, <strong>AliBaba</strong> aveva gi&#xE0; presentato un modello simile chiamato <em>&quot;qwq&quot;</em>. Entrambi offrono prestazioni comparabili, e quando si tratta di risolvere problemi reali (al di fuori dei benchmark), non &#xE8; facile decretare un vincitore.</p><p>Inoltre, <em>DeepSeek</em> si basa su un modello OpenAI precedente (livello &#x201C;o1&#x201D;), migliorandolo grazie a una maggiore attenzione alla qualit&#xE0; dei dati di allenamento. Questo rappresenta un progresso interessante, ma non rivoluzionario. Il futuro della competizione dipender&#xE0; dall&#x2019;evoluzione di nuovi modelli, come il prossimo livello &#x201C;o3&#x201D;.</p><h3 id="open-source-e-realt%C3%A0-tecniche">Open Source e realt&#xE0; tecniche</h3><p>C&#x2019;&#xE8; anche chi sostiene che DeepSeek possa funzionare su un normale PC grazie alla sua architettura open source. In realt&#xE0;, la versione pi&#xF9; potente (671 miliardi di parametri) richiede <strong>infrastrutture hardware avanzate</strong>, come server dotati di molte GPU Nvidia. Gli utenti comuni, soprattutto su app mobili, interagiscono comunque con cluster di GPU ad alte prestazioni.</p><h3 id="novit%C3%A0-su-qwen25-1m">Novit&#xE0; su Qwen2.5-1M</h3><p>A due mesi dall&apos;aggiornamento di Qwen2.5-Turbo per supportare una lunghezza di contesto fino a un milione di token, sono stati rilasciati i modelli open-source <strong>Qwen2.5-1M</strong> e il framework di inferenza corrispondente. Ecco i dettagli principali:</p><p><strong>Modelli Open Source:</strong> Due nuovi checkpoint, <em>Qwen2.5-7B-Instruct-1M</em> e <em>Qwen2.5-14B-Instruct-1M</em>, sono stati introdotti per gestire contesti fino a 1 milione di token, segnando un importante passo avanti per i modelli open source.</p><p><strong>Framework di Inference:</strong> Per aiutare gli sviluppatori a implementare in modo efficiente i modelli Qwen2.5-1M, &#xE8; stato completamente open-sourcizzato un framework di inferenza basato su <em>vLLM</em>. Grazie all&apos;integrazione di metodi di sparse attention, questo framework pu&#xF2; processare input di 1 milione di token da 3 a 7 volte pi&#xF9; velocemente.</p><p><strong>Report Tecnico:</strong> Sono stati condivisi dettagli tecnici sui modelli Qwen2.5-1M, comprese le intuizioni di design per i framework di training e inferenza, oltre a esperimenti di ablation.</p><p>Gli utenti possono provare i modelli Qwen2.5-1M direttamente attraverso le demo su Huggingface e Modelscope.</p><p>Inoltre, &#xE8; stato recentemente introdotto <strong>Qwen Chat</strong>, un assistente AI avanzato della serie Qwen, che offre funzionalit&#xE0; come conversazioni, scrittura di codice, ricerca, generazione di immagini e video, e utilizzo di strumenti. Questo assistente utilizza il modello Qwen2.5-Turbo, che supporta un&apos;elaborazione di contesto estesa fino a 1 milione di token.</p><h3 id="considerazioni-finali">Considerazioni finali</h3><p>DeepSeek R1 V3 rappresenta sicuramente un passo avanti significativo nell&#x2019;ecosistema AI cinese. Tuttavia, &#xE8; essenziale contestualizzarne le performance: &#xE8; un progresso costruito su tecnologie esistenti e ottimizzato per impressionare nei test tecnici pi&#xF9; che per risolvere problemi complessi del mondo reale. Allo stesso tempo, le novit&#xE0; su Qwen2.5-1M e il suo framework di inferenza dimostrano che l&apos;ecosistema open source continua a evolversi rapidamente, offrendo strumenti sempre pi&#xF9; potenti e accessibili per gli sviluppatori.</p><blockquote>Guardando al futuro, sar&#xE0; interessante osservare come i modelli successivi evolveranno e se riusciranno a trasformare questi progressi in innovazioni capaci di incidere profondamente nel panorama globale dell&#x2019;intelligenza artificiale.</blockquote>]]></content:encoded></item><item><title><![CDATA[Memory Architecture e Retrieving a Memory in Google Titans]]></title><description><![CDATA[La Memoria nelle Reti Neurali: Architettura e Recupero]]></description><link>https://fidacaro.com/memory-architecture/</link><guid isPermaLink="false">6790a729c672b9000136d088</guid><category><![CDATA[Intelligenza Artificiale]]></category><category><![CDATA[Google]]></category><dc:creator><![CDATA[Salvino Fidacaro]]></dc:creator><pubDate>Wed, 22 Jan 2025 09:08:26 GMT</pubDate><media:content url="https://images.unsplash.com/photo-1737419997505-a6586ab9e290?crop=entropy&amp;cs=tinysrgb&amp;fit=max&amp;fm=jpg&amp;ixid=M3wxMTc3M3wwfDF8YWxsfDJ8fHx8fHx8fDE3Mzc1MzY4MzN8&amp;ixlib=rb-4.0.3&amp;q=80&amp;w=2000" medium="image"/><content:encoded><![CDATA[<img src="https://images.unsplash.com/photo-1737419997505-a6586ab9e290?crop=entropy&amp;cs=tinysrgb&amp;fit=max&amp;fm=jpg&amp;ixid=M3wxMTc3M3wwfDF8YWxsfDJ8fHx8fHx8fDE3Mzc1MzY4MzN8&amp;ixlib=rb-4.0.3&amp;q=80&amp;w=2000" alt="Memory Architecture e Retrieving a Memory in Google Titans"><p>L&#x2019;utilizzo della memoria nelle reti neurali &#xE8; un campo in continua evoluzione che mira a migliorare la capacit&#xE0; delle reti di memorizzare e recuperare informazioni rilevanti nel tempo. Di seguito cercher&#xF2; di esplorare due concetti fondamentali nel contesto delle reti neurali, con un focus particolare sulle architetture di memoria e sul processo di recupero delle informazioni descritto dal paper <a href="https://arxiv.org/pdf/2501.00663">Titans: Learning to Memorize at Test Time</a> e trattato all&apos;interno dell&apos;altro articolo <a href="https://fidacaro.com/google-titans-una-nuova-memoria-per-ai/">Google TITANS una nuova memoria</a>.</p><h3 id="memory-architecture-come-funziona-la-memoria-a-lungo-termine">Memory Architecture: Come Funziona la Memoria a Lungo Termine</h3><p>La memoria a lungo termine in una rete neurale &#xE8; progettata per archiviare dati utili provenienti dal passato e integrarli nel processo di inferenza futuro. Questo approccio si basa su Multi-Layer Perceptrons (MLPs) con almeno due layer (<strong>LM &#x2265; 2</strong>), che risultano essere significativamente pi&#xF9; espressivi rispetto ai modelli lineari.</p><h5 id="perch%C3%A9-mlps-con-lm-%E2%89%A5-2"><strong>Perch&#xE9; MLPs con LM &#x2265; 2?</strong></h5><p>Le MLPs con due o pi&#xF9; layer hanno una capacit&#xE0; maggiore di rappresentare funzioni non lineari, rendendole adatte per catturare dipendenze complesse nei dati storici. Questo &#xE8; particolarmente utile quando si utilizza una matrice di memoria , che comprime i dati passati e li trasforma in una rappresentazione pi&#xF9; compatta.</p><h5 id="un-approccio-matematico"><strong>Un Approccio Matematico</strong></h5><p>Nel contesto dell&#x2019;ottimizzazione, una matrice di memoria &#xA0;viene trattata come una soluzione per minimizzare un obiettivo di regressione lineare online. L&#x2019;ottimizzazione minimizza l&#x2019;errore quadratico tra i dati osservati &#xA0;e il contenuto memorizzato, rendendo la dipendenza storica dei dati una funzione lineare. Tuttavia, grazie alla profondit&#xE0; e non linearit&#xE0; delle MLPs, queste architetture possono rappresentare relazioni pi&#xF9; complesse rispetto a quelle ottenute con approcci lineari.</p><h5 id="vantaggi-di-architetture-avanzate"><strong>Vantaggi di Architetture Avanzate</strong></h5><p>Recenti lavori di ricerca hanno dimostrato che l&#x2019;uso di memorie profonde (&#x201C;deep memory modules&#x201D;) &#xE8; pi&#xF9; efficace in contesti pratici. Incorporando queste architetture nel framework esistente, le reti possono migliorare notevolmente la loro capacit&#xE0; di ricordare e utilizzare informazioni passate in modo strategico.</p><h3 id="retrieving-a-memory-come-recuperare-le-informazioni">Retrieving a Memory: Come Recuperare le Informazioni</h3><p>Uno degli aspetti pi&#xF9; importanti della memoria nelle reti neurali &#xE8; la capacit&#xE0; di recuperare informazioni rilevanti senza aggiornare i pesi del modello durante l&#x2019;inferenza. Questo processo si basa su una pipeline chiara:</p><ol><li><strong>Proiezione dell&#x2019;input:</strong>L&#x2019;input corrente &#xA0;viene proiettato in uno spazio latente tramite una matrice lineare . Questo genera una query , che &#xE8; una rappresentazione compatta dell&#x2019;input.</li><li><strong>Recupero dalla memoria:</strong>La query &#xA0;viene utilizzata per interrogare la memoria . La memoria restituisce un&#x2019;informazione utile , calcolata come: dove &#xA0;rappresenta il modulo di memoria ottimizzato per recuperare informazioni rilevanti.</li></ol><h5 id="esempio-pratico"><strong>Esempio Pratico</strong></h5><p>Immaginiamo un sistema di traduzione automatica che apprende da conversazioni precedenti. Durante l&#x2019;inferenza, il sistema usa la query per recuperare strutture linguistiche o vocaboli rilevanti dalla memoria, migliorando la qualit&#xE0; della traduzione senza bisogno di riaddestrare il modello in tempo reale.</p><h4 id="il-ruolo-delle-tecnologie-avanzate-come-titans"><strong>Il Ruolo delle tecnologie avanzate come Titans</strong></h4><p>Progetti come <strong>Google Titans</strong> rappresentano un punto di riferimento nell&#x2019;implementazione di architetture di memoria su larga scala. Titans utilizza una combinazione di:</p><ul><li><strong>Memorie avanzate basate su MLPs:</strong> Queste memorie riescono a catturare dipendenze complesse nei dati.</li><li><strong>Tecniche di compressione e recupero ottimizzate:</strong> Questi approcci riducono il costo computazionale, garantendo al contempo un recupero rapido e accurato delle informazioni.</li></ul><h2 id="long-term-memory">Long-term Memory</h2><figure class="kg-card kg-image-card"><img src="https://fidacaro.com/content/images/2025/01/google_titans_ML_inferenza.jpg" class="kg-image" alt="Memory Architecture e Retrieving a Memory in Google Titans" loading="lazy" width="982" height="228" srcset="https://fidacaro.com/content/images/size/w600/2025/01/google_titans_ML_inferenza.jpg 600w, https://fidacaro.com/content/images/2025/01/google_titans_ML_inferenza.jpg 982w" sizes="(min-width: 720px) 720px"></figure><!--kg-card-begin: html--><h4>1. Linear Within-Chunk</h4>
    <p>
        In questa fase, i dati all&apos;interno di un chunk (o blocco) vengono elaborati linearmente. Ogni elemento del chunk 
        influenza i successivi attraverso operazioni cumulative.
    </p>
    <p><strong>Tecnica:</strong> Utilizzo di una funzione di somma cumulativa (&#x201C;cumsum&#x201D;).</p>
    <p><strong>Obiettivo:</strong> Integrare relazioni sequenziali tra i dati all&apos;interno dello stesso blocco.</p>

    <h4>2. Non-Linear Cross-Chunk</h4>
    <p>
        Qui le relazioni non lineari tra i dati di chunk differenti vengono elaborate.
    </p>
    <p><strong>Tecnica:</strong> Si utilizza il gradiente per aggiornare i pesi o i valori associati ai dati nei vari chunk.</p>
    <p><strong>Obiettivo:</strong> Catturare dipendenze complesse tra blocchi di dati, andando oltre la semplice linearit&#xE0;.</p>

    <h4>3. Momentum Calculation</h4>
    <p>
        Questa fase calcola il momentum per aggiornare i pesi basandosi sui gradienti.
    </p>
    <p><strong>Opzioni:</strong></p>
    <ul>
        <li><strong>Parallel Associative Sum:</strong> Somma parallela di tutti i gradienti pre-computati.</li>
        <li><strong>Global Kernel:</strong> Utilizzo di un kernel globale per catturare pattern su larga scala.</li>
    </ul>
    <p><strong>Obiettivo:</strong> Ottimizzare il processo di addestramento migliorando la convergenza attraverso l&apos;uso del momentum.</p>

    <h4>4. Weight Decay</h4>
    <p>
        La tecnica di <strong>Weight Decay</strong> penalizza i pesi per prevenire l&apos;overfitting, modificando l&apos;aggiornamento dei pesi attraverso una moltiplicazione con matrici.
    </p>
    <h3>Formule:</h3>
    <ul>
        <li><strong>Senza Decadimento:</strong> <code>(W<sub>0</sub> X - X) X<sup>T</sup></code></li>
        <li><strong>Con Decadimento:</strong> <code>&#x398;<sub>b</sub> B<sub>b</sub> (W<sub>0</sub> X - X) X<sup>T</sup></code></li>
    </ul>
    <p><strong>Obiettivo:</strong> Ridurre l&#x2019;importanza di pesi eccessivi per evitare che il modello si adatti troppo ai dati di addestramento.</p>


    <p>
        L&apos;immagine evidenzia un approccio scalabile e parallelo per addestrare una memoria neurale.
    </p>
    <p>
        <strong>Tecniche principali:</strong> Somma cumulativa, calcolo del gradiente, momentum parallelo, kernel globale, e decadimento dei pesi.
    </p>
    <p>
        <strong>Efficienza:</strong> L&apos;uso di matrici (&#x201C;matmuls&#x201D;) permette di velocizzare il calcolo, rendendo il processo computazionalmente praticabile su larga scala.
    </p><!--kg-card-end: html-->]]></content:encoded></item><item><title><![CDATA[Modeling Past Surprise in Google Titans]]></title><description><![CDATA[vediamo nel dettaglio la formula Modeling Past Surprise in Google Titans]]></description><link>https://fidacaro.com/modeling-past-surprise-in-google-titans/</link><guid isPermaLink="false">678fcd17c672b9000136d04e</guid><category><![CDATA[Intelligenza Artificiale]]></category><dc:creator><![CDATA[Salvino Fidacaro]]></dc:creator><pubDate>Tue, 21 Jan 2025 17:10:59 GMT</pubDate><media:content url="https://fidacaro.com/content/images/2025/01/google_titanis_formula.jpg" medium="image"/><content:encoded><![CDATA[<img src="https://fidacaro.com/content/images/2025/01/google_titanis_formula.jpg" alt="Modeling Past Surprise in Google Titans"><p>Nell&#x2019;ambito dell&#x2019;apprendimento automatico, la capacit&#xE0; di riconoscere e gestire gli eventi &#x201C;sorprendenti&#x201D; &#x2014; ovvero situazioni in cui la previsione di un modello differisce in modo significativo dall&#x2019;osservazione &#x2014; &#xE8; cruciale per garantire che il sistema si adatti efficacemente ai nuovi dati. L&#x2019;algoritmo di <a href="https://fidacaro.com/google-titans-una-nuova-memoria-per-ai/">Google Titans</a> fa leva su questo principio introducendo una componente di &#x201C;sorpresa&#x201D; nel meccanismo di aggiornamento della memoria neurale. Questa memoria consente al modello di apprendere da eventi inaspettati, conservarne traccia e, allo stesso tempo, dimenticare gradualmente l&#x2019;effetto di sorprese superate.</p><p>L&#x2019;idea di base &#xE8; trattare la &#x201C;sorpresa&#x201D; come un segnale di errore che misura quanto l&#x2019;evidenza corrente sia distante dalle previsioni del modello. Il sistema aggiorna quindi il proprio stato interno, aumentando il peso degli eventi effettivamente sorprendenti e attenuando col passare del tempo l&#x2019;influenza di quelli vecchi. Grazie a questo approccio, Google Titans &#xE8; in grado di adattarsi a contesti dinamici, evitare eccessivi &#x201C;scossoni&#x201D; dovuti a rumore e, al contempo, ricordare a lungo termine gli eventi pi&#xF9; significativi per il proprio apprendimento.</p><h3 id="adesso-vediamo-nel-dettaglio-la-formula-modeling-past-surprise-in-google-titans">Adesso vediamo nel dettaglio la formula Modeling Past Surprise in Google Titans</h3><figure class="kg-card kg-image-card"><img src="https://fidacaro.com/content/images/2025/01/image-4.png" class="kg-image" alt="Modeling Past Surprise in Google Titans" loading="lazy" width="790" height="183" srcset="https://fidacaro.com/content/images/size/w600/2025/01/image-4.png 600w, https://fidacaro.com/content/images/2025/01/image-4.png 790w" sizes="(min-width: 720px) 720px"></figure><p>Queste formule descrivono in che modo, in un modello neurale, si tiene traccia della &#x201C;sorpresa&#x201D; passata e la si combina con la &#x201C;sorpresa momentanea&#x201D; per aggiornare una sorta di &#x201C;memoria&#x201D; interna MtM_t. L&#x2019;idea di fondo &#xE8; ispirata alla psicologia: un evento inaspettato non ci sorprende per sempre, ma lascia comunque una traccia mnemonica (il &#x201C;ricordo&#x201D; di quella sorpresa).</p><!--kg-card-begin: html-->```html


<h2>Spiegazione delle Formule</h2>

<p>Le due principali equazioni sono:</p>

<pre><code>M<sub>t</sub> = M<sub>t-1</sub> + S<sub>t</sub></code></pre>

<pre><code>S<sub>t</sub> = &#x3B7;<sub>t</sub> &#xA0; S<sub>t-1</sub> &#xA0;&#x2212;&#xA0; &#x3B8;<sub>t</sub> &#x2207;&#x2113;(M<sub>t-1</sub>; x<sub>t</sub>)</code></pre>

<h2>1. Memoria <code>M<sub>t</sub></code></h2>
<p>
  <strong>M<sub>t</sub></strong> rappresenta la memoria al tempo <em>t</em>.  
  Essa si ottiene dalla memoria precedente <strong>M<sub>t-1</sub></strong> 
  aggiungendo il termine di sorpresa <strong>S<sub>t</sub></strong>:
</p>

<pre><code>M<sub>t</sub> = M<sub>t-1</sub> + S<sub>t</sub></code></pre>

<h2>2. Sorpresa <code>S<sub>t</sub></code></h2>
<p>
  <strong>S<sub>t</sub></strong> racchiude la sorpresa che si manifesta al tempo <em>t</em>.
  La sorpresa si compone di una parte che tiene traccia delle sorprese precedenti (con 
  un fattore di decadimento) e di una parte che cattura la sorpresa momentanea (il gradiente 
  della perdita).
</p>

<pre><code>S<sub>t</sub> = &#x3B7;<sub>t</sub> S<sub>t-1</sub> &#x2212; &#x3B8;<sub>t</sub> &#x2207;&#x2113;(M<sub>t-1</sub>; x<sub>t</sub>)</code></pre>

<ul>
  <li>
    <code>&#x3B7;<sub>t</sub></code> &#xE8; un fattore di decadimento (spesso compreso fra 0 e 1) 
    che regola quanto la sorpresa precedente <code>S<sub>t-1</sub></code> influisca 
    ancora sul nuovo stato.
  </li>
  <li>
    <code>&#x2207;&#x2113;(M<sub>t-1</sub>; x<sub>t</sub>)</code> &#xE8; il gradiente della 
    funzione di perdita <code>&#x2113;</code> rispetto alla &#x201C;memoria&#x201D; 
    <code>M<sub>t-1</sub></code>, valutato sul dato <code>x<sub>t</sub></code>.  
    Pi&#xF9; questo gradiente &#xE8; elevato, pi&#xF9; differisce la previsione 
    dal valore reale osservato (maggiore &#xE8; la &#x201C;sorpresa&#x201D; momentanea).
  </li>
  <li>
    <code>&#x3B8;<sub>t</sub></code> bilancia la rilevanza della sorpresa momentanea.
  </li>
</ul>

<h2>3. Significato Intuitivo</h2>
<p>
  Se <code>&#x2207;&#x2113;</code> &#xE8; grande, significa che il modello ha commesso 
  un errore significativo nel predire <code>x<sub>t</sub></code>; di conseguenza 
  <code>S<sub>t</sub></code> aumenta e influisce maggiormente su 
  <code>M<sub>t</sub></code>. Nel frattempo, la componente 
  <code>&#x3B7;<sub>t</sub> S<sub>t-1</sub></code> mostra che la sorpresa precedente 
  non sparisce all&apos;istante, bens&#xEC; viene &#x201C;ricordata&#x201D; nel nuovo 
  valore di sorpresa <code>S<sub>t</sub></code>.
</p>

<p>
  In questo modo, il modello conserva la memoria di eventi inaspettati, ma ne riduce 
  gradualmente l&#x2019;influenza col passare del tempo. Alla fine, 
  <code>M<sub>t</sub></code> (la &#x201C;memoria a lungo termine&#x201D;) integra sia 
  la sorpresa corrente, sia quella passata, permettendo al sistema di apprendere 
  dagli eventi pi&#xF9; rilevanti e di non dimenticare del tutto quelli passati.
</p>

```<!--kg-card-end: html-->]]></content:encoded></item><item><title><![CDATA[DeepSeek R1 e DeepSeek R1-Zero]]></title><description><![CDATA[Innovazione nei modelli di ragionamento, intelligenza artificiale avanza anche nell'open source]]></description><link>https://fidacaro.com/deepseek-r1-e-deepseek-r1-zero/</link><guid isPermaLink="false">678f55d7c672b9000136cfec</guid><category><![CDATA[Intelligenza Artificiale]]></category><dc:creator><![CDATA[Salvino Fidacaro]]></dc:creator><pubDate>Tue, 21 Jan 2025 10:32:23 GMT</pubDate><media:content url="https://fidacaro.com/content/images/2025/01/deepseek_r1.jpg" medium="image"/><content:encoded><![CDATA[<img src="https://fidacaro.com/content/images/2025/01/deepseek_r1.jpg" alt="DeepSeek R1 e DeepSeek R1-Zero"><p>Evoluzione della ricerca sui modelli di intelligenza artificiale, emergono nuove soluzioni che ridefiniscono il modo in cui affrontiamo i problemi complessi. Tra queste, si distinguono i modelli di prima generazione per il ragionamento: <strong>DeepSeek-R1-Zero</strong> e <strong>DeepSeek-R1</strong>.</p><ul><li><strong>DeepSeek-R1-Zero</strong>: Questo modello, frutto di una strategia avanzata di apprendimento per rinforzo su larga scala (RL), non include una fase preliminare di fine-tuning supervisionato (SFT). Tale approccio ha permesso di sviluppare capacit&#xE0; di ragionamento straordinarie, manifestando comportamenti quali l&apos;auto-verifica e la riflessione. Tuttavia, alcune limitazioni come ripetizioni infinite, difficolt&#xE0; di leggibilit&#xE0; e mix linguistici rappresentano sfide ancora aperte.</li><li><strong>DeepSeek-R1</strong>: Per affrontare queste problematiche e migliorare ulteriormente il modello, abbiamo introdotto dati iniziali (cold-start) prima dell&apos;applicazione di RL. Questo modello ha dimostrato di raggiungere prestazioni di alto livello in compiti complessi come matematica, programmazione e ragionamento, rivaleggiando con <strong>OpenAI-o1</strong>.</li></ul><p>La nostra dedizione al progresso tecnologico ci ha portato a rendere open-source sia <strong>DeepSeek-R1-Zero</strong> che <strong>DeepSeek-R1</strong>, affiancandoli a sei modelli distillati basati su framework avanzati come <strong>Llama</strong> e <strong>Qwen</strong>. Particolarmente significativo &#xE8; <strong>DeepSeek-R1-Distill-Qwen-32B</strong>, che stabilisce nuovi standard superando le prestazioni di OpenAI-o1-mini in molteplici benchmark.</p><h4 id="addestramento-posteriore-reinforcement-learning-su-modelli-base">Addestramento Posteriore: Reinforcement Learning su Modelli Base</h4><p>Il processo di sviluppo di <strong>DeepSeek-R1-Zero</strong> si basa su un approccio diretto di RL applicato al modello base, evitando l&apos;uso di SFT come fase iniziale. Tale strategia consente al modello di esplorare strutture di ragionamento come il <strong>Chain-of-Thought</strong> (CoT), necessarie per risolvere problemi complessi. Questo segna una pietra miliare nella ricerca, dimostrando che le capacit&#xE0; di ragionamento possono essere sviluppate esclusivamente tramite RL, senza dati supervisionati.</p><p><strong>DeepSeek-R1</strong>, invece, implementa una pipeline innovativa che combina due fasi di RL per affinare le capacit&#xE0; di ragionamento e allinearle alle preferenze umane. Questa metodologia &#xE8; supportata da due fasi di SFT che fungono da fondamento per costruire capacit&#xE0; solide, sia nel ragionamento che in altri compiti correlati. Tale pipeline rappresenta un modello di riferimento per lo sviluppo futuro.</p><h4 id="potenza-nei-modelli-pi%C3%B9-piccoli">Potenza nei modelli pi&#xF9; piccoli</h4><p>Abbiamo dimostrato che la distillazione consente di trasferire schemi di ragionamento avanzati dai modelli di grandi dimensioni a quelli pi&#xF9; piccoli. Questa tecnica ha portato a prestazioni superiori rispetto a quelle ottenute applicando RL direttamente sui modelli ridotti. La distillazione di <strong>DeepSeek-R1</strong> ha prodotto modelli densi estremamente efficaci nei benchmark, aprendo nuove prospettive per la comunit&#xE0; di ricerca.</p><p>Tra i modelli distillati resi disponibili, spiccano soluzioni con parametri variabili da 1.5B a 70B, basate su serie consolidate come <strong>Qwen2.5</strong> e <strong>Llama3</strong>.</p><h3 id="architettura-del-modello-addestramento-posteriore-reinforcement-learning-senza-sft">Architettura del Modello, addestramento posteriore: Reinforcement Learning senza SFT</h3><p><strong>DeepSeek-R1-Zero</strong> rappresenta una svolta nel paradigma di addestramento, dimostrando che &#xE8; possibile incentivare capacit&#xE0; di ragionamento avanzate senza la necessit&#xE0; di dati supervisionati iniziali. La sua capacit&#xE0; di generare CoT estese e di auto-valutarsi &#xE8; stata raggiunta tramite un&apos;implementazione avanzata di RL.</p><p>Con <strong>DeepSeek-R1</strong>, la pipeline si espande includendo due fasi di RL per ottimizzare le capacit&#xE0; di ragionamento e allinearle alle preferenze umane, seguite da due fasi di SFT che fungono da seme per sviluppare capacit&#xE0; di base sia nel ragionamento che in altri ambiti. Questo approccio combinato offre un equilibrio tra autonomia del modello e precisione.</p><h4 id="migliorare-i-modelli-pi%C3%B9-piccoli">Migliorare i modelli pi&#xF9; piccoli</h4><p>La distillazione &#xE8; stata applicata per trasferire schemi di ragionamento complessi da modelli di grandi dimensioni a versioni pi&#xF9; leggere, mantenendo livelli di performance comparabili. I modelli distillati, con parametri che vanno da 1.5 a 70 miliardi, sono stati ottimizzati per soddisfare le esigenze sia di ricerca avanzata che di applicazioni su larga scala, riducendo i requisiti computazionali senza compromettere l&apos;efficacia.</p><h3 id="dettagli-dei-modelli-disponibili">Dettagli dei Modelli Disponibili</h3><!--kg-card-begin: html--><table><tbody><tr><th><span>Modello</span></th><th><span>Parametri Totali</span></th><th><span>Parametri Attivi</span></th><th><span>Lunghezza Contesto</span></th></tr><tr><td><span>DeepSeek-R1-Zero</span></td><td><span>671B</span></td><td><span>37B</span></td><td><span>128K</span></td></tr><tr><td><span>DeepSeek-R1</span></td><td><span>671B</span></td><td><span>37B</span></td><td><span>128K</span></td></tr></tbody></table><!--kg-card-end: html--><p><strong>Modelli Distillati</strong></p><!--kg-card-begin: html--><table><tbody><tr><td><span>Modello</span></td><td><span>Modello Base</span></td></tr><tr><td><span>DeepSeek-R1-Distill-Qwen-1.5B</span></td><td><span>Qwen2.5-Math-1.5B</span></td></tr><tr><td><span>DeepSeek-R1-Distill-Qwen-7B</span></td><td><span>Qwen2.5-Math-7B</span></td></tr><tr><td><span>DeepSeek-R1-Distill-Llama-8B</span></td><td><span>Llama-3.1-8B</span></td></tr><tr><td><span>DeepSeek-R1-Distill-Qwen-14B</span></td><td><span>Qwen2.5-14B</span></td></tr><tr><td><span>DeepSeek-R1-Distill-Qwen-32B</span></td><td><span>Qwen2.5-32B</span></td></tr><tr><td><span>DeepSeek-R1-Distill-Llama-70B</span></td><td><span>Llama-3.3-70B-Instruct</span></td></tr></tbody></table><!--kg-card-end: html--><hr><h3 id="risultati-di-valutazione">Risultati di Valutazione</h3><p><strong>Benchmark Principali</strong></p><!--kg-card-begin: html--><table><tbody><tr><td><span>Categoria</span></td><td><span>Benchmark</span></td><td><span>DeepSeek-R1</span></td><td><span>OpenAI-o1-mini</span></td><td><span>GPT-4o 0513</span></td></tr><tr><td><span>Matematica</span></td><td><span>AIME 2024 Pass@1</span></td><td><span>79.8</span></td><td><span>63.6</span></td><td><span>9.3</span></td></tr><tr><td><span>Codice</span></td><td><span>Codeforces Rating</span></td><td><span>2029</span></td><td><span>1820</span></td><td><span>759</span></td></tr><tr><td><span>Lingua</span></td><td><span>MMLU Redux (EM)</span></td><td><span>92.9</span></td><td><span>86.7</span></td><td><span>88.0</span></td></tr></tbody></table><!--kg-card-end: html--><p><strong>Prestazioni Generali</strong></p><p>DeepSeek-R1 ha ottenuto risultati superiori rispetto a modelli concorrenti, stabilendo nuovi standard di performance. Ad esempio, sul benchmark <strong>MATH-500</strong>, il modello ha raggiunto un punteggio Pass@1 del 97.3%, superando i precedenti record per modelli densi. Inoltre, ha ottenuto il 96.3&#xB0; percentile su <strong>Codeforces</strong>, evidenziando capacit&#xE0; avanzate di programmazione algoritmica.</p><h3 id="approcci-innovativi">Approcci Innovativi</h3><h4 id="group-relative-policy-optimization-grpo">Group Relative Policy Optimization (GRPO)</h4><p><strong>DeepSeek-R1-Zero</strong> utilizza GRPO, un algoritmo progettato per massimizzare le capacit&#xE0; di ragionamento riducendo l&apos;impatto computazionale. Questo approccio ha permesso di incrementare le prestazioni durante l&apos;addestramento, passando da un punteggio iniziale del 15.6% a un sorprendente 71.0% su AIME 2024.</p><h4 id="cold-start-e-supervised-fine-tuning">Cold-Start e Supervised Fine-Tuning</h4><p>L&apos;uso di dati cold-start ha contribuito a migliorare la coerenza e la leggibilit&#xE0; delle risposte. Migliaia di esempi di CoT sono stati integrati per costruire una base solida e ridurre problematiche come mescolanza linguistica e incoerenza.</p><h4 id="distillazione-ottimizzata">Distillazione Ottimizzata</h4><p>La distillazione &#xE8; stata ulteriormente affinata per creare modelli leggeri ma potenti. Questa tecnica ha reso possibile l&apos;implementazione di soluzioni avanzate anche in ambienti con risorse limitate, mantenendo un&apos;elevata qualit&#xE0; delle prestazioni.</p><h3 id="utilizzo-dei-modelli">Utilizzo dei Modelli</h3><p>I modelli <strong>DeepSeek-R1</strong> e <strong>DeepSeek-R1-Distill</strong> possono essere implementati localmente utilizzando framework come <strong>vLLM</strong> o <strong>SGLang</strong>:</p><p><strong>vLLM:</strong></p><pre><code>vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768</code></pre><p><strong>SGLang:</strong></p><pre><code>python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2</code></pre><p><strong>Nota:</strong> Si consiglia di impostare una temperatura compresa tra 0.5 e 0.7 per garantire coerenza e precisione nelle generazioni.</p><p>I modelli <strong>DeepSeek-R1</strong> sono distribuiti sotto licenza MIT, permettendo l&apos;uso commerciale e la creazione di opere derivate. Per ulteriori dettagli, consultare i repository disponibili <a href="https://github.com/deepseek-ai/DeepSeek-R1?tab=readme-ov-file">GitHub</a> su <a href="https://huggingface.co/deepseek-ai">HuggingFace</a>.</p>]]></content:encoded></item></channel></rss>