Claude 3.5 di Anthropic con la nuova funzionalità di utilizzo del Computer.
La nuova funzione di utilizzo del computer in Claude 3.5 apre una nuove possibilità, permettendo all'IA di interagire direttamente con il software e automatizzare processi complessi.
Anthropic ha recentemente annunciato l'aggiornamento di Claude 3.5 Sonnet e l'introduzione di Claude 3.5 Haiku, portando con sé una nuova e rivoluzionaria funzionalità: l'utilizzo del computer. Questa nuova capacità, attualmente in beta pubblica, consente a Claude di utilizzare il computer in modo simile agli esseri umani, cioè guardando uno schermo, muovendo il cursore, cliccando e digitando del testo. Questa caratteristica apre nuovi orizzonti nella ricerca sull'IA e nelle sue applicazioni pratiche, consentendo l'automazione di compiti complessi che richiedono interazione diretta con l'interfaccia utente.
Capacità Tecniche: Come Claude 3.5 Utilizza il Computer per Automatizzare le Attività
L'API per l'utilizzo del computer sviluppata da Anthropic consente a Claude di visualizzare lo schermo, muovere il cursore, cliccare sui pulsanti e digitare del testo, traducendo comandi in linguaggio naturale in azioni eseguibili. Questa caratteristica è stata resa disponibile su diverse piattaforme tra cui Anthropic API, Amazon Bedrock e Google Cloud Vertex AI, permettendo agli sviluppatori di integrare la funzionalità nelle proprie applicazioni.
Questa innovativa capacità supporta l'automazione delle attività in più fasi e la navigazione dell'interfaccia utente, consentendo l'elaborazione degli elementi visivi dello schermo per interagire direttamente con il computer. Le sue funzionalità principali includono la visualizzazione e l'interpretazione degli screenshot dello schermo e l'esecuzione delle azioni tramite il movimento del cursore e la digitazione.
Misure di Prestazione: Analisi delle Performance di Claude 3.5 e Confronto con Altri Modelli
In termini di prestazioni, Claude 3.5 Haiku riesce a eguagliare le metriche di Claude 3 Opus mantenendo però requisiti computazionali inferiori. Nello specifico, il modello ha raggiunto un punteggio del 40,6% su SWEbench Verified, superando sia l'originale Claude 3.5 Sonnet che altri modelli avanzati come GPT-4o. La versione aggiornata di Claude 3.5 Sonnet ha inoltre mostrato miglioramenti significativi nelle prestazioni di benchmark, con un punteggio del 49,0% su SWEbench Verified, rispetto al precedente 33,4%, e del 14,9% su OSWorld nella modalità "Solo screenshot", quasi il doppio rispetto al miglior sistema di IA successivo.
Architettura di Utilizzo del Computer: Come Claude 3.5 Interagisce con lo Schermo per Eseguire Azioni Complesse
La nuova architettura per l'utilizzo del computer è progettata per elencare e suddividere flussi di lavoro complessi in passaggi discreti: analisi dello schermo, identificazione degli elementi e azioni da eseguire. Claude è in grado di visualizzare e interpretare le schermate del computer, acquisendo screenshot statici inviati all'API in tempo reale. In questo modo, il modello può muovere il cursore, cliccare sugli elementi e digitare testo, simulando in modo più naturale il comportamento umano. L'interazione con l'interfaccia utente avviene tramite il calcolo dei pixel per eseguire correttamente i clic del mouse. Tuttavia, ci sono ancora limitazioni per quanto riguarda azioni continue come lo scorrimento, il trascinamento e lo zoom.
Sviluppo e Applicazioni della Capacità di Utilizzo del Computer
L'introduzione della funzionalità di utilizzo del computer rappresenta un'importante innovazione nel panorama dell'intelligenza artificiale. La possibilità per Claude di controllare direttamente il computer offre vantaggi significativi, specialmente nelle applicazioni che richiedono l'interazione con software preesistenti, senza la necessità di strumenti personalizzati. Questa capacità permette all'IA di adattarsi agli strumenti già esistenti, aumentando l'efficienza di utilizzo e riducendo le barriere di adozione per molte aziende.
Alcune delle aziende che hanno già iniziato a esplorare queste possibilità includono Asana, Canva, DoorDash e Replit. Ad esempio, Replit sta utilizzando la capacità di Claude per la navigazione dell'interfaccia utente al fine di sviluppare funzionalità avanzate per la valutazione delle app all'interno del proprio prodotto Replit Agent. Questi sviluppi suggeriscono un potenziale significativo per le applicazioni pratiche, specialmente nel campo dello sviluppo software e dell'automazione dei processi aziendali.
Sicurezza nell'Utilizzo del Computer
L'introduzione della funzionalità di utilizzo del computer porta con sé nuove sfide di sicurezza. Anthropic ha implementato misure di sicurezza per mitigare possibili vulnerabilità, tra cui l'iniezione di prompt, un tipo di attacco in cui istruzioni maliziose vengono fornite al modello per deviarne il comportamento. Inoltre, l'azienda ha sviluppato sistemi per identificare e prevenire l'uso improprio della funzionalità di utilizzo del computer, specialmente in vista delle prossime elezioni negli Stati Uniti, per evitare ogni possibile impatto negativo sulla fiducia pubblica nei processi elettorali.
Per garantire la sicurezza, Anthropic ha definito che Claude rimane al Livello di Sicurezza IA 2, suggerendo che le attuali misure di sicurezza sono sufficienti per mitigare i rischi. Gli sviluppatori che utilizzano la beta pubblica sono comunque incoraggiati a prendere ulteriori precauzioni per ridurre eventuali rischi associati.
Futuro dell'Utilizzo del Computer: Prospettive di Sviluppo e Possibili Applicazioni per l'IA di Claude 3.5
L'introduzione della capacità di utilizzo del computer è solo il primo passo verso una nuova generazione di intelligenza artificiale in grado di interagire direttamente con il software come farebbe un essere umano. Sebbene l'attuale versione sia ancora lenta e talvolta incline agli errori, è previsto che migliorerà rapidamente, diventando più affidabile e versatile per soddisfare le esigenze degli utenti. Anthropic continuerà a collaborare strettamente con i propri team di sicurezza per garantire che queste nuove capacità siano sviluppate in modo sicuro e responsabile.
L'invito agli sviluppatori è di fornire feedback attraverso la beta pubblica, contribuendo così al continuo miglioramento di questa rivoluzionaria funzionalità, che potrebbe trasformare profondamente il modo in cui l'IA viene utilizzata per automatizzare compiti complessi e interagire con i computer.