Intelligenza Artificiale

Supporto PDF per Claude 3.5

Questa funzionalità di analisi PDF apre numerose possibilità di utilizzo per Claude, rendendolo uno strumento ancora più potente per l'analisi documentale.

Salvino Fidacaro

5 nov 2024 • 3 min read

Il nuovo modello Claude 3.5 Sonnet ("claude-3-5-sonnet-20241022") introduce il supporto per i file PDF, attualmente in fase di beta pubblica. Questa funzionalità permette a Claude di analizzare sia il contenuto testuale che visivo dei documenti PDF, aprendo nuove possibilità di utilizzo.

Accesso al Supporto PDF

Per utilizzare il supporto PDF, basta includere l'intestazione anthropic-beta: pdfs-2024-09-25 nelle richieste API. Durante le prossime settimane, apporteremo miglioramenti a questa beta, quindi il feedback degli utenti è molto apprezzato.

Capacità di Analisi dei PDF

Claude è in grado di elaborare qualsiasi file PDF standard, analizzando testo, immagini, grafici e tabelle all'interno dei documenti. Ecco alcuni esempi di utilizzo:

Analisi di report finanziari, inclusi grafici e tabelle.
Estrazione di informazioni chiave da documenti legali.
Assistenza nella traduzione di documenti complessi.
Conversione di informazioni in formati strutturati.

Come Funziona il Supporto PDF

Estrazione del Contenuto: Ogni pagina del documento viene convertita in un'immagine e il testo viene estratto e fornito insieme all'immagine della pagina.
Analisi Combinata: Claude analizza sia il testo che le immagini per comprendere meglio il contenuto del documento, consentendo di fornire intuizioni anche su elementi visivi come grafici e diagrammi. Ad esempio, Claude può identificare tendenze rappresentate in un grafico a linee, estrarre dati numerici da un grafico a barre o descrivere le relazioni in un diagramma di flusso. Questo consente di ottenere informazioni dettagliate non solo dal testo, ma anche dalle rappresentazioni visive.
Integrazione con altre Funzionalità: Il supporto PDF può essere combinato con funzionalità come la memorizzazione della cache dei prompt, l'elaborazione in batch per gestire grandi volumi di documenti e l'uso di strumenti per estrarre informazioni specifiche.

Limitazioni del Supporto PDF

Prima di integrare il supporto PDF nella tua applicazione, considera le seguenti limitazioni:

Dimensione massima della richiesta: 32MB
Numero massimo di pagine: 100
I PDF non devono avere password o essere criptati

Poiché il supporto PDF si basa sulle capacità visive di Claude, è soggetto alle stesse limitazioni.

Piattaforme e Modelli Supportati

Il supporto PDF è attualmente disponibile sul modello Claude 3.5 Sonnet tramite accesso API diretto. Presto questa funzionalità sarà supportata anche su Amazon Bedrock e Google Vertex AI.

Calcolo del Consumo di Token

Il numero di token utilizzati da un file PDF dipende dal testo estratto e dal numero di pagine. Poiché ogni pagina viene convertita in un'immagine, il costo si basa su tale conversione. Ogni pagina utilizza tipicamente tra 1.500 e 3.000 token, a seconda della densità del contenuto.

Esempio di Calcolo dei Token

Se un documento PDF ha 10 pagine con una media di 2.000 token per pagina, il consumo totale sarà di circa 20.000 token (10 pagine * 2.000 token per pagina). La densità del contenuto può influire sul numero di token per pagina, quindi è importante considerarla durante la stima.

Utilizzo dei PDF nell'API dei Messaggi

Di seguito un esempio di come utilizzare i PDF nell'API dei Messaggi, illustrato con un comando Shell:

import anthropic
import base64
import httpx

# First fetch the file
pdf_url = "https://assets.anthropic.com/m/1cd9d098ac3e6467/original/Claude-3-Model-Card-October-Addendum.pdf"
pdf_data = base64.standard_b64encode(httpx.get(pdf_url).content).decode("utf-8")


# Finally send the API request
client = anthropic.Anthropic()
message = client.beta.messages.create(
    model="claude-3-5-sonnet-20241022",
    betas=["pdfs-2024-09-25"],
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "document",
                    "source": {
                        "type": "base64",
                        "media_type": "application/pdf",
                        "data": pdf_data
                    }
                },
                {
                    "type": "text",
                    "text": "Which model has the highest human preference win rates across each use-case?"
                }
            ]
        }
    ],
)

print(message.content)

Best Practice per l'Analisi dei PDF

Assicurati che il testo sia chiaro e leggibile.
Ruota le pagine nella corretta orientazione.
Utilizza i numeri di pagina logici (quelli visualizzati nel visualizzatore PDF) invece di quelli fisici (stampati sulla pagina).
Usa font standard per evitare problemi di riconoscimento del testo.
Inserisci i PDF prima del testo nelle richieste API.
Dividi i PDF molto grandi in parti più piccole quando superano i limiti di dimensione.
Utilizza la cache dei prompt per l'analisi ripetuta dello stesso documento.