UrbanScan AI con YOLOv26 e OpenVINO

Si parla spesso di città intelligenti, ma quasi sempre in modo astratto. Questo progetto invece è nato in modo molto semplice: avevo un video girato con un drone sopra un parco e mi sono chiesto cosa potessi tirarne fuori di realmente utile.

L’idea era capire se da quelle immagini fosse possibile ottenere informazioni concrete sullo stato di uno spazio pubblico. Non solo vedere panchine, alberi o persone, ma individuare problemi, segnali di degrado, elementi positivi e criticità strutturali in modo sistematico.

UrbanScan AI con YOLOv26 e OpenVINO - test con drone DJI Neo 2 fatto da Salvino Fidacaro a Sant'Agata di Militello

Cos’è UrbanScan AI

Così è nato UrbanScan AI – Next Gen (2026 Vision), un motore di analisi video urbana e video analytics basato su YOLOv26 World‑v2, uno dei modelli più avanzati nel campo della computer vision. Non si limita a mettere rettangoli attorno agli oggetti: prova a interpretare la scena. Riconosce rifiuti, danni alla pavimentazione, muri crollati, arredo urbano, vegetazione sana o trascurata. L’obiettivo non è “fare detection”, ma ottenere una lettura tecnica dell’ambiente.

Open‑Vocabulary Detection e analisi ambientale

La parte interessante è l’open‑vocabulary detection. In pratica il modello non è bloccato a poche categorie generiche. Può distinguere, ad esempio, tra un semplice muro e un muro in mattoni crollato, tra spazzatura generica e bottiglie di plastica o frammenti di vetro. Questo rende ogni fotogramma una fonte di dati strutturati, non solo un’immagine annotata.

UrbanScan elabora il video in tempo reale e costruisce una sovrapposizione grafica che segmenta le istanze riconosciute. I colori non sono decorativi: servono a rendere immediata la lettura. Il sistema aggrega le rilevazioni e calcola un indice sintetico, una sorta di Park Health Index, che bilancia elementi positivi e criticità. Non è una verità assoluta, ma uno strumento di supporto, un indicatore che può aiutare a confrontare nel tempo la stessa area o a valutare zone diverse.

Architettura tecnica: NVIDIA CUDA e Intel OpenVINO

Dal punto di vista tecnico, ho voluto che il progetto fosse flessibile. Se c’è una GPU NVIDIA disponibile, il motore sfrutta CUDA e i Tensor Cores per lavorare in FP16 su frame Full HD con la massima efficienza possibile. Se invece il sistema è basato su CPU Intel o GPU ARC, entra in gioco Intel OpenVINO, con un modello esportato e ottimizzato per quell’architettura, così da mantenere buone prestazioni anche senza GPU dedicata. L’idea è semplice: stesso progetto, hardware diverso, prestazioni coerenti.

Privacy e gestione automatica dei volti

Un aspetto a cui tenevo particolarmente è la gestione della privacy. Durante l’analisi, il software identifica il soggetto principale e applica automaticamente un blur sui volti delle persone sullo sfondo. Questo permette di utilizzare i video in contesti pubblici o istituzionali senza dover intervenire manualmente in post‑produzione.

I test sono stati effettuati su riprese aeree realizzate con drone, ma il sistema funziona con qualsiasi sorgente video compatibile. Il risultato è un file di output che non è solo “annotato”, ma arricchito da informazioni aggregate, log continui e statistiche di confidenza che possono essere esportate o integrate in flussi di lavoro più ampi.

Codice sorgente e repository GitHub

Il codice sorgente è disponibile pubblicamente su GitHub all’indirizzo: https://github.com/salvino72/video-urbanscan

Ho pubblicato il progetto in open source con attribuzione perché mi sembra il modo più semplice e corretto per condividerlo. Chi vuole può studiarlo, modificarlo o adattarlo alle proprie esigenze. UrbanScan non è un prodotto finito o commerciale, ma una base di lavoro che può essere migliorata nel tempo.

Non è una rivoluzione né una promessa sul futuro delle città.

In sintesi, UrbanScan AI è un progetto di computer vision applicata al contesto urbano, che unisce YOLOv26, NVIDIA CUDA e Intel OpenVINO per trasformare un semplice video in dati leggibili e utilizzabili. È un progetto pratico, nato per capire se da un video si possano ottenere informazioni utili. Se può aiutare qualcuno a lavorare meglio sul territorio, allora ha già raggiunto il suo scopo.