VASA-1 AI: il futuro dei deepfake

07/08/2024

Ecco come l’Intelligenza Artificiale sta imparando a trasformare foto e audio in filmati incredibilmente autentici.

Iniziamo con le presentazioni

Il tempo degli assistenti AI è sempre più vicino: l'interazione con volti e avatar digitali sta rapidamente diventando parte integrante della nostra vita quotidiana. Ma quanto possono avvicinarsi alla realtà questi personaggi virtuali? Molto, a giudicare da VASA-1, l'innovativo modello di Intelligenza Artificiale sviluppato da Microsoft Research.

VASA-1 sta per “Video and Audio Synthesis from a single image using Artificial Intelligence”, un modello in grado di generare video ultra-realistici di volti parlanti in tempo reale partendo da una singola immagine e un file audio. Si tratta di un importante progresso nel campo della visione artificiale e del deep learning.

Cos’ha di speciale VASA-1?

VASA-1 utilizza una rete neurale profonda – un tipo di Intelligenza Artificiale che può imparare dai dati ed eseguire compiti complessi – , che prende una singola immagine di un volto e una clip audio come input e produce un video del volto con movimenti delle labbra sincronizzati come output. Questa rete neurale è composta da due componenti principali: un generatore e un discriminatore:

Il generatore è responsabile della creazione dei fotogrammi video dall'immagine e dall'audio utilizzando una tecnica chiamata inpainting dell'immagine, che può riempire le parti mancanti di un'immagine basandosi sul contesto circostante. Un’altra tecnica che utilizza, poi, è l’allineamento audio-visivo, che abbina i movimenti delle labbra all'audio tramite un modello di lettura labiale.
Il discriminatore, invece, valuta la qualità dei fotogrammi video e fornisce feedback al generatore utilizzando l’Adversarial Machine Learning, o “apprendimento avversariale”, creando una competizione tra il generatore e il discriminatore per migliorare il realismo dei video.

Il risultato è impressionante, non solo per i semplici input necessari a generare questi video, ma anche per l’espressività e la naturalezza dei movimenti, in molti casi indistinguibili dalla realtà anche per un occhio esperto. Non ci credi? Visita la pagina del progetto VASA-1 AI sul sito di Microsoft, dove puoi trovare molti esempi realizzati con questo modello.

I rischi dei video deepfake

Video del genere ci lasciano a bocca aperta, sì, ma come molti altri modelli di AI generativa, anche VASA-1 AI porta con sé sfide e rischi che devono essere affrontati e regolamentati. Si tratta infatti di una tecnologia in grado di creare video di persone ed eventi estremamente realistici, ma falsi – i cosiddetti “deepfake”.

Alcune criticità etiche e legali possono essere:

La creazione di video falsi e fuorvianti che possono danneggiare la reputazione e la credibilità delle persone protagoniste (spesso a loro insaputa) di questi filmati.
I messaggi veicolati dai filmati possono produrre disinformazione e manipolazione.
Un video deepfake può violare i diritti d'autore e i diritti di proprietà intellettuale delle persone rappresentate o coinvolte, causando problemi legali ed etici.
La produzione di video con AI può presentare sfide tecniche e di sicurezza, come la qualità dei dati, la memorizzazione, la trasmissione e la protezione, influenzando le prestazioni e l'affidabilità della tecnologia.
Un video deepfake può sollevare preoccupazioni sociali e psicologiche riguardanti l'identità, l'autenticità e la fiducia, incidendo sulla percezione e sull'affidabilità delle persone rappresentate nei video.

Intendiamoci: spingendo i confini di ciò che può essere realizzato da una sola immagine e brevi clip audio, VASA-1 offre molti vantaggi dal punto di vista creativo. Tuttavia, è essenziale considerare e gestire le sfide e le implicazioni di questa tecnologia riguardanti gli aspetti sociali, psicologici e di sicurezza, per evitare che possa causare più danni che benefici.

Desideri una consulenza personalizzata?

Contattaci per valutare insieme la soluzione più adatta alle tue esigenze.

Approfondimenti e case study