HUAWEI
PANTHEK

Microsoft Vasa-1, il deepfake facile con la IA: bastano una foto e una traccia audio

Microsoft Research Asia ha presentato VASA-1, un modello di intelligenza artificiale in grado di creare un video animato sincronizzato di una persona che parla o canta da una singola foto e una traccia audio esistente. In futuro, potrebbe potenziare avatar virtuali che vengono visualizzati localmente e non richiedono feed video, o consentire a chiunque disponga di strumenti simili di scattare una foto di una persona trovata online e farle sembrare che dica quello che vuole. È talmente semplice da usare che potrebbe generare deepfake persino più evoluti rispetto al passato.

microsoft vasa 1 igizmo

“Apre la strada a impegni in tempo reale con avatar realistici che emulano comportamenti conversazionali umani”, si legge nell’abstract del documento di ricerca allegato intitolato “VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time”. È il lavoro di Sicheng Xu, Guojun Chen, Yu-Xiao Guo, Jiaolong Yang, Chong Li, Zhenyu Zang, Yizhong Zhang, Xin Tong e Baining Guo. Il framework VASA (abbreviazione di “Visual Affective Skills Animator”) utilizza l’apprendimento automatico per analizzare un’immagine statica insieme a una clip audio vocale. È quindi in grado di generare un video realistico con espressioni facciali precise, movimenti della testa e sincronizzazione labiale con l’audio. Non clona né simula le voci ma si basa su un input audio esistente che potrebbe essere registrato o parlato appositamente per uno scopo particolare.

Microsoft afferma che il modello supera significativamente i precedenti metodi di animazione vocale in termini di realismo, espressività ed efficienza. Ai nostri occhi, sembra un miglioramento rispetto ai modelli di animazione a immagine singola precedenti.Annuncio

Gli sforzi di ricerca sull’intelligenza artificiale per animare una singola foto di una persona o di un personaggio risalgono ad almeno alcuni anni fa, ma più recentemente i ricercatori hanno lavorato sulla sincronizzazione automatica di un video generato con una traccia audio. A febbraio, un modello di intelligenza artificiale chiamato EMO: Emote Portrait Alive del gruppo di ricerca dell’Institute for Intelligent Computing di Alibaba ha fatto scalpore con un approccio simile a VASA-1 che può sincronizzare automaticamente una foto animata con una traccia audio fornita (lo chiamano “Audio2Video”) .

I ricercatori Microsoft hanno addestrato VASA-1 sul set di dati VoxCeleb2 creato nel 2018 da tre ricercatori dell’Università di Oxford. Quel set di dati contiene “oltre 1 milione di espressioni per 6.112 celebrità”, secondo il sito web VoxCeleb2, estratti dai video caricati su YouTube. Secondo quanto riferito, VASA-1 può generare video con una risoluzione di 512×512 pixel fino a 40 fotogrammi al secondo con una latenza minima, il che significa che potrebbe essere potenzialmente utilizzato per applicazioni in tempo reale come le videoconferenze. Per mostrare il modello, Microsoft ha creato una pagina di ricerca VASA-1 con molti video di esempio dello strumento in azione, comprese persone che cantano e parlano in sincronia con tracce audio preregistrate. Mostrano come il modello può essere controllato per esprimere stati d’animo diversi o cambiare il suo sguardo. Gli esempi includono anche alcune generazioni più fantasiose, come Monna Lisa che rappa su una traccia audio di Anne Hathaway che esegue una canzone di “Paparazzi” su Conan O’Brien.

I ricercatori affermano che, per motivi di privacy, ogni foto di esempio sulla loro pagina è stata generata dall’intelligenza artificiale da StyleGAN2 o DALL-E 3 (a parte la Gioconda). Ma è ovvio che la tecnica potrebbe applicarsi anche alle foto di persone reali, anche se è probabile che funzionerà meglio se una persona appare simile a una celebrità presente nel set di dati di addestramento. Tuttavia, i ricercatori affermano che il deepfaking di veri esseri umani non è la loro intenzione.Annuncio “Stiamo esplorando la generazione di abilità visuo-affettive per personaggi virtuali e interattivi [sic], NON impersonando alcuna persona nel mondo reale. Questa è solo una dimostrazione di ricerca e non esiste un piano di rilascio del prodotto o dell’API”, si legge nel sito.

Sebbene i ricercatori di Microsoft promuovano potenziali applicazioni positive come il rafforzamento dell’equità educativa, il miglioramento dell’accessibilità e la fornitura di compagnia terapeutica, la tecnologia potrebbe anche essere facilmente utilizzata in modo improprio. Ad esempio, potrebbe consentire alle persone di falsificare chat video, far sembrare che persone reali dicano cose che non hanno mai effettivamente detto (specialmente se abbinate a una traccia vocale clonata) o consentire molestie da una singola foto sui social media. Insomma, semplificare la vita ai creatori di deepfake.

Conclude Microsoft anche facendo riferimento al potenziale uso per deepfake:

“La nostra ricerca si concentra sulla generazione di abilità visuo-affettive per avatar virtuali di intelligenza artificiale, puntando ad applicazioni positive. Non è inteso creare contenuti utilizzati per fuorviare o ingannare. Tuttavia, come altre tecniche correlate alla generazione di contenuti, potrebbe ancora essere potenzialmente utilizzata in modo improprio per impersonare esseri umani. Siamo contrari a qualsiasi comportamento volto a creare contenuti fuorvianti o dannosi per persone reali e siamo interessati ad applicare la nostra tecnica per migliorare il rilevamento delle contraffazioni. Attualmente, i video generati con questo metodo contengono ancora artefatti identificabili e l’analisi numerica mostra che c’è ancora un divario per raggiungere l’autenticità dei video reali.

Pur riconoscendo la possibilità di un uso improprio, è imperativo riconoscere il sostanziale potenziale positivo della nostra tecnica. I vantaggi – come il rafforzamento dell’equità educativa, il miglioramento dell’accessibilità per le persone con difficoltà di comunicazione, l’offerta di compagnia o supporto terapeutico a chi ne ha bisogno, tra molti altri – sottolineano l’importanza della nostra ricerca e di altre esplorazioni correlate. Ci impegniamo a sviluppare l’intelligenza artificiale in modo responsabile, con l’obiettivo di promuovere il benessere umano.

Considerato tale contesto, non abbiamo intenzione di rilasciare demo online, API, prodotti, ulteriori dettagli di implementazione o qualsiasi offerta correlata finché non saremo certi che la tecnologia verrà utilizzata in modo responsabile e in conformità con le normative appropriate”.

PANTHEK
GAMEPEOPLE
DIFUZED
FIZZ
PALADONE
OTL
CROCKPOT
MYSTERY BOX
SUBSONIC