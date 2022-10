Per non essere da meno con Meta Make-A-Video, oggi Google presenta i dettagli del suo lavoro immagine video Un sistema di intelligenza artificiale in grado di creare video tramite un sms (ad esempio “un orsacchiotto che lava i piatti”). Anche se i risultati non sono perfetti — i loop clip generati dal sistema tendono ad avere difetti e rumore — Google afferma che Imagen Video è un passo verso un sistema con “un alto grado di controllabilità” e conoscenza del mondo, inclusa la capacità di generare sequenze in una gamma di stili artistici.

Come sottolinea il mio collega Devin Caldoy nel suo libro, Pezzo A proposito di Make-A-Video, i sistemi di montaggio video non sono una novità. All’inizio di quest’anno, un gruppo di ricercatori dell’Università di Tsinghua e dell’Accademia di intelligenza artificiale di Pechino ha pubblicato CogVideo, che può tradurre il testo in brevi clip ad alta definizione. Ma Imagen Video sembra essere un enorme passo avanti rispetto al suo precedente stato dell’arte, mostrando la capacità di animare i sottotitoli che i sistemi attuali potrebbero avere difficoltà a capire.

“È sicuramente un miglioramento”, ha detto a TechCrunch via e-mail Matthew Gusdial, un assistente professore presso l’Università dell’Alberta che studia intelligenza artificiale e apprendimento automatico. “Come puoi vedere negli esempi video, anche se il team di comunicazione sceglie i risultati migliori, ci sono ancora alcune strane sfocature e distorsioni. Quindi sicuramente non verrà utilizzato direttamente nell’animazione o in TV a breve. Ma questo, o qualcosa del genere che, può certamente essere incluso negli strumenti per accelerare le cose.

– Pubblicità –

Imagen Video è basato su Google immagineun sistema di generazione di immagini paragonabile a OpenAI DALL-E 2 e altri diffusione stabile. Imagen è ciò che è noto come modello ‘diffuso’, in cui genera nuovi dati (es. video) imparando a ‘distruggere’ e ‘recuperare’ molti campioni di dati esistenti. Man mano che alimenta i campioni esistenti, il modello recupera meglio i dati distrutti in precedenza per creare nuovi affari.

Come spiega in un file il team di ricerca di Google dietro Imagen Video carta, il sistema acquisisce una descrizione testuale ed emette un video clip di 16 fotogrammi e tre fotogrammi al secondo con una risoluzione di 24 x 48 pixel. Il sistema quindi misura e prevede fotogrammi aggiuntivi, ottenendo un video finale di 128 fotogrammi, 24 fotogrammi al secondo con una risoluzione di 720p (1280 x 768).

Google afferma che Imagen Video è stato addestrato su 14 milioni di coppie video-testo, 60 milioni di coppie immagine-testo e sul set di dati immagine-testo LAION-400M disponibile pubblicamente, che gli ha permesso di generalizzare a una gamma di estetiche. Negli esperimenti, hanno scoperto che Imagen Video può creare video nello stile dei dipinti e degli acquerelli di Van Gogh. Forse la cosa più impressionante, affermano che Imagen Video ha dimostrato una comprensione della profondità e del 3D, consentendogli di creare video come far volare droni intorno e catturare oggetti da diverse angolazioni senza distorcerli.

In un enorme miglioramento rispetto ai sistemi di creazione di immagini disponibili oggi, Imagen Video può anche visualizzare correttamente il testo. Mentre Stable Diffusion e DALL-E 2 hanno problemi a tradurre prompt come “Logo per ‘Diffusione'” in caratteri leggibili, Imagen Video non crea problemi, almeno in base all’articolo.

Ciò non significa che Imagen Video sia senza restrizioni. Come con Make-A-Video, anche le clip selezionate in Imagen Video sono nervose e parzialmente distorte, ha suggerito Guzdial, con le cose che si fondono insieme in modi fisicamente innaturali e non possibili. Per migliorare questo, il team di Imagen Video ha in programma di collaborare con i ricercatori vinakiL’ultimo sistema di aggregazione da testo a video di Google in grado di convertire affermazioni lunghe e dettagliate in video di durata superiore a due minuti, anche se con una qualità inferiore.

Vale la pena tirare un po’ indietro il sipario su Phenaki per vedere dove può portare la collaborazione di squadra. Mentre Imagen Video si concentra sulla qualità, Phenaki preferisce la coerenza e la lunghezza. Il sistema può trasformare lunghe affermazioni in film di lunghezza arbitraria, da una scena di una persona in sella a una moto a un’astronave aliena che sorvola una città futuristica. Le clip di creazione di Phenaki soffrono degli stessi problemi di Imagen Video, ma è straordinario per me quanto bene seguano le descrizioni testuali lunghe e precise che li hanno spinti.

Ad esempio, questa è un’affermazione trasmessa a Phenaki:

Molto traffico nella città futuristica. Un’astronave aliena sta arrivando nella città futuristica. La telecamera entra nell’astronave aliena. La telecamera si sposta in avanti fino a quando un astronauta appare nella stanza blu. L’astronauta sta digitando sulla tastiera. La telecamera si allontana dall’astronauta. L’astronauta lascia la tastiera e cammina a sinistra. L’astronauta lascia la tastiera e se ne va. La telecamera si sposta dietro l’astronauta e guarda lo schermo. Lo schermo dietro l’astronauta mostra i pesci che nuotano nel mare e il loro schianto è mostrato sul pesce azzurro. Seguiamo il pesce azzurro che nuota nell’oceano scuro. La fotocamera punta verso il cielo attraverso l’acqua. Oceano e costa della città futuristica. Zoom futuristico incidente del grattacielo. La telecamera ingrandisce una delle tante finestre. Siamo in un ufficio con le scrivanie vuote. Un leone che corre sulle scrivanie. La telecamera ingrandisce la faccia del leone all’interno dell’ufficio. Leone in miniatura in abito scuro nella stanza dell’ufficio. Il leone incinta guarda la telecamera e sorride. La telecamera rimpicciolisce lentamente l’esterno del grattacielo. Scatti time-lapse del tramonto nella città moderna.

Ecco il video che è stato creato:

Tornando a Imagen Video, i ricercatori hanno anche notato che i dati utilizzati per addestrare il sistema contenevano contenuti problematici, che potrebbero indurre Imagen Video a produrre clip violente o sessualmente esplicite. Google afferma che non rilascerà il campione o il codice sorgente di Imagen Video “fino a quando queste preoccupazioni non saranno dissipate”.

Tuttavia, con il rapido progresso della tecnologia text-to-video, potrebbe non passare molto tempo prima che emerga un paradigma open source, sia per aumentare la creatività sia per presentare una sfida intrattabile quando si tratta di deepfake e disinformazione.