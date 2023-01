distanza” Falso profondo Con foto o video, vedremo l’arrivo del suono “deep fake”? È possibile da allora MicrosoftMicrosoft Presentazione di un nuovo modelloIntelligenza artificiale (AI) chiama sintesi vocale la Valle. la sua privacy? Può imitare la voce di una persona e quindi simularla con un semplice campione audio di tre secondi. Una volta che ha appreso una voce specifica, questa IA può sintetizzare la voce di quella persona, preservandone il timbro e l’emozione.

In Microsoft si ritiene che VALL-E possa essere utilizzato per ApplicazioniApplicazioni Sintesi audio, ma anche, e questo è ovviamente più preoccupante, modificare il discorso nella registrazione. Sarà possibile editare e modificare l’audio da un file trascrizionetrascrizione Testo vocale. Immagina il discorso di un politico cambiato da questo Intelligenza artificialeIntelligenza artificiale…

Le “machine learning” in azione

Per l’azienda, VALL-E è quello che chiamano un “paradigma del linguaggio di codifica neurale” ed è basato sul pressione sonorapressione sonora di nome EnCodec, svelato da Meta (Facebook) lo scorso ottobre. A differenza di altri metodi di sintesi vocale che di solito sintetizzano il parlato manipolando le forme d’onda, VALL-E genera codec audio da campioni di testo e audio. Fondamentalmente analizza la voce di una persona e suddivide tali informazioni in simboli (simbolisimboli) di EnCodec e utilizza l’apprendimento automatico per abbinare il campione di tre secondi a ciò che hai appreso.

Per questo, Microsoft si è affidata alla libreria audio Libre Lite. Contiene 60.000 ore di lingua inglese da oltre 7.000 parlanti, la maggior parte delle quali tratte da audiolibri di pubblico dominio LibriVox. Affinché VALL-E produca un risultato significativo, il suono nel campione di tre secondi deve corrispondere a un suono nei dati di addestramento.

Microsoft è consapevole del pericolo

Per convincerti, Microsoft offre Decine di esempi audio Il modello AI in azione. Alcuni sono stranamente simili, ma altri sono chiaramente artificiali e l’orecchio umano può dire che sono AI. La cosa impressionante è che oltre a preservare il tono e l’emozione della persona che parla, VALL-E è in grado di riprodurre l’ambiente e le condizioni di registrazione. Microsoft prende l’esempio di una telefonata con le caratteristiche vocali e di frequenza di questo tipo di conversazione.

In risposta a una domanda sui pericoli di tale intelligenza artificiale, Microsoft ha confermato che il codice sorgente non è disponibile e la società ne è a conoscenza. Ciò può portare a potenziali rischi di abuso di forma, come la rappresentazione o la rappresentazione di un oratore specifico. Per mitigare questi rischi, è possibile costruire un modello di rilevamento per differenziare se un fonogramma è stato realizzato da VALL-E. Metteremo in pratica anche i principi dell’intelligenza artificiale di Microsoft durante lo sviluppo ulteriore dei modelli. ».