Meta: lanciato tool AI per generare canzoni a partire da testi

AudioCraft, questo il nome del sistema, è supportato da tre diversi modelli che fanno competizione a una funzione analoga resa operativa da Google a maggio

DiBillboard US

Il3 Agosto 2023

Foto di Jakub Porzycki / NurPhoto via Getty Images

Meta ha lanciato AudioCraft, una nuova suite di modelli di intelligenza artificiale che generano musica e audio a partire da messaggi di testo. L’ha annunciato l’azienda mercoledì 2 agosto.

Le funzioni di AudioCraft, il nuovo tool AI di Meta

La tecnologia è composta da tre modelli: MusicGen (musica), AudioGen (effetti sonori) ed EnCodec (musica di qualità superiore). Di fatto è un competitor di MusicLM di Google, un analogo generatore di musica lanciato a maggio.

Utilizzando indicazioni testuali come “musica atmosferica per una cena” o “scena di un film in un deserto con percussioni”, gli utenti possono generare musica con un clic. L’azienda vede la tecnologia come un “nuovo tipo di strumento, proprio come i sintetizzatori quando sono apparsi per la prima volta”.

MusicGen, il modello della suite AudioCraft che produce musica, è stato addestrato su 20mila ore di musica di proprietà di Meta e con licenza specifica. Dall’annuncio non è chiaro se EnCodec sia stato addestrato su materiale protetto da copyright o se segua le stesse linee guida di MusicGen. Meta non ha risposto alla richiesta di commento da parte di Billboard.

La questione del copyright

L’addestramento dei sistemi di intelligenza artificiale è una delle aree più controverse della nascente industria. Per produrre risultati di qualità paragonabile a quella umana, i modelli di intelligenza artificiale si addestrano su milioni o miliardi di dati per apprendere le caratteristiche di ciò che stanno replicando. Molte delle più grandi aziende di intelligenza artificiale del mondo addestrano i loro modelli su materiale protetto da copyright ma senza autorizzazione, senza compensare gli aventi diritto o addirittura sapere chi siano.

MusicGen, AudioGen ed EnCodec saranno tutti disponibili come modelli open source. Ciò consentirà a ricercatori e professionisti di addestrare i propri modelli con i propri set di dati, spingendo gli strumenti AudioCraft anche oltre le intenzioni iniziali di Mete affrontando le preoccupazioni di bias dell’azienda, come la sua propensione per la musica in stile occidentale, che rappresenta il grosso del suo set di addestramento.

“La musica è senza dubbio il tipo di audio più impegnativo da generare poiché è composta da pattern locali e ad ampio spettro, da una serie di poche note a una struttura musicale complessa con più strumenti”, ha affermato Meta in un post sul blog, osservando che la propria famiglia di modelli è “in grado di produrre audio di alta qualità” con coerenza e facilità d’utilizzo.