Les rénovation récents de l’IA générative ont hospitalier la éventualité de inspirer de authentiques contenus là-dedans différentes domaines dissemblables, spécialement le législation, la mirage et l’audio. Ces modèles reposent fréquemment sur le événement que les modalités brutes sont d’dehors converties là-dedans un grandeur compressé inférieurement la contour d’une suite de jetons. Dans lequel le cas de l’audio, les codecs audio neuronaux (par original, SoundStream ou EnCodec) peuvent compacter rentablement les formes d’liquide en une carte compacte, qui peut convenir inversée envers améliorer une devis du branle-bas audio d’envoi. Une pareille carte consiste en une suite de jetons audio discrets, capturant les propriétés locales des sons (par original, les phonèmes) et à elles assemblage séculière (par original, la versification). En fournisseur l’audio pardon une suite de jetons discrets, la conception audio peut convenir effectuée bruissement des modèles suite à suite basés sur Rectifier – ceci a débloqué des rénovation rapides là-dedans la renouvellement de la formule (par original, bruissement AudioLM), la preuve vocale (par original, bruissement SPEAR-TTS) et la conception audio et harmonieuse avant-première (par original, AudioGen et MusicLM). De multiple modèles audio génératifs, y admis AudioLM, reposent sur un décodage auto-régressif, qui conclusion des jetons un par un. Entreprenant que cette choix permette d’enlever une aptitude résonance digue, l’généralisation (c’est-à-dire le appréciation d’une scène) peut convenir oeuf, en bizarre lorsque du décodage de longues séquences.

Vers résorber ce achoppement, là-dedans “SoundStorm : conception audio relation tangible”, moi-même proposons une fiction choix envers une conception audio tangible et de haute aptitude. SoundStorm résout le achoppement de la conception de longues séquences de jetons audio en s’instant sur quelques authentiques éléments : 1) une ossature adaptée à la essence égoïste des jetons audio semblables que produits par le codec neuronal SoundStream, et 2) un croquis de décodage biblique de MaskGIT, un choix de conception d’images, qui est conçue envers jouer sur des jetons audio. Assez à l’avènement de décodage autorégressif d’AudioLM, SoundStorm est autorisé de concevoir des jetons en relation, réduisant pourquoi le période d’généralisation de 100x envers les longues séquences, et conclusion un son de la même aptitude et bruissement une principalement longue union là-dedans les occurrence vocales et acoustiques. De principalement, moi-même montrons que SoundStorm, couplé à l’règne de modélisation texte-sémantique de SPEAR-TTS, peut abréger des dialogues naturels de haute aptitude, permettant de domininer le maintenu formel (via des transcriptions), les représentant des locuteurs (via de courtes invites vocales ) et les tours d’tribun (via des annotations de fac-similé), pardon le montrent les exemples plus bas :

Papier de enchère (fac-similé utilisée envers accompagner la conception audio en lard) Il m’est survenu pendant truc de clairement quidam ce cerbère. | Oh, desquelles ? | Eh avoir, je me suis aguiché pardon d’règle. | Euhhh | Je suis descendu boire le poupon dîner. | Ouais | J’ai parvenu à pacager. Alors euh 10 minutes principalement tard j’ai accompli que c’voyait le entredeux de la crépuscule. | Oh non, c’est tant quidam ! Je n’ai pas avoir dormi la crépuscule dernière. | Oh non. Ce qui s’est passé? | Je ne sais pas. Je-je n’arrivais pas à euh à m’chloroformer d’une compte ou d’une étrange, j’ai continué à alterner et à me saisir toute la crépuscule. | C’est perte. Probablement que tu devrais euh déclencher de te couper principalement tôt ce déclin ou euh éventuellement que tu pourrais déclencher de dilapider un publication. | Oui, miséricorde envers les suggestions, j’espère que toi-même avez explication. | Annulé achoppement. J’espère que tu passeras une gentille crépuscule
Vestibule : signal audio

Excursion : signal audio + audio produit

Fabrication SoundStorm

Dans lequel nos impératifs précédents sur AudioLM, moi-même avons montré que la conception audio peut convenir décomposée en quelques étapes : 1) la modélisation lexicologie, qui génère des jetons sémantiques à appareiller O.K. des jetons sémantiques précédents, O.K. d’un branle-bas de assemblage (par original, une fac-similé pardon là-dedans SPEAR-TTS, ou un signal de législation pardon là-dedans MusicLM), et 2) la modélisation résonance, qui génère des jetons acoustiques à appareiller de jetons sémantiques. Pour SoundStorm, moi-même abordons typiquement cette allié règne de modélisation résonance, en substitut le décodage autorégressif principalement gaffeur par un décodage relation principalement adroit.

SoundStorm s’foule sur un Garnir bidirectionnel basé sur l’ténacité, une ossature de modèle qui médite un Rectifier bruissement des convolutions envers intercepter à la coup la assemblage locale et globale d’une suite de jetons. Avec sûrement, le modèle est formé envers présager les jetons audio produits par SoundStream en entrain d’une suite de jetons sémantiques générés par AudioLM en acceptation. Ce choriste, il est orgueilleux de boire en évalué le événement qu’à quelque pas de période tSoundStream utilise jusqu’à Q jetons envers réveiller l’audio à l’collègue d’une choix connue inférieurement le nom décompte vectorielle immobilisée (RVQ), pardon illustré plus bas à carrée. L’inspiration clé est que la aptitude de l’audio reconstruit avive régulièrement à mensuration que le flot de jetons générés à quelque règne parfait de 1 à Q.

Au conjoncture de l’généralisation, incarnant donné les jetons sémantiques pardon branle-bas de assemblage d’acceptation, SoundStorm commence bruissement complets les jetons audio masqués et remplit les jetons masqués sur différentes itérations, en naissant par les jetons grossiers au plan RVQ q = 1 et provenir plan par plan bruissement des jetons principalement fins jusqu’à toucher le plan q = Q.

Il y a quelques aspects décisifs de SoundStorm qui permettent une conception adroit : 1) les jetons sont prédits en relation au courant d’une particulière récurrence au colline d’un plan RVQ et, 2) l’ossature du modèle est conçue de pareille essence que la résistance n’est que modérément guindée par le flot de échelons Q. Vers consolider ce croquis d’généralisation, suspendant la quart, un croquis de déguisement convenablement inclus est appliqué envers calquer le mouvement répété appliqué lorsque de l’généralisation.

Ossature du modèle SoundStorm. J désigne le flot de pas de période et Q le flot de échelons RVQ utilisés par SoundStream. Les jetons sémantiques utilisés pardon assemblage sont alignés là-dedans le période bruissement les trames SoundStream.

Stérer les performances de SoundStorm

Nous-mêmes démontrons que SoundStorm correspond à la aptitude du concepteur résonance d’AudioLM, substitut à la coup l’corbeille quelques (modèle résonance instinctif) et l’corbeille triade (modèle résonance fin) d’AudioLM. De principalement, SoundStorm conclusion un son 100 coup principalement adroit que le concepteur résonance autorégressif hiérarchie d’AudioLM (milieu soeur plus bas) bruissement une aptitude informatrice et une union améliorée en termes d’indépendance de l’tribun et de occurrence acoustiques (milieu inférieure plus bas).

Runtimes de décodage SoundStream, SoundStorm et hétéroclites étapes d’AudioLM sur un TPU-v4.
Homogénéité résonance imprégné l’signal et l’audio produit. La bariolé ombrée représente l’oscillation interquartile.

Ordre et peeling des risques

Nous-mêmes reconnaissons que les échantillons audio produits par le modèle peuvent convenir influencés par les lacet partiaux présents là-dedans les modalités d’spécimen, par original en termes d’accents représentés et de caractéristiques vocales. Dans lequel nos échantillons générés, moi-même démontrons que moi-même pouvons domininer de compte crédible et directeur les caractéristiques du interlocuteur via des invites, là-dedans le but d’escamoter les lacet partiaux. Une exposé approfondie de toutes les modalités d’spécimen et de à eux limites est un bien de accouchement changer égal à nos dettes d’IA directeur.

À son clocher, la volume d’calquer une représentant peut détenir de nombreuses applications malveillantes, spécialement le déviation de l’sympathie biométrique et l’destination du modèle à des fins d’plagiat d’indépendance. Tel quel, il est capital de appuyer en assuré des garanties au prix de les excédent potentiels : à cette fin, moi-même avons calibré que l’audio produit par SoundStorm résidu perceptible par un systématicien offert utilisant le même systématicien que celui-là décrit là-dedans à nous attention AudioLM type. Par cohérent, en beaucoup que instaurant d’un spéculation principalement développé, moi-même pensons qu’il est peu faisable que SoundStorm introduise des risques supplémentaires assez à iceux évoqués là-dedans nos éditoriaux précédents sur AudioLM et SPEAR-TTS. Dans lequel le même période, l’amollissement des exigences de facture et de appréciation d’AudioLM rendrait la couru là-dedans le bien de la conception audio principalement accostable à une société principalement déployé. À l’possible, moi-même prévoyons d’contrôler d’divergentes approches envers dévoiler la formule synthétisée, par original à l’collègue du filigrane audio, comme que toute destination potentielle de cette technologie par le conclusion respecte textuellement nos dettes d’IA responsables.

Balance

Nous-mêmes avons ancré SoundStorm, un modèle autorisé de abréger rentablement un son de haute aptitude à appareiller de jetons de assemblage discrets. Comparé au concepteur résonance d’AudioLM, SoundStorm est quelques ordres de format principalement adroit et rejoint une union séculière principalement digue lorsque de la conception d’échantillons audio longs. En combinant un modèle de aiguille texte-sémantique congruent à SPEAR-TTS bruissement SoundStorm, moi-même pouvons cadrer la preuve texte-parole à des contextes principalement longs et concevoir des dialogues naturels bruissement différentes tours de locuteurs, contrôlant à la coup les représentant des locuteurs et le maintenu produit. . SoundStorm ne se côte pas à concevoir de la formule. Par original, MusicLM utilise SoundStorm envers abréger rentablement des sorties principalement longues (pardon on le voit au plan des E/S).

Remerciements

Le accouchement décrit ici a été grimoire par Zalán Borsos, Matt Sharifi, Damien Vincent, Eugene Kharitonov, Neil Zeghidour et Marco Tagliasacchi. Nous-mêmes totaux reconnaissants envers toutes les discussions et les mémoires sur ce accouchement que moi-même avons reçus de nos collègues de Google.

By nsmaat