In ultimele săptămâni, am văzut un val de instrumente text-to-video și imagine-to-video precum Google Veo, Kling de la Kuaishou, Dream Machine a lui Luma Lab și recent anunțata Runway Gen-3 Alpha. Aceste instrumente video AI generează rezultate impresionante, dar împărtășesc o limitare comună – toate sunt tăcute. Fără dialog, fără coloană sonoră și fără efecte sonore. Recent, Google a facut publica o actualizare despre o tehnologie internă pe care o dezvoltă, care poate genera audio din intrarea video.
Ce este Google V2A?
Video-to-audio (V2A) de la Google combină pixelii video cu solicitările text în limbaj natural pentru a genera peisaje sonore bogate pentru acțiunea de pe ecran. V2A nu numai că creează efecte sonore realiste și dialoguri care se potrivesc cu personajele și tonul unui videoclip, dar poate genera și coloane sonore pentru diverse înregistrări tradiționale, inclusiv materiale de arhivă, filme mute și multe altele.
Exemple
Iată cinci exemple pe care echipa Google Deepmind le-a împărtășit într-o postare pe blog:
1. Tobe
Prompt for audio: Un toboșar pe o scenă la un concert înconjurat de lumini intermitente și o mulțime aplaudă
2. Mașini
Prompt pentru audio: deraparea mașinilor, accelerarea motorului mașinii, muzică electronică angelică
3. Lup
Prompt pentru audio: Lupul urlă la lună
4. Meduze subacvatice
Prompt pentru audio: meduze care pulsează sub apă, viață marină, ocean
5. Scenă de groază
Prompt pentru audio: Cinematic, thriller, film de groază, muzică, tensiune, ambianță, pași pe beton
Deși există limitări, cum ar fi artefacte și distorsiuni, calitatea generală a ieșirii este încă suficientă pentru a îmbunătăți semnificativ experiența video. Era timpul ca aceste videoclipuri generate de AI să fie asociate cu un generator audio, iar V2A este un pas promițător în această direcție.
Cum funcționează ?
Google a experimentat diverse abordări pentru a găsi cea mai scalabilă arhitectură AI pentru generarea audio, iar metoda bazată pe difuzie a oferit cele mai realiste rezultate pentru sincronizarea video și audio.
Difuzia este procesul prin care un model AI este antrenat pentru a recompune vizuale (statice sau în mișcare) ale conceptelor din „zgomot” pixelat, bazat pe învățarea acelor concepte din imagini adnotate sau perechi video și text.
Sistemul V2A începe prin codificarea intrării video într-o formă comprimată. Folosind un model de difuzie, sunetul este rafinat iterativ de zgomotul aleatoriu, ghidat de intrarea vizuală și de solicitările limbajului natural pentru a genera un sunet sincronizat și realist. Ieșirea audio finală este apoi decodificată, transformată într-o formă de undă audio și combinată cu videoclipul.