In evidenza
Sezioni
Magazine
Annunci
Quotidiani GNN
Comuni
Novità

Come migliorare la qualità audio delle registrazioni vocali con l’intelligenza artificiale

Come migliorare la qualità audio delle registrazioni vocali con l’intelligenza artificiale
Enhance Speech, un software online di Adobe basato sull’IA, permette di migliorare la qualità dell'audio in pochi clic: è gratuito e disponibile per tutti
2 minuti di lettura

Adobe, la software house che sviluppa Photoshop e la suite di programmi Creative Cloud, ha reso disponibile un software online basato sull’intelligenza artificiale che permette di pulire e migliorare le registrazioni audio. Il servizio si chiama Enhance Speech, e come suggerisce il nome è pensato per migliorare il parlato: è capace di trasformare una clip di bassa qualità, catturata dal microfono del cellulare o del computer, in un audio che (nella maggior parte dei casi) può sembrare addirittura registrato in studio.

Provare Enhance Speech è molto semplice: basta andare sul sito, registrare un nuovo account Adobe o fare login con le proprie credenziali già esistenti, poi inviare un audio (solo mp3 oppure wav) trascinandolo dal desktop o da una cartella nell’area di caricamento.  Il sistema inizierà immediatamente a processare l’audio: il tempo di elaborazione varia a seconda delle dimensioni del file e alla durata della registrazione. La versione attuale di Enhance Speech permette di caricare file fino a 1 GB o lunghi al massimo un’ora.

La prova

Abbiamo provato Enhance Speech con diversi file e i risultati sono senza dubbio sorprendenti. Tuttavia definire “audio da studio” i file processati ci sembra un’esagerazione, come è possibile intuire dal test che abbiamo eseguito in italiano e in inglese. Abbiamo provato con due lingue differenti per capire se l’IA di Adobe funziona solo a livello di analisi spettrale o se invece utilizza anche il linguaggio per capire come isolare la voce. La differenza non ci sembra rilevante. Un test effettuato con una clip di parole senza senso (non inclusa nel video qui sotto) conferma che la lingua utilizzata o la semantica di ciò che si dice nella clip non sono fattori rilevanti per il miglioramento della qualità audio.

Training ed errori

Adobe non ha rivelato particolari dettagli sul processo di sviluppo di Enhance, ma è lecito supporre che l’IA alla base del sistema sia stata allenata su grandi quantità di audio da studio e di bassa qualità, in modo tale da riconoscere differenze nel segnale, le varie tipologie di rumore di fondo, e molti altri elementi che fanno la differenza fra un audio di qualità scadente e un audio professionale, come la presenza, la compressione e altri ancora.

Adobe Enhance non è perfetto: in alcuni casi, probabilmente a seconda delle caratteristiche della voce di chi parla, il risultato può lasciare a desiderare. Alcune frequenze vengono distorte più spesso e a volte l’impressione è che il soggetto che parla abbia (per esempio) il naso chiuso. Su vari forum online gli utenti hanno inoltre segnalato casi di vere e proprie allucinazioni dell’algoritmo, con la comparsa di voci, suoni e altri artefatti non presenti nelle clip originali prima del processamento con Enhance Speech.

Una suite per i podcast

Adobe Enhance Speech fa parte di una suite di 3 applicazioni che va sotto il nome di Adobe Podcast. Di questa fanno parte anche Mic Check e l’eponima Adobe Podcast.

Mic Check è un software online che permette, sempre gratuitamente e previa registrazione, di verificare la qualità del proprio microfono. Basta registrare una clip sul sito e il sistema provvederà in automatico a verificare vari parametri che contribuiscono alla buona resa di una registrazione: la distanza dal microfono, il guadagno, il rumore di fondo e infine l’echo. Qui sopra, il risultato di un test eseguito con il microfono di un MacBook Air M1 (lo stesso usato per le registrazioni di prova).

Adobe Podcast è il software forse più interessante dei 3, ma per ora è disponibile soltanto per beta tester selezionati: è uno strumento di editing testuale dei podcast basato sulla trascrizione del parlato. Utilizzando una tecnologia di speech-to-text simile a quella che Adobe integra già su Premier o After Effect, permette di tagliare e ricomporre i file audio semplicemente correggendo lo script trascritto in automatico. Un sistema simile è già disponibile da qualche tempo all’interno di applicazioni online di trascrizione come Sonix o Descript. Quest’ultima offre anche la possibilità di applicare lo stesso sistema all’editing dei video.