Il giorno in cui i cantanti verranno rimpiazzati dall'intelligenza artificiale sembra essersi avvicinato incredibilmente. Anche se esistono già simili cantanti, come Hatsune Miku (che arrivano a girare il mondo coi loro tour), la loro voce è sempre stata segnata da un leggero tono meccanico.
Il Laboratorio Internazionale di Tecnologie Linguistiche (International Language Technology Lab) di Nagoya, interno all'Istituto di Tecnologia, ha collaborato con la compagnia Techno-Speech, specializzata in sintetizzazione vocale: il risultato è una nuova tecnologia di I.A. che riproduce in maniera sconcertante qualità, stile e toni della voce umana.
Eccovi alcuni esempi: le voci utilizzate al momento come sentirete sono un po' robotiche.
Eccovi la stessa voce ma con il nuovo sistema vocale:
Aggiungendo la musica si ottiene una canzone che sembra cantata proprio da una persona vera!
Sono bastate 2 ore con un vero cantante per creare un database sufficiente al nuovo programma per sintetizzare un numero incredibile di vocali e ricreare qualunque tono.
Questo programma è disponibile anche al di fuori del Giappone ed è perfino in grado di riprodurre lingue come il mandarino e l'inglese, di far cantare Rolling in the Deep di Adele ed Everytime di Britney Spears.
Ecco cosa ne hanno pensato i giapponesi della nuova tecnologia:
Se mi dicessero che è un cantante reale ci crederei!
Significa che i cantanti non lavoreranno più? Si può utilizzare per far cantare i Beatles ai cantanti giapponesi più famosi?
Sembra fantastico!
Assolutamente rivoluzionario!
Incredibile ma non riesce ancora a trasmettere le emozioni come la voce umana.
I progetti futuri hanno sicuramente trovato una solida base su cui costruirsi, ma è troppo presto per capire che ne sarà dei veri cantanti. Ma potrebbe venire il giorno in cui bellissimi e bellissime cantanti sintetizzati canteranno con voci quasi reali prendendo le redini dell'industria della musica.
Fonte consultata:
Soranews24
Il Laboratorio Internazionale di Tecnologie Linguistiche (International Language Technology Lab) di Nagoya, interno all'Istituto di Tecnologia, ha collaborato con la compagnia Techno-Speech, specializzata in sintetizzazione vocale: il risultato è una nuova tecnologia di I.A. che riproduce in maniera sconcertante qualità, stile e toni della voce umana.
Eccovi alcuni esempi: le voci utilizzate al momento come sentirete sono un po' robotiche.
Eccovi la stessa voce ma con il nuovo sistema vocale:
Aggiungendo la musica si ottiene una canzone che sembra cantata proprio da una persona vera!
Sono bastate 2 ore con un vero cantante per creare un database sufficiente al nuovo programma per sintetizzare un numero incredibile di vocali e ricreare qualunque tono.
Questo programma è disponibile anche al di fuori del Giappone ed è perfino in grado di riprodurre lingue come il mandarino e l'inglese, di far cantare Rolling in the Deep di Adele ed Everytime di Britney Spears.
Andate al minuto 1:38 per sentire Adele... Siamo sicuri che sia tutta tecnologia?
これはすごい。
— Ken Sugar? (@ken_sugar) 14 dicembre 2018
▼AI技術により超高精度な歌声合成を実現:バーチャルシンガーの歌声は人と区別できない時代へhttps://t.co/Z4M6TMoNwL
『株式会社テクノスピーチと名古屋工業大学 国際音声言語技術研究所は、このたび人間の声質・癖・歌い方をこれまでになく高精度に再現できる歌声合成技術を開発』 pic.twitter.com/El2mtAXbyv
Ecco cosa ne hanno pensato i giapponesi della nuova tecnologia:
Se mi dicessero che è un cantante reale ci crederei!
Significa che i cantanti non lavoreranno più? Si può utilizzare per far cantare i Beatles ai cantanti giapponesi più famosi?
Sembra fantastico!
Assolutamente rivoluzionario!
Incredibile ma non riesce ancora a trasmettere le emozioni come la voce umana.
I progetti futuri hanno sicuramente trovato una solida base su cui costruirsi, ma è troppo presto per capire che ne sarà dei veri cantanti. Ma potrebbe venire il giorno in cui bellissimi e bellissime cantanti sintetizzati canteranno con voci quasi reali prendendo le redini dell'industria della musica.
Fonte consultata:
Soranews24
Ci arriveranno anche se lì servono capacità recitative quindi software "diversi".
Il "calore" di una voce è ancora MOLTO lontano da essere adattata alle voci inorganiche.
Un orecchio attento già capisce quando viene usato un minimo l'Auto-Tune, figuratevi da inorganica a umana.
Per un esame di Audiofonia e storia delle Radio ho presentato appunto l'ipotesi di un futuro in cui le software vocali possano rendere tutti artisti (ad esempio un musicista che però non ha una determinata intonazione con un software a cantare per lui al posto di un'altra persona) e la conclusione a cui io (e la commissione) siamo arrivati è che potrebbe essere possibile ma non con le tecnologie attuali.
Le sfumature e le imprecisioni della voce sono parte del nostro parlato/cantato quindi andrebbero aggiunte come opzioni del software, insieme al tremato sugli acuti e bassi (ci siamo quasi a questo però).
Concludendo: Nonostante sia evidente un miglioramento siamo ancora mooolto lontani da una voce anche leggermente umana nel suo senso pieno. Probabilmente ci arriveremo.
Nel frattempo cerco ancora il disco di Evils Kingdom (Aku no Oukoku) che sono anni che non riesco a trovare.
Mettiamoci poi che essendo una tech demo hanno sicuramente lavorato molto più del normale per fare un'esempio come si deve e che la pessima compressione audio di youtube riduce notevolmente l'effetto metallico e tutti i piccoli disturbi di noise.
Provando con banalissime cuffie da telefono devo dire che però la versione con la musica è difficile da distinguere pur sapendo a priori che è una voce finta, quindi in molti casi diventa qualcosa di effettivamente usabile già adesso.
Ricordiamoci però che mentre i giappi si impegnano per studiare con grande fatica algoritmi decenti cè chi non è ancora pronto ma sta usando trucchetti decisamente migliori:
https://voice.mozilla.org/it
Da musicista per passione trovo l'argomento che hai spianato interessantissimo. E inoltre: https://www.amazon.com/Aku-No-Oukoku-Evils-Kingdom/dp/B0046EDAEO
Effettivamente la differenza si nota relativamente poco, ma da qui a sostituire le voci vere ce ne passa. Poi ci sarebbe anche tutto il discorso dell'appiattimento della musica digitale e della sempre peggiore qualità di riproduzione della musica, per cui facile che si arrivi a paragonare una voce generata al PC alla voce umana.
Nel frattempo rifatevi le orecchie:
Sostituire il pubblico dei concerti con uno virtuale.
Ci saranno implicazioni parecchio inquietanti tra l'altro, si potrà simulare una persona e da un audio sarà impossibile capire se ha detto veramente certe cose.
Non sapremo più se il call center che ci sta disturbando all'ora di pranzo è una persona o un bot...
Come hanno già fatto. Non si sa se nei prossimi anni potremo assistere ad una "rinascita" di un James Dio o un Freddy mercury.
Devi eseguire l'accesso per lasciare un commento.