E pensare che molti anni fa in italia esisteva er finestra e loquendo che ancora oggi si usa. Certo che ne hanno fatto di strada. Ora quale sarà il prossimo step?
Non posso giudicare,essendo in giapponese,ma comunque un gran bel risultato,anche se si nota che e una voce piatta,senza spessore,troppo perfetta oserei dire.
Uso spessissimo Vocaloid (V.4 attualmente) per passione e per vedere fin dove riesco a spingermi e conosco molti altri sistemi di sintetizzazione vocale. Il "calore" di una voce è ancora MOLTO lontano da essere adattata alle voci inorganiche. Un orecchio attento già capisce quando viene usato un minimo l'Auto-Tune, figuratevi da inorganica a umana. Per un esame di Audiofonia e storia delle Radio ho presentato appunto l'ipotesi di un futuro in cui le software vocali possano rendere tutti artisti (ad esempio un musicista che però non ha una determinata intonazione con un software a cantare per lui al posto di un'altra persona) e la conclusione a cui io (e la commissione) siamo arrivati è che potrebbe essere possibile ma non con le tecnologie attuali. Le sfumature e le imprecisioni della voce sono parte del nostro parlato/cantato quindi andrebbero aggiunte come opzioni del software, insieme al tremato sugli acuti e bassi (ci siamo quasi a questo però). Concludendo: Nonostante sia evidente un miglioramento siamo ancora mooolto lontani da una voce anche leggermente umana nel suo senso pieno. Probabilmente ci arriveremo. Nel frattempo cerco ancora il disco di Evils Kingdom (Aku no Oukoku) che sono anni che non riesco a trovare.
Da possessore di un'impianto audio degno di nota, sicuramente la cosa è migliorata moltissimo ma continua comunque a sentirsi decisamente metallizzata e sintetica, tralasciando la legnosità che dipende molto dal chi la crea e da gusti personali. Mettiamoci poi che essendo una tech demo hanno sicuramente lavorato molto più del normale per fare un'esempio come si deve e che la pessima compressione audio di youtube riduce notevolmente l'effetto metallico e tutti i piccoli disturbi di noise. Provando con banalissime cuffie da telefono devo dire che però la versione con la musica è difficile da distinguere pur sapendo a priori che è una voce finta, quindi in molti casi diventa qualcosa di effettivamente usabile già adesso. Ricordiamoci però che mentre i giappi si impegnano per studiare con grande fatica algoritmi decenti cè chi non è ancora pronto ma sta usando trucchetti decisamente migliori: https://voice.mozilla.org/it
@Marneus Da musicista per passione trovo l'argomento che hai spianato interessantissimo. E inoltre: https://www.amazon.com/Aku-No-Oukoku-Evils-Kingdom/dp/B0046EDAEO
Effettivamente la differenza si nota relativamente poco, ma da qui a sostituire le voci vere ce ne passa. Poi ci sarebbe anche tutto il discorso dell'appiattimento della musica digitale e della sempre peggiore qualità di riproduzione della musica, per cui facile che si arrivi a paragonare una voce generata al PC alla voce umana. Nel frattempo rifatevi le orecchie:
Il risultato è buono, anche se si sente che è una voce ancora un po' meccanica. Per il resto, questa notizia da una parte mi rallegra, perché la tecnologia si sta sviluppando sempre più e sta facendo passi in avanti, ma da un'altra parte mi spaventa, perché se dovesse svilupparsi tanto potrebbe sostituire l'uomo in molte attività.
Vedendo com'era la tecnologia solo pochissimi anni fa, il progresso è impressionante. Ancora qualche anno, e sarà assolutamente indistinguibile dalla voce umana. Ci saranno implicazioni parecchio inquietanti tra l'altro, si potrà simulare una persona e da un audio sarà impossibile capire se ha detto veramente certe cose. Non sapremo più se il call center che ci sta disturbando all'ora di pranzo è una persona o un bot...