L’ultimo traguardo appena tagliato da Open AI – l’azienda pioniera nello sviluppo di software di intelligenza artificiale generativa - si chiama
Voice Engine e, come suggerisce lo stesso nome, si tratta di un “motore vocale”, ossia una nuova tecnologia in grado di generare una voce sintetica, clonando quella di una persona reale, utilizzandone unicamente un campione audio di 15 secondi.
È stata proprio l’azienda ad annunciarne il debutto con un post pubblicato sul proprio blog ufficiale, precisando tuttavia che, per il momento, il nuovo strumento resterà disponibile in anteprima solo per un numero ristretto di sviluppatori.
Una premessa che dovrebbe servire da rassicurazione, almeno finché non saranno stati valutati concretamente, oltre agli impieghi, anche i possibili rischi che sono connessi all’impiego di questa nuova creatura.
Difatti, la stessa azienda riferisce in premessa di presentazione l’approccio cauto e informato che sta adottando nel pensare ad un impiego più ampio di Voice Engine, in considerazione del potenziale uso improprio della voce sintetica e nell’intento di avviare un dialogo sul suo impiego responsabile.
Ne elenca quindi le concrete applicazioni:
- fornire assistenza alla lettura ai non lettori e ai bambini attraverso voci emotive dal suono naturale che rappresentano una gamma di parlanti più ampia di quanto sia possibile con le voci preimpostate;
- tradurre contenuti, come video e podcast, in modo che creatori e aziende possano raggiungere più persone in tutto il mondo, in modo fluido e con la propria voce;
- raggiungere le comunità globali, migliorando la fornitura di servizi essenziali in ambienti remoti (l’esempio riportato è quello di strumenti dedicati ad operatori sanitari che possano fornire una varietà di servizi essenziali, come la consulenza per le madri che allattano);
- supportare persone che non parlano: ad esempio fornendo applicazioni terapeutiche per individui con condizioni che influiscono sulla parola e miglioramenti educativi per coloro che hanno bisogni di apprendimento;
- aiutare i pazienti che soffrono di patologie del linguaggio improvvise o degenerative a recuperare la voce.
Per ognuno degli impieghi elencati si forniscono poi indicazioni di enti e società che stanno mettendo a punto specifiche App per l’erogazione del relativo servizio, nonché tracce audio d'esempio (per ognuna c’è quello di riferimento e quello generato sinteticamente) che possono essere liberamente ascoltate e che consentono effettivamente di verificare la grande capacità dello strumento di clonare le voci, replicandone le intonazioni, le cadenze, gli accenti, il timbro e perfino quei tratti “emotivi” che in genere le voci sintetiche – perlopiù robotiche o metalliche – non sono in grado di riprodurre.
Tornando poi ai rischi, è la stessa Open AI a mettere in guardia da quelli possibili e fornendo le prime soluzioni: “Riconosciamo che generare discorsi che assomiglino alle voci delle persone comporta seri rischi, che sono particolarmente importanti in un anno elettorale” (il riferimento è alle prossime elezioni presidenziali in USA), e, per questo “stiamo collaborando con partner statunitensi e internazionali provenienti da tutti i settori del governo, dei media, dell'intrattenimento, dell'istruzione, della società civile e altro ancora per assicurarci di incorporare il loro feedback mentre costruiamo”.
Le cautele imposte ai partner che stanno testando Voice Engine vengono quindi così declinate: il divieto di coinvolgere altri individui o organizzazioni senza consenso o diritto legale; la raccolta del consenso esplicito e informato dell'oratore originale; il divieto di creare modalità che consentano a singoli utenti di creare la propria voce; l’obbligo di comunicare chiaramente al proprio pubblico che le voci che sentono sono generate dall'intelligenza artificiale. Inoltre, l’applicazione di filigrane che consentono di tracciare l'origine di qualsiasi audio generato da Voice Engine ed il monitoraggio proattivo del modo in cui viene utilizzato.
Secondo Open AI, l’intento applicativo futuro della nuova tecnologia dovrebbe essere diretto a obiettivi quali l’eliminazione graduale dell'autenticazione vocale come misura di sicurezza per l'accesso ai conti bancari e ad altre informazioni sensibili e l’accelerazione dello sviluppo e dell’adozione di tecniche per tracciare l'origine dei contenuti audiovisivi, così che si possa facilmente identificare quando includono elementi generati tramite AI.
Al momento l’azienda non ha indicato quando e se Voice Engine verrà rilasciato al pubblico, chiosando anzi il suo comunicato con un monito ben preciso: «È importante che le persone in tutto il mondo capiscano dov'è diretta questa tecnologia, sia che alla fine la implementeremo su larga scala o meno».
Ed i motivi di tanta cautela sono chiari, dal momento che i pericoli di un uso improprio sono davvero consistenti e nemmeno interamente prevedibili.