Presentazione
Questa è la schermata home dell’applicazione; in cui è possibile registrarsi per creare un account IBM, oppure se si è già in possesso effettuare il log in. Inoltre l’applicazione mette a disposizione la possibilità di poter accedere e utilizzare una demo per convertire testi scritti in file audio. Ciò sarà possibile cliccando sulla voce “Guarda la demo”.
Una volta cliccato sulla voce “Guarda la demo” apparirà la seguente schermata. Questo servizio permette, partendo da un testo, di generare dei file audio con una cadenza e un’intonazione appropriate alla lingua scelta. È disponibile in 27 voci (13 neurali e 14 standard) in 7 lingue; per avere un audio con una voce naturale è consigliabile utilizzare le voci neurali (V3, enhanced dnn). Le voci selezionate offrono funzioni di sintesi espressiva (SSML) e di trasformazione della voce. La lingua in cui è stato scritto il testo deve corrispondere alla lingua della voce che è stata selezionata, altrimenti lingua del testo e lingua della voce diverse non produrranno risultati non corretti nella pronuncia. Il file audio generato verrà restituito in un file mp3 che potrà essere riprodotto tramite lettori VLC e Audacity.
Quindi dopo aver inserito il testo sarà necessario cliccare sul tasto “speak”, in questo modo sarà possibile sentire l’audio relativo al testo scritto. Dopodichè se si vuole scaricare l’audio sarà sufficiente cliccare con il tasto destro del mouse su di esso e scegliere l’opzione “copia l’indirizzo dell’audio”, aprirlo in un’altra finestra del browser e poi effettuarne il download.
Come indicato precedentemente, le voci selezionate offrono funzioni di sintesi espressiva (SSML). Lo Speech Synthesis Markup Language è un linguaggio standard di markup che permette di controllare, nella sintesi vocale, pronuncia, volume, tono, velocità, inserire pause, ecc.Per esempio nella schermata che segue è possibile notare che è stato inserito l’elemento “break” associato all’attributo “time” che indica una determinata lunghezza della pausa che può essere espressa in secondi o in millisecondi; un altro esempio è l’inserimento dell’elemento “prosody”, che controlla il tono, la velocità di pronuncia e il volume del testo, a cui è stato associato l’attributo “rate” che indica un cambiamento di velocità nella pronuncia del testo. Il servizio SSML offre, inoltre, la possibilità di utilizzare altri elementi: come l’utilizzo di SSML di espressività (modo in cui il testo deve essere espresso quando viene pronunciato), l’utilizzo di SSML per la trasformazione della voce e l’inserimento di fonemi per specificare l’ortografia fonetica utilizzata per pronunciare una parola. Per definire la pronuncia fonetica di una parola si deve utilizzare l’elemento
a cui si possono associare due attributi. Il primo è l’attributo “alphabet” che specifica la notazione della pronuncia; ad esso si può associare il valore “ibm” (pronuncia definita in SPR) oppure il valore “ipa” (pronuncia definita in IPA). Il secondo è l’attributo “ph” che definisce la pronuncia, quindi in che modo deve essere pronunciata la parola racchiusa nell’elemento . I simboli SPR o i simboli IPA delle varie lingue sono facilmente reperibili nella sezione relativa alla documentazione dell’applicazione. Per quanto riguarda l’utilizzo di SSML per la trasformazione della voce questo ci permette di espandere la gamma delle voci tramite l’elemento da incorporare all’interno del testo, a una frase o a singole parole. La trasformazione vocale non è supportata per tutte le voci presenti, ma solo per alcune. Le trasformazioni vocali possono essere trasformazioni integrate oppure personalizzate. Le trasformazioni integrate applicano delle modifiche predefinite che si possono esprimere tramite l’attributo “type” associato all’elemento “young” (conferisce un’intonazione giovanile) e all’elemento “soft” (conferisce più morbidezza), oppure tramite l’attributo “strength” a cui è possibile associare un valore da 0% a 100%. Le trasformazioni personalizzate permettono di avere più controllo per quanto riguarda la trasformazione della voce. Per farlo sarà necessario attribuire all’elemento l’attributo “type” seguito da “Custom” e inserire poi una serie di attributi. Per esempio nella schermata seguente è possibile visualizzare l’attributo “glottal_tension” che permette di aumentare o diminuire la tensione glottidale della voce; oppure l’attributo “timbre” che permette di modificare il timbro della voce; oppure l’utilizzo dell’attributo “rate” che permette di aumentare o diminuire la velocità del discorso.
Copia link