Hume AI launches custom synthetic voices with Voice Control
Iscriviti alle nostre newsletter giornaliere e settimanali per gli ultimi aggiornamenti e contenuti esclusivi sulla copertura AI leader del settore. Maggiori informazioni
HumeAIla startup specializzata in interfacce vocali emotivamente intelligenti, ha lanciato il controllo vocaleuna funzionalità sperimentale che consente agli sviluppatori e agli utenti di creare voci IA personalizzate attraverso una modulazione precisa delle caratteristiche vocali: non sono richieste competenze di codifica, ingegneria immediata dell’IA o progettazione del suono.
Questa versione si basa sulle fondamenta gettate dalla precedente Empathic Voice Interface 2 (EVI 2) dell’azienda, che ha introdotto funzionalità avanzate in termini di naturalezza, reattività emotiva e personalizzazione.
Sia EVI 2 che Voice Control evitano i rischi della clonazione vocale, una pratica che, secondo Cowen, pone sfide etiche e pratiche.
Hume si concentra invece sulla fornitura di strumenti per creare voci uniche ed espressive che si adattino alle esigenze degli utenti, come chatbot del servizio clienti, assistenti digitali, tutor, guide o funzionalità di accessibilità.
Andando oltre le voci AI preimpostate verso soluzioni personalizzate
Il controllo vocale offre agli sviluppatori la possibilità di personalizzare le voci in 10 dimensioni diverse, tra cui:
“maschio/femmina: La vocalizzazione del genere, che varia tra più maschile e più femminile.
Assertività: La fermezza della voce, che varia tra timida e audace.
Galleggiabilità: La densità della voce, che varia tra sgonfia e fluttuante.
A fidarsi: La sicurezza della voce, che varia tra timida e sicura.
Entusiasmo: L’eccitazione nella voce, che varia tra calma ed entusiasta.
Nasalità: L’apertura della voce, che varia tra chiara e nasale.
Relax: La tensione nella voce, che varia tra teso e rilassato.
Levigatezza: La struttura della voce, che varia tra dolce e staccato.
Tiepidezza: La vivacità della voce, che varia tra tiepida e potente.
Tenuta: Il controllo della voce, che varia tra teso e sussurrato.
Questo strumento senza codice consente agli utenti di mettere a punto le caratteristiche vocali in tempo reale tramite cursori virtuali sullo schermo. È attualmente disponibile nel parco giochi virtuale di Hume, per il quale a registrazione utente gratuita per l’accesso.
Il comunicato affronta un punto critico nel settore dell’intelligenza artificiale: la dipendenza da voci preimpostate, che spesso non soddisfano le esigenze specifiche di marchi o applicazioni, o i rischi associati alla clonazione vocale.
Questa attenzione alla personalizzazione è in linea con l’obiettivo più ampio di Hume di sviluppare un’intelligenza artificiale vocale ricca di sfumature emotive.
Gli sforzi dell’azienda per far progredire l’intelligenza artificiale vocale sono stati evidenziati nel settembre 2024 con lancio di EVI 2, che la società ha descritto come un aggiornamento significativo rispetto al suo predecessore.
EVI 2 ha migliorato la latenza del 40%, ridotto i costi del 30% e ampliato le funzionalità di modulazione vocale, offrendo agli sviluppatori un’alternativa più sicura alla clonazione vocale.
Cursori > istruzioni di testo
L’approccio orientato alla ricerca di Hume gioca un ruolo centrale nello sviluppo del prodotto. L’azienda, co-fondata dall’ex Google DeepMinder Alan Cowen, utilizza un modello proprietario basato su registrazioni vocali interculturali combinate con dati di sondaggi emotivi.
Questa metodologia, radicata nella scienza delle emozioni, è la spina dorsale sia di EVI 2 che del Voice Control lanciato di recente.
Il controllo vocale estende questi principi affrontando i modi dettagliati, spesso ineffabili, in cui le persone percepiscono le voci.
L’interfaccia basata su slider dello strumento riflette le qualità percettive generali della voce, come il galleggiamento o l’assertività, senza tentare di semplificare queste caratteristiche attraverso segnali basati su testo.
Voice Control è immediatamente disponibile in versione beta e si integra con Empathic Voice Interface (EVI) di Hume, rendendolo accessibile a un’ampia gamma di applicazioni.
Gli sviluppatori possono selezionare una voce di base, modificarne le caratteristiche e visualizzare in anteprima i risultati in tempo reale. Questo processo garantisce riproducibilità e stabilità tra le sessioni, caratteristiche importanti per applicazioni in tempo reale come i bot del servizio clienti o gli assistenti virtuali.
L’influenza di EVI 2 è chiaramente visibile nelle possibilità del controllo vocale. Il modello precedente introduceva funzionalità come suggerimenti durante le conversazioni e funzionalità multilingue, che ampliavano la portata delle applicazioni di intelligenza artificiale vocale.
Ad esempio, EVI 2 supporta tempi di risposta inferiori al secondo, consentendo conversazioni naturali e dirette. Consente inoltre adattamenti dinamici allo stile di conversazione durante le interazioni, rendendolo uno strumento versatile per le aziende.
Distinguersi in un mercato competitivo
L’attenzione di Hume alla personalizzazione della voce e all’intelligenza emotiva lo posiziona come un forte concorrente nello spazio dell’intelligenza artificiale vocale, anche contro rivali ben finanziati come OpenAI con la sua modalità vocale avanzata e ElevenLabs, che offrono entrambi librerie di voci preimpostate.
Hume continua a sviluppare il suo approccio innovativo all’intelligenza artificiale vocale. I piani per espandere il controllo vocale includono l’introduzione di ulteriori dimensioni personalizzabili, il perfezionamento della qualità della voce con regolazioni estreme e l’espansione della gamma di voci di base disponibili.
Con il lancio di Voice Control, Hume rafforza la sua posizione di leader nell’innovazione dell’intelligenza artificiale vocale, offrendo strumenti che danno priorità alla personalizzazione, all’intelligenza emotiva e all’adattabilità in tempo reale. Gli sviluppatori oggi possono accedere al controllo vocale attraverso la piattaforma Hume, segnando un altro passo avanti nell’evoluzione delle soluzioni vocali basate sull’intelligenza artificiale.
Source link