VALL-E es el nombre de la nueva aplicación de Inteligencia Artificial que pronto lanzará Microsoft y que es capaz de imitar cualquier voz a partir de apenas 3 segundos de una grabación cualquiera.
Las utilidades de esto pueden ser infinitas, hace tiempo se busca que los asistentes personales como Alexa o Google Home puedan tener la voz que deseen sus dueños, al punto de fantasear con poder revivir la voz de personas ya fallecidas.
VALL-E logra todo esto con tan poca información porque es capaz de reunir herramientas de otras inteligencias como la síntesis de texto a voz (TTS), edición de discursos e imitadores de la estructura del habla humana. Esto le permite tener claro cuál es el orden lógico de un discurso y los patrones que existen al mostrar emociones en la forma de pronunciarlo como el enojo o el cansancio, emociones que puede imitar de igual manera.
Además, la idea es que cuando esta inteligencia artificial esté lo suficientemente desarrollada, esta pueda combinarse con la tecnología de los ChatGPT, famosos por su capacidad de crear texto con información básica y simular una conversación con otra persona.
Here’s the recipe to make Siri/Alexa 10x better:
— Jim Fan (@DrJimFan) January 9, 2023
1. Whisper to convert speech to text. Best open-source speech model out there.
2. ChatGPT to generate smart home API calls and/or text response.
3. VALL-E to synthesize speech. It can mimic anyone’s voice sample!
Quick figure 1/3 pic.twitter.com/6JlkdwOpS6
Es decir, con el tiempo, este simulador de voz también podrá simular una conversación, haciendo sentir al usuario que está hablando con la persona cuya voz ha sido registrada, incluso si ambos estímulos provienen, más bien, de la inteligencia artificial.
La compañía responsable de VALL-E ha hecho una fuerte apuesta a productos con Inteligencia Artificial, incorporándolos a sus productos tradicionales: su primer lanzamiento fue DALL-E capaz de generar imágenes inéditas con unas pocas indicaciones, la cual fue incorporado a la App Designer, el segundo Chat GPT que será incorporado al buscador Bing este año y competirá duramente contra Google en un terreno en el que parecía no tener competidor.
Otras utilidades tendrán obviamente que ver con la generación de contenido de todo tipo (contenido por redes sociales, podcasts, por ejemplo, entre otras posibilidades) pero dispararán unos cuántos debates interesantes: ¿Es la voz de una persona algo propio que puede usarse sin su permiso? ¿Se termina las grabaciones de voz como una prueba? ¿Cualquiera puede usar la voz de otra persona sin su permiso?
El modelo aún no se encuentra disponible para su uso, pero sí existen ejemplos para consulta de como VALL-E logra registrar emociones humanas reflejadas en el discurso con tan solo tres segundos de audio y manifestarlas en su simulación de voz.
Surprised there isn't more chatter around VALL-E
— Steven Tey (@steventey) January 9, 2023
This new model by @Microsoft can generate speech in any voice after only hearing a 3s sample of that voice 🤯
Demo → https://t.co/GgFO6kWKha pic.twitter.com/JY88vf4lYc
Mantente conectado con lo que sucede en el mundo con la mejor tecnología que sólo Sanborns tiene para ti, da click AQUÍ.