Inteligencia artificial de voz: ¿Qué es?
A finales de 2019, Voicebot.ai publicó una lista de los “ 20 principales innovadores de marcas en voz del año. ”Destacó a empresas de una sorprendente variedad de industrias (salud y belleza, servicios financieros, medios de comunicación, entretenimiento, comida rápida, alimentos y bebidas empaquetados, atención médica, educación, automotriz e incluso bienes de consumo empaquetados) que se produce una aplicación de voz de algún tipo, principalmente para altavoces inteligentes, aunque también había asistentes de voz de marca únicos y al menos un sistema de control de voz para automóvil.
Todas las marcas de la lista son líderes en sus campos. ¿Qué podemos sacar de esa lista?
La tecnología de voz no está estancada en el sector tecnológico.
Las marcas líderes del mañana, incluidas las de su industria, están trabajando hoy en estrategias de voz. Para hacer lo mismo, necesita saber un poco sobre la tecnología detrás de los sistemas de voz digitales actuales: inteligencia artificial de voz.
Inteligencia artificial de voz: ¿Qué es?La inteligencia artificial de voz es una tecnología emergente, e incluso los expertos de la industria aún no se han decidido por una definición clara del término. Los bloggers de tecnología lo usan para referirse a cualquiera de las intersecciones de la inteligencia artificial con el reconocimiento de voz automatizado (cómo las computadoras entienden el lenguaje hablado) y / o la generación de texto a voz (cómo hablan las computadoras).
Algunos escritores llaman a las personas de altavoces inteligentes como Alexa "voz AI". Otros usan el término para describir la producción de voz sintética que usa el aprendizaje automático. Esta división en el uso sugiere dos definiciones. Con eso en mente, aquí hay una entrada propuesta para algún diccionario futuro:
Inte ligencia artificial de voz
Sustantivo
abreviado:& nbsp;Voice AI
Definición de inteligencia artificial de voz
1. Software que es capaz de aprendizaje automático y emplea una interfaz de usuario de voz (VUI) para aceptar comandos y devolver resultados, como en asistentes de voz como Alexa, Siri y el Asistente de Google.
Por ejemplo, "Arreglando citas o reordenando cosas, y más, ... tu Voice AI conectará todos los datos de tus dispositivos y lo hará por ti ..."
2. El proceso y el resultado de la generación de voz sintética utilizando redes neuronales profundas, incluida la clonación de voz con IA y el software de voz profunda.
Por ejemplo, " La tecnología Voice AI implica comprender qué comprende una voz humana y luego reproducirla después de grabar esos elementos".
-
La primera definición se refiere a una persona impulsada por inteligencia artificial que interactúa con los usuarios a través de la voz. El segundo se refiere al uso de IA para generar una voz sintética, como un clon de voz de IA. Las marcas con visión de futuro están utilizando inteligencia artificial de voz en ambos sentidos para impulsar el reconocimiento, impulsar la lealtad de los clientes y diferenciarse de la competencia en un entorno de medios cada vez más libre de imágenes.
Cómo utilizan las empresas los asistentes de inteligencia artificial por vozLa mayoría de las marcas utilizarán inteligencia artificial de voz en el segundo sentido de la definición anterior. Es decir, desarrollarán una voz de marca literal con la ayuda de una red neuronal profunda de un proveedor VozFly (discutiremos esa aplicación en breve).
Pero como ilustra la lista de Voicebot, las marcas líderes pueden terminar produciendo sus propios asistentes virtuales y / o productos inteligentes que albergan a esas personas. A continuación, se muestran algunos ejemplos de asistentes de inteligencia artificial de voz de marca:
- En 2018, Bank of America lanzó un asistente financiero virtual con tecnología de inteligencia artificial llamado Erica. Esta persona habilitada por voz vive en la aplicación móvil de Bank of America. Erica completó más de 35 millones de "solicitudes de clientes" de 6 millones de usuarios a marzo de 2019, desde leer en voz alta el número de ruta de un cliente hasta rastrear transacciones específicas y advertir que un monto de cargo recurrente ha cambiado, todo a través de una interfaz de usuario de voz.
- El año anterior, Capital One lanzó un asistente de inteligencia artificial llamado Eno. Eno fue uno de los primeros robots de voz de marca fuera de los principales oradores inteligentes. El asistente virtual está disponible a través de la aplicación móvil de Capital One y en su sitio web.
- Los conductores de los nuevos modelos de Mercedes pueden despertar al asistente virtual nativo de MBUX diciendo: "Hola, Mercedes". Este sistema utiliza la comprensión del lenguaje natural, una forma de inteligencia artificial, para reconocer diversos comandos. Los conductores pueden pedir direcciones, bajar el aire acondicionado, cambiar la estación de radio y más a través de este asistente de voz a bordo, todo mientras hablan con naturalidad.
Pocas marcas tienen los recursos para desarrollar productos de inteligencia artificial de voz personalizados como estos. La forma más común de aprovechar la marca en entornos de solo voz es producir una voz de marca personalizada, un proceso que, en su nivel más alto, también utiliza inteligencia artificial.
Inteligencia artificial en la generación de voz sintéticaLa inteligencia artificial permite la creación de voces sintéticas realistas, incluidos clones de voz de IA que imitan de cerca el sonido de un altavoz en particular. Para crear un clon de voz de IA, los ingenieros utilizan redes neuronales profundas (DNN), una forma compleja de arquitectura informática que imita las conexiones sinápticas dentro del cerebro humano. Estos sistemas reconocen patrones dentro de conjuntos de datos. Eso significa que puedes entrenarlos; ellos aprenden." Entrenar un modelo en un DNN se llama aprendizaje profundo .
Para clonar una voz, los técnicos introducen grabaciones de audio del altavoz fuente en un software de voz profunda, un tipo especializado de red neuronal. El DNN identifica los patrones minuciosos de esa voz (tono, pronunciación, velocidad, acentuación, ritmo) y crea un modelo que puede imitar esas sutilezas mientras interpreta guiones completamente nuevos. Esta tecnología de voz de IA crea nuevas y poderosas oportunidades de marca. Por ejemplo:
1. Clones de voz de IA para portavoces famososA principios y mediados de la década de 2000, el actor James Earl Jones era "la voz de Verizon". Apareció en los comerciales de la compañía Hizo eventos de marca en vivo. Pero en ese entonces, había relativamente pocos puntos de contacto basados en voz entre las marcas y sus clientes: el programa de grabación de Jones era manejable.
Si Verizon y Jones tuvieran la misma relación hoy, la compañía se arruinaría pagando al actor para que grabe guiones para todos los nuevos canales basados en voz: anuncios, aplicaciones de altavoces inteligentes, sistemas de respuesta de voz interactiva (IVR), etc. Un James Earl con licencia. El clon de voz de Jones permitiría a Verizon mantener su marca en todos los canales de voz sintética sin el gasto o los desafíos de programación de innumerables sesiones de grabación.
2. Voces coherentes de la mascota de la marcaLas celebridades de la vida real no son las únicas cuyas voces se pueden clonar. Los personajes (Ronald McDonald, Mickey Mouse, Chester Cheetah) también crean una experiencia de marca consistente en todos los canales de audio. La clonación de voces permite que la voz de un personaje siga siendo la misma a lo largo de generaciones, sin las sutiles variaciones que surgen al cambiar de actor de voz.
3. Voces de marca personalizadas totalmente nuevasLas empresas no necesitan tener una voz de marca existente para aprovechar la tecnología neuronal de convertir texto a voz. El motor de voz patentado de VozFly utiliza una red neuronal profunda para generar una voz de texto a voz, exclusiva para su marca. Trabajamos con usted para identificar las fuentes ideales: actores de voz cuyo discurso usaremos para entrenar nuestros modelos de IA. Personalizamos aún más los modelos mediante el desarrollo de un léxico de marca, completo con pronunciación individualizada para la jerga de la industria. Incluso podemos agregar inflexión emocional. Pronto, la tecnología de expresión receptiva permitirá que los sistemas basados en voz ajusten el tono emocional en función de los patrones de habla del cliente.
Cuando las marcas desarrollan voces personalizadas, pueden implementar este identificador único en la creciente gama de dispositivos y medios de voz: asistentes de inteligencia artificial por voz, sistemas IVR, infoentretenimiento en el automóvil, pantallas interactivas en la tienda, materiales de aprendizaje electrónico, TV, radio. , anuncios en línea, videos de instrucciones, herramientas de accesibilidad, robots conversacionales y más. Esto crea una experiencia constante que sigue al cliente a lo largo de su día, mejorando el reconocimiento, la confianza y la lealtad, sin los costos de los contratos de talento continuos.
Este es el tipo de inteligencia artificial de voz que impulsará la innovación de la marca en el futuro. Una cosa que la lista de Voicebot.ai de 2019 de los principales esfuerzos de marca de voz no incluye es una gran cantidad de voces de marca generadas por IA. Ese año, el desarrollo de una aplicación de altavoz inteligente fue suficiente. Eso cambiará en las listas futuras.
En 2020, por ejemplo, Amazon anunció que habilitaría voces de marca en las habilidades de Alexa. Otros fabricantes de dispositivos inteligentes seguramente lo seguirán. Los innovadores de marca en voz del próximo año serán los que puedan incorporar de manera más efectiva la inteligencia artificial de voz en sus estrategias digitales.
Registro automático