Potencia tu creatividad con las herramientas más innovadoras para interfaces de voz

Una interfaz de usuario por voz, o VUI (por sus siglas en inglés), se describe como una tecnología que permite a las personas interactuar con una computadora o dispositivo utilizando comandos hablados. La tecnología VUI está evolucionando mucho más rápido que sus predecesores (piense en teclados, ratones y pantallas táctiles). Se estima que 94 millones de personas son propietarias de un altavoz inteligente solo en los Estados Unidos, y cualquiera que haya usado un teléfono móvil o un control remoto de TV en los últimos cinco años sabe que los interfaces de usuario por voz no se limitan solo a los altavoces inteligentes independientes.

Gran parte de este crecimiento se puede atribuir a la tecnología en sí. La inteligencia artificial que impulsa la comprensión del lenguaje natural (NLU, por sus siglas en inglés) detrás de las experiencias impulsadas por voz de gigantes como Apple, Amazon y Google es simplemente asombrosa, pero no es solo la tecnología lo que impulsa este crecimiento.

Tenemos que considerar que los seres humanos hemos estado utilizando el lenguaje hablado durante al menos 200,000 años (según la mayoría de las estimaciones). Hay más de 6,000 idiomas hablados hoy en día en todo el mundo. Al combinar esto con el conocimiento de que en promedio las personas hablan entre 125 y 300 palabras por minuto (más de tres veces más rápido que escriben), no es de sorprender que los interfaces de usuario por voz estén en aumento. De hecho, se podría argumentar razonablemente que si esta tecnología hubiera existido cuando las computadoras estaban disponibles por primera vez, ninguno de nosotros se hubiera molestado en aprender a escribir en absoluto. Los humanos están conectados de forma natural con los VUI.

Sin embargo, los avances tecnológicos necesarios para potenciar interfaces de usuario por voz muy precisos no estaban disponibles cuando las computadoras llegaron al mercado. Al crecer en los años 80, la posibilidad de dar comandos hablados a una computadora era algo sacado de la ciencia ficción: un futuro lejano en el puente de una nave estelar, si se creía en lo que se veía en la televisión. Por lo tanto, en muchos sentidos, fueron los escritores de ciencia ficción y su imaginación los que dieron forma a los VUI de hoy en día.

Eso no será el caso para los VUI del futuro. Hay toda una generación de niños que crecen junto a los asistentes de voz. Una generación de niños que nunca conocerá un mundo en el que esta tecnología no exista. Eso en sí mismo es muy poderoso y seguramente dará forma a la tecnología con una vida de evidencia empírica y anecdótica. Pero hay más en esta historia que solo la idea de que cuando un niño use una computadora, también tendrá una interfaz de usuario por voz a su disposición. De hecho, la mayoría de los niños aprenden a hablar mucho antes de aprender a leer o escribir. Lo que significa que, en muchos casos, la primera interacción digital que un niño tiene será una experiencia basada en la voz.

Índice de Contenido
  1. El creciente mercado de interfaces de usuario por voz
  2. Liderando el camino en el espacio de las interfaces de usuario por voz
  3. Herramientas de desarrollo de VUI
    1. Kit de habilidades de Alexa (ASK, por sus siglas en inglés)
    2. Action Builder (para Google Assistant)
    3. Annyang
    4. Mycroft
    5. API de voz web
  4. Conclusiones

El creciente mercado de interfaces de usuario por voz

En 2018, Amazon lanzó su Echo Dot para niños. Ahora, en su cuarta versión, el Echo Dot para niños ingresó al mercado en medio de la creciente realización de que: A) los niños más pequeños estaban utilizando dispositivos de voz en casa y B) los dispositivos disponibles en el mercado alrededor de 2018 estaban diseñados pensando en los adultos, no en sus hijos. Con su Echo Dot para niños, Amazon buscó abordar las preocupaciones generadas por los incidentes en los que los niños ordenaban juguetes a través de Alexa sin el permiso de sus padres, y algunos expertos se preocupaban de que los asistentes virtuales pudieran enseñar malos modales a los niños.

Enseñanza y Aprendizaje con Microsoft: Herramientas y Lecciones para Profesores de todos los Niveles

Pero ser pionero en una plataforma de voz para niños no se trata solo de crear una experiencia con más barreras protectoras. Se trata de curar esa experiencia con contenido adecuado. Con su suscripción Amazon Kids+, Amazon está trabajando con socios para desbloquear el potencial de esta tecnología con experiencias de aprendizaje muy específicas adaptadas a niños de tan solo tres años.

Amazon debe estar en algo, ya que otros grandes actores en el espacio del procesamiento del lenguaje natural también han seguido el ejemplo. Google, por ejemplo, lanzó un asistente de voz dirigido a niños en 2020. Mientras tanto, startups como MyBuddy.ai, que se centran específicamente en la tecnología de voz para niños, están encontrando inversores dispuestos a impulsar su trayectoria como disruptores percibidos. El beneficio potencial que las VUI ofrecen a los niños, especialmente en cuanto a los resultados educativos tanto en el hogar como en el aula, es difícil de ignorar.

Los desarrolladores de software se apresuran a señalar que las mejores prácticas para desarrollar experiencias de voz para niños aún son variables. Existen preocupaciones obvias de seguridad y privacidad, así como obstáculos técnicos y de diseño. El problema radica en que los modelos subyacentes que impulsan las principales herramientas de voz disponibles en el mercado fueron creados grabando y analizando los patrones de habla de millones de adultos.

Decodificar la intención de un niño puede ser mucho más complejo. Existe una variación increíble en las voces y los patrones de habla de los niños. A veces, los niños sobreenuncian palabras, alargan sílabas, omiten palabras por completo o hacen pausas dramáticas mientras piensan en voz alta. Como adultos, tendemos a ajustar nuestros patrones de habla al interactuar con una interfaz de voz digital. No ocurre lo mismo con los niños. Los niños simplemente dicen lo que están pensando a medida que les viene a la mente.

Aunque algunos de estos desafíos pueden ser tecnológicos, un diseñador de voz experimentado puede abordar una cantidad abrumadora de ellos con una planificación y pruebas cuidadosas. Además, hay orientación disponible si estás dispuesto a investigar un poco. PBS, Disney, Sesame Street y Cartoon Network han desarrollado experiencias de voz dirigidas a niños de seis años o menos, y muchos de sus equipos de desarrollo han compartido sus conocimientos en podcasts, blogs y documentos técnicos. Amazon, por ejemplo, ofrece un documento técnico descargable y gratuito titulado "6 consejos para crear habilidades infantiles estelares", que proporciona una excelente orientación. Quizás aún más impresionante sea la lista de 12 principios de diseño de voz publicados por el equipo de diseño de la BBC, inspirados en su trabajo en una experiencia de voz con marca para niños de tres a siete años.

Liderando el camino en el espacio de las interfaces de usuario por voz

Una marca que busca formas de brindar experiencias de voz significativas a los lectores principiantes y tempranos es Noggin. Noggin (parte de Nickelodeon, propiedad de ViacomCBS) lanzó recientemente una experiencia interactiva basada en voz llamada "Caras de emociones" en la aplicación de Noggin para iOS y Android. Es una experiencia altamente interactiva en la que un niño puede conversar directamente con Rubble, el adorable Bulldog Inglés favorito del programa de televisión "Paw Patrol" de Nick Jr. Rubble mostrará diversas emociones en la aplicación y pedirá a los niños que griten qué emoción creen que está sintiendo su personaje animado favorito.

Guía de Examen de Certificación Lotus Notes: Desarrollo de Aplicaciones y Administración del Sistema

Newsmatic tuvo la oportunidad de hablar sobre el proyecto con Tim Adams, vicepresidente del grupo de productos emergentes de ViacomCBS. Su equipo es responsable de combinar tecnologías emergentes, como VUI, con las marcas, propiedad intelectual, y, por supuesto, la audiencia de Viacom. El equipo de Adams apoya a varias marcas, desde MTV hasta Comedy Central. Han estado involucrados en proyectos de voz desde que Amazon abrió Alexa a terceros. Pero Noggin, con su audiencia preescolar, requería algo especial.

Según Adams, tenían varias ideas. "Se podría utilizar la voz para guiar una narrativa", dijo. "Lo intentamos, pero no funcionaba del todo... no era convincente porque no se sentía íntimo o conversacional".

Luego, Adams y su equipo se encontraron con "Paw Patrol" y el trabajo que estaban haciendo en "Caras de emociones". "Eran videos de corta duración donde los personajes hablaban directamente a la cámara, ¡y dijimos vamos a hacer eso!"

Una vez que se formó la idea, el trabajo avanzó rápidamente. Adams y su equipo adaptaron contenido lineal existente para que fuera interactivo con voz. Realizaron muchas pruebas de usuario, buscando formas en las que la experiencia pudiera no funcionar para esta joven audiencia. Obtuvieron buenos resultados y más.

Adams continúa explicando: "Hay momentos en los que él (el personaje de "Paw Patrol") pregunta 'Déjame ver tu cara graciosa' y ellos (los niños) lo hacen con total honestidad... no es un tipo de interacción robótica entre el niño y el contenido. Para ellos, es muy natural".

Por supuesto, el compromiso no fue la única prioridad.

Cómo gestionar eficazmente grandes volúmenes de correo electrónico

"En primer lugar, tiene que ser seguro para los niños", agregó Adams. Su equipo trabajó desde una perspectiva de cumplimiento y tecnología para desarrollar una solución que no envía ninguna voz o dato a la nube para su procesamiento. Un logro impresionante considerando lo intensivo en CPU que puede llegar a ser el procesamiento del lenguaje natural.

Aunque Adams dice que esto es solo una prueba piloto, los resultados parecen prometedores. Cuando se lanzó en septiembre de 2021, el contenido de "Caras de emociones" en la aplicación de Noggin fue uno de los que mejor rendimiento tuvo.

Uno de los principales aprendizajes que Adams tiene para los equipos que buscan replicar el éxito de Noggin en el campo de la voz es un principio de diseño que él mismo llamó "bumpers". Adams y su equipo simplemente aceptaron que, debido a las limitaciones tecnológicas y la variedad de habilidades lingüísticas en este grupo de niños, habrá momentos en los que la VUI no podrá descifrar correctamente la intención del niño. Para Adams, la clave fue reemplazar ese momento frustrante con uno agradable que guíe al niño de nuevo hacia la conversación y el objetivo final.

"Como las bandas protectoras de un carril de boliche, que admitámoslo, son divertidas cuando te topas con ellas", explicó Adams.

Herramientas de desarrollo de VUI

Si bien entrenar modelos de voz para reconocer con éxito las entradas de usuarios más jóvenes requiere mucha más prueba, la actual gama de herramientas utilizadas para desarrollar estas experiencias son, en su mayoría, las mismas que se utilizan para desarrollar interfaces de usuario por voz para la población general. Estas herramientas han madurado mucho en los últimos cinco años, y no hay razón para pensar que no seguirán mejorando. Esto significa que ya no es necesario ser un especialista para desarrollar interfaces de usuario por voz. Si tienes pasión por construir experiencias significativas basadas en la voz para niños, hay varias herramientas y servicios con los que puedes comenzar de inmediato.

Kit de habilidades de Alexa (ASK, por sus siglas en inglés)

El asistente de voz de Amazon fue uno de los primeros en aparecer y tiene una base sólida para comenzar. Además, el Kit de habilidades de Alexa es una forma fácil de adentrarse en el desarrollo de VUI. Con él, puedes comenzar rápidamente, y si tus requisitos crecen más allá de lo que ASK puede manejar, puedes utilizar lo que has aprendido para dar el salto a servicios más especializados de AWS como Lex y Polly, que se encargan del procesamiento del lenguaje natural y de la conversión de texto a voz, respectivamente.

Integración de StarOffice: calendarios

Action Builder (para Google Assistant)

Google Assistant está en todas partes: altavoces inteligentes, controles remotos, termostatos y, por supuesto, en nuestros navegadores web y en nuestros teléfonos móviles. Si bien el Action Builder de Google tiene una curva de aprendizaje ligeramente mayor que el Kit de habilidades de Alexa, los laboratorios de códigos de Google ofrecen cursos gratuitos, prácticos y de introducción para que puedas ponerte en marcha rápidamente.

Annyang

Aunque Annyang solo se ocupa del lado NLP (procesamiento del lenguaje natural) de la ecuación, lo hace con una biblioteca de reconocimiento de voz en JavaScript de código abierto y con licencia MIT que pesa menos de dos kilobytes y funciona completamente en el lado del cliente. Esto puede ser una gran ventaja cuando estás construyendo una aplicación para niños y necesitas asegurarte de que no se almacene ni se envíe información de identificación a través de Internet como condición de cumplimiento de la Ley de Protección de la Privacidad en Línea para Niños.

Mycroft

Esta es otra opción de código abierto. A diferencia de la mayoría de las otras herramientas de voz mencionadas aquí, que están más inclinadas hacia JavaScript, Mycroft es nativo de Python y está destinado a ser un asistente digital completamente de código abierto. Todo el stack se puede implementar en hardware personalizado, lo que lo hace un poco más independiente del proveedor en comparación con algunas de las otras opciones en el mercado.

API de voz web

Ninguna discusión sobre herramientas de procesamiento de lenguaje natural estaría completa sin mencionar la API de voz web. Elaborada por la comunidad de W3C en 2012, esta solución basada en la web es bastante completa. Desafortunadamente, hasta 2021, aún no cuenta con un soporte de navegadores uniforme. Sin embargo, si sabes que tu proyecto se limita a ciertas versiones de Chrome y/o Mozilla, es una forma rápida de adentrarse en el desarrollo de VUI.

Conclusiones

Es difícil especular cómo serán las interfaces de usuario por voz del futuro en términos de apariencia o sonido. Solo basta con ver el fragmento de la conferencia Google IO del año pasado, donde la tecnología de voz revolucionaria de la compañía personificó al planeta Plutón y, posteriormente, a un avión de papel, para saber que este campo se dirige hacia territorios desconocidos hasta ahora. Lo que debería quedar claro es que los usuarios de la VUI del futuro están aquí hoy. La oportunidad de invertir en estos usuarios, nuestros hijos, y el potencial que la VUI tiene para ellos es real, y es importante que lo hagamos correctamente.

Cómo gestionar eficazmente el correo electrónico en tu empresa

En Newsmatic nos especializamos en tecnología de vanguardia, contamos con los artículos mas novedosos sobre Software, allí encontraras muchos artículos similares a Potencia tu creatividad con las herramientas más innovadoras para interfaces de voz , tenemos lo ultimo en tecnología 2023.

Artículos Relacionados

Subir

Utilizamos cookies para mejorar su experiencia de navegación, mostrarle anuncios o contenidos personalizados y analizar nuestro tráfico. Al hacer clic en “Aceptar todo” usted da su consentimiento a nuestro uso de las cookies.