Tecnologías de voz que llegan a Canarias: reconocimiento del habla, 'speech to text' y transcripciones

Vicomtech desarrolla un sistema para clonar voces humanas basado en inteligencia artificial

Las Palmas de Gran Canaria — 22 de junio de 2020 11:43 h

En primer lugar, desde el lado de la tecnología debemos diferenciar claramente entre reconocimiento del habla (speech recognition) y del hablante (voice recognition), ya que ambas son tecnologías que proporcionan usos diferentes. El reconocimiento del habla implica grabar palabras habladas usando un micrófono o un teléfono. El audio se convierte en un conjunto de palabras almacenadas digitalmente en los dispositivos de reconocimiento de voz.

Cualquier programa de reconocimiento del habla (speech recognition) se evalúa utilizando dos factores: precisión (porcentaje de error al convertir palabras habladas en datos digitales) y velocidad (hasta qué punto el programa puede mantenerse al día con un hablante humano). La tecnología de reconocimiento del habla tiene una larga lista de aplicaciones: dictado general, transcripción, uso de una computadora manos libres, transcripción médica, servicio al cliente automatizado, etc..

Por su lado, el propósito del reconocimiento de voz o del hablante (voice recognition) es identificar a la persona que está hablando. El reconocimiento del hablante funciona escaneando los aspectos del habla que difieren entre las personas. Todos tienen una forma de hablar única para ellos. Los usos del reconocimiento del hablante son, entre otros, confirmar la identidad del hablante o determinar la identidad de un individuo desconocido.

La verificación del hablante y la identificación del orador son categorías de reconocimiento de voz. La verificación de orador permite autenticar que es quien dicen ser. Esencialmente, la voz de una persona se usa como un identificador único. Se graba una muestra de su discurso. Luego, los patrones de habla de esa persona se comparan con una base de datos para ver si hay una coincidencia entre la voz de la persona y su muestra de voz.

La tecnología de reconocimiento de voz ofrece un enfoque mucho más natural e intuitivo que las interfaces tradicionales, como sitios web, aplicaciones móviles y controles remotos. Esto se debe a que el lenguaje hablado es la forma más fácil de traducir pensamientos en comandos que dirigen la acción. Las personas desean usar la voz para simplificar los dispositivos que ya usan.

En segundo lugar, las personas expresan casi universalmente el deseo de pasar menos tiempo con las pantallas. Los consumidores actuales son perpetuos multitarea que se benefician de la interfaz manos libres de los sistemas de voz.

El sector de las noticias y el seguimiento de medios

Dado que la cobertura de los medios se transmite en más canales que nunca antes, es cada vez más importante rastrear y monitorear esas emisiones. Desde la televisión, la radio, las redes sociales y muchos otros canales, es esencial que las marcas capturen lo que se dice sobre una persona, situación, evento o marca. Puede ayudar a las empresas comerciales, campañas políticas, científicos, etc., a analizar lo que se dice sobre un tema. Esto lleva a un mejor análisis.

Las compañías como MMI Analytics en España están utilizando tecnología de reconocimiento de voz para monitorear la cobertura de los medios a través de TV, radio o redes sociales para convertir ese contenido hablado en texto. Las compañías de monitoreo pueden escuchar palabras clave o términos específicos en tiempo real o de archivos pregrabados, y así clasificar e indexar a efectos de análisis.

La voz es un conjunto de datos críticos porque contiene mucho más valor que cualquier otro medio de comunicación“. Los medios están utilizando datos de voz para categorizar, indexar y mejorar el descubrimiento de activos digitales basados en elementos como palabras clave, nombres, personas, eventos, fechas, lugares, género u otras categorías deseadas.

La adopción de la tecnología de voz para la gestión de activos de los medios les permite mejorar significativamente la productividad organizacional. Reduce el tiempo necesario para buscar clips multimedia y por tanto reduce considerablemente los costos.

Otro uso esencia es el de las transcripciones, una tecnología que MMI Analytics pone a disposición de sus clientes. Con el 85% de los videos de Facebook siendo vistos sin sonido, los subtítulos son esenciales para el contenido de video que se muestra en las redes sociales. La cantidad del contenido de video que se sube a Internet aumenta exponencialmente, por lo que la necesidad de transcripción automática nunca ha sido más crucial para la accesibilidad del contenido.

Sobre este blog

Espacio para el análisis del impacto de las organizaciones en las redes sociales. Inteligencia artificial, machine learning y tecnologías especialmente aplicadas a inteligencia de negocio y media intelligence

Autores