Interfaces de Voz: China apuesta fuerte
La tecnología enfocada a la difusión de voz hace que cada vez sea más fácil llegar a la gente, y eso lo saben muy bien en las grandes compañías chinas. Cada vez es más sencillo usar un «smartphone», y esto hace que sea una herramienta de difusión masiva fundamental hoy en día.
Dé un paseo a través de Sanlitun, un barrio animado en Beijing lleno de turistas, bares de karaoke y tiendas de lujo; verá un montón de personas que utilizan los últimos smartphones de Apple, Samsung, o Xiaomi. Mira de cerca y es posible que observe algunos de ellos haciendo caso omiso de las pantallas táctiles de estos dispositivos a favor de algo mucho más eficiente e intuitiva: su voz.
Un número cada vez mayor, cerca de 691 millones de usuarios en China ahora se comunican con golpes, toques y teclados pequeños cuando hacen búsquedas en el buscador más popular del país, Baidu. China es un lugar ideal para que despeguen las interfaces de voz, ya que los caracteres chinos fueron diseñados para pantallas táctiles pequeñas. Por tanto, Baidu propone que la gente de todo el mundo debería beneficiarse de estos avances tecnológicos, ya que las interfaces de voz son una herramienta más práctica y útil para comunicarse con el entorno que nos rodea.
Creo que la voz podría alcanzar una fiabilidad tal, que dejaremos de pensar en otra manera de comnunicarnos» dice Andrew Ng, jefe de investigación de Baidu y profesor asociado en la Universidad de Stanford. «La mejor tecnología a menudo es invisible»
, apunta.
Las interfaces de voz han sido un sueño para los ingenieros (por no hablar de escritores de ciencia ficción) durante muchas décadas. Pero en los últimos años, gracias a algunos avances impresionantes en el aprendizaje automático, el control de voz se ha vuelto mucho más práctico.
Ya no se limita sólo a un pequeño conjunto de órdenes predeterminadas, ahora funcionan incluso en ambientes ruidosos, como las calles de Pekín o cuando se está hablando en una habitación. Asistentes virtuales operados por voz como Siri de Apple, Cortana de Microsoft y Google ahora vienen equipados con la mayoría de los teléfonos inteligentes y dispositivos más nuevos, como Alexa de Amazon, que ofrece una manera simple de buscar información o construir listas de compras con la voz. Los sistemas ofrecen una visión de un futuro en el que hay menos necesidad de aprender una nueva interfaz para cada dispositivo.Estos sistemas son casi perfectos, a veces fallan e interpretan mal los comandos de manera cómica, pero están mejorando constantemente, y ofrecen una visión de un futuro en el que habrá una menor necesidad de aprender nuevas interfaces para cada nuevo dispositivo.
Baidu está progresando de una manera impresionante, gran parte de ello es debido a la precisión de su reconocimiento de voz, y que tienen una proyección de mejora aún mayor. La empresa, fundada en el año 2000 como respuesta de China a Google, que actualmente está bloqueado allí, domina el mercado de búsqueda interna del país, con el 70% de todas las consultas realizadas. Así pues, la empresa ha ido creciendo y se ha convertido en proveedor de muchos servicios, desde música y películas en directo a la banca y los seguros.
Una interfaz móvil más eficiente sería de gran ayuda en China. Los teléfonos inteligentes son mucho más comunes que los dispositivos de sobremesa o portátiles, y sin embargo, navegar por Internet, enviar mensajes y hacer otras tareas puede ser muy lento y frustrante. Hay miles de caracteres chinos, y aunque el sistema llamado Pinyin les permite ser generados a partir de las letras latinas (fonéticamente), muchas personas (especialmente los mayores de 50 años) no conocen el sistema.
También es común en China utilizar aplicaciones de mensajería instantánea como WeChat para hacer todo tipo de tareas, tales como el pago de cuentas en restaurantes. Sin embargo, en muchas de las regiones más pobres de China, donde hay más oportunidades para que Internet tenga grandes efectos sociales y económicos, los niveles de alfabetización siguen siendo extremadamente bajos.
Es un reto y una oportunidad»
,dice Andrew Ng, que fue nombrado investigador del MIT. Él sostiene que hoy en día se debería enseñar antes el funcionamiento de los dispositivos móviles que de los ordenadores de sobremesa o portátiles.
Andrew cree que la tecnología de voz pronto podrá ser lo suficientemente potente para ser utilizada para con todo tipo de dispositivos. Robots o aparatos electrodomésticos, por ejemplo, podrían ser más fáciles de tratar si se pudiera simplemente hablar con ellos. La empresa cuenta con equipos de investigación en su sede en Beijing y en una instalación en Silicon Valley que se dedica a investigar la precisión en el reconocimiento de voz y trabajando para hacer que los ordenadores mejoren en analizar el significado de las oraciones.
Jim Glass, un científico investigador del MIT ha estado trabajando en la tecnología de voz estas últimas décadas, está de acuerdo con que el tiempo puede finalmente ser el aducuado para el control de voz.
El discurso ha llegado a un punto de inflexión en nuestra sociedad
, dice.
En mi experiencia, la gente prefiere hablar con un dispositivo en lugar de a través de un mando a distancia o un teclado.»
En noviembre del año pasado, Baidu alcanzó un hito importante en cuanto a su tecnología de voz, anunciando que su laboratorio de Silicon Valley ha desarrollado un nuevo y potente motor de reconocimiento de voz llamado Deep Speech 2. Consiste en una red muy grande, que aprende a asociar sonidos con palabras y frases medida que se alimenta a millones de ejemplos. Deep Speech 2 puede reconocer las palabras habladas con una precisión impresionante. De hecho, los investigadores encontraron que a veces puede transcribir fragmentos del chino mandarín con mayor precisión que una persona.
El progreso de Baidu es aún más impresionante de lo que pensamos porque el mandarín es fonéticamente muy complejo y utiliza tonos que transforman el significado de una palabra. Deep Speech 2 también es sorprendente ya que pocos de los investigadores en el laboratorio de California donde se desarrolló la tecnología, hablan mandarín, cantonés, o cualquier otra variante del chino. El motor funciona esencialmente como un sistema universal.
La mayoría de los comandos de voz que el motor de búsqueda de Baidu oye hoy en día son simples consultas relativas al tiempo o niveles de contaminación, por ejemplo. Para éstos, el sistema es generalmente impresionantemente exacto. Cada vez más, sin embargo, los usuarios están haciendo preguntas más complicadas. Para encargarse de ellos, el año pasado la compañía lanzó su propio asistente de voz, llamada Duer, como parte de su principal aplicación móvil.
Duer puede ayudar a los usuarios a encontrar horarios de películas o reservar una mesa en un restaurante. El gran desafío para Baidu será la enseñanza de sus sistemas de inteligencia artificial para entender y responder de manera inteligente las frases más complejas. Un grupo de investigación en las oficinas de Pekín de Baidu se dedica a mejorar el sistema que interpreta consultas de los usuarios. Esto implica el uso de la clase de tecnología que Baidu ha aplicado en el reconocimiento de voz, pero también requiere otros trucos.Baidu ha contratado a un equipo para analizar las consultas y corregir los errores.
En el futuro, me gustaría que seamos capaces de hablar con todos nuestros dispositivos y hacer que nos entiendan por completo»
, dice Andrew Ng.
Espero tener algún día nietos que hablen con los electrodomésticos diciendo un simple ‘Hola’ a su microondas… sería increíble ver cómo no son conscientes que eso sería algo completamente revolucionario ahora en 2016.»
Vía MIT Reviews
Síguenos! Canal Noticias tlgramNET.
Últimos comentarios