O número de aplicacións e a importancia das interfaces de voz está a crecer rapidamente

Contido

catro grandes
Os americanos queren comprar
Lavar, cocer, limpar!
Antigo concepto. Por fin chegou a súa hora?
pregunta técnicamente difícil
Voz? Artes gráficas? Ou quizais os dous?
Coidado coa seguridade!

Unha familia estadounidense en Portland, Oregón, soubo recentemente que o asistente de voz de Alex gravou os seus chats privados e enviounos a un amigo. A propietaria da casa, chamada Danielle polos medios, dixo aos xornalistas que "nunca volvería conectar este dispositivo porque non se pode confiar nela".

Alexa, proporcionado polos altofalantes Echo (1) e outros gadgets en decenas de millóns de fogares dos Estados Unidos, comeza a gravar cando escoita o seu nome ou "palabra de chamada" pronunciada polo usuario. Isto significa que aínda que se mencione a palabra "Alexa" nun anuncio de televisión, o dispositivo pode comezar a gravar. Iso é exactamente o que pasou neste caso, di Amazon, o distribuidor de hardware.

"O resto da conversación foi interpretada polo asistente de voz como un comando para enviar unha mensaxe", dixo a compañía nun comunicado. "Nalgún momento, Alexa preguntou en voz alta: "A quen?" A continuación da conversación familiar sobre o chan de madeira debería ser percibida pola máquina como un elemento na lista de contactos do cliente. Polo menos iso é o que pensa Amazon. Así, a tradución redúcese a unha serie de accidentes.

A ansiedade, con todo, permanece. Porque por algo, nunha casa na que aínda nos sentimos a gusto, temos que entrar nalgún tipo de “modo de voz”, ver o que dicimos, o que transmite a televisión e, por suposto, o que este novo altofalante no peito de caixóns di. nós.

Non obstante, A pesar das imperfeccións tecnolóxicas e os problemas de privacidade, co aumento da popularidade de dispositivos como Amazon Echo, a xente comeza a acostumarse á idea de interactuar cos ordenadores usando a súa voz..

Como Werner Vogels, CTO de Amazon, sinalou durante a súa sesión de AWS re:Invent a finais de 2017, a tecnoloxía limitou ata agora a nosa capacidade de interactuar cos ordenadores. Escribimos palabras clave en Google mediante o teclado, xa que aínda é a forma máis común e sinxela de introducir información nunha máquina.

dixo Vogels. -

catro grandes

Ao usar o buscador de Google no teléfono, probablemente observamos un sinal de micrófono cunha chamada para falar hai moito tempo. Isto Google agora (2), que se pode usar para ditar unha consulta de busca, introducir unha mensaxe por voz, etc. Nos últimos anos, Google, Apple e Amazon melloraron moito. tecnoloxía de recoñecemento de voz. Os asistentes de voz como Alexa, Siri e Google Assistant non só gravan a túa voz, senón que tamén entenden o que lles dis e responden preguntas.

Google Now está dispoñible de balde para todos os usuarios de Android. A aplicación pode, por exemplo, configurar unha alarma, consultar a previsión do tempo e comprobar a ruta en Google Maps. Extensión conversacional dos estados de Google Now Asistente de Google () – asistencia virtual ao usuario do equipamento. Está dispoñible principalmente en dispositivos móbiles e domésticos intelixentes. A diferenza de Google Now, pode participar nun intercambio bidireccional. O asistente debutou en maio de 2016 como parte da aplicación de mensaxería de Google Allo, así como no altofalante de voz de Google Home (3).

3. Google Home

O sistema IOS tamén ten o seu propio asistente virtual, Siri, que é un programa incluído cos sistemas operativos de Apple iOS, watchOS, tvOS homepod e macOS. Siri debutou con iOS 5 e iPhone 4s en outubro de 2011 na conferencia Let's Talk iPhone.

O software baséase nunha interface conversacional: recoñece a fala natural do usuario (con iOS 11 tamén é posible introducir comandos manualmente), responde preguntas e completa tarefas. Grazas á introdución da aprendizaxe automática, un asistente ao longo do tempo analiza as preferencias persoais o usuario para proporcionar resultados e recomendacións máis relevantes. Siri require unha conexión constante a Internet: as principais fontes de información aquí son Bing e Wolfram Alpha. iOS 10 introduciu soporte para extensións de terceiros.

Outro dos catro grandes Cortana. É un asistente persoal intelixente creado por Microsoft. É compatible con Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android e plataformas iOS. Cortana presentouse por primeira vez na Microsoft Build Developer Conference en abril de 2014 en San Francisco. O nome do programa provén do nome dun personaxe da serie de xogos Halo. Cortana está dispoñible en inglés, italiano, español, francés, alemán, chinés e xaponés.

Usuarios do programa xa mencionado Alexa tamén deben ter en conta as restricións lingüísticas: o asistente dixital só fala inglés, alemán, francés e xaponés.

O asistente virtual de Amazon utilizouse por primeira vez nos altofalantes intelixentes Amazon Echo e Amazon Echo Dot desenvolvidos por Amazon Lab126. Permite a interacción de voz, a reprodución de música, a creación de listas de tarefas, a configuración de alarmas, a reprodución de podcasts, a reprodución de audiolibros e información en tempo real sobre o tempo, o tráfico, os deportes e outras noticias como noticias (4). Alexa pode controlar varios dispositivos intelixentes para crear un sistema de domótica. Tamén se pode usar para facer compras cómodas na tenda de Amazon.

4. Para que usan os usuarios Echo (segundo a investigación)

Os usuarios poden mellorar a experiencia de Alexa instalando as "habilidades" de Alexa (), funcións adicionais desenvolvidas por terceiros, máis comunmente coñecidas como aplicacións como o tempo e os programas de audio noutras configuracións. A maioría dos dispositivos Alexa permítenche activar o teu asistente virtual cun contrasinal de activación, chamado .

Hoxe, Amazon domina definitivamente o mercado de altofalantes intelixentes (5). IBM, que presentou un novo servizo en marzo de 2018, está a tentar entrar entre os catro primeiros Asistente de Watson, pensado para empresas que queiran crear os seus propios sistemas de asistentes virtuais con control por voz. Cal é a vantaxe da solución de IBM? Segundo os representantes da empresa, en primeiro lugar, sobre moito maiores oportunidades de personalización e protección da privacidade.

En primeiro lugar, Watson Assistant non ten marca. As empresas poden crear as súas propias solucións nesta plataforma e etiquetalas coa súa propia marca.

En segundo lugar, poden adestrar os seus sistemas de asistencia utilizando os seus propios conxuntos de datos, o que segundo IBM facilita engadir funcións e comandos a ese sistema que outras tecnoloxías VUI (interfaz de usuario de voz).

En terceiro lugar, Watson Assistant non proporciona a IBM información sobre a actividade dos usuarios: os desenvolvedores de solucións da plataforma só poden gardar datos valiosos para si mesmos. Mentres tanto, calquera que constrúe dispositivos, por exemplo con Alexa, debe ser consciente de que os seus valiosos datos acabarán en Amazon.

Watson Assistant xa ten varias implementacións. O sistema foi utilizado, por exemplo, por Harman, que creou un asistente de voz para o concept car Maserati (6). No aeroporto de Múnic, un asistente de IBM manexa un robot Pepper para axudar aos pasaxeiros a moverse. O terceiro exemplo é Chameleon Technologies, onde se usa a tecnoloxía de voz nun medidor de casa intelixente.

6. Asistente de Watson nun concept car Maserati

Paga a pena engadir que a tecnoloxía subxacente aquí tampouco é nova. Watson Assistant inclúe capacidades de cifrado para os produtos IBM existentes, Watson Conversation e Watson Virtual Agent, así como API para análise de linguaxe e chat.

Amazon non só é líder en tecnoloxía de voz intelixente, senón que está a convertela nun negocio directo. Non obstante, algunhas empresas experimentaron coa integración de Echo moito antes. Sisense, unha empresa do sector de BI e análise, presentou a integración Echo en xullo de 2016. Pola súa banda, a startup Roxy decidiu crear o seu propio software e hardware con control de voz para a hostalería. A principios deste ano, Synqq presentou unha aplicación para tomar notas que usa o procesamento de voz e linguaxe natural para engadir notas e entradas de calendario sen ter que teclealas no teclado.

Todas estas pequenas empresas teñen grandes ambicións. Sobre todo, con todo, souberon que non todos os usuarios queren transferir os seus datos a Amazon, Google, Apple ou Microsoft, que son os actores máis importantes na construción de plataformas de comunicación por voz.

Os americanos queren comprar

En 2016, a busca por voz representou o 20% de todas as buscas móbiles de Google. As persoas que usan esta tecnoloxía a diario citan a súa comodidade e a súa multitarefa entre os seus maiores beneficios. (por exemplo, a posibilidade de utilizar un motor de busca mentres conduce un coche).

Os analistas de Visiongain estiman o valor de mercado actual dos asistentes dixitais intelixentes en 1,138 millóns de dólares. Cada vez hai máis mecanismos deste tipo. Segundo Gartner, a finais de 2018 xa 30% das nosas interaccións coa tecnoloxía será a través de conversas con sistemas de voz.

A firma de investigación británica IHS Markit estima que o mercado de asistentes dixitais alimentados por intelixencia artificial alcanzará os 4 millóns de dispositivos a finais deste ano, e ese número podería aumentar ata os 2020 millóns en 7.

Segundo informes de eMarketer e VoiceLabs, 2017 millóns de estadounidenses utilizaron o control de voz polo menos unha vez ao mes en 35,6. Isto supón un incremento de case un 130% con respecto ao ano anterior. Espérase que só o mercado de asistentes dixitais creza en 2018 % en 23. Isto significa que xa os utilizará. 60,5 millóns de estadounidenses, o que redundará en diñeiro concreto para os seus produtores. RBC Capital Markets estima que a interface de Alexa xerará ata 2020 millóns de dólares en ingresos para Amazon para 10.

Lavar, cocer, limpar!

As interfaces de voz están entrando cada vez con máis coraxe nos mercados de electrodomésticos e electrónicos de consumo. Isto xa se puido ver durante a exposición IFA 2017 do ano pasado. A empresa estadounidense Neato Robotics presentou, por exemplo, un robot aspirador que se conecta a unha das varias plataformas domésticas intelixentes, entre elas o sistema Amazon Echo. Ao falar co altofalante intelixente Echo, podes indicarlle á máquina que limpe toda a túa casa a horas específicas do día ou da noite.

No salón presentáronse outros produtos activados por voz, que van desde televisores intelixentes vendidos baixo a marca Toshiba pola empresa turca Vestel ata mantas quentadas da empresa alemá Beurer. Moitos destes dispositivos electrónicos tamén se poden activar de forma remota mediante teléfonos intelixentes.

Non obstante, segundo os representantes de Bosch, é demasiado pronto para dicir cal das opcións de asistente doméstico será dominante. Na IFA 2017, un grupo técnico alemán presentou lavadoras (7), fornos e máquinas de café que se conectan a Echo. Bosch tamén quere que no futuro os seus dispositivos sexan compatibles coas plataformas de voz de Google e Apple.

7. Lavadora Bosch que se conecta a Amazon Echo

Empresas como Fujitsu, Sony e Panasonic están a desenvolver as súas propias solucións de asistentes de voz baseadas na intelixencia artificial. Sharp está a engadir esta tecnoloxía aos fornos e pequenos robots que entran no mercado. Nippon Telegraph & Telephone está a contratar fabricantes de hardware e xoguetes para adaptar un sistema de intelixencia artificial controlado por voz.

Antigo concepto. Por fin chegou a súa hora?

De feito, o concepto de Interface de usuario de voz (VUI) existe desde hai décadas. Calquera que vira Star Trek ou 2001: A Space Odyssey hai anos probablemente esperaba que ao redor do ano 2000 todos controlariamos os ordenadores coa nosa voz. Ademais, non foron só os escritores de ciencia ficción os que viron o potencial deste tipo de interfaces. En 1986, os investigadores de Nielsen preguntaron aos profesionais de TI cal pensaban que sería o maior cambio nas interfaces de usuario para o ano 2000. Na maioría das veces sinalaron o desenvolvemento de interfaces de voz.

Hai motivos para esperar esa solución. A comunicación verbal é, despois de todo, a forma máis natural para que as persoas intercambien pensamentos conscientemente, polo que usala para a interacción humano-máquina parece a mellor solución ata agora.

Un dos primeiros VUI, chamado caixa de zapatos, foi creada a principios dos anos 60 por IBM. Foi o precursor dos sistemas de recoñecemento de voz actuais. Non obstante, o desenvolvemento de dispositivos VUI estivo limitado polos límites da potencia de cálculo. Analizar e interpretar a fala humana en tempo real require moito esforzo, e levou máis de cincuenta anos chegar ao punto no que realmente se fixo posible.

Os dispositivos con interface de voz comezaron a aparecer na produción en masa a mediados dos anos 90, pero non gañaron popularidade. O primeiro teléfono con control de voz (marcación) foi Philips Sparklanzado en 1996. Non obstante, este dispositivo innovador e sinxelo de usar non estaba exento de limitacións tecnolóxicas.

Outros teléfonos equipados con formas de interface de voz (creados por empresas como RIM, Samsung ou Motorola) chegan regularmente ao mercado, que permiten aos usuarios marcar por voz ou enviar mensaxes de texto. Todos eles, porén, requirían memorizar comandos específicos e pronuncialos de forma forzada, artificial, adaptada ás capacidades dos aparellos daquela. Isto xerou unha gran cantidade de erros que, á súa vez, provocaron a insatisfacción dos usuarios.

Non obstante, agora estamos entrando nunha nova era da informática, na que os avances na aprendizaxe automática e o desenvolvemento da intelixencia artificial están a desbloquear o potencial da conversación como unha nova forma de interactuar coa tecnoloxía (8). O número de dispositivos que admiten a interacción de voz converteuse nun factor importante que tivo un gran impacto no desenvolvemento de VUI. Hoxe, case 1/3 da poboación mundial xa posúe teléfonos intelixentes que se poden utilizar para este tipo de comportamentos. Parece que a maioría dos usuarios están finalmente preparados para adaptar as súas interfaces de voz.

8. Historia moderna do desenvolvemento da interface de voz

Non obstante, antes de poder falar libremente cun ordenador, como fixeron os heroes de A Space Odyssey, debemos superar unha serie de problemas. As máquinas aínda non son moi boas para manexar os matices lingüísticos. Ademais moitas persoas aínda se senten incómodas ao dar comandos de voz a un motor de busca.

As estatísticas mostran que os asistentes de voz úsanse principalmente na casa ou entre amigos íntimos. Ningún dos entrevistados admitiu utilizar a busca por voz en lugares públicos. Non obstante, é probable que este bloqueo desapareza coa difusión desta tecnoloxía.

pregunta técnicamente difícil

O problema ao que se enfrontan os sistemas (ASR) é extraer datos útiles dun sinal de voz e asocialos a unha determinada palabra que teña un determinado significado para unha persoa. Os sons producidos son diferentes cada vez.

Variabilidade do sinal de voz é a súa propiedade natural, grazas á cal, por exemplo, recoñecemos un acento ou unha entoación. Cada elemento do sistema de recoñecemento de voz ten unha tarefa específica. A partir do sinal procesado e dos seus parámetros, créase un modelo acústico, que se asocia co modelo de linguaxe. O sistema de recoñecemento pode funcionar en base a un número pequeno ou grande de patróns, o que determina o tamaño do vocabulario co que traballa. Poden ser pequenos dicionarios no caso de sistemas que recoñezan palabras ou comandos individuais, así como grandes bases de datos contén o equivalente do conxunto lingüístico e tendo en conta o modelo lingüístico (gramática).

Problemas aos que se enfrontan as interfaces de voz en primeiro lugar comprender correctamente o discurso, na que, por exemplo, se omiten a miúdo secuencias gramaticais enteiras, ocorren erros lingüísticos e fonéticos, erros, omisións, defectos de fala, homónimos, repeticións inxustificadas, etc.. Todos estes sistemas ACP deben funcionar de forma rápida e fiable. Polo menos esas son as expectativas.

A fonte das dificultades son tamén sinais acústicos distintos da fala recoñecida que entran na entrada do sistema de recoñecemento, é dicir. todo tipo interferencias e ruídos. No caso máis sinxelo, necesitas filtrar. Esta tarefa parece rutineira e sinxela; despois de todo, filtrónse varios sinais e cada enxeñeiro electrónico sabe que facer ante tal situación. Non obstante, isto debe facerse con moito coidado e coidado se o resultado do recoñecemento da voz é satisfacer as nosas expectativas.

O filtrado que se emprega actualmente permite eliminar, xunto co sinal de voz, o ruído externo captado polo micrófono e as propiedades internas do propio sinal de voz, que dificultan o seu recoñecemento. Non obstante, un problema técnico moito máis complexo xorde cando a interferencia no sinal de fala analizado é... outro sinal de voz, é dicir, por exemplo, discusións ruidosas arredor. Esta pregunta é coñecida na literatura como a chamada . Isto xa require o uso de métodos complexos, os chamados. deconvolución (desentrañando) o sinal.

Os problemas co recoñecemento de voz non rematan aí. Paga a pena entender que o discurso leva moitos tipos diferentes de información. A voz humana suxire o xénero, a idade, os distintos caracteres do propietario ou o estado da súa saúde. Existe un amplo departamento de enxeñaría biomédica que se ocupa do diagnóstico de diversas enfermidades en función dos fenómenos acústicos característicos que se atopan no sinal de voz.

Tamén hai aplicacións nas que o obxectivo principal da análise acústica dun sinal de voz é identificar o falante ou verificar que é quen di ser (voz en lugar de clave, contrasinal ou código PUK). Isto pode ser importante, especialmente para as tecnoloxías de construción intelixente.

O primeiro compoñente dun sistema de recoñecemento de voz é микрофон. Non obstante, o sinal captado polo micrófono adoita ser de pouco uso. Os estudos demostran que a forma e o curso da onda sonora varían moito dependendo da persoa, da velocidade da fala e, en parte, do estado de ánimo do interlocutor, mentres que en pequena medida reflicten o propio contido dos comandos falados.

Polo tanto, o sinal debe ser procesado correctamente. A acústica moderna, a fonética e a informática en conxunto proporcionan un rico conxunto de ferramentas que se poden utilizar para procesar, analizar, recoñecer e comprender un sinal de voz. O espectro dinámico do sinal, o chamado espectrogramas dinámicos. Son bastante fáciles de obter, e o discurso presentado en forma de espectrograma dinámico é relativamente fácil de recoñecer mediante técnicas similares ás utilizadas no recoñecemento de imaxes.

Os elementos sinxelos da fala (por exemplo, ordes) pódense recoñecer pola simple semellanza de espectrogramas enteiros. Por exemplo, un dicionario de teléfono móbil activado por voz contén só unhas poucas decenas a uns poucos centos de palabras e frases, xeralmente pre-apiladas para que se poidan identificar con facilidade e eficacia. Isto é suficiente para tarefas de control sinxelas, pero limita severamente a aplicación xeral. Os sistemas construídos segundo o esquema, por regra xeral, só admiten altofalantes específicos para os que as voces están especialmente adestradas. Polo tanto, se hai alguén novo que quere usar a súa voz para controlar o sistema, o máis probable é que non sexa aceptado.

O resultado desta operación chámase espectrograma 2-W, é dicir, un espectro bidimensional. Hai outra actividade neste bloque á que paga a pena prestar atención: segmentación. En xeral, estamos a falar de dividir un sinal de voz continuo en partes que se poden recoñecer por separado. Só a partir destes diagnósticos individuais se fai o recoñecemento do conxunto. Este procedemento é necesario porque non é posible identificar un discurso longo e complexo dunha soa vez. Xa se escribiron volumes enteiros sobre que segmentos distinguir nun sinal de voz, polo que non decidiremos agora se os segmentos distinguidos deben ser fonemas (equivalentes sonoros), sílabas ou quizais alófonos.

O proceso de recoñecemento automático sempre se refire a algunhas características dos obxectos. Probáronse centos de conxuntos de parámetros diferentes para o sinal de voz. O sinal de voz ten dividido en marcos recoñecidos e tendo características seleccionadaspolo que estes cadros se presentan no proceso de recoñecemento, podemos realizar (para cada cadro por separado) clasificación, é dicir. asignando un identificador ao marco, que o representará no futuro.

Próxima etapa montaxe de cadros en palabras separadas - a maioría das veces baseado no chamado. modelo de modelos implícitos de Markov (HMM-). Despois vén a montaxe das palabras oracións completas.

Agora podemos volver ao sistema Alexa por un momento. O seu exemplo mostra un proceso en varias etapas de "comprensión" da máquina dunha persoa, máis precisamente: un comando dado por el ou unha pregunta feita.

Comprender palabras, comprender o significado e comprender a intención do usuario son cousas completamente diferentes.

Polo tanto, o seguinte paso é o traballo do módulo PNL (), cuxa tarefa é recoñecemento da intención do usuario, é dicir. o significado do comando/pregunta no contexto no que se pronunciou. Se se identifica a intención, entón asignación das denominadas habilidades e habilidades, é dicir, a función específica admitida polo asistente intelixente. No caso dunha pregunta sobre o tempo, chámanse fontes de datos meteorolóxicos, que aínda están por procesar en voz (TTS - mecanismo). Como resultado, o usuario escoita a resposta á pregunta formulada.

Voz? Artes gráficas? Ou quizais os dous?

A maioría dos sistemas de interacción modernos coñecidos baséanse nun intermediario chamado interface gráfica de usuario (interface gráfica). Desafortunadamente, a GUI non é a forma máis obvia de interactuar cun produto dixital. Isto require que os usuarios aprendan primeiro a usar a interface e recorden esta información con cada interacción posterior. En moitas situacións, a voz é moito máis conveniente, porque pode interactuar coa VUI simplemente falando co dispositivo. Unha interface que non obriga aos usuarios a memorizar e memorizar determinados comandos ou métodos de interacción causa menos problemas.

Por suposto, a expansión de VUI non significa abandonar interfaces máis tradicionais, senón que estarán dispoñibles interfaces híbridas que combinan varias formas de interactuar.

A interface de voz non é adecuada para todas as tarefas nun contexto móbil. Con el, chamaremos a un amigo que conduce un coche e incluso lle enviaremos un SMS, pero comprobar as últimas transferencias pode ser demasiado difícil, debido á cantidade de información transmitida ao sistema () e xerada polo sistema (sistema). Como suxire Rachel Hinman no seu libro Mobile Frontier, o uso de VUI faise máis efectivo cando se realizan tarefas nas que a cantidade de información de entrada e saída é pequena.

Un teléfono intelixente conectado a Internet é cómodo pero tamén incómodo (9). Cada vez que un usuario quere comprar algo ou utilizar un servizo novo, ten que descargar outra aplicación e crear unha nova conta. Aquí creouse un campo para o uso e desenvolvemento de interfaces de voz. En lugar de obrigar aos usuarios a instalar moitas aplicacións diferentes ou crear contas separadas para cada servizo, os expertos din que VUI trasladará a carga destas engorrosas tarefas a un asistente de voz alimentado por IA. Será conveniente que realice actividades extenuantes. Só lle daremos ordes.

9. Interface de voz a través do teléfono intelixente

Hoxe, máis que un teléfono e un ordenador están conectados a Internet. Termostatos intelixentes, luces, caldeiras e moitos outros dispositivos integrados en IoT tamén están conectados á rede (10). Así, hai dispositivos sen fíos ao noso redor que enchen as nosas vidas, pero non todos encaixan de forma natural na interface gráfica de usuario. Usar VUI axudarache a integralos facilmente no noso contorno.

10. Interface de voz coa Internet das cousas

A creación dunha interface de usuario de voz converterase en breve nunha habilidade clave do deseñador. Este é un problema real: a necesidade de implementar sistemas de voz animarao a centrarse máis no deseño proactivo, é dicir, tentando comprender as intencións iniciais do usuario, anticipando as súas necesidades e expectativas en cada fase da conversa.

A voz é unha forma eficiente de introducir datos: permite aos usuarios emitir comandos ao sistema rapidamente segundo os seus propios termos. Por outra banda, a pantalla proporciona unha forma eficiente de mostrar información: permite que os sistemas mostren unha gran cantidade de información ao mesmo tempo, reducindo a carga da memoria dos usuarios. É lóxico que combinalos nun só sistema pareza alentador.

Os altofalantes intelixentes como Amazon Echo e Google Home non ofrecen unha pantalla visual. Mellorando significativamente a precisión do recoñecemento de voz a distancias moderadas, permiten o funcionamento de mans libres, o que á súa vez aumenta a súa flexibilidade e eficiencia; son desexables incluso para os usuarios que xa teñen teléfonos intelixentes con control de voz. Non obstante, a falta dunha pantalla é unha gran limitación.

Só se poden usar pitidos para informar aos usuarios dos posibles comandos e ler a saída en voz alta faise tediosa, excepto para as tarefas máis básicas. Establecer un temporizador cun comando de voz mentres se cociña é xenial, pero non é necesario facerche preguntar canto tempo queda. Obter unha previsión meteorolóxica regular convértese nunha proba de memoria para o usuario, que ten que escoitar e absorber unha serie de feitos durante toda a semana, en lugar de recollelos da pantalla dunha ollada.

Os deseñadores xa o fixeron solución híbrida, Echo Show (11), que engadiu unha pantalla de visualización ao altofalante intelixente básico de Echo. Isto amplía moito a funcionalidade do equipo. Non obstante, o Echo Show aínda é moito menos capaz de realizar as funcións básicas que hai moito tempo dispoñibles en teléfonos intelixentes e tabletas. Non pode (aínda) navegar pola web, mostrar comentarios ou mostrar o contido dun carro da compra de Amazon, por exemplo.

Unha visualización visual é inherentemente unha forma máis eficaz de proporcionar á xente unha gran cantidade de información que só o son. Deseñar con prioridade de voz pode mellorar moito a interacción da voz, pero a longo prazo, non usar arbitrariamente o menú visual para interacción será como loitar cunha man atada ás costas. Debido á inminente complexidade das interfaces de visualización e voz intelixentes de extremo a extremo, os desenvolvedores deberían considerar seriamente un enfoque híbrido das interfaces.

O aumento da eficiencia e velocidade dos sistemas de xeración e recoñecemento de voz permitiu utilizalos en aplicacións e áreas como, por exemplo:

• militares (comandos de voz en avións ou helicópteros, por exemplo, F16 VISTA),

• transcrición automática de texto (de voz a texto),

• sistemas de información interactivos (Prime Speech, portais de voz),

• dispositivos móbiles (teléfonos, teléfonos intelixentes, tabletas),

• robótica (Cleverbot - sistemas ASR combinados con intelixencia artificial),

• automoción (control mans libres dos compoñentes do coche, como Blue & Me),

• aplicacións domésticas (sistemas domésticos intelixentes).

Coidado coa seguridade!

Os automóbiles, os electrodomésticos, os sistemas de calefacción/refrigeración e de seguridade do fogar e unha serie de electrodomésticos comezan a utilizar interfaces de voz, moitas veces baseadas na IA. Nesta fase, envíanse os datos obtidos a partir de millóns de conversas con máquinas nubes informáticas. Está claro que os comerciantes están interesados neles. E non só eles.

Un informe recente de expertos en seguridade de Symantec recomenda que os usuarios de comandos de voz non controlen as funcións de seguridade como as pechaduras das portas, e moito menos os sistemas de seguridade domésticos. O mesmo ocorre co almacenamento de contrasinais ou información confidencial. A seguridade da intelixencia artificial e dos produtos intelixentes aínda non foi suficientemente estudada.

Cando os dispositivos de toda a casa escoitan cada palabra, o risco de hackeo e uso indebido do sistema convértese nun problema moi importante. Se un atacante accede á rede local ou aos seus enderezos de correo electrónico asociados, a configuración do dispositivo intelixente pódese cambiar ou restablecer á configuración de fábrica, o que provocará a perda de información valiosa e a eliminación do historial do usuario.

Noutras palabras, os profesionais da seguridade temen que a IA e a VUI guiadas por voz aínda non sexan o suficientemente intelixentes como para protexernos de posibles ameazas e manter a boca pechada cando un estraño pide algo.