Diferencias entre el diseño visual y el diseño de interfaces de voz centrado en el usuario.
Una patata y un escarabajo se parecen más entre ellos que una interfaz visual a una de voz. Como diseñadores podemos creer que son universos similares, a fin de cuentas lo que tenemos que diseñar en ambos casos es una aplicación, pero la relación del usuario con nuestro producto es completamente distinta, y nuestra forma de enfocar el diseño también tiene que serlo.
Aquí van algunas consideraciones a tener en cuenta a la hora de plantear un diseño de interfaz de voz.
Cómo recibe la información el usuario
En una pantalla el usuario tiene que ver la información, mientras que en una interfaz de voz el usuario la está escuchando, y nuestro cerebro puede reconocer una imagen y asociarla a un concepto o producto, pero puede que no reconozca la palabra que lo identifica (o viceversa).
Por ejemplo, si estamos guiando al usuario para que elija algún tipo de coche, en una pantalla seguramente nos interese mostrar fotos de los modelos, y él sabrá identificar rápidamente que tipo de coche está buscando. Pero en una VUI lo mejor sería preguntarle si quiere un coche grande o pequeño, o preguntarle por el número de puertas; porque puede que no entienda términos cómo roadster o hatchback.
La cantidad de datos a proporcionar
Las interfaces de voz tienen que suministrar mucho menos datos al usuario que las pantallas. Un usuario puede ver en una pantalla seis opciones o datos distintos y procesarlos sin mucho problema y de forma rápida. Aparte, si necesita tiempo para analizarlos puede hacerlo porque la información siempre estará ahí hasta que él decida elegir una opción.
Intentar retener información verbal es más complicado. Pensemos en un operador telefónico automático: A partir de la tercera opción nos costará recordar lo que nos están diciendo, y dudaremos en qué elegir. Lo ideal es que al usuario le proporcionemos dos opciones, A y B, a lo sumo una tercera, pero no más.
Cómo afecta el entorno al usuario
Nuestro diseño puede estar viéndose en una pantalla de ordenador dentro de una oficina, de un portátil en una cafetería, o de un móvil en una playa. Si tu aplicación sirve para detectar los puntos con menos gente dentro de una playa para que puedas poner a gusto tu toalla, tendrás que tener en cuenta la cantidad de luz y de reflejos lumínicos de la playa, ya que seguramente estés en una. Eso te obligará a diseñar con muchos contrastes para que todo se vea correctamente.
¿Qué pasa con los VUI? Lo mismo, pero con el sonido. Cierto es que lo más probable es que el usuario esté usando un dispositivo dentro de su casa y no en una discoteca, pero puede que esté cocinando, por lo que el ruido ambiente es un factor a tener en cuenta. Así que no sería recomendable que lo amenices con música de fondo mientras le dictas una receta, o terminará con dolor de cabeza.
No podemos darle todo al usuario mediante la voz
Piensa que tu aplicación sirve para reservar habitaciones de hoteles y que el usuario acaba de realizar una. ¿Es necesario que finalice la acción y le digas “Has reservado en el Hotel Coímbra Mar Norte, en Calle Baradero 14, Coímbra, Portugal, código postal 28050, una habitación doble con vistas al mar, una suite de matrimonio y una habitación triple, para los días 25, 26 y 27 de noviembre de 2018”? Probablemente solo necesites decirle “Tienes tu reserva lista. Hemos enviado a tu correo todos los datos.”
El usuario no necesita toda la información en ese momento, ni es capaz de corroborar que todos los datos sean correctos a medida que se los vas recitando. Las aplicaciones de voz pueden complementarse con otros sistemas para proporcionarle al usuario todo lo que necesita.
La percepción del usuario sobre la herramienta
En las aplicaciones con interfaz visual tendemos a utilizar un lenguaje ameno y, a veces, coloquial para que el usuario se sienta identificado con nosotros. Podemos hablarle (escribirle más bien) de una forma natural porque él entiende que realmente quien escribe es una persona real, y no una máquina. Sabe que los textos son redactados por un ser humano, aunque él los esté leyendo en la pantalla de un dispositivo.
Al revés de lo que podríamos pensar, con las interfaces de voz tenemos que ser más cuidadosos. El usuario está escuchando la voz de una persona (la de la persona que haya grabado las frases o palabras para el dispositivo), pero es una persona que habla entrecortado y que no entona correctamente. Por lo tanto nuestro usuario es más consciente de que está interactuando con una máquina, y, en consecuencia, nuestro lenguaje tiene que ser “menos natural”. No esperaríamos que HALL 9000 nos hablase como nos habla un colega, menos lo esperaríamos de un Alexa o un Google Assistant.