Y después de Siri, ¿qué?

Cuando hoy llamamos a un servicio de atención al cliente es muy probable que la primera interacción no se realice con una persona de carne y hueso, sino con una máquina, un ‘software’ que con una voz pregrabada nos pide unos datos básicos. Puede ser un número de identificación o un código de confirmación de un vuelo, por ejemplo. A partir de ese primer intercambio, las empresas tienen varias formas de atender al cliente, con sistemas híbridos que utilizan teleoperadores además del ‘software’ o sistemas completamente automáticos.

En general, los sistemas automáticos nos producen rechazo. Son limitados y sólo hacen preguntas que se pueden responder con un sí o un no, o con un número, antes de delegar la tarea en manos humanas. Clasifican las llamadas pero rara vez resuelven problemas, y cuando lo hacen la sensación al otro lado de la línea es que el problema se podría haber solucionado mucho antes hablando con una persona.

Hay muchas posibilidades de que el teléfono que ahora tiene en el bolsillo o el bolso sea, de hecho, un interlocutor más agradable. Desde hace unos años tanto Apple como Google han comenzado a desplegar servicios de reconocimiento de voz en sus teléfonos. Sus acercamientos al problema han sido diferentes. Google se apoya en el reconocimiento de voz como sustituto del teclado a la hora de buscar datos concretos o palabras. Apple ha creado a Siri, un ‘asistente virtual’ que tiene una personalidad y trata de responder al usuario también con un lenguaje natural.

Aunque diferentes, ambos sistemas sacan ventaja de una de las grandes revoluciones en el reconocimiento del habla, el acceso a un servidor remoto que se encarga de escuchar las preguntas y descifrarlas. El teléfono no tiene potencia (ni espacio) para ser un dispositivo competente en el procesamiento del lenguaje -una tarea muy compleja- pero el servidor sí.

Cuanto más se usa, más exacto
Para empresas como Google o Nuance -el motor de reconocimiento de voz que usa Siri- esta ‘solución’ además está ayudando a crear modelos de predicción cada vez más avanzados. Cuanto más se usa, más exacto se vuelve. Con millones de personas en todo el mundo realizando millones de peticiones a los servidores, están por primera vez creando modelos capaces de reconocer no sólo la voz sino incluso el contexto en el que habla una persona o los datos que encierran sus frases.

“Desde el punto de vista técnico no hay ningún límite a la efectividad del reconocimiento de voz, es un problema de cantidad de muestras”, asegura Vlad Sejnoha, máximo responsable técnico de Nuance. “Hace cinco años teníamos bases de datos que utilizaban unas 1.000 horas de muestras, hoy tienen más de 100.000 horas”.

Ese aumento de fiabilidad está detrás del crecimiento, por ejemplo, de las aplicaciones de reconocimiento de voz en entornos médicos y de una mayor aceptación en el mundo empresarial. Pronto la voz podría ser incluso parte de los sistemas de seguridad diarios en ordenadores o teléfonos ya que técnicamente es posible no sólo entender qué está diciendo una persona sino reconocer quién es la persona que habla, incluso con otras voces en la sala.

‘Nina’
Nuance acaba de presentar una nueva versión de ‘Nina’ capaz de hablar español. ‘Nina’ puede considerarse como la prima lejana profesional de Siri, un ‘software’ para atención al cliente capaz de entender frases completas y dar respuestas naturales en lugar de hacer saltar al usuario por listas de categoría.

En vez de llamar al banco e ir pasando de menú en menú -el odiado “si quiere realizar una transferencia, pulse 1″- se puede pedir una orden compleja en lenguaje natural, por ejemplo: “Quiero hacer una transferencia mañana desde mi cuenta personal a la de mi mujer”.

‘Nina’ es capaz también de detectar si la persona quien llama es quien dice ser y puede activar protocolos de autenticación de diferente intensidad según lo segura que esté acerca de la identidad del interlocutor.

Del móvil al coche
Ahora el reto está en hacer de estos ‘agentes virtuales’ algo más que programas aislados para un uso concreto y que sean capaces de reconocer los hábitos y experiencias pasadas del usuario. Google ha ensayado parte de ese futuro con Google Now, un servicio integrado en la última versión del sistema operativo Android.

Now utiliza la información personal del usuario -sus citas del calendario, por ejemplo- para adelantarse a las peticiones que van a realizarse. Cuando se pregunta sobre la próxima cita no sólo dice la hora y el lugar sino que informa de las condiciones de tiempo en la ruta o sugiere alternativas de transporte público.

Pronto veremos estos asistentes en productos diferentes, como televisores o automóviles. La voz con la que hablaremos será la misma pero podrá ofrecer servicios basados en el dispositivo desde donde accedamos a ella.

Un televisor con una futura versión de Siri, por ejemplo, no sólo entenderá que queramos cambiar de canal o el volumen más bajo o alto, sino también preguntas realizadas en lenguaje natural como “¿Hay algo hoy de Sean Connery en la tele? Si no, dime si puedo alquilar o comprar una película suya en la Red”.

La respuesta no sólo mostraría la selección en pantalla sino que podría ir acompañada de un recordatorio como “empezaste a ver una en el teléfono la semana pasada y aún no la has terminado, ¿quieres continuar?”. Un escenario que, al menos en los laboratorios, ha dejado de ser de ciencia ficción.

[Via ElMundo]

Si te ha gustado este artículo puedes completarlo dejando un comentario o bien puedes suscribirte al feed y recibir las entradas futuras en tu lector de feeds.

Comentarios

No hay comentarios todavía.

Deja tu comentario

(requerido)

(requerido)