Como usuario intensivo del terminal móvil en general y con auriculares en particular; me interesaba mucho ver la posibilidades que podía aportar la nueva aplicación iA de Gemini como asistente de voz respecto al tradicional de Google. Y ya de paso, hacer una pequeña comparación con el desempeño de Alexa también en su faceta de asistente de voz en Android.
Dado que las opciones y combinaciones a probar pueden ser tantas como las necesidades de cada cual, he decidido ceñirme a las que, en mi caso particular, considero más relevantes:
Iniciar una llamada telefónica
Enviar un mensaje por Wassap
Poner una canción, lista de reproducción o podcast concreto en Spotify
La idea principal consiste en comprobar como se comportan, cuan útiles resultan los asistentes de voz, invocándolos desde los auriculares inalámbricos SIN tener que tocar para nada el terminal móvil.
Llamada telefónica
Tanto Gemini como Alexa realizan correctamente la llamada. La diferencia radica en los pasos a realizar:
Gemini
Tras invocarlo e indicar la instrucción «Llama por teléfono a X» muestra una pantalla de confirmación con el nombre y teléfono del contacto:
Tras confirmar, mediante la instrucción «confirmar», «sí» o simplemente esperar a que temporice, muestra la aplicación de llamadas con la pantalla de la misma en curso:
Destacar que la instrucción de llamada no funciona indicando simplemente el contacto «Llama a X».
Alexa
Aquí hay que realizar dos consideraciones importantes. Alexa puede gestionar nuestros contactos accediendo directamente a la aplicación que utilicemos para ello (solicitará el consiguiente permiso) o mediante los que tenga añadidos en su propia sección. En mi experiencia, si habilitamos la primera opción, el proceso se demora bastante dado que nos preguntará sobre qué número de entre todos los que tengamos asignado al contacto en cuestión queremos efectuar la llamada. Resulta mucho más sencillo y rápido añadir los números que utilicemos más habitualmente en su propia sección de «Contactos» asignado un único número a cada uno.
La otra consideración hace referencia a la posibilidad de que el contacto disponga de dispositivos con Alexa (altavoces, por ejemplo). En dicho caso, nos preguntará a donde queremos encaminar la llamada: al dispositivo Alexa o al teléfono móvil. Obviamente, caso de no disponer de ninguno efectuará la llamada directamente al móvil.
Dicho ésto, con un contacto en su agenda y de número de teléfono único; la instrucción es tan sencilla como «Llama a X». Inmediatamente nos confirmará por voz que «Estoy llamando por teléfono al número móvil/fijo de X»
Enviar mensaje mediante Wassap
Gemini
La forma más directa es mediante la instrucción «Envía un Wassap a X». Nos pedirá confirmación del nombre y posteriormente solicitará el mensaje a enviar. Una vez dictado, lo repetirá y preguntará si lo deseamos modificar o enviar. Finalizará con una confirmación de «Mensaje enviado».
Cabe resaltar que también permite el envío de SMS: «Envía SMS a X» y que si la instrucción es genérica «Envía mensaje a X» el propio Gemini nos preguntará mediante que aplicación queremos hacerlo, en mis pruebas tan sólo reconoce SMS y Whatsapp (ninguna otra app de mensajería)
Alexa
Aquí el asistente de Amazon tiene poco que rascar. Tan sólo permite enviar mensajes a usuarios con la App Alexa y que además tengan habilitada la función «Mensajes con Alexa». No contempla ninguna otra aplicación ni SMS.
Spotify
Gemini
En éste caso se invierten por completo los papeles respecto a la función anterior. Lo único que puede hacer Gemini es abrir la App de Spotify. Cualquier otro comando de voz obtiene la misma respuesta:
Es posible que cambie en el futuro.
Alexa
Aquí, el funcionamiento resulta muy dispar según la petición que realicemos, a saber:
Reconoce perfectamente nombre de grupo, canción, lista de reproducción y programa de Podcast.
La instrucción de voz es tan sencilla como «Pon mi lista de reproducción del Reno Renardo» o «Pon el Podcast de Carpintero Nuclear»
Por contra, resulta imposible poder elegir un capítulo concreto de un Podcast. Bien reporta un error, bien acaba reproduciendo uno al azar.
Aplicaciones y servicios varios
No son aplicaciones ni servicios que utilice habitualmente desde el móvil con comandos de voz, no obstante ya puestos he realizado algunas pequeñas pruebas:
Gemini (con la extensiones activadas)
Al solicitar «Pon un vídeo de X», «Reproduce el tema X» o «Pon musica de X en Youtube» muestra y lee una pantalla con información sobre la banda o canción solicitada y al final de la misma los vídeos disponibles. Pero no es posible que reproduzca de forma automática ninguno de ellos.
La gestión domótica no presenta ningún problema; cualquier dispositivo registrado en Google Home responde de forma inmediata.
Añadir citas, mirar email o pedir ubicaciones en el mapa requieren de conectar los servicios mediante Google Workspace. En mi caso están desactivados pero hay que suponer que funcionan correctamente.
Alexa
No se lleva bien con Youtube ni Google Maps, aunque llega ha abrir la aplicación; reporta mensajes de error. En la gestión domótica se muestra impecable con todos los dispositivos que tenga registrados. Citas, recordatorios y calendario en general; te «invita» a utilizar el suyo propio. No llega ha abrir lo que tengas instalado.
Conclusiones
Todas bajo la premisa de su desempeño mediante comandos de voz y sin requerir acceder a la pantalla del móvil.
Bastante decepcionantes en cuanto a Gemini. Si tenemos en cuenta que se trata de una IA, apenas obtenemos mejoras respecto al asistente tradicional de Google.
Exceptuando la mensajería (Wassap y SMS) sale peor parada que Alexa en todas las situaciones. Algo especialmente sangrante teniendo en cuenta que Amazon aún no ha integrado capacidades de iA en ella.
Alexa, en su estado de desarrollo actual, mantiene bien el tipo en la mayoría de situaciones. Pudiendo afirmar que es perfectamente utilizable en todos los supuestos (con la excepción de la mensajería) aquí planteados. Si finalmente Amazon lanza una versión doméstica potencia mediante iA, puede llegar a convertirse en un asistente por voz realmente interesante.
No he comentado ningún aspecto relacionado con la privacidad, por la sencilla razón de que es algo literalmente inviable en estos momentos de desarrollo y con actores como Google o Amazon. Habrá que ver que como influyen las distintas regulaciones en los planes de negocio de cada una de ellas.