Un asistente virtual ( VA ) es un agente de software que puede realizar una variedad de tareas o servicios para un usuario basándose en las entradas del usuario, como comandos o preguntas, incluidas las verbales. Estas tecnologías suelen incorporar capacidades de chatbot para simular una conversación humana, como a través de un chat en línea , para facilitar la interacción con sus usuarios. La interacción puede realizarse a través de texto, interfaz gráfica o voz, ya que algunos asistentes virtuales pueden interpretar el habla humana y responder mediante voces sintetizadas.
En muchos casos, los usuarios pueden hacer preguntas a sus asistentes virtuales, controlar dispositivos domóticos y reproducción multimedia, y gestionar otras tareas básicas como correo electrónico, listas de tareas pendientes y calendarios, todo ello con comandos verbales. [1] En los últimos años, entre los asistentes virtuales destacados para uso directo del consumidor se incluyen Siri de Apple , Amazon Alexa , Google Assistant y Bixby de Samsung . [2] Además, las empresas de diversas industrias suelen incorporar algún tipo de tecnología de asistente virtual en su servicio o soporte al cliente. [3]
Recientemente, la aparición de chatbots basados en inteligencia artificial , como ChatGPT , ha aportado una mayor capacidad e interés al campo de los productos y servicios de asistentes virtuales. [4] [5] [6]
Radio Rex fue el primer juguete activado por voz, patentado en 1916 [7] y lanzado en 1922. [8] Era un juguete de madera con forma de perro que salía de su casa cuando lo llamaban por su nombre.
En 1952, Bell Labs presentó "Audrey", la máquina de reconocimiento automático de dígitos. Ocupaba un bastidor de relés de dos metros de altura, consumía una cantidad considerable de energía, tenía montones de cables y presentaba innumerables problemas de mantenimiento asociados con complejos circuitos de tubos de vacío. Podría reconocer las unidades fundamentales del habla, los fonemas. Se limitaba al reconocimiento preciso de los dígitos pronunciados por los hablantes designados. Por lo tanto, podría usarse para la marcación por voz, pero en la mayoría de los casos la marcación con botones era más barata y rápida, en lugar de decir los dígitos consecutivos. [9]
Otra de las primeras herramientas que permitió realizar reconocimiento de voz digital fue la calculadora IBM Shoebox activada por voz, presentada al público en general durante la Feria Mundial de Seattle de 1962 después de su lanzamiento inicial al mercado en 1961. Esta primera computadora, desarrollada casi 20 años antes de la introducción. del primer ordenador personal IBM en 1981, fue capaz de reconocer 16 palabras habladas y los dígitos del 0 al 9.
El primer programa informático de procesamiento del lenguaje natural , el chatbot ELIZA, fue desarrollado por el profesor del MIT Joseph Weizenbaum en los años 1960. Fue creado para "demostrar que la comunicación entre el hombre y la máquina era superficial". [10] ELIZA utilizó una metodología de coincidencia y sustitución de patrones en respuestas escritas para simular una conversación, lo que dio una ilusión de comprensión por parte del programa.
Según los informes, la propia secretaria de Weizenbaum le pidió a Weizenbaum que saliera de la habitación para que ella y ELIZA pudieran tener una conversación real. Weizenbaum se sorprendió por esto y escribió más tarde: "No me había dado cuenta... de que exposiciones extremadamente breves a un programa de computadora relativamente simple podrían inducir pensamientos delirantes poderosos en personas bastante normales. [11]
Esto dio nombre al efecto ELIZA , la tendencia a asumir inconscientemente que los comportamientos informáticos son análogos a los comportamientos humanos; es decir, la antropomorfización, fenómeno presente en las interacciones humanas con asistentes virtuales.
El siguiente hito en el desarrollo de la tecnología de reconocimiento de voz se logró en la década de 1970 en la Universidad Carnegie Mellon en Pittsburgh , Pensilvania, con el apoyo sustancial del Departamento de Defensa de los Estados Unidos y su agencia DARPA , que financió cinco años de un programa de investigación sobre la comprensión del habla, con el objetivo de alcanzar un vocabulario mínimo de 1.000 palabras. En el programa participaron empresas y académicos, incluidos IBM, la Universidad Carnegie Mellon (CMU) y el Instituto de Investigación de Stanford.
El resultado fue "Harpy", dominaba unas 1.000 palabras, el vocabulario de un niño de tres años y podía entender frases. Podría procesar el habla que seguía vocabulario, pronunciación y estructuras gramaticales preprogramadas para determinar qué secuencias de palabras tenían sentido juntas y reducir así los errores de reconocimiento de voz.
En 1986, Tangora fue una actualización de Shoebox, era una máquina de escribir con reconocimiento de voz. Lleva el nombre del mecanógrafo más rápido del mundo en ese momento, tenía un vocabulario de 20.000 palabras y usaba la predicción para decidir el resultado más probable en función de lo que se dijo en el pasado. El enfoque de IBM se basó en un modelo oculto de Markov , que añade estadísticas a las técnicas de procesamiento de señales digitales. El método permite predecir los fonemas más probables que siguen a un fonema determinado. Aun así, cada orador tuvo que entrenar individualmente la máquina de escribir para que reconociera su voz y hiciera pausas entre cada palabra.
En 1983, Gus Searcy inventó el "Butler In A Box", un sistema de control doméstico por voz electrónico. [12]
En la década de 1990, la tecnología de reconocimiento de voz digital se convirtió en una característica de las computadoras personales con IBM , Philips y Lernout & Hauspie luchando por conseguir clientes. Mucho más tarde, el lanzamiento al mercado del primer teléfono inteligente IBM Simon en 1994 sentó las bases para los asistentes virtuales inteligentes tal como los conocemos hoy. [ cita necesaria ]
En 1997, el software Dragon's Naturally Speaking podía reconocer y transcribir el habla humana natural sin pausas entre cada palabra en un documento a una velocidad de 100 palabras por minuto. Una versión de Naturally Speaking todavía está disponible para descargar y todavía la utilizan hoy, por ejemplo, muchos médicos en los EE. UU. y el Reino Unido para documentar sus registros médicos. [ cita necesaria ]
En 2001 Colloquis lanzó públicamente SmarterChild , en plataformas como AIM y MSN Messenger . Si bien SmarterChild estaba completamente basado en texto, podía jugar, verificar el clima, buscar datos y conversar con los usuarios hasta cierto punto. [13]
El primer asistente virtual digital moderno instalado en un teléfono inteligente fue Siri , que se introdujo como una característica del iPhone 4S el 4 de octubre de 2011. [14] Apple Inc. desarrolló Siri tras la adquisición en 2010 de Siri Inc. , una escisión de SRI International , que es un instituto de investigación financiado por DARPA y el Departamento de Defensa de los Estados Unidos . [15] Su objetivo era ayudar en tareas como enviar un mensaje de texto, hacer llamadas telefónicas, consultar el tiempo o configurar una alarma. Con el tiempo, se ha desarrollado para ofrecer recomendaciones de restaurantes, realizar búsquedas en Internet y proporcionar indicaciones para llegar en coche. [ cita necesaria ]
En noviembre de 2014, Amazon anunció Alexa junto con Echo. [dieciséis]
En abril de 2017, Amazon lanzó un servicio para crear interfaces conversacionales para cualquier tipo de asistente o interfaz virtual.
En la década de 2020, los sistemas de inteligencia artificial (IA) como ChatGPT ganaron popularidad por su capacidad para generar respuestas similares a las humanas a conversaciones basadas en texto. En febrero de 2020, Microsoft presentó su Turing Natural Language Generation (T-NLG), que era entonces el "modelo de lenguaje más grande jamás publicado con 17 mil millones de parámetros". [17] El 30 de noviembre de 2022, ChatGPT se lanzó como prototipo y rápidamente atrajo la atención por sus respuestas detalladas y articuladas en muchos dominios del conocimiento. La llegada de ChatGPT y su introducción al público en general aumentó el interés y la competencia en el espacio. En febrero de 2023, Google comenzó a presentar un servicio experimental llamado "Bard" que se basa en su programa LaMDA para generar respuestas de texto a preguntas formuladas en función de la información recopilada de la web .
Si bien ChatGPT y otros chatbots generalizados basados en la última IA generativa son capaces de realizar diversas tareas asociadas con asistentes virtuales, también existen formas más especializadas de dicha tecnología que están diseñadas para abordar situaciones o necesidades más específicas. [18] [4]
Los asistentes virtuales funcionan a través de:
Se puede acceder a muchos asistentes virtuales a través de múltiples métodos, lo que ofrece versatilidad en la forma en que los usuarios pueden interactuar con ellos, ya sea a través de chat, comandos de voz u otras tecnologías integradas.
Los asistentes virtuales utilizan el procesamiento del lenguaje natural (NLP) para hacer coincidir el texto del usuario o la entrada de voz con comandos ejecutables. Algunos aprenden continuamente utilizando técnicas de inteligencia artificial , incluido el aprendizaje automático y la inteligencia ambiental .
Para activar un asistente virtual mediante la voz, se puede utilizar una palabra de activación. Se trata de una palabra o grupos de palabras como "Hola Siri", "OK Google" o "Hola Google", "Alexa" y "Hola Microsoft". [21] A medida que los asistentes virtuales se vuelven más populares, aumentan los riesgos legales involucrados. [22] : 815
Los asistentes virtuales pueden integrarse en muchos tipos de plataformas o, como Amazon Alexa, en varias de ellas:
Los asistentes virtuales pueden proporcionar una amplia variedad de servicios. Estos incluyen: [30]
El comercio conversacional es el comercio electrónico a través de diversos medios de mensajería, incluidos asistentes de voz [33], pero también chat en vivo en sitios web de comercio electrónico , chat en vivo en aplicaciones de mensajería como WeChat , Facebook Messenger y WhatsApp [34] y chatbots en mensajería. aplicaciones o sitios web.
Un asistente virtual puede trabajar con el equipo de atención al cliente de una empresa para brindar soporte a los clientes las 24 horas del día, los 7 días de la semana. Proporciona respuestas rápidas, lo que mejora la experiencia del cliente.
Amazon habilita las "Habilidades" de Alexa y las "Acciones" de Google, esencialmente aplicaciones que se ejecutan en las plataformas del asistente.
Los asistentes virtuales tienen una variedad de preocupaciones de privacidad asociadas a ellos. Funciones como la activación por voz representan una amenaza, ya que dichas funciones requieren que el dispositivo esté siempre escuchando. [35] Se han propuesto modos de privacidad como el botón de seguridad virtual para crear una autenticación multicapa para asistentes virtuales. [36]
La política de privacidad del Asistente de Google establece que no almacena los datos de audio sin el permiso del usuario, pero puede almacenar las transcripciones de la conversación para personalizar su experiencia. La personalización se puede desactivar en la configuración. Si un usuario quiere que el Asistente de Google almacene datos de audio, puede ir a Actividad de voz y audio (VAA) y activar esta función. Los archivos de audio se envían a la nube y Google los utiliza para mejorar el rendimiento del Asistente de Google, pero solo si la función VAA está activada. [37]
La política de privacidad del asistente virtual de Amazon, Alexa, establece que sólo escucha las conversaciones cuando se utiliza su palabra de activación (como Alexa, Amazon, Echo). Comienza a grabar la conversación después de la llamada de una palabra de activación y deja de grabar después de 8 segundos de silencio. Envía la conversación grabada a la nube. Es posible eliminar la grabación de la nube visitando 'Privacidad de Alexa' en 'Alexa'. [38]
Apple afirma que no graba audio para mejorar Siri. En cambio, afirma utilizar transcripciones. Los datos de la transcripción solo se envían si se consideran importantes para el análisis. Los usuarios pueden optar por no participar en cualquier momento si no quieren que Siri envíe las transcripciones a la nube. [39]
El valor añadido de los asistentes virtuales puede provenir, entre otros, de lo siguiente:
En 2019, Antonio A. Casilli , sociólogo francés , criticó en particular la inteligencia artificial y los asistentes virtuales de la siguiente manera:
En un primer nivel, el hecho de que el consumidor proporcione gratuitamente datos para la formación y mejora del asistente virtual, muchas veces sin saberlo, es éticamente perturbador.
Pero en un segundo nivel, podría ser aún más inquietante desde el punto de vista ético saber cómo se entrenan estas IA con estos datos.
Esta inteligencia artificial se entrena mediante redes neuronales , que requieren una enorme cantidad de datos etiquetados. Sin embargo, estos datos necesitan ser etiquetados a través de un proceso humano, lo que explica el auge del microtrabajo en la última década. Es decir, utilizar de forma remota a algunas personas en todo el mundo para realizar algunas tareas repetitivas y muy simples por unos pocos centavos, como escuchar los datos de voz del asistente virtual y escribir lo que se dijo. El microtrabajo ha sido criticado por la inseguridad laboral que provoca y por la falta total de regulación: el salario medio era de 1,38 dólares por hora en 2010, [45] y no proporciona asistencia sanitaria ni prestaciones de jubilación, ni subsidio de enfermedad ni salario mínimo . Por lo tanto, los asistentes virtuales y sus diseñadores son controvertidos por estimular la inseguridad laboral, y las IA que proponen siguen siendo humanas en la forma en que serían imposibles sin el microtrabajo de millones de trabajadores humanos. [44]
Las preocupaciones sobre la privacidad surgen por el hecho de que los comandos de voz están disponibles para los proveedores de asistentes virtuales en forma no cifrada y, por lo tanto, pueden compartirse con terceros y procesarse de manera no autorizada o inesperada. [46] Además del contenido lingüístico del discurso grabado, la forma de expresión y las características de la voz de un usuario pueden contener implícitamente información sobre su identidad biométrica, rasgos de personalidad, forma corporal, condición de salud física y mental, sexo, género, estados de ánimo y emociones. , nivel socioeconómico y origen geográfico. [47]
Las plataformas de desarrollo notables para asistentes virtuales incluyen:
En generaciones anteriores de asistentes virtuales basados en chat de texto, el asistente a menudo estaba representado por un avatar (también conocido como personaje interactivo en línea o personaje automatizado ); esto se conocía como agente encarnado .
Las experiencias digitales habilitadas por asistentes virtuales se consideran uno de los principales avances tecnológicos recientes y las tendencias de consumo más prometedoras. Los expertos afirman que las experiencias digitales alcanzarán un estatus comparable al de las experiencias "reales", si no se vuelven más buscadas y apreciadas. [52] La tendencia se verifica por un elevado número de usuarios frecuentes y el crecimiento sustancial del número de usuarios de asistentes digitales virtuales en todo el mundo. A mediados de 2017, se estima que el número de usuarios frecuentes de asistentes virtuales digitales ronda los mil millones en todo el mundo. [53] Además, se puede observar que la tecnología de asistente digital virtual ya no se limita a las aplicaciones de teléfonos inteligentes, sino que está presente en muchos sectores industriales (incluidos el automóvil , las telecomunicaciones, el comercio minorista , la atención sanitaria y la educación). [54] En respuesta a los importantes gastos en I+D de las empresas de todos los sectores y a la creciente implementación de dispositivos móviles, se prevé que el mercado de la tecnología de reconocimiento de voz crecerá a una tasa compuesta anual del 34,9% a nivel mundial durante el período de 2016 a 2024 y, por lo tanto, superará un tamaño de mercado global de 7.500 millones de dólares estadounidenses para 2024. [54] Según un estudio de Ovum , se prevé que la "base instalada de asistentes digitales nativos" supere la población mundial para 2021, con 7.500 millones de dispositivos con capacidad de IA de voz activa. [55] Según Ovum, para entonces "el Asistente de Google dominará el mercado de dispositivos con capacidad de inteligencia artificial de voz con una participación de mercado del 23,3%, seguido por Bixby de Samsung (14,5%), Siri de Apple (13,1%), Alexa de Amazon (3,9%) y Cortana de Microsoft (2,3%)". [55]
Teniendo en cuenta la distribución regional de los líderes del mercado, se espera que las empresas norteamericanas (por ejemplo, Nuance Communications , IBM , eGain ) dominen la industria en los próximos años, debido al impacto significativo de BYOD ( Traiga su propio dispositivo ) y el negocio de movilidad empresarial. modelos. Además, se espera que la creciente demanda de plataformas asistidas por teléfonos inteligentes impulse aún más el crecimiento de la industria de asistentes virtuales inteligentes (IVA) en América del Norte. A pesar de su tamaño más pequeño en comparación con el mercado norteamericano, se prevé que la industria de asistentes virtuales inteligentes de la región de Asia y el Pacífico , con sus principales actores ubicados en India y China, crezca a una tasa de crecimiento anual del 40% (por encima del promedio mundial). durante el período 2016-2024. [54]
Los asistentes virtuales no deberían verse sólo como un gadget para particulares, sino que podrían tener una utilidad económica real para las empresas. Por ejemplo, un asistente virtual puede asumir el papel de un asistente siempre disponible con conocimientos enciclopédicos. Y que puede organizar reuniones, consultar inventarios, verificar informaciones. Los asistentes virtuales son tanto más importantes cuanto que su integración en las pequeñas y medianas empresas a menudo consiste en un sencillo primer paso a través de una adaptación y un uso más global del Internet de las cosas (IoT) . De hecho, las pequeñas y medianas empresas perciben primero las tecnologías de IoT como tecnologías de importancia crítica, pero demasiado complicadas, arriesgadas o costosas para utilizarlas. [56]
En mayo de 2018, investigadores de la Universidad de California, Berkeley , publicaron un artículo que mostraba que comandos de audio indetectables para el oído humano podrían integrarse directamente en música o texto hablado, manipulando así a los asistentes virtuales para que realicen ciertas acciones sin que el usuario se dé cuenta. . [57] Los investigadores realizaron pequeños cambios en los archivos de audio, que cancelaron los patrones de sonido que los sistemas de reconocimiento de voz deben detectar. Estos fueron reemplazados por sonidos que el sistema interpretaría de manera diferente y le ordenarían marcar números de teléfono, abrir sitios web o incluso transferir dinero. [57] La posibilidad de que esto ocurra se conoce desde 2016, [57] y afecta a dispositivos de Apple, Amazon y Google. [58]
Además de las acciones no intencionadas y las grabaciones de voz, otro riesgo de seguridad y privacidad asociado con los asistentes virtuales inteligentes son los comandos de voz maliciosos: un atacante que se hace pasar por un usuario y emite comandos de voz maliciosos para, por ejemplo, desbloquear una puerta inteligente para obtener acceso no autorizado a una casa o garaje o pedir artículos en línea sin el conocimiento del usuario. Aunque algunos IVA ofrecen una función de entrenamiento de voz para evitar dicha suplantación, puede resultar difícil para el sistema distinguir entre voces similares. Por lo tanto, una persona malintencionada que pueda acceder a un dispositivo habilitado para IVA podría engañar al sistema haciéndole creer que es el verdadero propietario y llevar a cabo actos delictivos o traviesos. [59]
Título de YouTube: Sistema de información de aerolíneas, 1989 – Archivos de AT&T – reconocimiento de voz
{{cite journal}}
: |volume=
tiene texto extra ( ayuda )