Un asistente virtual ( VA ) es un agente de software que puede realizar una variedad de tareas o servicios para un usuario en función de la información que este le proporcione, como comandos o preguntas, incluidas las verbales. Estas tecnologías suelen incorporar capacidades de chatbot para simular una conversación humana, como por ejemplo a través de un chat en línea , para facilitar la interacción con sus usuarios. La interacción puede ser a través de texto, interfaz gráfica o voz, ya que algunos asistentes virtuales pueden interpretar el habla humana y responder a través de voces sintetizadas.
En muchos casos, los usuarios pueden hacer preguntas a sus asistentes virtuales, controlar dispositivos de automatización del hogar y reproducción de medios, y administrar otras tareas básicas como el correo electrónico, listas de tareas pendientes y calendarios, todo con comandos verbales. [1] En los últimos años, los asistentes virtuales destacados para uso directo del consumidor han incluido Siri de Apple , Alexa de Amazon , Google Assistant y Bixby de Samsung . [2] Además, las empresas de diversas industrias a menudo incorporan algún tipo de tecnología de asistente virtual en su servicio o soporte al cliente. [3]
Recientemente, la aparición de chatbots basados en inteligencia artificial , como ChatGPT , ha aumentado la capacidad y el interés en el campo de los productos y servicios de asistentes virtuales. [4] [5] [6]
Radio Rex fue el primer juguete activado por voz, patentado en 1916 [7] y lanzado en 1922. [8] Era un juguete de madera con forma de perro que salía de su casa cuando lo llamaban por su nombre.
En 1952, Bell Labs presentó "Audrey", la máquina de reconocimiento automático de dígitos. Ocupaba un bastidor de relés de seis pies de alto, consumía una cantidad considerable de energía, tenía un montón de cables y presentaba los innumerables problemas de mantenimiento asociados con los circuitos complejos de válvulas de vacío. Podía reconocer las unidades fundamentales del habla, los fonemas. Se limitaba al reconocimiento preciso de los dígitos pronunciados por los hablantes designados. Por lo tanto, podía usarse para marcar por voz, pero en la mayoría de los casos, la marcación mediante pulsadores era más barata y rápida que decir los dígitos consecutivos. [9]
Otra herramienta temprana que fue capaz de realizar reconocimiento de voz digital fue la calculadora activada por voz IBM Shoebox , presentada al público general durante la Feria Mundial de Seattle de 1962 después de su lanzamiento inicial al mercado en 1961. Esta primera computadora, desarrollada casi 20 años antes de la introducción de la primera computadora personal IBM en 1981, podía reconocer 16 palabras habladas y los dígitos del 0 al 9.
El primer programa informático de procesamiento de lenguaje natural o chatbot ELIZA fue desarrollado por el profesor del MIT Joseph Weizenbaum en la década de 1960. Fue creado para "demostrar que la comunicación entre el hombre y la máquina era superficial". [10] ELIZA utilizó una metodología de búsqueda y sustitución de patrones en respuestas predefinidas para simular una conversación, lo que dio una ilusión de comprensión por parte del programa.
Según se informa, la propia secretaria de Weizenbaum le pidió a Weizenbaum que saliera de la habitación para que ella y ELIZA pudieran tener una conversación real. Weizenbaum se sorprendió por esto y más tarde escribió: "No me había dado cuenta... de que exposiciones extremadamente breves a un programa informático relativamente simple podían inducir pensamientos delirantes poderosos en personas completamente normales". [11]
Esto dio nombre al efecto ELIZA , la tendencia a asumir inconscientemente que los comportamientos de las computadoras son análogos a los comportamientos humanos; es decir, la antropomorfización, un fenómeno presente en las interacciones humanas con asistentes virtuales.
El siguiente hito en el desarrollo de la tecnología de reconocimiento de voz se logró en la década de 1970 en la Universidad Carnegie Mellon de Pittsburgh (Pensilvania), con el apoyo sustancial del Departamento de Defensa de los Estados Unidos y su agencia DARPA , que financió durante cinco años un programa de investigación sobre comprensión del habla, cuyo objetivo era alcanzar un vocabulario mínimo de 1.000 palabras. En el programa participaron empresas y el mundo académico, entre ellas IBM, la Universidad Carnegie Mellon (CMU) y el Instituto de Investigación de Stanford.
El resultado fue "Harpy", que dominaba unas 1000 palabras, el vocabulario de un niño de tres años, y podía entender frases. Podía procesar el habla que seguía estructuras de vocabulario, pronunciación y gramática preprogramadas para determinar qué secuencias de palabras tenían sentido juntas, reduciendo así los errores de reconocimiento del habla.
En 1986, Tangora fue una versión mejorada de Shoebox: una máquina de escribir que reconocía la voz. Llevaba el nombre del mecanógrafo más rápido del mundo en ese momento, tenía un vocabulario de 20.000 palabras y utilizaba la predicción para decidir el resultado más probable en función de lo que se decía en el pasado. El enfoque de IBM se basaba en un modelo oculto de Markov , que añade estadísticas a las técnicas de procesamiento de señales digitales. El método permite predecir los fonemas más probables que siguen a un fonema determinado. Aun así, cada hablante tenía que entrenar individualmente a la máquina de escribir para que reconociera su voz y hiciera una pausa entre cada palabra.
En 1983 Gus Searcy inventó el "Butler In A Box", un sistema electrónico de control de voz para el hogar. [12]
En la década de 1990, la tecnología de reconocimiento de voz digital se convirtió en una característica de la computadora personal, con IBM , Philips y Lernout & Hauspie compitiendo por los clientes. Mucho más tarde, el lanzamiento al mercado del primer teléfono inteligente IBM Simon en 1994 sentó las bases para los asistentes virtuales inteligentes tal como los conocemos hoy. [ cita requerida ]
En 1997, el software Naturally Speaking de Dragon podía reconocer y transcribir el habla humana natural sin pausas entre cada palabra en un documento a una velocidad de 100 palabras por minuto. Una versión de Naturally Speaking todavía está disponible para descargar y todavía la utilizan, por ejemplo, muchos médicos de los EE. UU. y el Reino Unido para documentar sus historiales médicos. [ cita requerida ]
En 2001, Colloquis lanzó públicamente SmarterChild en plataformas como AIM y MSN Messenger . Si bien era un programa totalmente basado en texto, SmarterChild podía jugar, consultar el clima, buscar datos y conversar con los usuarios hasta cierto punto. [13]
El primer asistente virtual digital moderno instalado en un teléfono inteligente fue Siri , que se presentó como una característica del iPhone 4S el 4 de octubre de 2011. [14] Apple Inc. desarrolló Siri luego de la adquisición en 2010 de Siri Inc. , una escisión de SRI International , que es un instituto de investigación financiado por DARPA y el Departamento de Defensa de los Estados Unidos . [15] Su objetivo era ayudar en tareas como enviar un mensaje de texto, hacer llamadas telefónicas, verificar el clima o configurar una alarma. Con el tiempo, se ha desarrollado para proporcionar recomendaciones de restaurantes, buscar en Internet y proporcionar instrucciones para llegar en automóvil. [ cita requerida ]
En noviembre de 2014, Amazon anunció Alexa junto con el Echo. [16]
En abril de 2017, Amazon lanzó un servicio para crear interfaces conversacionales para cualquier tipo de asistente o interfaz virtual.
En la década de 2020, los sistemas de inteligencia artificial (IA) como ChatGPT han ganado popularidad por su capacidad de generar respuestas similares a las humanas a conversaciones basadas en texto. En febrero de 2020, Microsoft presentó su Generación de lenguaje natural de Turing (T-NLG), que entonces era el "modelo de lenguaje más grande jamás publicado con 17 mil millones de parámetros". [17] El 30 de noviembre de 2022, ChatGPT se lanzó como prototipo y rápidamente atrajo la atención por sus respuestas detalladas y articuladas en muchos dominios del conocimiento. La llegada de ChatGPT y su introducción al público en general aumentaron el interés y la competencia en el espacio. En febrero de 2023, Google comenzó a presentar un servicio experimental llamado "Bard" que se basa en su programa LaMDA para generar respuestas de texto a preguntas formuladas en función de la información recopilada de la web .
Si bien ChatGPT y otros chatbots generalizados basados en la última IA generativa son capaces de realizar diversas tareas asociadas con los asistentes virtuales, también existen formas más especializadas de dicha tecnología que están diseñadas para abordar situaciones o necesidades más específicas. [18] [4]
Los asistentes virtuales funcionan a través de:
Muchos asistentes virtuales son accesibles a través de múltiples métodos, lo que ofrece versatilidad en la forma en que los usuarios pueden interactuar con ellos, ya sea a través del chat, comandos de voz u otras tecnologías integradas.
Los asistentes virtuales utilizan el procesamiento del lenguaje natural (PLN) para hacer coincidir el texto o la voz del usuario con los comandos ejecutables. Algunos aprenden continuamente mediante técnicas de inteligencia artificial , como el aprendizaje automático y la inteligencia ambiental .
Para activar un asistente virtual mediante la voz, se puede utilizar una palabra de activación. Se trata de una palabra o un grupo de palabras como "Hola Siri", "OK Google" o "Hola Google", "Alexa" y "Hola Microsoft". [21] A medida que los asistentes virtuales se vuelven más populares, aumentan los riesgos legales involucrados. [22] : 815
Los asistentes virtuales pueden integrarse en muchos tipos de plataformas o, como Amazon Alexa, en varias de ellas:
Los asistentes virtuales pueden proporcionar una amplia variedad de servicios, entre los que se incluyen: [30]
El comercio conversacional es el comercio electrónico a través de diversos medios de mensajería, incluidos los asistentes de voz [33], pero también el chat en vivo en sitios web de comercio electrónico , el chat en vivo en aplicaciones de mensajería como WeChat , Facebook Messenger y WhatsApp [34] y los chatbots en aplicaciones de mensajería o sitios web.
Un asistente virtual puede trabajar con el equipo de atención al cliente de una empresa para brindar asistencia las 24 horas, los 7 días de la semana, a los clientes. Ofrece respuestas rápidas, lo que mejora la experiencia del cliente.
Amazon habilita las “Habilidades” de Alexa y las “Acciones” de Google, esencialmente aplicaciones que se ejecutan en las plataformas del asistente.
Los asistentes virtuales tienen una variedad de problemas de privacidad asociados con ellos. Funciones como la activación por voz plantean una amenaza, ya que dichas funciones requieren que el dispositivo esté siempre escuchando. [35] Se han propuesto modos de privacidad como el botón de seguridad virtual para crear una autenticación multicapa para los asistentes virtuales. [36]
La política de privacidad de Google Assistant establece que no almacena los datos de audio sin el permiso del usuario, pero puede almacenar las transcripciones de las conversaciones para personalizar su experiencia. La personalización se puede desactivar en la configuración. Si un usuario desea que Google Assistant almacene datos de audio, puede ir a Actividad de voz y audio (VAA) y activar esta función. Los archivos de audio se envían a la nube y Google los utiliza para mejorar el rendimiento de Google Assistant, pero solo si la función VAA está activada. [37]
La política de privacidad del asistente virtual de Amazon, Alexa, establece que solo escucha conversaciones cuando se utiliza su palabra de activación (como Alexa, Amazon, Echo). Comienza a grabar la conversación después de que se indique una palabra de activación y deja de grabar después de 8 segundos de silencio. Envía la conversación grabada a la nube. Es posible eliminar la grabación de la nube visitando 'Privacidad de Alexa' en 'Alexa'. [38]
Apple afirma que no graba audio para mejorar Siri, sino que utiliza transcripciones. Los datos de las transcripciones solo se envían si se consideran importantes para el análisis. Los usuarios pueden optar por no hacerlo en cualquier momento si no quieren que Siri envíe las transcripciones en la nube. [39]
El valor añadido de los asistentes virtuales puede venir entre otros de lo siguiente:
En 2019, Antonio A. Casilli , sociólogo francés , criticó la inteligencia artificial y, en particular, los asistentes virtuales de la siguiente manera:
En un primer nivel, el hecho de que el consumidor proporcione datos gratuitos para el entrenamiento y la mejora del asistente virtual, a menudo sin saberlo, es éticamente perturbador.
Pero en un segundo nivel, podría ser aún más perturbador desde el punto de vista ético saber cómo se entrenan estas IA con estos datos.
Esta inteligencia artificial se entrena a través de redes neuronales , que requieren una enorme cantidad de datos etiquetados. Sin embargo, estos datos necesitan ser etiquetados a través de un proceso humano, lo que explica el auge del microtrabajo en la última década. Es decir, utilizar de forma remota a algunas personas en todo el mundo para realizar algunas tareas repetitivas y muy simples por unos pocos centavos, como escuchar los datos de voz de un asistente virtual y escribir lo que se dice. El microtrabajo ha sido criticado por la inseguridad laboral que causa y por la falta total de regulación: el salario promedio era de 1,38 dólares la hora en 2010, [45] y no proporciona ni atención médica ni beneficios de jubilación, pago por enfermedad ni salario mínimo . Por lo tanto, los asistentes virtuales y sus diseñadores son controvertidos por estimular la inseguridad laboral, y las IA que proponen siguen siendo humanas en la forma en que serían imposibles sin el microtrabajo de millones de trabajadores humanos. [44]
Las preocupaciones en materia de privacidad surgen por el hecho de que los comandos de voz están disponibles para los proveedores de asistentes virtuales en forma no cifrada y, por lo tanto, pueden compartirse con terceros y procesarse de manera no autorizada o inesperada. [46] Además del contenido lingüístico del habla grabada, la forma de expresión y las características de voz de un usuario pueden contener implícitamente información sobre su identidad biométrica, rasgos de personalidad, forma corporal, estado de salud física y mental, sexo, género, estados de ánimo y emociones, estatus socioeconómico y origen geográfico. [47]
Entre las plataformas de desarrollo más destacadas para asistentes virtuales se incluyen:
En generaciones anteriores de asistentes virtuales basados en chat de texto, el asistente a menudo estaba representado por un avatar (también conocido como personaje interactivo en línea o personaje automatizado ); esto se conocía como un agente encarnado .
Las experiencias digitales habilitadas por asistentes virtuales se consideran entre los principales avances tecnológicos recientes y las tendencias de consumo más prometedoras. Los expertos afirman que las experiencias digitales alcanzarán un peso de estatus comparable a las experiencias "reales", si no se vuelven más buscadas y apreciadas. [52] La tendencia se verifica por un alto número de usuarios frecuentes y el crecimiento sustancial de la cantidad de usuarios de asistentes digitales virtuales en todo el mundo. A mediados de 2017, se estima que la cantidad de usuarios frecuentes de asistentes virtuales digitales es de alrededor de 1 mil millones en todo el mundo. [53] Además, se puede observar que la tecnología de asistentes digitales virtuales ya no se limita a las aplicaciones de teléfonos inteligentes, sino que está presente en muchos sectores industriales (incluidos automoción , telecomunicaciones, comercio minorista , atención médica y educación). [54] En respuesta a los importantes gastos de I+D de las empresas en todos los sectores y una creciente implementación de dispositivos móviles, se prevé que el mercado de la tecnología de reconocimiento de voz crezca a una CAGR del 34,9% a nivel mundial durante el período de 2016 a 2024 y, por lo tanto, supere un tamaño de mercado global de 7500 millones de dólares estadounidenses para 2024. [54] Según un estudio de Ovum , se proyecta que la "base instalada de asistentes digitales nativos" supere a la población mundial para 2021, con 7500 millones de dispositivos activos con capacidad de IA de voz. [55] Según Ovum, para ese momento "Google Assistant dominará el mercado de dispositivos con capacidad de IA de voz con una participación de mercado del 23,3%, seguido por Bixby de Samsung (14,5%), Siri de Apple (13,1%), Alexa de Amazon (3,9%) y Cortana de Microsoft (2,3%)". [55]
Teniendo en cuenta la distribución regional de los líderes del mercado, se espera que las empresas norteamericanas (por ejemplo, Nuance Communications , IBM , eGain ) dominen la industria en los próximos años, debido al impacto significativo de BYOD ( Bring Your Own Device ) y los modelos de negocio de movilidad empresarial. Además, se espera que la creciente demanda de plataformas asistidas por teléfonos inteligentes impulse aún más el crecimiento de la industria de asistentes virtuales inteligentes (IVA) de América del Norte. A pesar de su menor tamaño en comparación con el mercado norteamericano, se prevé que la industria de asistentes virtuales inteligentes de la región Asia-Pacífico , con sus principales actores ubicados en India y China, crezca a una tasa de crecimiento anual del 40% (por encima del promedio mundial) durante el período 2016-2024. [54]
Los asistentes virtuales no deben ser vistos únicamente como un dispositivo para particulares, ya que podrían tener una utilidad económica real para las empresas. Por ejemplo, un asistente virtual puede asumir el papel de un asistente siempre disponible con un conocimiento enciclopédico, que puede organizar reuniones, verificar inventarios y verificar información. Los asistentes virtuales son tanto más importantes cuanto que su integración en las pequeñas y medianas empresas a menudo consiste en un primer paso sencillo a través de la adaptación y el uso más global de Internet de las cosas (IoT) . De hecho, las tecnologías de IoT son percibidas en primer lugar por las pequeñas y medianas empresas como tecnologías de importancia crítica, pero demasiado complicadas, arriesgadas o costosas para su uso. [56]
En mayo de 2018, investigadores de la Universidad de California, Berkeley , publicaron un artículo que mostraba que los comandos de audio indetectables para el oído humano podrían incrustarse directamente en la música o el texto hablado, manipulando así a los asistentes virtuales para que realicen ciertas acciones sin que el usuario se dé cuenta. [57] Los investigadores realizaron pequeños cambios en los archivos de audio, que cancelaron los patrones de sonido que los sistemas de reconocimiento de voz deben detectar. Estos fueron reemplazados por sonidos que serían interpretados de manera diferente por el sistema y le ordenarían marcar números de teléfono, abrir sitios web o incluso transferir dinero. [57] La posibilidad de esto se conoce desde 2016, [57] y afecta a los dispositivos de Apple, Amazon y Google. [58]
Además de las acciones no intencionales y la grabación de voz, otro riesgo de seguridad y privacidad asociado con los asistentes virtuales inteligentes son los comandos de voz maliciosos: un atacante que se hace pasar por un usuario y emite comandos de voz maliciosos para, por ejemplo, desbloquear una puerta inteligente para obtener acceso no autorizado a una casa o garaje o pedir artículos en línea sin el conocimiento del usuario. Aunque algunos asistentes virtuales inteligentes proporcionan una función de entrenamiento de voz para evitar dicha suplantación, puede resultar difícil para el sistema distinguir entre voces similares. Por lo tanto, una persona malintencionada que pueda acceder a un dispositivo habilitado para asistentes virtuales inteligentes podría engañar al sistema para que piense que es el verdadero propietario y llevar a cabo actos delictivos o maliciosos. [59]
Título de YouTube: Airline Information System, 1989 – AT&T Archives – reconocimiento de voz
{{cite journal}}
: |volume=
tiene texto extra ( ayuda )