Las pruebas de usabilidad son una técnica que se utiliza en el diseño de interacción centrado en el usuario para evaluar un producto probándolo con los usuarios. Esto puede considerarse una práctica de usabilidad irreemplazable , ya que proporciona información directa sobre cómo los usuarios reales utilizan el sistema. [1] Se centra más en la intuición del diseño del producto y se prueba con usuarios que no lo han utilizado previamente. Este tipo de pruebas es fundamental para el éxito de un producto final, ya que una aplicación en pleno funcionamiento que crea confusión entre sus usuarios no durará mucho. [2] Esto contrasta con los métodos de inspección de usabilidad , en los que los expertos utilizan diferentes métodos para evaluar una interfaz de usuario sin involucrar a los usuarios.
Las pruebas de usabilidad se centran en medir la capacidad de un producto creado por el hombre para cumplir con los propósitos previstos. Algunos ejemplos de productos que suelen beneficiarse de las pruebas de usabilidad son los alimentos , los productos de consumo, los sitios web o aplicaciones web, las interfaces informáticas , los documentos y los dispositivos. Las pruebas de usabilidad miden la usabilidad o facilidad de uso de un objeto específico o un conjunto de objetos, mientras que los estudios generales de interacción entre humanos y ordenadores intentan formular principios universales.
La simple recopilación de opiniones sobre un objeto o un documento es una investigación de mercado o una investigación cualitativa , más que una prueba de usabilidad. Las pruebas de usabilidad suelen implicar una observación sistemática en condiciones controladas para determinar qué tan bien las personas pueden usar el producto. [3] Sin embargo, a menudo se utilizan tanto la investigación cualitativa como las pruebas de usabilidad en combinación para comprender mejor las motivaciones/percepciones de los usuarios, además de sus acciones.
En lugar de mostrarles a los usuarios un borrador y preguntarles: "¿Entiendes esto?", las pruebas de usabilidad implican observar a personas que intentan usar algo para el propósito previsto. Por ejemplo, cuando se prueban las instrucciones para ensamblar un juguete, se les deben dar a los sujetos de prueba las instrucciones y una caja de piezas y, en lugar de pedirles que comenten sobre las piezas y los materiales, se les debe pedir que ensamblen el juguete. La redacción de las instrucciones, la calidad de las ilustraciones y el diseño del juguete afectan el proceso de ensamblaje.
La configuración de una prueba de usabilidad implica crear cuidadosamente un escenario o una situación realista, en la que la persona realiza una lista de tareas utilizando el producto que se está probando mientras los observadores miran y toman notas ( verificación dinámica ). También se utilizan varios otros instrumentos de prueba , como instrucciones con guión, prototipos en papel y cuestionarios previos y posteriores a la prueba para recopilar comentarios sobre el producto que se está probando ( verificación estática ). Por ejemplo, para probar la función de adjuntos de un programa de correo electrónico , un escenario describiría una situación en la que una persona necesita enviar un archivo adjunto en un correo electrónico y se le pediría que realice esta tarea. El objetivo es observar cómo funcionan las personas de manera realista, para que los desarrolladores puedan identificar las áreas problemáticas y solucionarlas. Las técnicas que se utilizan popularmente para recopilar datos durante una prueba de usabilidad incluyen el protocolo de pensar en voz alta , el aprendizaje de co-descubrimiento y el seguimiento ocular .
Las pruebas de pasillo , también conocidas como usabilidad de guerrilla , son un método rápido y económico de pruebas de usabilidad en el que se pide a las personas (por ejemplo, a las que pasan por el pasillo) que prueben a usar el producto o servicio. Esto puede ayudar a los diseñadores a identificar "paredes de ladrillos", problemas tan graves que los usuarios simplemente no pueden superar, en las primeras etapas de un nuevo diseño. Se puede recurrir a cualquier persona, excepto a los diseñadores e ingenieros del proyecto (suelen actuar como "revisores expertos" porque están demasiado cerca del proyecto).
Este tipo de prueba es un ejemplo de muestreo por conveniencia y, por lo tanto, los resultados son potencialmente sesgados.
En un escenario en el que los evaluadores de usabilidad, los desarrolladores y los usuarios potenciales se encuentran en diferentes países y zonas horarias, realizar una evaluación de usabilidad de laboratorio tradicional crea desafíos tanto desde la perspectiva de costos como de logística. Estas preocupaciones llevaron a la investigación sobre la evaluación de usabilidad remota, con el usuario y los evaluadores separados en el espacio y el tiempo. Las pruebas remotas, que facilitan que las evaluaciones se realicen en el contexto de otras tareas y tecnología del usuario, pueden ser sincrónicas o asincrónicas. La primera implica una comunicación individual en tiempo real entre el evaluador y el usuario, mientras que la segunda implica que el evaluador y el usuario trabajen por separado. [4] Hay numerosas herramientas disponibles para abordar las necesidades de ambos enfoques.
Las metodologías de pruebas de usabilidad sincrónicas implican videoconferencias o emplean herramientas de uso compartido de aplicaciones remotas como WebEx. WebEx y GoToMeeting son las tecnologías más utilizadas para realizar una prueba de usabilidad remota sincrónica. [5] Sin embargo, las pruebas remotas sincrónicas pueden carecer de la inmediatez y la sensación de "presencia" deseadas para respaldar un proceso de prueba colaborativo. Además, la gestión de la dinámica interpersonal a través de barreras culturales y lingüísticas puede requerir enfoques sensibles a las culturas involucradas. Otras desventajas incluyen tener un control reducido sobre el entorno de prueba y las distracciones e interrupciones que experimentan los participantes en su entorno nativo. [6] Uno de los métodos más nuevos desarrollados para realizar una prueba de usabilidad remota sincrónica es mediante el uso de mundos virtuales. [7]
Las metodologías asincrónicas incluyen la recopilación automática de los flujos de clics de los usuarios, los registros de los incidentes críticos que ocurren mientras interactúan con la aplicación y la retroalimentación subjetiva de los usuarios sobre la interfaz. [6] De manera similar a un estudio en el laboratorio, una prueba de usabilidad remota asincrónica se basa en tareas y la plataforma permite a los investigadores capturar los clics y los tiempos de las tareas. Por lo tanto, para muchas grandes empresas, esto permite a los investigadores comprender mejor las intenciones de los visitantes cuando visitan un sitio web o un sitio móvil. Además, este estilo de prueba de usuario también brinda la oportunidad de segmentar la retroalimentación por tipo demográfico, actitudinal y conductual. Las pruebas se llevan a cabo en el propio entorno del usuario (en lugar de laboratorios), lo que ayuda a simular aún más las pruebas de escenarios de la vida real. Este enfoque también proporciona un vehículo para solicitar fácilmente la retroalimentación de los usuarios en áreas remotas de manera rápida y con menores gastos generales de organización. En los últimos años, la realización de pruebas de usabilidad de forma asincrónica también se ha vuelto frecuente y permite a los evaluadores brindar retroalimentación en su tiempo libre y desde la comodidad de su propio hogar.
La revisión por parte de expertos es otro método general de pruebas de usabilidad. Como sugiere el nombre, este método se basa en la contratación de expertos con experiencia en el campo (posiblemente de empresas que se especializan en pruebas de usabilidad) para evaluar la usabilidad de un producto.
Una evaluación heurística o auditoría de usabilidad es una evaluación de una interfaz realizada por uno o más expertos en factores humanos. Los evaluadores miden la usabilidad, la eficiencia y la eficacia de la interfaz basándose en principios de usabilidad, como las 10 heurísticas de usabilidad definidas originalmente por Jakob Nielsen en 1994. [8]
Las heurísticas de usabilidad de Nielsen, que han seguido evolucionando en respuesta a la investigación de usuarios y a los nuevos dispositivos, incluyen:
De manera similar a las revisiones de expertos, las revisiones automatizadas de expertos permiten realizar pruebas de usabilidad, pero mediante el uso de programas con reglas para un buen diseño y heurísticas. Si bien una revisión automatizada puede no brindar tantos detalles y conocimientos como las revisiones de personas, se pueden realizar de manera más rápida y consistente. La idea de crear usuarios sustitutos para realizar pruebas de usabilidad es una dirección ambiciosa para la comunidad de inteligencia artificial.
En el desarrollo y el marketing web, las pruebas A/B o pruebas divididas son un enfoque experimental del diseño web (especialmente el diseño de la experiencia del usuario), que tiene como objetivo identificar cambios en las páginas web que aumenten o maximicen un resultado de interés (por ejemplo, la tasa de clics de un anuncio de banner). Como su nombre lo indica, se comparan dos versiones (A y B), que son idénticas excepto por una variación que podría afectar el comportamiento de un usuario. La versión A puede ser la que se utiliza actualmente, mientras que la versión B se modifica en algún aspecto. Por ejemplo, en un sitio web de comercio electrónico, el embudo de compra suele ser un buen candidato para las pruebas A/B, ya que incluso las mejoras marginales en las tasas de abandono pueden representar una ganancia significativa en las ventas. Se pueden ver mejoras significativas al probar elementos como el texto del texto, los diseños, las imágenes y los colores.
Las pruebas multivariables o pruebas de cubo son similares a las pruebas A/B pero prueban más de dos versiones al mismo tiempo.
A principios de los años 90, Jakob Nielsen , por entonces investigador de Sun Microsystems , popularizó el concepto de utilizar numerosas pruebas de usabilidad pequeñas (normalmente con sólo cinco participantes cada una) en distintas etapas del proceso de desarrollo. Su argumento es que, una vez que se descubre que dos o tres personas están totalmente confundidas con la página de inicio, no se gana mucho con ver a más personas sufrir por el mismo diseño defectuoso. "Las pruebas de usabilidad elaboradas son un desperdicio de recursos. Los mejores resultados se obtienen haciendo pruebas con no más de cinco usuarios y ejecutando tantas pruebas pequeñas como se pueda permitir". [9]
La afirmación de que "Cinco usuarios son suficientes" fue descrita posteriormente por un modelo matemático [10] que establece que para la proporción de problemas no cubiertos U
donde p es la probabilidad de que un sujeto identifique un problema específico y n el número de sujetos (o sesiones de prueba). Este modelo se muestra como un gráfico asintótico hacia el número de problemas reales existentes (ver figura siguiente).
En investigaciones posteriores, la afirmación de Nielsen ha sido cuestionada utilizando evidencia empírica [11] y modelos matemáticos más avanzados . [12] Dos desafíos clave para esta afirmación son:
Cabe señalar que Nielsen no recomienda detenerse después de una sola prueba con cinco usuarios; su argumento es que realizar pruebas con cinco usuarios, solucionar los problemas que descubran y luego probar el sitio revisado con cinco usuarios diferentes es un mejor uso de los recursos limitados que realizar una sola prueba de usabilidad con 10 usuarios. En la práctica, las pruebas se realizan una o dos veces por semana durante todo el ciclo de desarrollo, utilizando de tres a cinco sujetos de prueba por ronda, y los resultados se entregan a los diseñadores en un plazo de 24 horas. El número de usuarios realmente evaluados a lo largo del proyecto puede llegar fácilmente a 50 a 100 personas. Las investigaciones muestran que las pruebas de usuario realizadas por las organizaciones generalmente implican el reclutamiento de 5 a 10 participantes. [14]
En la etapa inicial, cuando es más probable que los usuarios se enfrenten de inmediato a problemas que los detengan, casi cualquier persona con una inteligencia normal puede ser utilizada como sujeto de prueba. En la segunda etapa, los evaluadores reclutarán sujetos de prueba de un amplio espectro de capacidades. Por ejemplo, en un estudio, los usuarios experimentados no mostraron ningún problema al utilizar cualquier diseño, desde el primero hasta el último, mientras que los usuarios inexpertos y los que se identificaron como usuarios avanzados fracasaron repetidamente. [15] Más adelante, a medida que el diseño se suaviza, se deben reclutar usuarios de la población objetivo.
Cuando el método se aplica a un número suficiente de personas a lo largo de un proyecto, las objeciones planteadas anteriormente se resuelven: el tamaño de la muestra deja de ser pequeño y se detectan problemas de usabilidad que surgen con usuarios ocasionales. El valor del método reside en el hecho de que los problemas de diseño específicos, una vez detectados, nunca se vuelven a detectar porque se eliminan de inmediato, mientras que las partes que parecen exitosas se prueban una y otra vez. Si bien es cierto que los problemas iniciales en el diseño pueden ser probados por solo cinco usuarios, cuando el método se aplica correctamente, las partes del diseño que funcionaron en esa prueba inicial pasarán a ser probadas por 50 a 100 personas.
Un manual de Apple Computer de 1982 para desarrolladores aconsejaba sobre pruebas de usabilidad: [16]
Apple aconsejó a los desarrolladores: "Deben comenzar a realizar pruebas lo antes posible, utilizando amigos, familiares y nuevos empleados seleccionados": [16]
Nuestro método de prueba es el siguiente: instalamos una sala con cinco o seis sistemas informáticos. Programamos dos o tres grupos de cinco o seis usuarios a la vez para probar los sistemas (a menudo sin que sepan que lo que estamos probando es el software y no el sistema). Tenemos a dos de los diseñadores en la sala. Si son menos, se pierden gran parte de lo que está sucediendo. Si son más, los usuarios sienten que siempre hay alguien respirándoles en la nuca.
Los diseñadores deben observar a las personas utilizar el programa en persona, porque [16]
El noventa y cinco por ciento de los obstáculos se encuentran observando el lenguaje corporal de los usuarios. Esté atento a ojos entrecerrados, hombros encorvados, cabezas que se mueven y suspiros profundos y sinceros. Cuando un usuario se topa con un obstáculo, asumirá que es "porque no es muy inteligente": no lo informará; lo ocultará... No haga suposiciones sobre por qué un usuario se confundió. Pregúntele. A menudo se sorprenderá al saber qué pensó el usuario que estaba haciendo el programa en el momento en que se perdió.
Las pruebas de usabilidad han sido un tema formal de instrucción académica en diferentes disciplinas. [17] Las pruebas de usabilidad son importantes para los estudios de composición y la instrucción de escritura en línea (OWI). [18] El académico Collin Bjork sostiene que las pruebas de usabilidad son "necesarias pero insuficientes para desarrollar una OWI eficaz, a menos que también se combinen con las teorías de la retórica digital ". [19]
Los productos de encuesta incluyen encuestas en papel y digitales , formularios e instrumentos que pueden ser completados o utilizados por el encuestado solo o con un recopilador de datos. Las pruebas de usabilidad se realizan con mayor frecuencia en encuestas web y se centran en cómo las personas interactúan con la encuesta, como navegar por la encuesta, ingresar respuestas de la encuesta y encontrar información de ayuda. Las pruebas de usabilidad complementan los métodos tradicionales de prueba previa de encuesta, como la prueba previa cognitiva (cómo las personas entienden los productos), la prueba piloto (cómo funcionarán los procedimientos de la encuesta) y la revisión por parte de un experto en la materia en metodología de encuestas . [20]
En los productos de encuesta traducidos, las pruebas de usabilidad han demostrado que se debe tener en cuenta la "aptitud cultural" en los niveles de oraciones y palabras y en los diseños para la entrada de datos y la navegación, [21] y que presentar traducciones y señales visuales de funcionalidades comunes (pestañas, hipervínculos , menús desplegables y URL ) ayudan a mejorar la experiencia del usuario. [22]
{{cite journal}}
: Requiere citar revista |journal=
( ayuda )