Saltar enlaces

Agente de IA como usuario – NN/G

Resumen:
Los agentes de inteligencia artificial ahora interactúan con interfaces digitales junto con los humanos. Diseñar para ambos requiere repensar lo que significa ser un “usuario” y priorizar la accesibilidad.

La comunidad de diseño ha pasado décadas perfeccionando lo que significa diseñar para los usuarios. Estudiamos su comportamiento, mapeamos su viaje y probamos nuestras hipótesis con sus necesidades. Nuestros principios están y deben estar impulsados ​​por comprender quién está utilizando el producto o servicio y diseñarlo en consecuencia.

agente de inteligencia artificial (sistemas que persiguen objetivos tomando acciones de forma iterativa, evaluando el progreso y decidiendo sus propios próximos pasos) ahora interactúan con las mismas interfaces digitales que diseñamos para las personas.

Navegan por el sitio web, completan formularios, comparan opciones y ejecutan transacciones. Su enfoque es tosco, a menudo poco confiable y tiene limitaciones significativas. Funcionalmente, son usuarios de nuestra interfaz, incluso si todavía no somos conscientes de que lo son. Para dar cuenta de esta realidad, se requiere un cambio conceptual. Es necesario actualizar una suposición fundamental: “usuario” ya no es sinónimo de “humano”.

Definición ampliada de “usuario”

Durante gran parte de la historia del diseño digital, la palabra “usuario” implícitamente significaba la persona sentada frente a la pantalla. La mayoría de las heurísticas de diseño, los principios de usabilidad y los métodos de investigación suponen que hay un ser humano del otro lado.

La gente permite que los agentes prueben una variedad casi infinita de tareas: armar calendarios y agregar nuevos eventos, reservar vuelos, verificar si se ha resurtido una receta, encontrar el producto mejor calificado a un precio determinado. Los agentes interactúan con la interfaz digital para buscar información, conocer las acciones disponibles y realizarlas, tal como los usuarios humanos.

Si bien esto puede parecer contrario a la filosofía de la experiencia del usuario, Esta realidad significa que los agentes son consumidores en todo sentido funcional:

  • Tiene un propósito.
  • Encuentra una interfaz.
  • Intenta lograr sus objetivos a través de la interfaz.
  • O la interfaz admite el intento o no.

Esta diferencia es importante porque las interfaces que diseñamos hoy ya no satisfacen las necesidades de este nuevo tipo de usuario. Y estos agentes, a su vez, decepcionaron a los humanos al otro lado de la pantalla.

Cómo interactúan los agentes con las interfaces hoy

Hay tres métodos principales utilizados por los agentes para interactuar con las interfaces digitales, cada uno de los cuales revela un conjunto diferente de supuestos de diseño que se violan.

Interacción basada en la visión

El enfoque más básico refleja lo que hacen los humanos: el agente toma una captura de pantalla de la interfaz y utiliza un modelo visual para interpretar lo que ve. El agente mira la página, identifica elementos (botones, campos de texto, elementos de navegación), decide en qué hacer clic y repite.

Este enfoque es costoso: lento, computacionalmente intensivo, propenso a errores y requiere una gran cantidad de tokens. Una sola captura de pantalla requiere decenas de miles de tokens para que el modelo los procese y no tiene en cuenta el contenido dinámico ni los flujos de trabajo de varios pasos.

Análisis del árbol de accesibilidad

El agente también puede leer el árbol de accesibilidad del navegador (la representación estructurada de la página que el navegador genera a partir de HTML) en lugar de tomar una captura de pantalla de la página. Esta es la misma estructura de datos que utilizan los lectores de pantalla para proporcionar interfaces de navegación para personas con discapacidad visual.

Los árboles de accesibilidad proporcionan una representación clara y jerárquica de los elementos de la página: sus funciones, etiquetas, estados y relaciones. Cuesta miles de tokens procesarlo (una fracción del costo de una captura de pantalla) y proporciona información más confiable.

Una interfaz cuidadosamente construida para la accesibilidad se ha vuelto más clara para los agentes: HTML semántico, elementos correctamente marcados, roles claros y una jerarquía de páginas lógica también están disponibles para los usuarios de los agentes.

Acceso directo a la API

El tercer método pasa por alto completamente la interfaz. Interacción de agente a agente e interacción del agente con la API. Cuando una API estructurada está disponible, los agentes pueden consultar datos directamente y realizar acciones sin interactuar con ninguna representación visual o estructural de la página.

Los estándares emergentes como el Model Context Protocol (MCP) hacen que este enfoque esté más estandarizado, pero no necesariamente más extendido.

¿Qué problemas surgen cuando el agente es el usuario?

Consideremos un ejemplo mundano. Los padres piden a sus agentes que consulten el sitio web de la escuela para conocer los próximos eventos, cotejen esas fechas con el calendario compartido de la familia y señalen cualquier conflicto. Las personas escanean páginas de eventos, anotan fechas y consultan calendarios.

La experiencia del agente es diferente. El sitio web de la escuela está diseñado para que los padres naveguen de forma intuitiva. Los eventos enumerados incluyen fecha, hora y descripción organizada por agrupación espacial. Puede que no sea difícil de leer para los humanos, pero para un agente que analiza la captura de pantalla, cada bit de información debe inferirse de grupos de píxeles: qué texto es una fecha, cuál es un título y cómo se relacionan entre sí. Las páginas de eventos se pueden cargar dinámicamente, capturando páginas incompletas. Algunas actividades están alojadas en el sitio web, otras están disponibles como archivos PDF descargables y otras requieren un inicio de sesión en el Portal para padres.

Cada paso aumenta la probabilidad de error y el uso de tokens. Se ha convertido en una tarea desalentadora realizar cosas tan mundanas, y mucho menos tareas más complejas para los agentes: cambiar perfiles, pedir artículos o comprobar la disponibilidad y las reservas.

Reciente: Diseñar para ambos

A corto plazo, la pregunta de diseño es “¿Cómo construimos interfaces que sirvan tanto a usuarios humanos como a agentes?” (Esto depende del contexto y supone que las tareas que el usuario delega son consistentes con el espíritu de su producto o servicio).

Las pautas de accesibilidad logran este objetivo de diseño: nombres de elementos claros y descriptivos, patrones de interacción predecibles, jerarquía lógica de páginas, HTML semántico, estándares ARIA. Estos son conceptos básicos de accesibilidad que la comunidad del diseño ha comprendido durante años, aunque a menudo se pasan por alto.

Invertir en accesibilidad es lo correcto, pero ahora hay un argumento comercial claro Porque así es como los agentes utilizan los productos y servicios hoy en día. Es posible que las organizaciones con estrictos requisitos de accesibilidad no se den cuenta de que ya están creando interfaces por las que los agentes pueden navegar de manera más eficiente:

  • Etiquetas claras y descriptivas. Evite botones que solo contengan iconos, textos de enlaces poco claros (“haga clic aquí”) y etiquetas que dependan del contexto visual.
  • Patrones predecibles y consistentes. Las estructuras de navegación consistentes, los patrones de formulario estándar y los cambios de estado predecibles reducen la probabilidad de que los errores de los agentes se acumulen en flujos de trabajo de varios pasos.
  • Minimizar la dependencia de la arquitectura de información puramente visual. El marcado estructural debe reflejar agrupaciones visuales para que los agentes puedan comprender las relaciones.

Ninguna de estas sugerencias es nueva. Son los mismos principios que hacen que las interfaces sean más fáciles de usar para las personas con discapacidades, más sólidas en todos los dispositivos y entornos, y más fáciles de mantener a lo largo del tiempo.

¿Qué pasa si no quiere un agente en su producto?

Por supuesto, en algunos modelos de negocio y categorías de productos, tener agentes en su producto puede no ser deseable. El argumento a favor del diseño con agentes supone que cuando la máquina actúa en nombre del usuario, los objetivos del usuario y los objetivos comerciales están alineados. Esto no siempre es cierto.

Cuando el acceso se convierte en producto

Algunas empresas dependen de los humanos para acceder físicamente a los productos. Para estas empresas, que los agentes extraigan valor sin una visita es una cuestión de supervivencia. Los sitios de contenido con publicidad y marketing de contenidos ya están comenzando a ver el impacto de este cambio en sus métricas.

Los servicios de streaming también tienen una versión de este problema. Netflix quiere que lo hagas Navegar – El tiempo de visualización presenta contenido original y profundiza el ciclo de participación, aumentando así las tasas de retención. Un agente responde “¿Qué debería ver esta noche?” sin que los usuarios tengan que abrir la aplicación alteraría la experiencia de descubrimiento que Netflix ha optimizado a lo largo de los años.

Cuando la fricción es intencional

No toda fricción en una interfaz es un fallo de diseño. En algunas áreas, existe fricción por razones regulatorias, legales o de seguridad, y eliminar esa fricción genera responsabilidad.

El mundo de los servicios financieros está lleno de ejemplos de esto. Las firmas de corretaje enfrentan riesgos regulatorios si facilitan a los agentes la ejecución de operaciones sin controles de seguridad ni divulgaciones legales. La fricción es necesaria.

Los productos sanitarios afrontarán desafíos similares. HIPAA restringe cómo y quién puede acceder a los datos de los pacientes, y la cuestión de si los agentes de inteligencia artificial que actúan en nombre de los pacientes califican como visitantes autorizados aún no se ha resuelto. Hasta entonces, las organizaciones sanitarias tenían motivos legítimos para denegar el acceso proxy.

Cuando proteges la inteligencia competitiva

Algunas interfaces son intencionalmente opacas para las máquinas porque los datos detrás de ellas son sensibles a la raza.

Las aerolíneas, los hoteles y las empresas de alquiler de coches llevan años luchando contra los robots que rastrean la pantalla. Sus precios son dinámicos, patentados y administrados estratégicamente: el acceso instantáneo a estos datos es exactamente lo que quieren los competidores y los agregadores de comparación de precios. Hacer que la interfaz sea amigable para los agentes eliminará todo esto.

Cuando quieres que tu producto se convierta en agente

Hay muchas plataformas que quieren La propia capa de proxy. Algunos productos están limitando activamente el acceso al proxy de terceros (bloqueando llamadas MCP externas, limitando el área de superficie de API) porque ven sus capacidades de IA como un diferenciador. Si la propuesta de valor de su producto se está convirtiendo en una “capa de inteligencia” sobre los datos del usuario, hacer que agencias externas traten su plataforma como un almacén de datos tonto puede mercantilizar lo que está creando.

Riesgos competitivos de optar por no participar

Eso no significa que la decisión de detener a los agentes esté exenta de riesgos. La pregunta más difícil es cuándo los competidores No Detenlos.

Si trabaja en un banco, podría tomar una decisión razonable para evitar que los agentes ejecuten transacciones en nombre de sus clientes por razones de seguridad. Pero, ¿qué sucede cuando los competidores que ofrecen productos financieros similares comienzan a anunciar su apoyo a las agencias de gestión patrimonial?

Se trata de un cálculo estratégico, no de un requisito universal. Diseñar para una agencia no siempre es la elección correcta, pero optar por no participar es bajo su propio riesgo. Ya sea que optimice para los agentes o no, debemos (al menos) reconocer que los agentes intentarán utilizar nuestro producto.

Largo plazo: cuando las capas de la interfaz divergen

Cuando los agentes pueden consultar datos estructurados y realizar acciones, las interfaces visuales se vuelven irrelevantes para ellos. A medida que más organizaciones expongan sus servicios a través de API compatibles con agentes, los problemas de diseño para los usuarios humanos y los usuarios agentes estarán cada vez más separados.

a pesar de esto, Los humanos todavía necesitan interfaces — Visual, interactivo, diseñado para la comprensión y la toma de decisiones.

El agente interactuará con el material subyacente. y lógicamente sencillo. La experiencia humana dependerá de la capacidad de sus agentes para completar tareas.

en conclusión

La palabra “usuario” es siempre una abreviatura. Describe las entidades que intentan alcanzar objetivos a través de las cosas que diseñamos. Durante décadas, esta entidad fue enteramente humana, pero ya no es así.

Identificar a los agentes como usuarios requiere ampliar los supuestos que han estado implícitos en nuestro trabajo desde el inicio de este campo. Lo que trae consigo este cambio es el alcance de los objetos que diseñamos y la urgencia de las prácticas que ya sabemos que importan: estructura semántica, accesibilidad, etiquetado claro y patrones de interacción predecibles.

Home
Account
Cart
Search
¡Hola! ¡Pregúntame lo que quieras!
Explore
Drag