El nuevo kit de herramientas UX: datos, contexto y evaluación
Diseñar cómo se comporta el modelo.

Hemos entrado en un mundo donde las experiencias son instantáneas y los usuarios reaccionan ante ellas. Los días en que los productos entregan un código que coincide exactamente con nuestro diseño están contados. Cuando alguien utiliza un producto de IA, reacciona a comportamientos que se desarrollan en tiempo real, moldeados por sistemas probabilísticos en lugar de pantallas fijas. Esto marcó un gran avance en una era en la que los diseñadores podían predecir y controlar cada resultado, y obligó a la experiencia del usuario a enfrentarse a un nuevo material.
Los productos de inteligencia artificial se definen por un comportamiento no determinista. La experiencia se desarrolla sobre la marcha, generada por modelos de inteligencia artificial. Todo lo que los usuarios ven, leen, oyen o a lo que son dirigidos es el resultado de decisiones tomadas por el sistema en su nombre. Sin embargo, gran parte del enfoque actual en la experiencia del usuario y la IA todavía se centra en la velocidad de producción. Creación de prototipos más rápida. Codificación de vibraciones. Estas prácticas son importantes, pero no abordan la transformación real que traerá la IA.
El verdadero cambio en nuestra tecnología está en cómo se comportan los modelos de diseño.
La ingeniería, y ahora el producto, ha avanzado hacia arriba. Dan forma al modelo, limitan los resultados, definen el comportamiento del sistema y determinan lo que es o no posible. UX a menudo trata el modelo como una caja negra y diseña a su alrededor. El resultado es que los productos de IA pueden parecer centrados en el usuario, pero a menudo son inconsistentes con la intención del usuario y, a veces, incluso dañinos.
como funciona hoy
En muchas organizaciones, los equipos de ingeniería y de producto ya están diseñando el núcleo de la experiencia. No a través de una pantalla, sino a través de indicaciones del sistema, estrategias de ajuste, definiciones de herramientas, lógica de orquestación y marcos de evaluación. Están utilizando un producto de inteligencia artificial, Flywheel, y lo iteran constantemente. La experiencia del usuario a menudo se traslada posteriormente para que el resultado se sienta mejor y más acorde con la marca. En realidad, ahí no es donde está la influencia.
En una conversación el verano pasado, Andrés Ng Se cree que el verdadero cuello de botella ya no es la ingeniería, sino el producto. A medida que la IA acelera la generación de código, la parte más difícil es decidir qué construir. Su consejo es que los gerentes de producto hablen con los usuarios, desarrollen empatía y creen modelos mentales de los usuarios a los que atienden.
La experiencia del usuario está notoriamente ausente en este marco, lo que dice mucho sobre lo mala que es nuestra disciplina a la hora de articular su valor. La propuesta es dar a la gestión de productos un papel más importante en relación con la ingeniería, o incluso cambiar la proporción. Su ejemplo pasó de un gerente de producto a cuatro ingenieros, de un gerente de producto a medio ingeniero. A medida que el espacio se abre a los productos, también debería abrirse a diseñadores de considerable influencia. Después de todo, comprender a los usuarios, los problemas del marco y lo que determina lo que construimos siempre ha sido el núcleo de la experiencia del usuario.

Cambios de pensamiento necesarios para los diseñadores
Para los diseñadores, este es un nuevo espacio por conquistar; requiere un cambio en el pensamiento de los sistemas deterministas al diseño conductual. Esto no significa abandonar el diseño centrado en el usuario, sino aplicarlo donde más importa. Los modelos no son mágicos, son materiales que se pueden diseñar.
“En la era anterior al software, lo único de lo que los diseñadores tenían que preocuparse era cómo se construyeba el producto. Pero en la era posterior al software, tenemos que pensar en cómo se comporta el producto. Este es un nuevo paradigma, y muchas personas todavía están estancadas en la era anterior al software cuando se trata de diseño…” –Ovita Sampson y Tim Brown (99U 2019)
Para entrar en este campo, necesitamos educación. No se trata de convertirse en ingeniero de inteligencia artificial, sino de comprender cómo se comportan los sistemas. Esto significa interrogar los datos de entrenamiento, dar forma al contexto que maneja el modelo y desarrollar estrategias de evaluación para definir qué es y qué no es aceptable.
Algunas empresas ya están marcando el camino. ellos contratan diseñador de modelos Su trabajo se centra explícitamente en dar forma al comportamiento modelo. Esta es la realidad para empresas como OpenAI, Google, etc. figurapero no debe considerarse una excepción. Toda organización que cree productos de IA necesitará esta capacidad en su práctica de diseño, ya sea como una función dedicada o como una habilidad central integrada en una función de diseño existente.
Nuevo conjunto de herramientas: datos, contexto y evaluación
Cuando un modelo de inteligencia artificial es materialentonces los datos, el contexto y la evaluación son las herramientas que necesitamos para darle forma. Familiaricémonos con su nueva herramienta.

Los datos dan forma a lo que el modelo sabe y predice. Los datos de preentrenamiento, los datos de ajuste y los datos generados durante las interacciones determinan los datos que se generarán y ningún dato se crea de la misma manera. Los diseñadores deberían preguntarse qué comportamientos fomentan los datos, qué perspectivas excluyen y cómo se obtuvieron.
Estamos inmersos en un mundo de grandes modelos multimodelo, donde gran parte de los datos se extraen de Internet, a menudo de los autores sin consentimiento, y están plagados de modelos sesgados e injustos. Como diseñadores, también tenemos que preguntarnos si este es el camino que queremos tomar o si los modelos más pequeños y más éticos son una mejor opción.
El contexto determina lo que el modelo puede considerar actualmente. Esto incluye entradas del usuario, señales ambientales, conocimientos recuperados, indicaciones del sistema, salvaguardas e instrucciones. La ventana de contexto es donde se acumula la mayor parte de la experiencia. Escribir indicaciones, instrucciones y restricciones del sistema es un trabajo de diseño. Principalmente se realiza utilizando un lenguaje simple con marcado XLM, aunque la inteligencia artificial puede ayudar a los diseñadores con el proceso.
Recientemente, hemos sido testigos de modelos de inteligencia artificial que generan contenido para adultos, en ocasiones con menores de edad, a menudo sin el consentimiento de las personas reales que aparecen en las imágenes. Hemos visto modelos que indican comportamientos dañinos en las conversaciones, que en algunos casos desgarradores conducen a la muerte. Optar por no implementar protecciones estrictas o decidir no bloquear o redirigir ciertas conversaciones también es una decisión de diseño. La tecnología es tan poderosa que los diseñadores tienen que ser realmente intencionales a la hora de definir lo que el sistema no debería hacer.
La evaluación determina lo que significa el éxito. Lo que es aceptable. No hay nada inseguro. Algo que en absoluto puede suceder. Decidir qué medir es decidir qué es importante. Su influencia es enorme y, para la mayoría de las empresas de inteligencia artificial, las revisiones se han convertido en un foso. Sin evaluación, no tenemos forma de saber qué está fallando o qué tan malo es realmente el sistema.
Esto resulta especialmente importante cuando se utilizan modelos grandes previamente entrenados como GPT o Gemini. Estos modelos se actualizan constantemente y el equipo de ingeniería los cambia con el tiempo. ¿Cómo saber si una nueva versión se adapta mejor a su producto que las versiones anteriores? Cómo recuperarse rápidamente sabiendo que el usuario estará bien. Aquí es donde entra en juego la evaluación.
Un buen lugar para comenzar son los marcos. Estos dependen en gran medida del caso de uso y, a menudo, forman parte del ingrediente secreto de una empresa. Un marco que he encontrado útil es RISK. Relevante, inclusivo, seguro, amigable. Queremos medir si el resultado es relevante y con qué frecuencia, ya sea la interfaz generada o la respuesta.
Las poderosas estrategias de evaluación también combinan diferentes tipos de evaluadores:
1/evaluación humana Implica la inspección manual de la salida. Son necesarios, pero caros y lentos.
2/Evaluador automático Complementa el juicio humano.
- Los evaluadores basados en código son herramientas deterministas que aplican una lógica explícita predefinida.
- El LL.M. sirve como juez evaluador utilizando modelos de lenguaje para evaluar la calidad de dimensiones que son difíciles de codificar en códigos tradicionales.
Una vez que realizamos una evaluación, podemos comenzar a medir los resultados y decidir cómo tomar medidas para mejorar el producto. Esto podría incluir agregar nuevos conjuntos de datos para ajustar, fundamentar las respuestas conectándose a una base de conocimientos, modificar el contexto a través de cambios en las indicaciones del sistema o incluso introducir modelos contradictorios. Procesamos datos, contexto y evaluación en un volante de IA de mejora continua.

Diseño de agencias y pensamiento sistémico
El diseño de agentes no es un modelo único de capacidad de respuesta a los usuarios. Se trata de un ecosistema de agentes de inteligencia artificial especializados, cada uno con sus propias instrucciones, memoria, herramientas y objetivos. Coordinan, transfieren tareas, toman decisiones y actúan a lo largo del tiempo.
Diseñar esto requiere un pensamiento sistemático. Los diseñadores deben comprender cómo funcionan los agentes, cómo se delegan, cómo se propagan las fallas y cómo los usuarios controlan estos flujos de trabajo.
Hoy en día, agencia tiene muchas definiciones. Pero en esencia, todos son modelos de IA y se basan en los mismos materiales de diseño. Su nuevo conjunto de herramientas: datos, contexto, evaluación.
pensamientos finales
Puede que no necesitemos inteligencia artificial en absoluto.
La tecnología no debería ser el factor que impulse la solución hasta que haya mucho revuelo. Muchos problemas pueden y deben resolverse con sistemas más simples. Cuando la IA realmente es necesaria, los modelos más pequeños o más especializados suelen ser mejores que los modelos multimodales a gran escala para los objetivos del día a día. Son más fáciles de moldear, más fáciles de evaluar y menos riesgosos para el usuario. Si una organización decide construir modelos multimodales grandes y populares, convertirse en un actor clave en la configuración del comportamiento se vuelve no negociable.
La ingeniería es responsable de la tecnología. Los productos se encargan del negocio. Sin embargo, sin nosotros, los usuarios están solos.
Aquí es donde la experiencia del usuario debe intervenir. Los diseñadores deben avanzar, trabajando junto con la ingeniería y el producto para dar forma a los productos de IA de principio a fin.
Ve a aprender tus nuevas herramientas.
Nota: Si esto resuena y le gustaría desarrollar estas habilidades con su equipo, ofrezco talleres de diseño de modelos. Se trata de una formación práctica para que los diseñadores den forma al comportamiento de la IA a través de datos, contexto y evaluación. Disponible ahora.
Fuente:
Evaluación de Inteligencia Artificial para Ingenieros y Gerentes de Producto mevin
Guía de dominios de diseño de inteligencia artificial
Nuevo código: Sean Grove, OpenAI
No hay EP previo. 128 | 128 y Ng Enda
El nuevo kit de herramientas UX: datos, contexto y evaluación Publicado originalmente en Colectivo de experiencia de usuario En Medium, la gente continúa la conversación destacando y respondiendo a esta historia.