Los auriculares TWS con cámara incorporada llevan la funcionalidad de inteligencia artificial de ChatGPT a sus oídos

Todo el mundo está compitiendo para construir el próximo gran dispositivo de IA. Algunas empresas apuestan por las gafas inteligentes, otras por los pines y las compañeras de bolsillo. Todos prometen un asistente que puede ver, oír y comprender el mundo que te rodea. Menos personas hacen preguntas más sencillas. ¿Qué pasaría si el hardware de IA más inteligente fuera simplemente un mejor par de auriculares?
Este concepto imagina algunos cambios en los auriculares TWS. Cada cogollo viene con un tallo adicional con una cámara incorporada, colocado cerca de su línea de visión natural. Utilizadas junto con ChatGPT, estas lentes se convierten en retroalimentación visual constante de un asistente en su oído. Puede leer menús, descifrar señales, describir escenas y guiarte por una ciudad sin pantallas. La apariencia todavía resulta familiar, pero la función resulta refrescante. Si OpenAI quiere afianzarse en el hardware, este es el tipo de producto que podría hacer que la IA se sienta menos como una demostración y más como un hábito cotidiano. Es por eso que una cámara en tu oído podría ganarle a una cámara en tu cara.
Diseñador: Émile Lucas

El diseño industrial tiene una vibra de inhalador de ciencia ficción que realmente me gusta. La lente se encuentra al final del vástago, como una pequeña cámara de acción, con un anillo rodeándola que también sirve como acento visual. Se ve bien pensado y no pegado, lo cual es importante cuando realmente tienes la óptica colgando de tu cabeza. La carcasa colorida y la punta translúcida lo hacen lo suficientemente interesante como para considerarlo primero un dispositivo de audio y luego una cámara.


La representación de la sección parece realmente encantadora. Puede ver una pila de lentes adecuada, un sensor y una placa compacta que posiblemente albergue el ISP y el SoC Bluetooth. Hay mucho silicio ahí, pero aún necesitas instalar controladores, baterías, micrófonos y antenas. De hecho, cualquier trabajo pesado de visión y lenguaje se traslada directamente al teléfono y luego a la nube. En dispositivos informáticos de esta escala, tanto la batería como la comodidad se ven afectadas.

Todos los datos visuales deben procesarse en algún lugar y eso no sucede dentro de los auriculares. El procesamiento en el dispositivo de visión de nivel GPT-4 convierte los canales auditivos en hornos eléctricos. Esto significa que los auriculares esencialmente transmiten video a su teléfono para hacer el trabajo pesado. Esto introduce retrasos. Un retraso de 200 milisegundos es una cosa; un retraso de dos segundos es otra. Las personas pueden tolerar esperar en sus escritorios una respuesta de un chatbot. No tolerarán en absoluto este tipo de retraso cuando les hagan a sus “ojos de IA” preguntas simples como “¿En qué puerta estoy?”

Luego está la duración de la batería, que es el elefante en la habitación. Los auriculares TWS estándar pueden reproducir audio durante aproximadamente cinco a siete horas. Agregar una cámara, un procesador de señal de imagen y una transmisión de radio de video constante elimina por completo el tiempo de ejecución. Los dispositivos portátiles equipados con cámaras, como las gafas Ray-Ban Meta, pueden durar unas cuatro horas de uso mixto, y estos dispositivos tienen baterías mucho más grandes. Estos conceptos conceptuales parecen enormes, pero siguen siendo pequeños en comparación con un par de marcos.

El resultado práctico es que, en su forma actual, no serán un compañero durante todo el día. Probablemente obtendrás de dos a tres horas de uso en el mundo real antes de que se agoten por completo, y eso es simplemente generoso. Esto funciona para tareas específicas de corta duración, como visitar un museo o pasar por un aeropuerto. Rompe por completo el hábito establecido del usuario de utilizar auriculares para llamadas y música durante todo el día. La utilidad tendría que ser muy alta para justificar esta compensación de la batería.

Desde una perspectiva social, el diseño es sorprendentemente inteligente. Parte de la razón por la que fallan las gafas inteligentes es que las cámaras frontales hacen que todos los que te rodean se sientan como si estuvieran siendo grabados. Es posible que las cámaras con auriculares estén pasando desapercibidas. Las personas están acostumbradas a que sus auriculares sobresalgan de sus oídos, por lo que este factor de forma podría confundirse fácilmente con una elección de diseño extraña en lugar de un dispositivo de monitoreo. Es menos abiertamente agresivo que una lente apuntada desde el puente de la nariz, lo que puede reducir significativamente la fricción social.

El cínico que había en mí sentía curiosidad por la vista. La altura de las orejas es más alta que la altura del pecho, pero tus orejas no siguen tu línea de visión. Si miras tu teléfono mientras caminas, estas cámaras todavía apuntan hacia el horizonte. O necesita una lente muy gran angular, que introduce distorsión y consume potencia de procesamiento de corrección, o necesita entrenarse para mover toda la cabeza como si estuviera usando un visor de realidad virtual. Ninguno de los dos es ideal, pero ambos pueden resolverse con suficientes iteraciones. Lo que obtienes a cambio es una IA que realmente puede interactuar con tu entorno, en lugar de esperar a que saques tu teléfono y apuntes a algo. El paso de lo pasivo a lo ambiental es toda la propuesta de valor y solo funciona si la cámara está siempre posicionada y lista.