Debe conocer #AI Agent, este libro (ensayo) es imprescindible para todos. AGENT AI de Li Fei-Fei, es el libro más refrescante y con visión de futuro que he leído este año, y no es difícil de entender en su totalidad, no hay terminología profesional profunda ni lógica algorítmica, vale la pena que todo el mundo lo lea, hay un enlace al comentario completo al final del texto.
Puedo decir con responsabilidad que AI Agent es el área de inversión más valiosa en inteligencia artificial a largo plazo (ya sea en el mercado estadounidense o en el campo de Web3), y también es la dirección más cercana a To C que se puede percibir. Para la gente común, es el área más directamente accesible y de uso masivo.
Como se describe en la introducción de su documento, la visión general del sistema de AI Agent, este sistema puede percibir y actuar en diferentes campos y aplicaciones. AI Agent se considera un enfoque prometedor hacia la Inteligencia Artificial General (AGI). El entrenamiento de AI Agent ha demostrado la capacidad de comprensión multimodal en el mundo físico. Proporciona un marco para el entrenamiento no relacionado con la realidad al combinar la inteligencia artificial generativa con múltiples fuentes de datos independientes. Presentamos una descripción general del sistema de inteligencia artificial de agente que puede percibir y actuar en muchos campos y aplicaciones diferentes, como un paradigma de agente hacia AGI.
El artículo hace hincapié en el estado actual, las perspectivas de aplicación y las direcciones futuras del desarrollo de la tecnología de la Interacción Humano-Computadora (HCI) multimodal con AI Agent, mostrando algunas direcciones tecnológicas y de innovación centrales que vale la pena que reflexionemos y exploremos. No dejemos que AI Agent se quede solo en la interacción de voz y en el aspecto de la interacción visual, su alcance es mucho más amplio:
Conceptos y significados fundamentales de HCI multimodal
La HCI multimodal integra varios modos de información, como voz, texto, imagen, tacto, etc., para lograr una interacción natural, flexible y eficiente entre humanos y computadoras. El objetivo principal de esta tecnología es:
• Mejorar la naturalidad y la inmersión de la interacción.
• Ampliar la aplicabilidad de los escenarios de interacción humano-máquina.
• Promover la capacidad de las computadoras para comprender la diversidad de entradas humanas.
Dirección futura de desarrollo
El artículo realiza un análisis sistemático de cinco áreas de investigación:
Visualización e interacción de big data
Concepto: transformar datos complejos en representaciones gráficas fáciles de entender, mejorando la experiencia del usuario a través de canales sensoriales múltiples (visión, tacto, audición, etc.).
Progreso:
• Exploración de visualización de datos basada en realidad virtual (VR) y realidad aumentada (AR);
• En el campo médico y de investigación, el feedback táctil (como el feedback de fuerza y vibración) ayuda a los usuarios a comprender mejor la distribución de datos.
Aplicación:
• Monitoreo de la ciudad inteligente: muestra en tiempo real los datos de tráfico de la ciudad a través de mapas de calor dinámicos.
Análisis de datos médicos: exploración de datos multidimensionales combinados con retroalimentación táctil.
Interacción basada en la percepción del campo sonoro
Concepto: utilizando matrices de micrófonos y algoritmos de aprendizaje automático para analizar los cambios en el campo de sonido del entorno, ayudando a lograr una interacción humano-máquina no visual.
Progreso:
• Mejora de la precisión de la tecnología de localización de fuentes de sonido;
• Tecnología robusta de interacción de voz en entornos ruidosos.
Aplicación:
• Hogar inteligente: control de voz de dispositivos sin necesidad de contacto físico para completar tareas.
• Tecnología de asistencia para discapacitados: proporciona una forma de interacción basada en el sonido para usuarios con discapacidad visual.
Interacción física de realidad mixta
Concepto: fusionar la información virtual con el mundo físico a través de la tecnología de realidad mixta (MR), permitiendo a los usuarios controlar el entorno virtual utilizando objetos del mundo real.
Progreso:
• Optimización de la interacción de objetos virtuales basada en la retroalimentación táctil.
• Tecnología de mapeo de objetos físicos-virtuales de alta precisión.
Aplicación:
• Formación educativa: enseñanza inmersiva a través de simulaciones de entornos reales.
Diseño industrial: validación de productos utilizando prototipos virtuales.
Interacción portátil
Concepto:
A través de dispositivos portátiles como relojes inteligentes y dispositivos de monitoreo de salud, se logra la interacción mediante gestos, toques o tecnología electrónica en la piel.
Progreso:
• Mejora de la sensibilidad y durabilidad del sensor de la piel;
• Mejora la precisión de la interacción mediante la fusión de algoritmos de múltiples canales.
Aplicación:
• Monitoreo de salud: seguimiento en tiempo real de la frecuencia cardíaca, el sueño y el estado físico;
• Entretenimiento de juegos: control de personajes virtuales a través de dispositivos portátiles.
Interacción de diálogo hombre-máquina
Concepto:
Investigar tecnologías como reconocimiento de voz, reconocimiento de emociones, síntesis de voz, etc., para que las computadoras comprendan y respondan mejor a la entrada de lenguaje de los usuarios.
Progreso:
• La popularización de los grandes modelos de lenguaje (como GPT, etc.) ha mejorado enormemente la naturalidad de los sistemas de diálogo;
• Mejora de la precisión de la tecnología de reconocimiento de emociones por voz.
Aplicación:
• Chatbot: admite interacción de voz en varios idiomas.
• Asistente inteligente: Respuestas personalizadas a comandos de voz.
Así que vemos muchos proyectos de AI Agent, especialmente en el campo de Web3, que todavía se centran en la interacción de asistentes inteligentes en la conversación entre humanos y máquinas, como enviar tweets las 24 horas del día, chat de voz de IA personalizado, chat de pareja, etc. Pero recientemente también hemos observado algunas combinaciones de IA y dispositivos inteligentes usados en el campo de datos de salud corporal, como anillos (no voy a mencionar una marca específica, puedes buscar tú mismo), también son aplicaciones o cadenas de bloques de IA más valiosas e interesantes, que los inversores también preferirán, después de todo, hemos invertido en dos empresas, hardware + software + IA, ¡esto será una dirección con potencial!
El campo en el que las empresas tecnológicas están invirtiendo actualmente con fuerza
Ampliar las formas de interacción: explorar nuevos medios de interacción, como el olfato y la percepción de temperatura, para mejorar aún más la fusión multimodal.
Optimización de la combinación multimodal: diseño de formas eficientes y flexibles de combinar varios modos para permitir una colaboración más natural entre los distintos modos.
Miniaturización del dispositivo: desarrollo de dispositivos más ligeros y de menor consumo de energía para adaptarse al uso diario.
Interacción distribuida entre dispositivos: mejora la interoperabilidad entre dispositivos y logra una interacción fluida entre múltiples dispositivos.
Mejora de la robustez del algoritmo: especialmente en entornos abiertos, mejorar la estabilidad y la capacidad en tiempo real del algoritmo de percepción y fusión multimodal.
Escenarios de aplicación dignos de inversión
• Rehabilitación médica: ayuda a los pacientes a realizar entrenamiento de rehabilitación y terapia psicológica a través de retroalimentación de voz, imagen y tacto.
• Oficina educativa: proporcionar asistente de oficina inteligente y plataforma educativa personalizada, mejorar la eficiencia y la experiencia.
• Simulación militar: combinando tecnología de realidad mixta, utilizada para simulaciones de combate y entrenamiento táctico.
• Entretenimiento y juegos: crear una experiencia de juego y entretenimiento inmersiva, mejorando la interacción del usuario con el entorno virtual.
Resumen: En este artículo, el Dr. Li utiliza la aplicación de escenarios futuros de AI Agent para sistematizar las tecnologías clave de HCI multimodal, y combina aplicaciones prácticas y direcciones de investigación futuras para aprender AI y AI. ¡Es urgente!
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
¿Cómo diseñar el futuro de la riqueza a través del agente de IA? Este artículo te dará la respuesta.
Autor del original: Rocky
Reimpresión: Daisy, Mars Financial
Debe conocer #AI Agent, este libro (ensayo) es imprescindible para todos. AGENT AI de Li Fei-Fei, es el libro más refrescante y con visión de futuro que he leído este año, y no es difícil de entender en su totalidad, no hay terminología profesional profunda ni lógica algorítmica, vale la pena que todo el mundo lo lea, hay un enlace al comentario completo al final del texto.
Puedo decir con responsabilidad que AI Agent es el área de inversión más valiosa en inteligencia artificial a largo plazo (ya sea en el mercado estadounidense o en el campo de Web3), y también es la dirección más cercana a To C que se puede percibir. Para la gente común, es el área más directamente accesible y de uso masivo.
Como se describe en la introducción de su documento, la visión general del sistema de AI Agent, este sistema puede percibir y actuar en diferentes campos y aplicaciones. AI Agent se considera un enfoque prometedor hacia la Inteligencia Artificial General (AGI). El entrenamiento de AI Agent ha demostrado la capacidad de comprensión multimodal en el mundo físico. Proporciona un marco para el entrenamiento no relacionado con la realidad al combinar la inteligencia artificial generativa con múltiples fuentes de datos independientes. Presentamos una descripción general del sistema de inteligencia artificial de agente que puede percibir y actuar en muchos campos y aplicaciones diferentes, como un paradigma de agente hacia AGI.
El artículo hace hincapié en el estado actual, las perspectivas de aplicación y las direcciones futuras del desarrollo de la tecnología de la Interacción Humano-Computadora (HCI) multimodal con AI Agent, mostrando algunas direcciones tecnológicas y de innovación centrales que vale la pena que reflexionemos y exploremos. No dejemos que AI Agent se quede solo en la interacción de voz y en el aspecto de la interacción visual, su alcance es mucho más amplio:
La HCI multimodal integra varios modos de información, como voz, texto, imagen, tacto, etc., para lograr una interacción natural, flexible y eficiente entre humanos y computadoras. El objetivo principal de esta tecnología es:
• Mejorar la naturalidad y la inmersión de la interacción.
• Ampliar la aplicabilidad de los escenarios de interacción humano-máquina.
• Promover la capacidad de las computadoras para comprender la diversidad de entradas humanas.
El artículo realiza un análisis sistemático de cinco áreas de investigación:
Concepto: transformar datos complejos en representaciones gráficas fáciles de entender, mejorando la experiencia del usuario a través de canales sensoriales múltiples (visión, tacto, audición, etc.).
Progreso:
• Exploración de visualización de datos basada en realidad virtual (VR) y realidad aumentada (AR);
• En el campo médico y de investigación, el feedback táctil (como el feedback de fuerza y vibración) ayuda a los usuarios a comprender mejor la distribución de datos.
Aplicación:
• Monitoreo de la ciudad inteligente: muestra en tiempo real los datos de tráfico de la ciudad a través de mapas de calor dinámicos.
Análisis de datos médicos: exploración de datos multidimensionales combinados con retroalimentación táctil.
Concepto: utilizando matrices de micrófonos y algoritmos de aprendizaje automático para analizar los cambios en el campo de sonido del entorno, ayudando a lograr una interacción humano-máquina no visual.
Progreso:
• Mejora de la precisión de la tecnología de localización de fuentes de sonido;
• Tecnología robusta de interacción de voz en entornos ruidosos.
Aplicación:
• Hogar inteligente: control de voz de dispositivos sin necesidad de contacto físico para completar tareas.
• Tecnología de asistencia para discapacitados: proporciona una forma de interacción basada en el sonido para usuarios con discapacidad visual.
Concepto: fusionar la información virtual con el mundo físico a través de la tecnología de realidad mixta (MR), permitiendo a los usuarios controlar el entorno virtual utilizando objetos del mundo real.
Progreso:
• Optimización de la interacción de objetos virtuales basada en la retroalimentación táctil.
• Tecnología de mapeo de objetos físicos-virtuales de alta precisión.
Aplicación:
• Formación educativa: enseñanza inmersiva a través de simulaciones de entornos reales.
Diseño industrial: validación de productos utilizando prototipos virtuales.
Concepto:
A través de dispositivos portátiles como relojes inteligentes y dispositivos de monitoreo de salud, se logra la interacción mediante gestos, toques o tecnología electrónica en la piel.
Progreso:
• Mejora de la sensibilidad y durabilidad del sensor de la piel;
• Mejora la precisión de la interacción mediante la fusión de algoritmos de múltiples canales.
Aplicación:
• Monitoreo de salud: seguimiento en tiempo real de la frecuencia cardíaca, el sueño y el estado físico;
• Entretenimiento de juegos: control de personajes virtuales a través de dispositivos portátiles.
Concepto:
Investigar tecnologías como reconocimiento de voz, reconocimiento de emociones, síntesis de voz, etc., para que las computadoras comprendan y respondan mejor a la entrada de lenguaje de los usuarios.
Progreso:
• La popularización de los grandes modelos de lenguaje (como GPT, etc.) ha mejorado enormemente la naturalidad de los sistemas de diálogo;
• Mejora de la precisión de la tecnología de reconocimiento de emociones por voz.
Aplicación:
• Chatbot: admite interacción de voz en varios idiomas.
• Asistente inteligente: Respuestas personalizadas a comandos de voz.
Así que vemos muchos proyectos de AI Agent, especialmente en el campo de Web3, que todavía se centran en la interacción de asistentes inteligentes en la conversación entre humanos y máquinas, como enviar tweets las 24 horas del día, chat de voz de IA personalizado, chat de pareja, etc. Pero recientemente también hemos observado algunas combinaciones de IA y dispositivos inteligentes usados en el campo de datos de salud corporal, como anillos (no voy a mencionar una marca específica, puedes buscar tú mismo), también son aplicaciones o cadenas de bloques de IA más valiosas e interesantes, que los inversores también preferirán, después de todo, hemos invertido en dos empresas, hardware + software + IA, ¡esto será una dirección con potencial!
El campo en el que las empresas tecnológicas están invirtiendo actualmente con fuerza
Ampliar las formas de interacción: explorar nuevos medios de interacción, como el olfato y la percepción de temperatura, para mejorar aún más la fusión multimodal.
Optimización de la combinación multimodal: diseño de formas eficientes y flexibles de combinar varios modos para permitir una colaboración más natural entre los distintos modos.
Miniaturización del dispositivo: desarrollo de dispositivos más ligeros y de menor consumo de energía para adaptarse al uso diario.
Interacción distribuida entre dispositivos: mejora la interoperabilidad entre dispositivos y logra una interacción fluida entre múltiples dispositivos.
Mejora de la robustez del algoritmo: especialmente en entornos abiertos, mejorar la estabilidad y la capacidad en tiempo real del algoritmo de percepción y fusión multimodal.
Escenarios de aplicación dignos de inversión
• Rehabilitación médica: ayuda a los pacientes a realizar entrenamiento de rehabilitación y terapia psicológica a través de retroalimentación de voz, imagen y tacto.
• Oficina educativa: proporcionar asistente de oficina inteligente y plataforma educativa personalizada, mejorar la eficiencia y la experiencia.
• Simulación militar: combinando tecnología de realidad mixta, utilizada para simulaciones de combate y entrenamiento táctico.
• Entretenimiento y juegos: crear una experiencia de juego y entretenimiento inmersiva, mejorando la interacción del usuario con el entorno virtual.
Resumen: En este artículo, el Dr. Li utiliza la aplicación de escenarios futuros de AI Agent para sistematizar las tecnologías clave de HCI multimodal, y combina aplicaciones prácticas y direcciones de investigación futuras para aprender AI y AI. ¡Es urgente!