Dilemmes et percées de l'IA Web3 : exploration de la stratégie de l'encerclement des villes par les campagnes

Les défis du développement de l'IA Web3 et les directions futures

Le prix des actions d'NVIDIA atteint un nouveau sommet, et les avancées des modèles multimodaux approfondissent encore la barrière technologique de l'IA Web2. De l'alignement sémantique à la compréhension visuelle, de l'incorporation à haute dimension à la fusion de caractéristiques, des modèles complexes intègrent à une vitesse sans précédent diverses modalités d'expression, construisant ainsi un bastion de l'IA de plus en plus fermé. Le marché boursier américain exprime également son approbation par des actions concrètes, que ce soit pour les actions liées aux cryptomonnaies ou pour les actions d'IA, qui montrent toutes une petite tendance haussière.

Cependant, cette vague semble avoir peu de lien avec le domaine des cryptomonnaies. Les récentes tentatives dans le domaine de l'IA Web3, en particulier l'exploration dans la direction des agents, montrent un écart directionnel significatif : essayer d'assembler un système modulaire multimodal de style Web2 avec une structure décentralisée, c'est en réalité une double dislocation technique et conceptuelle. Dans un contexte où la couplage des modules est extrêmement fort, où la distribution des caractéristiques est hautement instable et où la demande de puissance de calcul est de plus en plus concentrée, le modulaire multimodal a du mal à s'implanter dans l'environnement Web3.

L'avenir de l'IA Web3 ne réside pas dans une simple imitation, mais dans une approche stratégique et détournée. De l'alignement sémantique dans des espaces de haute dimension, aux goulets d'étranglement d'information dans les mécanismes d'attention, jusqu'à l'alignement des caractéristiques sous une puissance de calcul hétérogène, l'IA Web3 doit adopter une stratégie tactique de "l'encerclement des villes par les campagnes".

Web3 AI basé sur un modèle multimodal aplati, l'alignement sémantique non aligné entraîne une performance médiocre

Dans les systèmes multimodaux de l'IA Web2 moderne, "l'alignement sémantique" consiste à mapper les informations de différentes modalités dans un même espace sémantique, permettant au modèle de comprendre et de comparer les significations sous-jacentes de ces signaux qui, à l'origine, sont très différents. L'espace d'incorporation haute dimension est la clé pour atteindre cet objectif.

Cependant, le protocole Web3 Agent est difficile à réaliser avec des embeddings de haute dimension. La plupart des agents Web3 ne sont que des API prêtes à l'emploi encapsulées en "Agents" indépendants, manquant d'un espace d'embedding centralisé unifié et d'un mécanisme d'attention inter-modules. Cela conduit à une incapacité d'interaction des informations entre les modules sous plusieurs angles et à plusieurs niveaux, ne pouvant fonctionner que de manière linéaire, affichant une fonctionnalité unique et ne pouvant pas former une optimisation de boucle fermée globale.

Pour réaliser un agent intelligent de bout en bout avec des barrières industrielles, il est nécessaire de surmonter les obstacles grâce à une modélisation conjointe de bout en bout, une intégration unifiée entre les modules, ainsi qu'un ingénierie systématique pour l'entraînement et le déploiement collaboratif. Cependant, le marché ne montre actuellement pas une telle demande.

Dans un espace de faible dimension, le mécanisme d'attention ne peut pas être conçu avec précision

Les modèles multimodaux de haut niveau nécessitent un mécanisme d'attention soigneusement conçu. Le mécanisme d'attention est essentiellement un moyen d'allouer dynamiquement des ressources de calcul, permettant au modèle de "se concentrer" sélectivement sur les parties les plus pertinentes lors du traitement d'une entrée de modalité.

L'IA Web2, lors de la conception du mécanisme d'attention, repose sur l'idée fondamentale d'attribuer dynamiquement un "poids d'attention" à chaque élément lors du traitement des séquences, afin de se concentrer sur les informations les plus pertinentes. Cette conception combine habilement "l'interaction globale" et "la complexité contrôlable".

Cependant, il est difficile de réaliser une planification d'attention uniforme dans une IA Web3 modulable. Tout d'abord, le mécanisme d'attention dépend d'un espace Query-Key-Value uniforme, tandis que les formats de données et les distributions retournés par les API indépendantes varient. Deuxièmement, l'architecture modulaire de l'IA Web3 manque de capacités de pondération dynamique parallèle et multi-voies, ce qui empêche de simuler la planification fine dans le mécanisme d'attention. Enfin, il y a un manque de contexte central partagé en temps réel entre les différents modules, ce qui empêche d'atteindre des corrélations et un focus globaux entre les modules.

La modularité discrète et la combinaison entraînent une fusion des caractéristiques qui reste à un assemblage statique superficiel.

"Fusion des caractéristiques" consiste à combiner davantage les vecteurs de caractéristiques obtenus après le traitement de différentes modalités sur la base de l'alignement et de l'attention, afin qu'ils puissent être directement utilisés pour les tâches en aval. Web3 AI en est actuellement au stade le plus simple de la concaténation, car les conditions préalables à la fusion dynamique des caractéristiques - un espace de haute dimension et un mécanisme d'attention précis - ne peuvent pas être remplies.

L'IA Web2 a tendance à un entraînement conjoint de bout en bout, traitant simultanément des caractéristiques multimodales dans le même espace de haute dimension, en optimisant de manière collaborative avec les couches d'attention et de fusion avec la couche de tâche en aval. En revanche, l'IA Web3 adopte davantage une approche de concaténation de modules discrets, manquant d'un objectif d'entraînement unifié et d'un flux de gradient entre les modules.

Le processus de fusion des caractéristiques de l'IA Web2 comprend diverses opérations d'interaction de haut niveau telles que la concaténation de vecteurs, l'addition, et la fusion bilinéaire, permettant de capturer des relations multimodales profondes et complexes. En revanche, les sorties des agents de l'IA Web3 contiennent souvent seulement quelques champs ou indicateurs clés, avec une dimension de caractéristiques très faible, rendant difficile l'expression d'informations multimodales délicates.

Les barrières dans l'industrie de l'IA se renforcent, mais les points de douleur ne sont pas encore apparents

Le système multimodal de l'IA Web2 est un projet d'ingénierie extrêmement vaste, nécessitant d'énormes quantités de données, une puissance de calcul puissante, des algorithmes avancés et des mises en œuvre techniques complexes. Cela constitue une barrière à l'entrée très forte dans l'industrie et crée la compétitivité essentielle de quelques équipes de pointe.

Web3 AI devrait adopter une stratégie tactique de "l'entourage rural autour de la ville", en testant à petite échelle dans des scénarios périphériques, en s'assurant que les bases sont solides avant d'attendre l'émergence de scénarios centraux. L'avantage de Web3 AI réside dans sa décentralisation, adaptée à des structures légères, des tâches facilement parallélisables et incitatives, telles que l'ajustement fin LoRA, les tâches de post-formation alignées sur le comportement, la formation et l'annotation de données par crowdsourcing, la formation de petits modèles de base, ainsi que l'entraînement collaboratif sur des dispositifs périphériques.

Cependant, à ce stade, les barrières de l'IA Web2 ne commencent qu'à se former, c'est une phase précoce de la concurrence entre les grandes entreprises. Ce n'est que lorsque les bénéfices de l'IA Web2 disparaîtront presque entièrement que les points de douleur qu'elle a laissés constitueront une opportunité d'entrée pour l'IA Web3. Avant cela, les projets d'IA Web3 doivent choisir leurs points d'entrée avec prudence, s'assurer qu'ils peuvent itérer et mettre à jour leurs produits dans des petits scénarios, et maintenir une flexibilité suffisante pour s'adapter aux demandes du marché en constante évolution.

AGENT-0.27%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 4
  • Reposter
  • Partager
Commentaire
0/400
DogeBachelorvip
· 08-13 08:56
C'est ça, hhh
Voir l'originalRépondre0
SatoshiSherpavip
· 08-13 08:56
Le marché technologique, c'est juste se faire prendre pour des cons.
Voir l'originalRépondre0
CryptoComedianvip
· 08-13 08:52
NVIDIA a tellement augmenté que je ne peux même plus acheter de pigeons.
Voir l'originalRépondre0
TokenStormvip
· 08-13 08:41
off-chain回测全是假的
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)