Les capacités des grands modèles en matière de textes longs dépassent 400 000 tokens, favorisant l'application de l'IA dans des domaines tels que la finance et le droit.
Compétition des capacités de texte long des grands modèles : de 4000 à 400 000 tokens, la "lecture" de l'IA s'envole
Les grands modèles améliorent leur capacité de traitement de longs textes à une vitesse incroyable. Passant des 4000 tokens initiaux aux 400 000 tokens d'aujourd'hui, la capacité de longs textes semble être devenue la nouvelle norme pour les fabricants de grands modèles.
À l'international, OpenAI a amélioré à plusieurs reprises la longueur d'entrée contextuelle de GPT-3.5 de 4000 à 16000 tokens, tandis que GPT-4 a été augmenté de 8000 à 32000 tokens. Son concurrent Anthropic a même porté la longueur contextuelle à 100000 tokens. LongLLaMA a même étendu la longueur contextuelle à plus de 256000 tokens.
En Chine, la startup de modèles de grande taille, Moons of Darkness, a lancé Kimi Chat, qui peut prendre en charge l'entrée de 200 000 caractères chinois, soit environ 400 000 tokens. La technologie LongLoRA, développée en collaboration entre l'Université Chinoise de Hong Kong et le MIT, peut étendre la longueur de texte du modèle 7B à 100 000 tokens et celle du modèle 70B à 32 000 tokens.
Actuellement, de nombreuses entreprises et institutions de recherche de premier plan, y compris OpenAI, Anthropic, Meta et Moonlight, considèrent l'expansion de la longueur du contexte comme une direction de mise à niveau prioritaire. Ces entreprises sont généralement favorisées par le marché des capitaux, avec une croissance rapide tant en termes de financement que de valorisation.
Les entreprises de grands modèles attachent une telle importance à la technologie des longs textes, que signifie la percée des 400 000 tokens ? En apparence, cela représente une augmentation considérable de la longueur du texte d'entrée et de la capacité de lecture du modèle. Initialement, il ne pouvait traiter qu'un court article, et maintenant, il peut lire un roman entier, élargissant ainsi de manière significative les cas d'utilisation du modèle.
D'un point de vue plus profond, la technologie des longs textes pousse l'application des grands modèles dans des domaines professionnels tels que la finance, la justice et la recherche scientifique. Les capacités de résumé de longs documents, de compréhension de lecture et de questions-réponses sont essentielles à la montée en intelligence de ces domaines.
Cependant, tout comme pour les paramètres du modèle, la longueur du texte n'est pas nécessairement meilleure lorsqu'elle est plus longue. Des études montrent qu'il n'existe pas de corrélation positive simple entre la longueur du contexte prise en charge par le modèle et les performances. L'essentiel réside dans la manière dont le modèle utilise efficacement le contenu contextuel.
Actuellement, l'exploration des technologies de long texte n'a pas encore atteint ses limites. Les entreprises de grands modèles, tant nationales qu'internationales, continuent de réaliser des percées, et 400 000 tokens ne sont peut-être qu'un début.
Pourquoi les entreprises de modèles de grande taille se livrent-elles à la "compétition" sur les longs textes ?
Le fondateur de la Face Cachée de la Lune, Yang Zhilin, a déclaré que la limitation de la longueur d'entrée des grands modèles posait des problèmes pour la mise en œuvre de nombreuses applications, c'est pourquoi les grandes entreprises se concentrent actuellement sur la technologie des longs textes.
Par exemple, dans un scénario de personnage virtuel, en raison d'une capacité insuffisante pour gérer de longs textes, le personnage virtuel peut oublier des informations importantes. Lors du développement de jeux de type "murder party", une longueur d'entrée insuffisante peut entraîner une réduction des règles et des paramètres, affectant ainsi l'expérience de jeu. Dans des domaines professionnels tels que le droit et la finance, l'analyse et la génération de contenu en profondeur sont également souvent limitées.
Les longs textes jouent un rôle important dans les applications natives d'Agent et d'IA à l'avenir. Les Agents ont besoin de s'appuyer sur des informations historiques pour planifier et prendre des décisions, tandis que les applications natives d'IA nécessitent un contexte pour maintenir une expérience utilisateur cohérente et personnalisée.
Yang Zhilin estime que la limite des grands modèles est déterminée par la capacité d'une seule étape et le nombre d'étapes d'exécution, la capacité d'une seule étape étant liée au nombre de paramètres, tandis que le nombre d'étapes d'exécution correspond à la longueur du contexte. La technologie des textes longs peut non seulement résoudre certains problèmes précoces des grands modèles, mais elle est également l'une des technologies clés pour faire avancer l'industrie et l'application.
Avec le Kimi Chat nouvellement lancé par la face cachée de la lune, nous pouvons avoir un aperçu des fonctionnalités améliorées des grands modèles à l'ère des longs textes :
Extraction, résumé et analyse des informations clés dans des textes très longs
Amélioration de la capacité de génération et de modification de code
Rôle dans des scènes de dialogue prolongées
Ces fonctionnalités montrent que les robots de conversation se dirigent vers une spécialisation, une personnalisation et une profondeur, et qu'ils pourraient devenir un levier important pour favoriser l'implémentation industrielle et l'émergence des super applications.
Le dilemme du "triangle impossible" des longs textes
Dans la technologie de long texte, il existe le dilemme du "triangle impossible" entre la longueur du texte, l'attention et la puissance de calcul. Cela se manifeste par :
Plus le texte est long, plus il est difficile de maintenir une attention suffisante et de digérer complètement l'information.
Sous la contrainte d'attention, les courts textes ne peuvent pas interpréter complètement des informations complexes.
Traiter de longs textes nécessite une grande puissance de calcul, augmentant les coûts.
La racine de ce dilemme réside dans le fait que la plupart des modèles sont basés sur la structure Transformer. Le mécanisme d'auto-attention dans cette structure fait que la charge de calcul augmente de manière quadratique avec la longueur du contexte.
Actuellement, il existe principalement trois solutions :
Utiliser des outils externes au modèle pour aider à traiter de longs textes
Optimiser le calcul du mécanisme d'auto-attention
Méthodes générales d'optimisation des modèles
Le dilemme du "triangle impossible" des longs textes n'est pour l'instant pas résolu, mais cela clarifie également le chemin d'exploration des fabricants de grands modèles : trouver le meilleur équilibre entre la longueur du texte, l'attention et la puissance de calcul, afin de pouvoir traiter suffisamment d'informations tout en tenant compte des limitations du calcul d'attention et des coûts de la puissance de calcul.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Les capacités des grands modèles en matière de textes longs dépassent 400 000 tokens, favorisant l'application de l'IA dans des domaines tels que la finance et le droit.
Compétition des capacités de texte long des grands modèles : de 4000 à 400 000 tokens, la "lecture" de l'IA s'envole
Les grands modèles améliorent leur capacité de traitement de longs textes à une vitesse incroyable. Passant des 4000 tokens initiaux aux 400 000 tokens d'aujourd'hui, la capacité de longs textes semble être devenue la nouvelle norme pour les fabricants de grands modèles.
À l'international, OpenAI a amélioré à plusieurs reprises la longueur d'entrée contextuelle de GPT-3.5 de 4000 à 16000 tokens, tandis que GPT-4 a été augmenté de 8000 à 32000 tokens. Son concurrent Anthropic a même porté la longueur contextuelle à 100000 tokens. LongLLaMA a même étendu la longueur contextuelle à plus de 256000 tokens.
En Chine, la startup de modèles de grande taille, Moons of Darkness, a lancé Kimi Chat, qui peut prendre en charge l'entrée de 200 000 caractères chinois, soit environ 400 000 tokens. La technologie LongLoRA, développée en collaboration entre l'Université Chinoise de Hong Kong et le MIT, peut étendre la longueur de texte du modèle 7B à 100 000 tokens et celle du modèle 70B à 32 000 tokens.
Actuellement, de nombreuses entreprises et institutions de recherche de premier plan, y compris OpenAI, Anthropic, Meta et Moonlight, considèrent l'expansion de la longueur du contexte comme une direction de mise à niveau prioritaire. Ces entreprises sont généralement favorisées par le marché des capitaux, avec une croissance rapide tant en termes de financement que de valorisation.
Les entreprises de grands modèles attachent une telle importance à la technologie des longs textes, que signifie la percée des 400 000 tokens ? En apparence, cela représente une augmentation considérable de la longueur du texte d'entrée et de la capacité de lecture du modèle. Initialement, il ne pouvait traiter qu'un court article, et maintenant, il peut lire un roman entier, élargissant ainsi de manière significative les cas d'utilisation du modèle.
D'un point de vue plus profond, la technologie des longs textes pousse l'application des grands modèles dans des domaines professionnels tels que la finance, la justice et la recherche scientifique. Les capacités de résumé de longs documents, de compréhension de lecture et de questions-réponses sont essentielles à la montée en intelligence de ces domaines.
Cependant, tout comme pour les paramètres du modèle, la longueur du texte n'est pas nécessairement meilleure lorsqu'elle est plus longue. Des études montrent qu'il n'existe pas de corrélation positive simple entre la longueur du contexte prise en charge par le modèle et les performances. L'essentiel réside dans la manière dont le modèle utilise efficacement le contenu contextuel.
Actuellement, l'exploration des technologies de long texte n'a pas encore atteint ses limites. Les entreprises de grands modèles, tant nationales qu'internationales, continuent de réaliser des percées, et 400 000 tokens ne sont peut-être qu'un début.
Pourquoi les entreprises de modèles de grande taille se livrent-elles à la "compétition" sur les longs textes ?
Le fondateur de la Face Cachée de la Lune, Yang Zhilin, a déclaré que la limitation de la longueur d'entrée des grands modèles posait des problèmes pour la mise en œuvre de nombreuses applications, c'est pourquoi les grandes entreprises se concentrent actuellement sur la technologie des longs textes.
Par exemple, dans un scénario de personnage virtuel, en raison d'une capacité insuffisante pour gérer de longs textes, le personnage virtuel peut oublier des informations importantes. Lors du développement de jeux de type "murder party", une longueur d'entrée insuffisante peut entraîner une réduction des règles et des paramètres, affectant ainsi l'expérience de jeu. Dans des domaines professionnels tels que le droit et la finance, l'analyse et la génération de contenu en profondeur sont également souvent limitées.
Les longs textes jouent un rôle important dans les applications natives d'Agent et d'IA à l'avenir. Les Agents ont besoin de s'appuyer sur des informations historiques pour planifier et prendre des décisions, tandis que les applications natives d'IA nécessitent un contexte pour maintenir une expérience utilisateur cohérente et personnalisée.
Yang Zhilin estime que la limite des grands modèles est déterminée par la capacité d'une seule étape et le nombre d'étapes d'exécution, la capacité d'une seule étape étant liée au nombre de paramètres, tandis que le nombre d'étapes d'exécution correspond à la longueur du contexte. La technologie des textes longs peut non seulement résoudre certains problèmes précoces des grands modèles, mais elle est également l'une des technologies clés pour faire avancer l'industrie et l'application.
Avec le Kimi Chat nouvellement lancé par la face cachée de la lune, nous pouvons avoir un aperçu des fonctionnalités améliorées des grands modèles à l'ère des longs textes :
Ces fonctionnalités montrent que les robots de conversation se dirigent vers une spécialisation, une personnalisation et une profondeur, et qu'ils pourraient devenir un levier important pour favoriser l'implémentation industrielle et l'émergence des super applications.
Le dilemme du "triangle impossible" des longs textes
Dans la technologie de long texte, il existe le dilemme du "triangle impossible" entre la longueur du texte, l'attention et la puissance de calcul. Cela se manifeste par :
La racine de ce dilemme réside dans le fait que la plupart des modèles sont basés sur la structure Transformer. Le mécanisme d'auto-attention dans cette structure fait que la charge de calcul augmente de manière quadratique avec la longueur du contexte.
Actuellement, il existe principalement trois solutions :
Le dilemme du "triangle impossible" des longs textes n'est pour l'instant pas résolu, mais cela clarifie également le chemin d'exploration des fabricants de grands modèles : trouver le meilleur équilibre entre la longueur du texte, l'attention et la puissance de calcul, afin de pouvoir traiter suffisamment d'informations tout en tenant compte des limitations du calcul d'attention et des coûts de la puissance de calcul.