La capacidad de los grandes modelos para procesar textos largos ha superado los 400,000 tokens, impulsando la aplicación de la IA en campos como las finanzas y el derecho.

robot
Generación de resúmenes en curso

Gran competencia de capacidad de texto largo de modelos grandes: de 4000 a 400,000 tokens, la "capacidad de lectura" de la IA se dispara

Los grandes modelos están mejorando su capacidad de procesamiento de textos largos a una velocidad sorprendente. Desde los iniciales 4000 tokens hasta los actuales 400,000 tokens, la capacidad de textos largos parece haberse convertido en un nuevo estándar para los proveedores de grandes modelos.

A nivel internacional, OpenAI ha aumentado varias veces la longitud de entrada de contexto de GPT-3.5 de 4,000 a 16,000 tokens, mientras que GPT-4 ha pasado de 8,000 a 32,000 tokens. Su competidor Anthropic ha elevado la longitud del contexto a 100,000 tokens. LongLLaMA incluso ha expandido la longitud del contexto a más de 256,000 tokens.

En el ámbito nacional, Kimi Chat, lanzado por la startup de modelos a gran escala "La cara oscura de la luna", puede soportar la entrada de 200,000 caracteres chinos, equivalente a aproximadamente 400,000 tokens. La tecnología LongLoRA, desarrollada en colaboración entre la Universidad China de Hong Kong y el MIT, puede expandir la longitud del texto del modelo de 7B a 100,000 tokens y del modelo de 70B a 32,000 tokens.

Actualmente, numerosas empresas de modelos grandes y organizaciones de investigación de primer nivel, incluidas OpenAI, Anthropic, Meta y La Cara Oscura de la Luna, están enfocándose en ampliar la longitud del contexto como una dirección clave de actualización. Estas empresas son generalmente muy valoradas en el mercado de capitales, mostrando un rápido crecimiento tanto en tamaño de financiamiento como en valoración.

¿Qué significa el avance de 400,000 tokens para las empresas de modelos grandes que valoran tanto la tecnología de texto largo? A primera vista, esto representa un aumento significativo en la longitud del texto de entrada del modelo y su capacidad de lectura. Desde poder procesar solo un artículo corto, hasta ahora pudiendo leer una novela completa, los escenarios de aplicación del modelo se han expandido notablemente.

A un nivel más profundo, la tecnología de texto largo está impulsando la implementación de grandes modelos en campos profesionales como la finanza, la justicia y la investigación científica. Las capacidades de resumen de documentos largos, comprensión de lectura y preguntas y respuestas son clave para la modernización inteligente de estos campos.

Sin embargo, al igual que con los parámetros del modelo, la longitud del texto no siempre es mejor si es más larga. La investigación muestra que no existe una simple correlación positiva entre la longitud del contexto que un modelo puede soportar y su rendimiento. La clave está en cómo el modelo utiliza de manera efectiva el contenido del contexto.

Actualmente, la exploración de la tecnología de texto largo aún no ha alcanzado su límite. Las empresas de modelos grandes, tanto nacionales como extranjeras, continúan rompiendo barreras, y 400,000 tokens pueden ser solo un comienzo.

¿Por qué las empresas de modelos grandes compiten por "enrollar" textos largos?

El fundador de la cara oscura de la luna, Yang Zhilin, afirmó que la limitación en la longitud de entrada de los grandes modelos ha creado dificultades para la implementación de muchas aplicaciones, y esta es la razón por la cual las principales empresas se están enfocando en la tecnología de texto largo.

Por ejemplo, en escenarios de personajes virtuales, debido a la insuficiencia de capacidad de texto largo, los personajes virtuales pueden olvidar información importante. Al desarrollar juegos de tipo "murder mystery", la longitud insuficiente de la entrada puede llevar a la reducción de las reglas y configuraciones, afectando el efecto del juego. En campos profesionales como el derecho y las finanzas, el análisis y la generación de contenido profundo también suelen verse limitados.

El texto largo desempeña un papel importante en las aplicaciones nativas de Agent y AI en el futuro. Los agentes necesitan depender de la información histórica para planificar y tomar decisiones, mientras que las aplicaciones nativas de AI requieren contexto para mantener una experiencia de usuario coherente y personalizada.

Yang Zhilin considera que el límite de los grandes modelos está determinado por la capacidad de un solo paso y el número de pasos de ejecución, donde la capacidad de un solo paso está relacionada con la cantidad de parámetros, y el número de pasos de ejecución es decir, la longitud del contexto. La tecnología de texto largo no solo puede resolver algunos de los problemas tempranos de los grandes modelos, sino que también es una de las tecnologías clave para avanzar en la industria y la implementación de aplicaciones.

A través de Kimi Chat, recién lanzado por la Cara Oscura de la Luna, podemos vislumbrar las funciones mejoradas de los grandes modelos en la era de los textos largos:

  1. Extracción, resumen y análisis de información clave de textos muy largos
  2. Mejora de la capacidad de generación y modificación de código
  3. Juego de roles en escenas de diálogos largos

Estas funciones muestran que los chatbots están evolucionando hacia una dirección de especialización, personalización y profundización, y se espera que se conviertan en una herramienta clave para impulsar la implementación de la industria y la aparición de super aplicaciones.

La "tríada imposible" del texto largo

En la tecnología de texto largo, existe el dilema del "triángulo imposible" entre la longitud del texto, la atención y la potencia de cálculo. Esto se manifiesta como:

  1. Cuanto más largo es el texto, más difícil es concentrarse adecuadamente y digerir la información por completo.
  2. Bajo restricciones de atención, los textos cortos no pueden interpretar completamente información compleja.
  3. Procesar textos largos requiere una gran cantidad de poder de cálculo, lo que incrementa los costos.

La raíz de este dilema radica en que la mayoría de los modelos se basan en la estructura Transformer. El mecanismo de autoatención en esta estructura hace que la carga computacional crezca cuadráticamente con la longitud del contexto.

Actualmente hay tres soluciones principales:

  1. Utilizar herramientas externas al modelo para ayudar a procesar textos largos
  2. Optimizar el cálculo del mecanismo de autoatención
  3. Métodos generales para optimizar modelos

El dilema del "triángulo imposible" del texto largo aún no tiene solución, pero esto también aclara la ruta de exploración de los fabricantes de grandes modelos: encontrar el mejor punto de equilibrio entre la longitud del texto, la atención y la capacidad de cálculo, para poder procesar suficiente información y al mismo tiempo considerar las limitaciones de cálculo de atención y de costo de cálculo.

TOKEN-2.78%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 5
  • Republicar
  • Compartir
Comentar
0/400
metaverse_hermitvip
· 08-15 08:33
La capacidad de lectura está mejorando rápidamente.
Ver originalesResponder0
Whale_Whisperervip
· 08-15 08:32
Entender todo el texto no es difícil
Ver originalesResponder0
SelfSovereignStevevip
· 08-15 08:28
La capacidad de procesamiento me sorprendió.
Ver originalesResponder0
MoonRocketmanvip
· 08-15 08:24
La capacidad de lectura se acelera hacia el cielo
Ver originalesResponder0
HashBanditvip
· 08-15 08:09
el token sube rápidamente
Ver originalesResponder0
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)