ترقية مسابقة النصوص الطويلة للنماذج الكبيرة 400000 توكن أو قد تكون نقطة انطلاق جديدة

robot
إنشاء الملخص قيد التقدم

شركات النماذج الكبيرة تبدأ سباق تقنية النصوص الطويلة، 400,000 توكن ربما تكون مجرد البداية

تتوسع النماذج الكبيرة بسرعة مذهلة في قدرتها على معالجة النصوص الطويلة. من 4000 إلى 400000 توكن، تعتبر هذه القدرة "مرئية بالعين المجردة".

يبدو أن قدرة معالجة النصوص الطويلة أصبحت معيارًا جديدًا لمصنعي النماذج الكبيرة. على الصعيد الدولي، قامت OpenAI بعدة ترقيات، حيث زادت طول السياق لـ GPT-3.5 و GPT-4 إلى 16000 و 32000 توكن على التوالي. أما المنافس الرئيسي Anthropic فقد وسع طول السياق إلى 100000 توكن دفعة واحدة. بينما رفعت LongLLaMA هذا الرقم إلى 256000 توكن أو أكثر.

في الجانب المحلي، أطلقت شركة نون زين داكنة الناشئة Kimi Chat، التي تدعم إدخال 200,000 حرف صيني، بما يعادل حوالي 400,000 توكن. تكنولوجيا LongLoRA التي تم تطويرها بشكل مشترك بين جامعة هونغ كونغ الصينية ومعهد ماساتشوستس للتكنولوجيا، يمكنها توسيع طول النص لنموذج 7B إلى 100,000 توكن، بينما يصل نموذج 70B إلى 32,000 توكن.

حاليًا، تركز العديد من شركات النماذج الكبيرة الكبرى والمؤسسات البحثية، بما في ذلك OpenAI وAnthropic وMeta و月之暗面، على توسيع طول السياق كاتجاه ترقية رئيسي. وهذه الشركات لا تُستثنى من تفضيل سوق رأس المال.

حصلت OpenAI على استثمار قدره نحو 12 مليار دولار؛ ومن المتوقع أن تصل القيمة التقديرية لAnthropic إلى 30 مليار دولار؛ وقد تجاوزت قيمة مشروع "وجه القمر المظلم"، الذي تأسس قبل ستة أشهر، 300 مليون دولار، وأكملت تمويلًا يقارب 2 مليار يوان.

لماذا تولي شركات النماذج الكبيرة اهتمامًا كبيرًا لتقنية النصوص الطويلة؟ ماذا يعني توسيع طول السياق بمقدار 100 مرة؟

من الناحية السطحية، يعني ذلك أن النموذج يمكنه معالجة مدخلات نصية أطول، مما يعزز قدرته على القراءة بشكل كبير. لكن المعنى الأعمق هو أن تقنية النصوص الطويلة تدفع نحو تطبيق النماذج الكبيرة في مجالات مثل المالية والعدالة والبحث العلمي. إن قدرات تلخيص الوثائق الطويلة، وفهم القراءة، والإجابة على الأسئلة، هي الاتجاهات التي تحتاجها هذه المجالات للترقية الذكية.

ومع ذلك، مثلما هو الحال مع معلمات النموذج، فإن طول النص ليس بالضرورة أفضل كلما زاد. تظهر الأبحاث أن دعم النموذج لإدخالات سياق أطول لا يعني بالضرورة تحسين النتائج. الأمر يعتمد على كيفية استفادة النموذج بشكل فعال من محتوى السياق.

حاليًا، لا يزال استكشاف طول النص في الصناعة بعيدًا عن الوصول إلى الحد الأقصى. قد تكون 400,000 توكن مجرد بداية، ولا تزال شركات النماذج الكبيرة في الداخل والخارج تواصل تجاوز هذه الحدود.

لماذا يجب "لف" النصوص الطويلة؟

أفاد المؤسس يانغ زهي لين من "الوجه المظلم للقمر" أن القيود المفروضة على طول مدخلات النماذج الكبيرة هي السبب وراء العديد من الصعوبات في تطبيقها. وهذا هو السبب وراء تركيز العديد من شركات النماذج الكبيرة على تقنيات النصوص الطويلة.

على سبيل المثال، في مشاهد الشخصيات الافتراضية، بسبب عدم كفاية القدرة على التعامل مع النصوص الطويلة، ستنسى الشخصيات معلومات مهمة؛ عند تطوير ألعاب القتل السينمائي، يؤدي عدم كفاية طول الإدخال إلى تقليص القواعد والإعدادات؛ في المجالات المهنية مثل القانون والمالية، غالبًا ما تعاني التحليلات العميقة للمحتوى والتوليد من الإحباط.

في الطريق نحو تطبيقات Agent وAI الأصلية في المستقبل، لا يزال للنصوص الطويلة دور مهم. تتطلب مهام Agent الاعتماد على المعلومات التاريخية لإجراء قرارات التخطيط، بينما تحتاج تطبيقات AI الأصلية إلى السياق للحفاظ على تجربة مستخدم متسقة وشخصية.

يعتقد يانغ تشي لين أن الحد الأقصى لنموذج كبير يتحدد بواسطة القدرة على الخطوة الواحدة وعدد خطوات التنفيذ، حيث ترتبط القدرة على الخطوة الواحدة ارتباطًا إيجابيًا بكمية المعلمات، بينما يمثل عدد خطوات التنفيذ طول السياق.

تكنولوجيا النصوص الطويلة لا يمكنها فقط حل بعض المشكلات التي تم انتقاد النماذج الكبيرة في مراحلها الأولية، وتعزيز بعض الوظائف، بل إنها أيضًا التقنية الأساسية لدفع الصناعة والتطبيقات نحو التنفيذ. وهذا يشير أيضًا إلى أن النماذج الكبيرة العامة تدخل مرحلة جديدة من LLM إلى Long LLM.

من خلال Kimi Chat الذي تم إصداره حديثًا من الجانب المظلم للقمر، يمكننا إلقاء نظرة على ميزات الترقية لنموذج Long LLM.

أولاً، يتعلق الأمر بقدرة استخراج المعلومات الرئيسية والنظر في النصوص الطويلة والتلخيص والتحليل. مثل تحليل فكرة مقالة حسابات عامة بسرعة، استخراج المعلومات الرئيسية من التقارير المالية وعرضها في شكل جدول، أو إجراء أسئلة وأجوبة حول كتاب كامل.

في مجال البرمجة، يمكن تحويل النص مباشرة إلى كود، بل حتى إعادة إنتاج عملية توليد الكود بناءً على الورقة البحثية.

في سيناريوهات الحوار الطويلة، يمكن لروبوت المحادثة تحقيق تمثيل الأدوار، من خلال إدخال بيانات شخصيات عامة، وضبط النبرة والشخصية، لتحقيق محادثة فردية مع شخصيات محددة.

تظهر هذه الأمثلة أن الروبوتات الحوارية تتجه نحو التخصص والتخصيص والعُمق، وهذا قد يكون أحد الأدوات لتحريك الصناعة نحو التنفيذ وبناء تطبيقات فائقة.

يعتقد يانغ زهي لين أن "الجانب المظلم من القمر" يهدف إلى أن يكون التطبيق الفائق التالي من نوع C-end، على عكس OpenAI التي تقدم منتجًا واحدًا فقط هو ChatGPT: من خلال تقنية النصوص الطويلة كاختراق، يتم تطوير عدة تطبيقات على نموذج عام أساسي.

لقد حكم أن سوق النماذج الكبيرة المحلية سينقسم إلى معسكرين: toB و toC، وفي معسكر toC ستظهر تطبيقات فائقة تعتمد على نماذج تم تطويرها داخليًا.

أزمة "مثلث الاستحالة" في النص الطويل

في مجال النصوص الطويلة، هناك "مثلث مستحيل" يتعلق بطول النص، والانتباه، وقوة الحوسبة. يتجلى ذلك في: كلما كان النص أطول، كان من الصعب جمع الانتباه الكافي؛ تحت قيود الانتباه، لا يمكن تفسير المعلومات المعقدة بشكل كامل من النصوص القصيرة؛ معالجة النصوص الطويلة تتطلب قوة حوسبة كبيرة، مما يزيد من التكاليف.

تعود جذور هذه الأزمة إلى أن النماذج الكبيرة الحالية تستند إلى هيكل Transformer. على الرغم من أن آلية الانتباه الذاتي في هذا الهيكل تتيح للنموذج تجاوز قيود تسلسل المعلومات المدخلة، إلا أن حجم الحسابات ينمو بشكل تربيعي مع زيادة طول السياق.

يشكل هذا "مثلث المستحيل" المجموعة الأولى من التناقضات - طول النص والاهتمام، كما يفسر من الناحية الجوهرية سبب صعوبة النماذج الكبيرة في تجاوز تقنيات النصوص الطويلة.

في الوقت نفسه، كانت القدرة الحاسوبية دائمًا موردًا نادرًا. سواء كان توسيع معلمات النموذج أو طول النص، يجب الموازنة بين استهلاك القدرة الحاسوبية. وهذا يشكل مجموعة ثانية من التناقضات بين طول النص والقدرة الحاسوبية.

هناك حاليًا ثلاث حلول رئيسية:

  1. استخدام أدوات خارجية للمساعدة في معالجة النصوص الطويلة، مثل تقسيم النص الطويل إلى نصوص قصيرة متعددة.

  2. تحسين حساب آلية الانتباه الذاتي، مثل تقنية LongLoRA التي تقسم النصوص الطويلة إلى مجموعات مختلفة للحساب.

  3. تحسين النموذج، مثل LongLLaMA الذي يحقق الاستدلال على تسلسلات أطول من خلال الضبط الدقيق.

قد يكون من الصعب حل "مثلث المستحيل" للنصوص الطويلة بشكل كامل في الوقت الحالي، لكن هذا يوضح أيضًا مسار الاستكشاف لشركات النماذج الكبيرة: البحث عن أفضل نقطة توازن بين طول النصوص، والانتباه، وقوة الحوسبة، بحيث يمكن معالجة معلومات كافية مع مراعاة تكلفة حساب الانتباه وقوة الحوسبة.

TOKEN-2.36%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 4
  • إعادة النشر
  • مشاركة
تعليق
0/400
OnchainDetectivevip
· منذ 19 س
ههه يبدو أن المنافسة التقنية ودية ولكن من الواضح أنها سلسلة غسيل الأموال بقوة الحوسبة ، وهي مواجهة نموذجية لحرق الأموال.
شاهد النسخة الأصليةرد0
ApeWithAPlanvip
· منذ 19 س
إنها مجرد مسابقة لتكديس الأرقام، ما الفائدة من ذلك؟
شاهد النسخة الأصليةرد0
RugPullProphetvip
· منذ 19 س
هذه الموجة لا تستطيع الشركات الصغيرة تحملها، أليس كذلك؟
شاهد النسخة الأصليةرد0
AirdropFreedomvip
· منذ 19 س
كسبت 50 ألف دولار~ إما حمقى أو المعدّن منذ البداية حتى الآن أتابع الأرباح

استخدم لغة معينة لتوليد التعليقات: الصينية

لا أريد الركض وراء التوكن، لن أتمكن من اللحاق أبداً~
شاهد النسخة الأصليةرد0
  • تثبيت