ثورة بيانات الذكاء الاصطناعي: صعود البيانات داخل السلسلة وعصر DataFi

العقد القادم لصناعة الذكاء الاصطناعي: من قوة الحوسبة إلى البيانات

لقد شهدت أحجام معلمات نماذج الذكاء الاصطناعي (AI) وقدرات الحوسبة زيادة أسية في السنوات الأخيرة، لكن هناك عنق زجاجة أساسي تم تجاهله يتضح تدريجياً - البيانات. مع تخطي حجم النموذج تريليون معلمة، وقدرة الحوسبة تُقاس بمئات المليارات من العمليات في الثانية (FLOPS)، لم يعد التحدي الأكبر الذي يواجه صناعة الذكاء الاصطناعي هو بنية النموذج أو قوة الحوسبة للرقائق، بل هو كيفية تحويل بيانات السلوك البشري المجزأة إلى موارد قابلة للتحقق، وهيكلية، ومجهزة للذكاء الاصطناعي.

تقدم هذه الرؤية نظرة ثاقبة على التناقضات الهيكلية الحالية في تطوير الذكاء الاصطناعي، بينما ترسم صورة جديدة تمامًا لعصر "DataFi". في هذا العصر، لم تعد البيانات منتجًا جانبيًا للتكنولوجيا، بل أصبحت عنصر إنتاج أساسي يمكن قياسه وتداوله وزيادة قيمته، مثل الكهرباء، قوة الحوسبة.

الت contradictions الهيكلية في صناعة الذكاء الاصطناعي: من قوة الحوسبة إلى جوع البيانات

تم دفع تطور الذكاء الاصطناعي لعقود طويلة بواسطة "نموذج - قوة الحوسبة". منذ ثورة التعلم العميق، قفزت معلمات النموذج من مستوى الملايين (مثل AlexNet في عام 2012) إلى تريليونات (مثل GPT-4)، واحتياجات قوة الحوسبة في ازدياد أسي. تجاوزت تكلفة تدريب نموذج لغة كبير متقدم 100 مليون دولار، حيث يتم تخصيص 90% منها لاستئجار تجمعات GPU. ومع ذلك، بينما يركز القطاع على "نماذج أكبر" و"شرائح أسرع"، فإن أزمة جانب عرض البيانات تقترب بهدوء.

لقد وصلت "البيانات العضوية" التي أنشأها البشر إلى سقف نموها. على سبيل المثال، إجمالي النصوص عالية الجودة المتاحة على الإنترنت (الكتب، الأوراق، الأخبار) التي يمكن الزحف إليها يقدر بحوالي 10^12 كلمة، بينما يتطلب تدريب نموذج بحجم 100 مليار معلمة حوالي 10^13 كلمة من البيانات. وهذا يعني أن مجموعة البيانات الحالية يمكن أن تدعم تدريب 10 نماذج بحجم مماثل فقط. والأسوأ من ذلك، أن نسبة البيانات المكررة والمحتوى منخفض الجودة تتجاوز 60%، مما يضغط أكثر على إمدادات البيانات الفعالة. عندما يبدأ النموذج في "ابتلاع" البيانات التي تم إنشاؤها بنفسه، فإن تدهور أداء النموذج الناتج عن "تلوث البيانات" قد أصبح مصدر قلق في الصناعة.

تتمثل جذور هذا التناقض في أن صناعة الذكاء الاصطناعي لطالما اعتبرت البيانات "موارد مجانية"، وليس "أصول استراتيجية" تحتاج إلى رعاية دقيقة. لقد تشكلت نماذج وقوة الحوسبة في نظام سوق ناضج، لكن إنتاج البيانات وتنظيفها والتحقق منها وتداولها لا يزال في "عصر همجية". ستكون السنوات العشر القادمة في الذكاء الاصطناعي هي سنوات "البنية التحتية للبيانات"، وبيانات الشبكة المشفرة على السلسلة هي المفتاح لحل هذه المعضلة.

بيانات السلسلة: قاعدة بيانات "سلوك الإنسان" الأكثر حاجةً للذكاء الاصطناعي

في ظل نقص البيانات، تُظهر بيانات الشبكة المشفرة على السلسلة قيمة لا يمكن تعويضها. بالمقارنة مع بيانات الإنترنت التقليدية، تتمتع بيانات السلسلة بموثوقية فطرية في "محاذاة الحوافز". كل معاملة، كل تفاعل عقد، وكل سلوك عنوان محفظة مرتبط مباشرة برأس المال الحقيقي، ولا يمكن تغييرها. تُعرف هذه البيانات بأنها "أكثر بيانات سلوك محاذاة الحوافز البشرية تركزًا على الإنترنت"، ويتجلى ذلك في ثلاثة أبعاد:

  1. "إشارات النية" في العالم الحقيقي: البيانات على السلسلة تسجل السلوكيات المتعلقة بالتصويت باستخدام الأموال الحقيقية، مما يعكس مباشرةً تقييم المستخدم لقيمة المشروع، وتفضيلاته للمخاطر، واستراتيجيات تخصيص الأموال. هذه البيانات "المدعومة برأس المال" لها قيمة عالية في تدريب قدرة اتخاذ القرار للذكاء الاصطناعي.

  2. "سلسلة السلوك" القابلة للتتبع: إن شفافية blockchain تجعل سلوك المستخدمين قابلاً للتتبع بشكل كامل. تاريخ المعاملات لعناوين المحفظة، البروتوكولات التي تفاعلت معها، والتغيرات في الأصول المحتفظ بها، تشكل "سلسلة سلوك" متماسكة. هذه البيانات السلوكية المهيكلة هي في الواقع "عينات الاستدلال البشري" الأكثر ندرة في نماذج الذكاء الاصطناعي الحالية.

  3. الوصول "الغير مرخص" في النظام البيئي المفتوح: البيانات على السلسلة مفتوحة ولا تحتاج إلى ترخيص. يمكن لأي مطور الوصول إلى البيانات الأصلية من خلال متصفح blockchain أو واجهة برمجة التطبيقات للبيانات، مما يوفر مصدر بيانات "غير محجوب" لتدريب نماذج الذكاء الاصطناعي. ومع ذلك، تتواجد البيانات على السلسلة في شكل "سجلات الأحداث"، وهي "إشارات أصلية" غير منظمة، تحتاج إلى التنظيف والتوحيد والربط لتكون قابلة للاستخدام من قبل نماذج الذكاء الاصطناعي. حالياً، نسبة "التحويل الهيكلي" للبيانات على السلسلة أقل من 5%، مما يعني أن العديد من الإشارات ذات القيمة العالية مدفونة في مليارات من الأحداث المتقطعة.

Hyperdata Network: نظام التشغيل للبيانات على السلسلة

لحل مشكلة تجزئة البيانات على السلسلة، اقترحت الصناعة مفهوم شبكة Hyperdata - "نظام تشغيل ذكي على السلسلة" مصمم خصيصًا للذكاء الاصطناعي. الهدف الأساسي هو تحويل الإشارات الموزعة على السلسلة إلى بيانات جاهزة للذكاء الاصطناعي هيكلية وقابلة للتحقق وقابلة للتجميع في الوقت الحقيقي.

مخطوطة: معيار البيانات المفتوحة

واحدة من أكبر مشكلات بيانات السلسلة هي "الفوضى في التنسيق". تختلف تنسيقات سجلات الأحداث في سلاسل الكتل المختلفة، وقد تتغير هياكل بيانات الإصدارات المختلفة من نفس البروتوكول. قامت Manuscript كمعيار مفتوح لهيكل البيانات بتوحيد تعريفات البيانات على السلسلة وطرق وصفها. على سبيل المثال، قامت بتوحيد "سلوك الرهان للمستخدمين" كبيانات هيكلية تتضمن مجالات مثل staker_address و protocol_id و amount و timestamp و reward_token، مما يضمن أن نماذج الذكاء الاصطناعي لا تحتاج إلى التكيف مع تنسيقات بيانات سلاسل الكتل أو البروتوكولات المختلفة، بل يمكنها "فهم" منطق الأعمال وراء البيانات مباشرة.

تتمثل قيمة هذا التوحيد في خفض تكاليف الاحتكاك في تطوير الذكاء الاصطناعي. استنادًا إلى Manuscript، تم معالجة جميع البيانات على السلسلة وفقًا لمعايير موحدة، ويمكن للمطورين استدعاء "سجلات الرهن الخاصة بالمستخدمين" و"سجلات تقديم السيولة" وغيرها من البيانات الهيكلية بشكل مباشر، مما يقلل بشكل كبير من فترة تدريب النموذج.

ضمان موثوقية البيانات

المتطلبات الأساسية لنموذج الذكاء الاصطناعي للبيانات هي "موثوقية". تضمن شبكة Hyperdata صحة البيانات من خلال آلية AVS (مجموعة المدققين النشطين) على الإيثيريوم. AVS هو مكون موسع لطبقة الإجماع في الإيثيريوم، يتكون من عقد المدققين، والتي تتحمل مسؤولية التحقق من سلامة ودقة البيانات على السلسلة. عندما تعالج شبكة Hyperdata حدثًا على السلسلة، تقوم عقد AVS بالتحقق المتبادل من قيم تجزئة البيانات، معلومات التوقيع، والحالة على السلسلة، لضمان تطابق البيانات الهيكلية الناتجة تمامًا مع البيانات الأصلية على السلسلة.

آلية التحقق من "اقتصاديات التشفير الضامنة" هذه، تحل مشكلة الثقة في أساليب التحقق المركزي التقليدية. يتم ضمان صحة البيانات من خلال شبكة من المدققين اللامركزية، وأي محاولة للتلاعب ستؤدي إلى تفعيل آلية العقوبات للعقود الذكية.

طبقة توفر البيانات عالية السعة

نموذج الذكاء الاصطناعي، وخاصة تطبيقات الذكاء الاصطناعي التفاعلية في الوقت الحقيقي، يحتاج إلى توفير بيانات منخفضة التأخير وعالية الإنتاجية. تم تصميم طبقة توفر البيانات (DA) خصيصًا لهذه الحاجة، من خلال تحسين خوارزميات ضغط البيانات وبروتوكولات النقل، لتحقيق معالجة في الوقت الحقيقي لمئات الآلاف من أحداث السلسلة في الثانية. على سبيل المثال، عندما تحدث صفقة كبيرة على منصة معينة، يمكن لDA استخراج البيانات وتوحيدها والتحقق منها في غضون ثانية واحدة، ودفع "إشارة الصفقة الكبيرة" المهيكلة إلى نماذج الذكاء الاصطناعي المشتركة، مما يمكنها من تعديل استراتيجيات التداول في الوقت المناسب.

الخلفية وراء القدرة العالية على المعالجة هي الهيكلية المودولارية. تفصل DA بين تخزين البيانات والحوسبة، حيث يتحمل شبكة العقد الموزعة تخزين البيانات، بينما يتم تنفيذ الحوسبة من خلال Rollup خارج السلسلة، مما يتجنب عنق الزجاجة في أداء سلسلة الكتل نفسها. هذه التصميم يسمح لشبكة Hyperdata بدعم متطلبات البيانات في الوقت الحقيقي لتطبيقات الذكاء الاصطناعي على نطاق واسع.

عصر DataFi: عندما تصبح البيانات "رأسمال" قابلاً للتداول

الهدف النهائي لشبكة Hyperdata هو دفع صناعة الذكاء الاصطناعي إلى عصر DataFi - حيث لم تعد البيانات "مواد تدريب" سلبية، بل أصبحت "رأسمال" نشط يمكن تسعيره وتداوله وزيادة قيمته. يعتمد تحقيق هذه الرؤية على تحويل شبكة Hyperdata للبيانات إلى أربع خصائص أساسية:

  1. الهيكلة: من "الإشارة الأصلية" إلى "الأصول القابلة للاستخدام". البيانات الخام على السلسلة مثل "النفط الخام"، تحتاج إلى تكريرها لتصبح "بنزين". تقوم شبكة Hyperdata بتحويلها إلى بيانات هيكلية من خلال المعايير، مما يجعل البيانات قابلة للاستخدام مباشرة من قبل نماذج الذكاء الاصطناعي، كما هو سهل مثل استدعاء واجهة برمجة التطبيقات.

  2. قابل للتجميع: "ليغو" البيانات. يمكن تجميع البيانات الهيكلية بحرية مثل قطع ليغو. على سبيل المثال، يمكن للمطورين دمج "سجل رهان المستخدمين" مع "بيانات تقلب الأسعار" و"عدد الإشارات الاجتماعية" لتدريب "نموذج توقع مشاعر السوق في DeFi". هذه القابلية للتجميع توسع بشكل كبير حدود استخدام البيانات.

  3. قابل للتحقق: "الاعتماد الائتماني" للبيانات. ستولد البيانات الهيكلية التي تم التحقق منها "بصمة بيانات" فريدة (قيمة هاش) وتخزن على البلوكشين. يمكن لأي تطبيق AI أو مطور يستخدم هذه البيانات التحقق من صحة البيانات من خلال التحقق من قيمة الهاش.

  4. قابل للتحويل: "تحويل قيمة" البيانات. في عصر DataFi، يمكن لمزودي البيانات تحويل البيانات الهيكلية مباشرة. على سبيل المثال، قامت مجموعة بتحليل البيانات على السلسلة لتطوير "إشارة تحذير من ثغرات العقود الذكية"، ويمكنهم تغليف هذه الإشارة كخدمة API، وتحصيل رسوم حسب عدد الاستدعاءات. يمكن للمستخدمين العاديين أيضًا تفويض مشاركة بياناتهم المجهولة على السلسلة، والحصول على مكافآت رمزية للبيانات.

الخاتمة: ثورة البيانات، العقد القادم للذكاء الاصطناعي

عندما نتحدث عن مستقبل الذكاء الاصطناعي، غالبًا ما نركز على "مستوى ذكاء" النماذج، متجاهلين "تربة البيانات" التي تدعم الذكاء. تكشف شبكة Hyperdata عن حقيقة أساسية: تطور الذكاء الاصطناعي هو في جوهره تطور بنية البيانات التحتية. من "محدودية" البيانات التي ينتجها البشر إلى "اكتشاف قيمة" البيانات على السلسلة، من "فوضى" الإشارات المجزأة إلى "نظام" البيانات المهيكلة، ومن "الموارد المجانية" للبيانات إلى "الأصول الرأسمالية" في DataFi، تقوم شبكة Hyperdata بإعادة تشكيل المنطق الأساسي لصناعة الذكاء الاصطناعي.

في عصر DataFi هذا، ستصبح البيانات الجسر الذي يربط بين الذكاء الاصطناعي والعالم الحقيقي. تستشعر وسطاء التداول مشاعر السوق من خلال البيانات على السلسلة، بينما تقوم التطبيقات المستقلة بتحسين الخدمات من خلال بيانات سلوك المستخدمين، يحصل المستخدمون العاديون على أرباح مستمرة من خلال مشاركة البيانات. تمامًا كما أن شبكة الكهرباء أدت إلى الثورة الصناعية، فإن قوة الحوسبة أدت إلى ثورة الإنترنت، فإن شبكة Hyperdata تعمل على إحداث "ثورة البيانات" في الذكاء الاصطناعي.

تطبيقات الذكاء الاصطناعي الأصلية من الجيل التالي لا تحتاج فقط إلى نماذج أو محافظ، ولكنها تحتاج أيضًا إلى بيانات قابلة للبرمجة وغير موثوقة وعالية الجودة. عندما تُمنح البيانات القيمة التي تستحقها، يمكن للذكاء الاصطناعي أن يطلق حقًا قوة تغيير العالم.

ETH-4.37%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 5
  • إعادة النشر
  • مشاركة
تعليق
0/400
SmartContractPlumbervip
· منذ 4 س
تسرب خصوصية البيانات هو أيضًا ثغرة هائلة، خطيرة مثل إعادة إدخال العقود الذكية.
شاهد النسخة الأصليةرد0
governance_ghostvip
· منذ 4 س
البيانات هي النفط الجديد أليس كذلك؟
شاهد النسخة الأصليةرد0
MultiSigFailMastervip
· منذ 4 س
لا تستمع للضجيج بعيدًا. البيانات ليست مجرد دواء لإطالة عمر بطاقة الرسومات كما يُقال الآن.
شاهد النسخة الأصليةرد0
airdrop_whisperervip
· منذ 4 س
البيانات وقوة الحوسبة تتعارك، قوة الحوسبة لن تفوز.
شاهد النسخة الأصليةرد0
ThreeHornBlastsvip
· منذ 4 س
البيانات هي الأخ الأكبر، قوة الحوسبة هي جميعها الأخ الأصغر.
شاهد النسخة الأصليةرد0
  • تثبيت