يمكن أن ينفد اندفاع الذهب في مجال AI لبيانات تدريب الشات بوت من النصوص التي يكتبها البشر

أنظمة الذكاء الاصطناعي مثل ChatGPT قد تنفد قريبًا مما يجعلها أكثر ذكاءً - عشرات التريليونات من الكلمات التي كتبها وشاركها الناس عبر الإنترنت.

أصدرت دراسة جديدة يوم الخميس من قبل مجموعة البحث Epoch AI تتوقع أن تستنفذ الشركات التكنولوجية إمدادات بيانات التدريب العامة لنماذج اللغة الذكية للذكاء الاصطناعي بحوالي نهاية العقد - ما بين عامي 2026 و 2032.

مقارنةً بـ "اندفاع الذهب حرفيًا" الذي يستنزف الموارد الطبيعية المحدودة، قال تاماي بيسيروجلو، أحد مؤلفي الدراسة، إن مجال الذكاء الاصطناعي قد يواجه تحديات في الحفاظ على وتيرته الحالية للتقدم بمجرد استنزاف الاحتياطات من الكتابات التي أنشأها البشر.

في المدى القصير، تتسابق الشركات التكنولوجية مثل منتج ChatGPT OpenAI وGoogle لتأمين وأحيانًا دفع ثمن مصادر بيانات عالية الجودة لتدريب نماذج اللغة الذكية الكبيرة لذكاء الاصطناعي - على سبيل المثال، من خلال توقيع صفقات للاستفادة من التدفق المستمر للجمل التي تخرج من منتديات Reddit ووسائل الإعلام الإخبارية.

في المدى البعيد، لن يكون هناك ما يكفي من المدونات الجديدة ومقالات الأخبار والتعليقات على وسائل التواصل الاجتماعي لدعم المسار الحالي لتطوير الذكاء الاصطناعي، مما يضع ضغطًا على الشركات للاستفادة من البيانات الحساسة التي تعتبر الآن خاصة - مثل الرسائل البريدية أو الرسائل النصية - أو الاعتماد على "البيانات الاصطناعية" غير الموثوقة التي تطرحها الشات بوت بنفسه.

وقال بيسيروجلو: "هناك عقبة خطيرة هنا". "إذا بدأت في مواجهة تلك القيود المتعلقة بكمية البيانات التي لديك، فلن تتمكن حقًا من توسيع نماذجك بكفاءة بعد الآن. وكان توسيع النماذج هو أهم طريقة للزيادة في إمكانياتها وتحسين جودة إخراجها"

بحسب تقديرات الباحثين التي أجروها قبل عامين - قبل ظهور ChatGPT - في ورقة عمل تنبأت بتوقف عام 2026 على بيانات نصية عالية الجودة. لقد تغير الكثير منذ ذلك الحين، بما في ذلك تقنيات جديدة مكنت الباحثين في مجال الذكاء الاصطناعي من الاستفادة بشكل أفضل من البيانات التي لديهم بالفعل وفي بعض الأحيان "التدريب المفرط" على نفس المصادر عدة مرات.

ولكن هناك حدود، وبعد المزيد من البحث، يتوقع Epoch الآن النفاد من بيانات النصوص العامة في وقت ما خلال السنتين القادمتين إلى ثماني سنوات.

الدراسة الأخيرة للفريق مراجعة من قبل الأقران ومن المقرر عرضها في مؤتمر الدولي للتعلم الآلي هذا الصيف في فيينا، النمسا. إن Epoch هي معهد غير ربحي يستضيفه Rethink Priorities القائم في سان فرانسيسكو وتموله رواد العمل الخيري الفعال - حركة خيرية تصب المال في التخفيف من أسوأ حالات المخاطر التي قد يتسبب فيها الذكاء الاصطناعي.

قال بيسيروجلو إن باحثي الذكاء الاصطناعي أدركوا قبل أكثر من عقد من الزمان أن التوسع العدواني في عنصرين رئيسيين - القدرة الحسابية ومخازن البيانات الضخمة على الإنترنت - يمكن أن يحسن أداء نظم الذكاء الاصطناعي بشكل كبير.

كانت كمية البيانات النصية المدخلة إلى نماذج اللغة الذكية في زيادة حوالي 2.5 مرة في السنة، في حين ازدادت الحوسبة بحوالي 4 مرات في السنة، وفقًا لدراسة Epoch. زعمت Meta Platforms الشركة الأم لـ Facebook مؤخرًا أن أكبر إصدار من تصميمها القادم المعروف بـ نموذج Llama 3 - الذي لم يتم إصداره بعد - تم تدريبه على ما يصل إلى 15 تريليون رمز، يمثل كل منها جزءًا من كلمة.

ولكن ما إذا كان يستحق القلق بشأن زجاجة البيانات يمكن الجدل حوله.

قال نيكولاس بابيرنوت، أستاذ مساعد في الهندسة الكمبيوترية في جامعة تورنتو وباحث في معهد فكتور للذكاء الاصطناعي غير الربحي: "أعتقد أنه من المهم أن نضع في اعتبارنا أنه ليس من الضروري استمرار تدريب النماذج أكبر وأكبر". ولكن لديه مخاوف بشأن تدريب نظم الذكاء الاصطناعي الإبداعي على الإخراجات نفسها، مما يؤدي إلى أداء تدني يعرف باسم "انهيار النموذج".

قال بابيرنوت، الذي لم يكن متورطًا في دراسة Epoch، إن بناء نظم الذكاء الاصطناعي المهرة يمكن أيضًا أن يأتي من تدريب النماذج المتخصصة أكثر في المهام الخاصة. لكن لديه مخاوف بشأن تدريب أنظمة الذكاء الاصطناعي التي تم إنشاؤها على نفس المخرجات التي تنتجها، مما يؤدي إلى تدهور الأداء المعروف باسم "انهيار النموذج".

يعني تدريب على البيانات التي تنشئها الذكاء الاصطناعي "مثل ما يحدث عندما تصوّر صفحة ورق وثم تصوّر نسخة مصغرة من هذه الصفحة ومن ثم تصوّر النسخة المصغرة. تفقد بعضًا من المعلومات"، كما قال بابيرنوت. وليس فقط ذلك، ولكن من خلال بحوث بابيرنوت تم العثور أيضًا على أنه يمكن أن يقوم بترميز المزيد من الأخطاء والتحيز والظلم الموجود بالفعل في النظام البياني.

إذا بقيت الجمل التي كتبها البشر حقيقية مصدر بيانات حرجًا للذكاء الاصطناعي، فقد تم تشجيع من يقومون بإدارة أكثر المخازن المطلوبة - مواقع مثل Reddit وWikipedia، فضلاً عن الأخبار وناشري الكتب - على التفكير بعمق في كيفية استخدامها.

يقول سيلينا ديكلمان، رئيسة المنتج والتكنولوجيا في مؤسسة ويكيميديا ​​، التي تدير ويكيبيديا: "ربما لا تقطعي قمم جميع الجبال". "إنه مشكلة مثيرة للاهتمام في الوقت الحالي أن نتحدث عن الحديث عن الموارد الطبيعية المنبعثة من البيانات التي أنشأها البشر. لا ينبغي علي أن أضحك بهذا، ولكن أجده مدهشًا بعض الشيء. "

بينما تسعى بعض الشركات لإغلاق بياناتهم من تدريب AI - في الغالب بعد أن تم استيلاك من دون تعويض - وضعت ويكيبيديا قيودًا قليلة على كيفية استخدام شركات AI لتسجيلاتها التي كتبها المتطوعون. ومع ذلك، قالت ديكلمان إنها تأمل في استمرار الحوافز للأشخاص للاستمرار في المساهمة، خاصةً مع تدفق "المحتوى الرخيص والمولد تلقائيًا" الذي يبدأ في تلويث الإنترنت.

يجب على الشركات المصنعة للذكاء الاصطناعي أن "تكون قلقة بشأن استمرار وجود المحتوى الذي تنشأه البشر ويظل متاحًا"، قالت.

من وجهة نظر مطوري الذكاء الاصطناعي، تقول دراسة Epoch إن دفع الملايين من البشر لتوليد النصوص التي ستحتاجها نماذج AI "من غير المحتمل أن يكون طريقًا اقتصاديًا" لدفع أداء فني أفضل.

وبينما تبدأ OpenAI في العمل على تدريب جيل النماذج الكبيرة القادمة من نماذجها الكبيرة GPT، قال الرئيس التنفيذي سام ألتمان للجمهور في حدث للأمم المتحدة الشهر الماضي إن الشركة قد بدأت بالفعل في التجربة مع "توليد العديد من البيانات الاصطناعية" للتدريب.

قال: "أعتقد أن ما تحتاج إليه هو بيانات عالية الجودة. هناك بيانات اصطناعية منخفضة الجودة. هناك بيانات بشرية منخفضة الجودة"، وأضاف. ومع ذلك، عبر عن تحفظاته أيضًا حول الاعتماد بشكل كبير على البيانات الاصطناعية على حساب طرق فنية أخرى لتحسين نماذج AI.

قال: "سيكون هناك شيء غريب إذا كانت أفضل طريقة لتدريب نموذج هي فقط توليد، على سبيل المثال، تريليون رمز من البيانات الاصطناعية وإعادة تغذيتها". قال أ