تسجل Cerebras Systems رقمًا قياسيًا لأكبر طرازات الذكاء الاصطناعي التي تم تدريبها على الإطلاق على جهاز واحد

نحن متحمسون لإعادة Transform 2022 شخصيًا في 19 يوليو ومن 20 إلى 28 يوليو تقريبًا. انضم إلى قادة الذكاء الاصطناعي والبيانات لإجراء محادثات ثاقبة وفرص تواصل مثيرة. سجل اليوم!


أنظمة Cerebra قالت إنها سجلت الرقم القياسي لأكبر نماذج الذكاء الاصطناعي التي تم تدريبها على الإطلاق على جهاز واحد ، والتي في هذه الحالة عبارة عن رقاقة سيليكون عملاقة بمئات الآلاف من النوى.

أستطيع أن أقول أن هذا هو الرقم القياسي لشريحة واحدة ، لكن Cerebras تصنع شريحة واحدة كبيرة من رقاقة سيليكون بعرض 8.5 بوصة والتي عادة ما يتم تقطيعها إلى مئات الرقائق. لذا فإن كلمة “جهاز” يجب أن تفعل ما لا يصنعه أي شخص آخر مثل هذه الشريحة الضخمة مع 850.000 نواة و 2.55 تريليون ترانزستور.

ميزة رقاقة بحجم طبق العشاء

يمكن لنظام Cerebras CS-2 تدريب نماذج معالجة اللغة الطبيعية متعددة المليارات (NLP) بما في ذلك طرز GPT-3XL 1.3 مليار ، بالإضافة إلى GPT-J 6B و GPT-3 13B و GPT-NeoX 20B. قال Cerebras إنه لأول مرة على الإطلاق ، يمكن لنظام CS-2 واحد مع رقاقة Cerebras واحدة تدريب نماذج مع ما يصل إلى 20 مليار معلمة – وهو إنجاز غير ممكن على أي جهاز آخر. يناسب أحد أنظمة CS-2 رف مركز بيانات قياسي ويبلغ ارتفاعه حوالي 26 بوصة.

من خلال تمكين CS-2 واحد لتدريب هذه النماذج ، يقلل Cerebras من وقت هندسة النظام اللازم لتشغيل نماذج NLP كبيرة من أشهر إلى دقائق. كما أنه يزيل أحد أكثر الجوانب إيلامًا في البرمجة اللغوية العصبية – ألا وهو تقسيم النموذج عبر مئات أو آلاف وحدات معالجة الرسومات الصغيرة (GPUs).

قال أندرو فيلدمان ، الرئيس التنفيذي لشركة Cerebras Systems ، في مقابلة: “يستغرق الإعداد حوالي 16 ضغطة مفتاح”.

عيوب استخدام وحدات معالجة الرسومات مع نماذج الذكاء الاصطناعي

أوضح فيلدمان أن النماذج الأكبر تظهر أنها أكثر دقة في البرمجة اللغوية العصبية. لكن قلة من الشركات كانت تمتلك الموارد والخبرة للقيام بالمهمة الشاقة المتمثلة في تفكيك هذه النماذج الكبيرة ونشرها عبر مئات أو آلاف وحدات معالجة الرسومات ، والتي تعد منافسة حاسوبية لأجهزة Cerebras.

وقال: “هذا يعني أنه يجب إعادة تنظيم كل شبكة ، وإعادة توزيعها ، وأن يتم إنجاز كل العمل مرة أخرى ، لكل مجموعة”. “إذا كنت ترغب في تغيير حتى وحدة معالجة رسومات واحدة في تلك المجموعة ، فعليك إعادة كل العمل. إذا كنت تريد نقل النموذج إلى مجموعة مختلفة ، فأنت تعيد العمل. إذا كنت تريد أن تأخذ نموذجًا جديدًا إلى هذه المجموعة ، فعليك إعادة العمل “.

قال فيلدمان إن Cerebras تعمل على إضفاء الطابع الديمقراطي على الوصول إلى بعض من أكبر النماذج في النظام البيئي للذكاء الاصطناعي.

قال كيم برانسون ، نائب الرئيس الأول للذكاء الاصطناعي والتعلم الآلي في GSK ، في بيان: “تُنشئ GSK مجموعات بيانات كبيرة للغاية من خلال أبحاثها الجينية والجينية ، وتتطلب مجموعات البيانات هذه معدات جديدة لإجراء التعلم الآلي”. “يعد Cerebras CS-2 مكونًا مهمًا يسمح لشركة GSK بتدريب نماذج اللغة باستخدام مجموعات البيانات البيولوجية بمقياس وحجم لم يكن من الممكن الوصول إليه من قبل. تشكل هذه النماذج التأسيسية أساس العديد من أنظمة الذكاء الاصطناعي لدينا وتلعب دورًا حيويًا في اكتشاف الأدوية التحويلية “.

أصبحت هذه الإمكانات ممكنة من خلال مجموعة من الحجم والموارد الحسابية المتاحة في Cerebras Wafer Scale Engine-2 (WSE-2) وامتدادات هندسة برمجيات تدفق الوزن المتاحة عبر إصدار الإصدار R1.4 من Cerebras Software Platform ، CSoft .

رقاقة بحجم رقاقة CS-2 من Cerebras.
رقاقة بحجم رقاقة CS-2 من Cerebras.

قال فيلدمان إنه عندما يكون النموذج مناسبًا لمعالج واحد ، يكون تدريب الذكاء الاصطناعي أمرًا سهلاً. ولكن عندما يحتوي النموذج على معلمات أكثر مما يمكن احتواؤه في الذاكرة ، أو عندما تتطلب الطبقة حوسبة أكثر مما يمكن لمعالج واحد التعامل معه ، ينفجر التعقيد. يجب تقسيم النموذج ونشره عبر مئات أو آلاف وحدات معالجة الرسومات. هذه العملية مؤلمة ، وغالبًا ما تستغرق شهورًا حتى تكتمل.

قال فيلدمان: “لقد أخذنا شيئًا يستغرق حاليًا مجتمع ML شهورًا لإنجازه وقمنا بتحويله إلى 16 ضغطة مفتاح”.

تقليل الحاجة لمهندسي النظم

ومما زاد الطين بلة ، أن العملية فريدة من نوعها لكل زوج من مجموعات حسابات الشبكة ، وبالتالي فإن العمل ليس قابلاً للنقل إلى مجموعات حسابية مختلفة ، أو عبر الشبكات العصبية. قال فيلدمان إنه مخصص بالكامل ، ولهذا السبب تنشر الشركات أوراقًا حوله عندما يحققون هذا الإنجاز. إنها مشكلة هندسة أنظمة ضخمة ، وهي ليست شيئًا تم تدريب خبراء التعلم الآلي على القيام به.

قال فيلدمان: “إن إعلاننا يتيح لأي منظمة الوصول إلى أكبر الموديلات من خلال إظهار أنه يمكن تدريبها بسرعة وسهولة على جهاز واحد”.

وقال إنه من الصعب القيام بذلك على مجموعة من وحدات معالجة الرسومات لأن “نشر شبكة عصبية كبيرة عبر مجموعة من وحدات معالجة الرسومات أمر صعب للغاية.”

وأضاف: “إنها مشكلة تتريس متعددة الأبعاد ، حيث يتعين عليك تفكيك الحوسبة والذاكرة والاتصال وتوزيعها عبر مئات أو آلاف وحدات معالجة الرسومات.”

أكبر معالج تم إنشاؤه على الإطلاق

المخ
لدى Cerebras عدد من عملاء الحوسبة الفائقة.

يعد Cerebras WSE-2 أكبر معالج تم إنشاؤه على الإطلاق. إنه أكبر 56 مرة ، ويحتوي على 2.55 تريليون ترانزستور أكثر ، ويحتوي على 100 ضعف عدد نوى الحوسبة مثل أكبر وحدة معالجة رسومات. يتيح الحجم والموارد الحسابية على WSE-2 إمكانية احتواء كل طبقة حتى من أكبر الشبكات العصبية. تفصل بنية Cerebras Weight Streaming الذاكرة والحساب ، مما يسمح للذاكرة (التي تُستخدم لتخزين المعلمات) بالنمو بشكل منفصل عن الحساب. وبالتالي ، يمكن لمحرك CS-2 واحد أن يدعم نماذج بمئات المليارات ، بل وتريليونات من المعلمات.

قال فيلدمان: “فقط على سبيل التذكير ، عندما نقول أننا أكبر ، لدينا نوى 123 مرة أكثر وذاكرة أكبر 1000 مرة وعرض نطاق ذاكرة أكبر بمقدار 12000 مرة” من حل وحدة معالجة الرسومات. “ولقد اخترعنا تقنية تسمى تدفق الوزن ، حيث يمكننا الحفاظ على الذاكرة بعيدًا عن الرقاقة المنفصلة عن الرقاقة.”

قال فيلدمان إن وحدات معالجة الرسومات ، من ناحية أخرى ، لديها قدر ثابت من الذاكرة لكل وحدة معالجة رسومات. إذا كان النموذج يتطلب معلمات أكثر مما يتناسب مع الذاكرة ، يحتاج المرء إلى شراء المزيد من معالجات الرسومات ثم توزيع العمل على وحدات معالجة رسومات متعددة. والنتيجة انفجار في التعقيد. حل Cerebras أبسط وأكثر أناقة: من خلال فصل الحوسبة عن الذاكرة ، تسمح بنية تدفق الوزن بدعم النماذج مع أي عدد من المعلمات للتشغيل على CS-2 واحد.

إحداث ثورة في وقت الإعداد وإمكانية النقل

قال فيلدمان إنه مدعومًا بالقدرة الحسابية لـ WSE-2 والأناقة المعمارية لمعمارية تدفق الوزن ، فإن Cerebras قادرة على دعم أكبر شبكات البرمجة اللغوية العصبية على نظام واحد. من خلال دعم هذه الشبكات على CS-2 واحد ، يقلل Cerebras وقت الإعداد إلى دقائق ويتيح إمكانية نقل النموذج. يمكن للمرء التبديل بين GPT-J و GPT-Neo ، على سبيل المثال ، ببضع ضغطات على المفاتيح ، وهي مهمة قد تستغرق شهورًا من الوقت الهندسي لإنجازها على مجموعة من مئات وحدات معالجة الرسومات.

تدعي Cerebras مزايا كبيرة مقارنة بوحدات معالجة الرسومات.

“إن قدرة Cerebras على تقديم نماذج لغات كبيرة للجماهير مع وصول سهل وفعال من حيث التكلفة يفتح حقبة جديدة مثيرة في الذكاء الاصطناعي. قال دان أولدز ، كبير مسؤولي الأبحاث في Intersect360 Research ، في بيان: إنه يمنح المؤسسات التي لا تستطيع إنفاق عشرات الملايين وسيلة سهلة وغير مكلفة للانضمام إلى الدوريات اللغوية العصبية الكبرى. “سيكون من المثير للاهتمام رؤية التطبيقات والاكتشافات الجديدة لعملاء CS-2 أثناء قيامهم بتدريب طرازات فئة GPT-3 و GPT-J على مجموعات بيانات ضخمة.”

اعتماد عالمي

لدى Cerebras عملاء في أمريكا الشمالية وآسيا وأوروبا والشرق الأوسط. إنها تقدم حلول الذكاء الاصطناعي لقائمة متزايدة من العملاء في قطاعات المؤسسات والحكومة والحوسبة عالية الأداء (HPC) بما في ذلك GSK و AstraZeneca و TotalEnergies و Nference ومختبر Argonne الوطني ومختبر لورانس ليفرمور الوطني ومركز بيتسبرغ للحوسبة الفائقة ومركز Leibniz للحوسبة الفائقة والمركز الوطني لتطبيقات الحوسبة الفائقة ومركز إدنبرة للحوسبة المتوازية (EPCC) والمختبر الوطني لتكنولوجيا الطاقة وطوكيو للأجهزة الإلكترونية.

قال فيلدمان: “ليس لدينا هؤلاء العملاء فحسب ، بل إنهم يقولون أشياء لطيفة حقًا عنا”. “قالت AstraZeneca إن التدريب الذي كان يستغرق أسبوعين على مجموعات من وحدات معالجة الرسومات ، أنجزناه في غضون أيام قليلة.”

قالت GSK إن Cerebras كانت قادرة على أداء العمل 10 مرات أسرع من 16 GPU.

قال فيلدمان: “كثير من العملاء الرائعين يحلون مشاكل مثيرة للاهتمام”. “كمية الحوسبة المستخدمة في هذه النماذج اللغوية الكبيرة تتزايد باطراد. وقد أصبحت هذه النماذج اللغوية كبيرة جدًا لدرجة أن قسمًا صغيرًا فقط من السوق يمكنه تدريبها. لدينا تغيير يمنح الغالبية العظمى من الاقتصاد القدرة على تدريب هذه النماذج لأي مؤسسة لديها إمكانية الوصول إلى أكبر النماذج. “

مهمة VentureBeat هي أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اعرف المزيد عن العضوية.

Related Posts

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني.