ي
أطلقت شركة DeepSeek الصينية الناشئة نموذجًا جديدًا للغة كبيرة الحجم (LLM)، مما أثار ضجة في صناعة الذكاء الاصطناعي العالمية (AI)، حيث كشفت الاختبارات المعيارية أنه تفوق على النماذج المنافسة من شركات مثل Meta Platforms وLlama وOpenAI منشئ ChatGPT.
وقالت الشركة، ومقرها هانغتشو، في منشور على WeChat، إن الإصدار الثالث من برنامج LLM الذي يحمل اسم DeepSeek V3، يأتي مع 671 مليار معلمة واستغرق تدريبه حوالي شهرين بتكلفة 5.58 مليون دولار، باستخدام موارد حاسوبية أقل بكثير من النماذج التي طورتها شركات التكنولوجيا الكبرى.
يشير LLM إلى التكنولوجيا التي تدعم خدمات الذكاء الاصطناعي التوليدي مثل ChatGPT. في الذكاء الاصطناعي، يعد عدد كبير من المعلمات ضروريًا للسماح للنموذج بالتكيف مع أنماط البيانات الأكثر تعقيدًا وإجراء تنبؤات دقيقة.
من خلال الاستفادة من البنية الجديدة المصممة للتدريب الفعال من حيث التكلفة، احتاج DeepSeek إلى 2.78 مليون ساعة GPU فقط، وهو إجمالي مقدار الوقت الذي تستخدمه وحدة معالجة الرسومات لتدريب LLM على طراز V3 الخاص بها. استخدمت عملية التدريب الخاصة بالشركة الناشئة وحدات معالجة الرسوميات Nvidia H800 المصممة للصين.
وكانت هذه العملية أقل كثيراً من 30.8 مليون ساعة معالجة GPU التي احتاجتها شركة ميتا، الشركة الأم لفيسبوك، لتدريب نموذجها Llama 3.1 على شرائح H100 الأكثر تقدماً من إنتاج إنفيديا، والتي لا يُسمح بتصديرها إلى الصين.
يمكنك تجربة روبوت الذكاء الإصطناعي على هذا الرابط : deepseek-v3
from حوحو للمعلوميات https://ift.tt/bIp9fg6
via IFTTT
0 التعليقات:
إرسال تعليق