مدل زبان بزرگ DeepSeek-V3

فهرست مطالب

DeepSeek دوباره داغ است، رقابت هوش مصنوعی باعث افزایش قدرت نوآورانه چین می شود

منبع: 21st Century Business Herald نویسنده: Kong Haili 03-01-2025 08:23

DeepSeek دوباره محبوب شد.

اخیراً استارت‌آپ چینی DeepSeek، نسل جدیدی از مدل زبان بزرگ DeepSeek-V3 را منتشر کرده و انتشار متن باز آن را اعلام کرده است. در تست‌های معیار چندگانه، V3 از مدل‌های منبع باز اصلی بهتر عمل کرد و با بهترین مدل‌های منبع بسته جهان برابری کرد.

مهمتر از آن، هزینه آموزش V3 بسیار پایین است ،با این حال، در حال حاضر ورودی و خروجی چند وجهی را پشتیبانی نمی کند.

DeepSeek یک شرکت تابعه از شرکت مدیریت دارایی کمی Huanfang است و در جولای 2023 تاسیس شد.( مدیریت دارایی‌های کمی، معمولا برای استفاده بهینه از تجهیزات و منابع بالفعل صورت می‌گیرد)

DeepSeek که به عنوان "الگویی با کارایی بالا و هزینه کم در دنیای هوش مصنوعی" شناخته می شود، مسیر جدیدی را برای فناوری هوش مصنوعی فعلی و مسیرهای توسعه ارائه می دهد و به قدرت چین در رقابت هوش مصنوعی کمک می کند.

V3 نه تنها باعث ایجاد شور و هیجان در جامعه هوش مصنوعی شد، بلکه بحث های داغی را در بازار سرمایه به راه انداخت زیرا شرکت مادر آن یک شرکت سرمایه گذاری کمی شناخته شده است.

همچنین گزارش شده است که در حال حاضر شیائومی در حال ساخت یک خوشه گرافیکی متشکل از 10000 کارت است به عنوان "دختر نابغه هوش مصنوعی" شناخته می شود.

"زیبایی شناسی خشونت آمیز" DeepSeek

آزمایش‌های متعدد نشان داده‌اند که V3 از مدل‌های بزرگ فعلی بین‌المللی Llama 3.1-405B، Claude-3.5-Sonnet و GPT-4o از نظر معیارهای ریاضی (( MATH 500 و آزمون‌های AIME 2024 و توانایی کدگذاری آن (Codemark is ben )پیشی می‌گیرد بسیار بهتر از مدل اصلی خارجی است.

در نتیجه، مقاله فنی DeepSeek با افتخار اعلام می‌کند: «ارزیابی‌های جامع نشان می‌دهد که DeepSeek-V3-Base به قدرتمندترین مدل پایه منبع باز موجود در حال حاضر تبدیل شده است، به خصوص از نظر کد و ریاضیات، نسخه چت آن برتر از سایر مدل‌های باز است. مدل‌های منبع باز نیز بهتر از سایر مدل‌های منبع باز عمل می‌کند و عملکردی قابل مقایسه با مدل‌های منبع بسته پیشرو مانند GPT-4o و Claude-3.5-Sonnet در طیفی از معیارهای استاندارد و باز دارد.»

مهمتر از آن، این دستاورد با هزینه های آموزشی بسیار کم به دست آمد.

DeepSeek در مقاله فنی 53 صفحه‌ای خود فاش کرد: "مرحله پیش‌آموزشی ما در کمتر از دو ماه با هزینه 2664 هزار ساعت GPU تکمیل شد. DeepSeek همراه با 119 هزار ساعت GPU توسعه طول زمینه و 5K ساعت GPU پس از آموزش، DeepSeek -هزینه کامل آموزش V3 فقط 2.788 میلیون ساعت GPU است.

داریو آمودی، مدیر عامل آنتروپیک، قبلاً فاش کرده بود که هزینه آموزش مدل GPT-4o تقریباً 100 میلیون دلار بوده است. فقط آموزش Llama2 ، 760000 B دلار هزینه دارد.

به عبارت دیگر، هزینه آموزش DeepSeek-V3 تنها یک دهم برابر مدل با کارایی یکسان است. این موضوع کل جامعه هوش مصنوعی را شوکه کرد.

گزارش شده است که GPT-5 که هنوز در مرحله توسعه است، حداقل دو دوره آموزشی را گذرانده است که هر دوره چندین ماه طول کشیده است و هزینه محاسباتی تنها یک دور نزدیک به 500 میلیون دلار آمریکا بوده است. یک سال و نیم بعد، GPT-5 هنوز منتشر نشده است. این بدان معناست که هزینه آموزش نسل جدید مدل های بزرگ همه منظوره به بیش از یک میلیارد دلار یا حتی بیشتر رسیده است. XAI ماسک به تازگی یک تامین مالی 6 میلیارد دلاری را به پایان رسانده است.

با پیروی از این مسیر آموزشی، هزینه آموزش مدل‌های بزرگ هوش مصنوعی در سه سال آینده به 10 میلیارد دلار یا حتی بیشتر خواهد رسید. در چنین شرایطی است که جامعه هوش مصنوعی مدتی است که قانون مقیاس بندی را زیر سوال برده است.

از آنجایی که تولید GPT-5 دشوار بود، OpenAI به مسیر توسعه دیگری روی آورد: مدل استدلال. و نتایج به زودی تولید شد: مدل استدلال شگفت انگیز o1 و مدل استدلال o3 که به تازگی منتشر شده است. عملکرد فوق‌العاده O3 باعث شده است که برخی از کارشناسان اظهار داشته باشند که هیچ مانعی در مسیر AGI وجود ندارد.

استارت آپ های هوش مصنوعی الهام گرفته شده و از نزدیک دنبال می شوند. کای فو لی، بنیانگذار Zero One Everything، که چندی پیش از بازدید از سیلیکون ولی بازگشته بود، گفت که در گذشته همه فکر می کردند که قبل از تمرین کافی است، اما یک سال بعد (پس از ظهور o1 )، آنها دریافتند که پس از آموزش به همان اندازه مهم است. او فاش کرد که بسیاری از شرکت‌های هوش مصنوعی در حال توسعه به سمت مدل‌های استدلالی هستند و طی پنج ماه آینده، بسیاری از قابلیت‌های مشابه مدل o1 در شرکت‌های مدل‌های مختلف، از جمله Zero One Everything، که همگی به سمت o1 می‌روند، ظاهر می‌شود.

اما ظهور DeepSeek-V3 امکانات جدیدی را فراهم می کند. در مدت زمان کوتاه‌تر، با کارایی بالاتر و هزینه کمتر، می‌توانیم به همان سطح برسیم و "نسخه چینی" را در مسیر توسعه مدل زبان بزرگ عمومی مشارکت دهیم.

تغییرات جدیدی رخ داده است

در واقع، در 6 می 2024، DeepSeek مدل DeepSeek-V2 منبع باز MoE را منتشر کرد که با عملکرد کارآمد خود موجی از محبوبیت را در جامعه جهانی هوش مصنوعی ایجاد کرد. در مقایسه با محصولات مشابه، قیمت رابط API آن به شدت به 1 یوان به ازای هر میلیون توکن ورودی و 2 یوان در هر خروجی (32 هزار زمینه) کاهش یافته است که تنها یک درصد از GPT-4-Turbo است.

ورود «قصاب قیمت» مدل‌های بزرگ تحت هوش مصنوعی Zhipu، ByteDance، Alibaba Cloud، Baidu، و Tencent Cloud را مجبور کرد که از این روند پیروی کنند و قیمت‌ها را کاهش دهند. علاوه بر این، Tencent و Baidu اعلام کردند که چندین محصول مدل در مقیاس بزرگ رایگان خواهند بود. اگرچه برخی افراد DeepSeek-V2 را "Pinduoduo AI" می نامند، اما این استعاره کاملاً مناسب نیست زیرا این دو تقریباً هیچ اشتراکی ندارند.

قیمت گذاری API DeepSeek-V3 به 2 توکن یوان/میلیون برای ورودی و 8 توکن یوان/M برای خروجی افزایش یافته است (پس از یک دوره تخفیف قیمت 45 روزه، اگرچه این افزایش قابل توجهی در مقایسه با V2 است، اما فقط همین است). معادل هزینه Claude-3.5-Sonnet 1/53، دومی 3 دلار ورودی و 15 دلار به ازای هر میلیون توکن خروجی دارد.

بر اساس مصاحبه‌های خبرنگار با متخصصان هوش مصنوعی در دو روز گذشته، ظهور DeepSeek-V3 الهام‌بخش جدیدی برای این صنعت فراهم کرده است.

اول، بسیاری از مسیرهای توسعه ممکن برای تحقیق و توسعه مدل در مقیاس بزرگ وجود دارد.

ChatGPT مسیر پارامترهای بزرگ، قدرت محاسباتی زیاد و سرمایه گذاری زیاد را طی می کند و نیازمندی های بسیار بالایی برای قدرت محاسباتی و منابع مالی دارد. حتی شرکت‌هایی که دارای منابع مالی نسبتاً فراوان هستند، مانند OpenAI و Anthropic، با چالش تجاری‌سازی بازده سرمایه‌گذاری خود مواجه هستند.

مدل‌های استنتاج رویکرد دیگری است. دستاوردهای o1 و o3 ثابت می کند که این مسیر نیز امکان پذیر است. اما در عین حال، بر پایه قدرت محاسباتی نسبتاً بالا و هزینه های سرمایه، به ویژه توان محاسباتی نیز استوار است.

DeepSeek-V3 سومین مسیر است. در مقایسه با آموزش مدل های بزرگ فعلی که نیاز به ادغام ده ها هزار کارت دارد، فقط از 2000 پردازنده گرافیکی A100 برای آموزش استفاده می کند و نتایج تقریباً معادل GPT-4o و Claude-3.5-Sonnet را به دست می آورد که واقعاً تحسین برانگیز است.

یک مهندس چینی که درگیر تحقیقات هوش مصنوعی در دره سیلیکون است، به خبرنگار بیزینس هرالد قرن 21 گفت که گزینه‌های بیشتری مانند ترکیب معماری MLA V3 و ساختار MoESparse با قابلیت‌های استدلال o3 وجود دارد که ممکن است یک الگوی مدل بزرگ تولید کند. اگر به نتیجه برسد شگفت انگیز خواهد بود.

دوم، در رقابت برای هوش مصنوعی، چین فقط یک پیرو نیست، بلکه به طور قابل توجهی قابلیت های نوآوری خود را بهبود می بخشد.

در واقع، زمانی که V2 منتشر شد، سیلیکون ولی غافلگیر شد و آن را «قدرت مرموز از شرق» نامید. لیانگ ونفنگ، موسس DeepSeek، در مصاحبه ای با رسانه ها در ژوئیه 2024 گفت که Silicon Valley عادت دارد با شرکت های چینی هوش مصنوعی به عنوان دنبال کننده رفتار کند، وقتی یک شرکت چینی به عنوان یک مشارکت کننده خلاق به بازی آنها می پیوندد، آنها شوکه می شوند.

لیانگ ونفنگ معتقد است که سرمایه گذاری بیشتر لزوما منجر به نوآوری بیشتر نمی شود، در غیر این صورت شرکت های بزرگ می توانند تمام نوآوری ها را در انحصار خود درآورند. تحقیقات و نوآوری های فناوری همیشه اولویت اصلی DeepSeek خواهد بود. شایان ذکر است که طبق محاسبات کارشناسان صنعت، DeepSeek در V2 و V3 ضرر نکرده است.

V3 از تعدادی از رهبران مشهور هوش مصنوعی در سیلیکون ولی تحسین شده است. جیا یانگ کینگ، بنیانگذار هوش مصنوعی لپتون و معاون سابق علی بابا، گفت که DeepSeek مظهر خرد و عمل گرایی است: تولید بهترین نتایج از طریق تحقیقات هوشمند تحت منابع محاسباتی و شرایط نیروی انسانی محدود. این یک نظر بسیار منصفانه است.

این یک مورد مجزا نیست. Yushu Technology اخیراً جدیدترین ویدیوی محصول سگ روبات Unitree B2-W را منتشر کرده است: چرخش کامل توماس، چرخش به پهلو، چرخش پرش 360 درجه، جهش 2.8 متری، و حتی می تواند یک مرد بالغ را حمل کند و به طور پیوسته راه برود. در روزهای اخیر، تشویق این شرکت رباتیک پیشرفته چینی را می توان در همه جای پارک بحث فناوری مشاهده کرد و برخی از مفسران می گویند که مهارت های این شرکت برای شکست دادن Boston Dynamics، پیشرفته ترین شرکت رباتیک امروزی کافی است. هفته گذشته، جهشی در "مفهوم فناوری یوشو" در بازار سهام A رخ داد.

سوم، نوآوری هرگز یک بعدی یا یک طرفه نبوده است و نوآوری مخرب هوش مصنوعی در حال امکان پذیر شدن است.

OpenAI که ChatGPT را توسعه داده است، واقعاً موج جدیدی از هوش مصنوعی را به وجود آورده است. اما OpenAI بی نقص نیست، بلکه موانعی در مسیر توسعه، مشکلات در تامین مالی و تردید در انتخاب مسیر دارد.

در دو یا سه سال گذشته، دیدگاه رایج در جامعه هوش مصنوعی این است که اگر شرکت‌های دره سیلیکون در رسیدن از 0 به 1 خوب هستند، پس چین در رفتن از 1 به 10 خوب هست زیرا چین بازار کاربردی گسترده‌ای دارد. با این حال، لیانگ ونفنگ معتقد است که مرحله کنونی هنوز یک دوره انفجاری برای نوآوری فناوری هوش مصنوعی است، نه یک دوره انفجاری برای کاربردآن.

از منظر منطقی، باید بپذیریم که هنوز شکاف بزرگی بین چین و شرکت‌های پیشرفته هوش مصنوعی جهان مانند OpenAI، Anthropic و DeepMind وجود دارد. به عنوان مثال، حتی V3 که نشان دهنده پیشرفته ترین سطح از مدل های بزرگ منبع بسته است، عملکردهای بسیار مشابهی با GPT-4o دارد، که سطح فنی دومی 7 ماه پیش بود که به طور متوالی o1، o3 و سایر A را راه اندازی کرد نوع جدیدی از گونه های "جهش یافته". علاوه بر این، شکاف بین اکثر محصولات مدل دیگر از منظر بین المللی چند زبانه و چندوجهی حتی بیشتر است.

اما دلیل اینکه این دور از موج هوش مصنوعی حتی هیجان‌انگیزتر است این است که تخیل انقلابی که به ارمغان می‌آورد حتی از قدرت دگرگون‌کننده اینترنت در اقتصاد سنتی فراتر می‌رود. همانطور که لیانگ ونفنگ گفت، تعدیل و ارتقاء ساختار صنعتی چین بیشتر بر نوآوری فناوری هسته سخت متکی خواهد بود. در زمینه‌هایی مانند نیمه‌رساناها و مدل‌های بزرگ، سقف فناوری هنوز نرسیده است و فرصت‌های بی‌سابقه‌ای در انتظار شرکت‌های چینی است که محصولات خلاقانه هوش مصنوعی یا مدل‌های راه‌حلی را ارائه می‌کنند، احتمالاً به شرکت بزرگ بعدی تبدیل می‌شوند.

مهندس چینی فوق الذکر در سیلیکون ولی با احساس گفت که هر چقدر هم که یک شرکت بزرگ باشد، جرات نمی کند ثابت بماند و از ثمره کار دیگران لذت ببرد.

چه کسی پنج سال پیش فکر می کرد که اینتل در معرض شایعات خرید قرار گیرد؟ امروزه، اگرچه انویدیا در دوران اوج خود است و پردازنده‌های گرافیکی با کمبود مواجه هستند، اگر زمان استفاده تجاری در مقیاس بزرگ از تراشه‌های کوانتومی تا حد زیادی کوتاه شود، یا اگر به مسیر توسعه اولیه خود ادامه دهد و دیگر به ادغام Wanka متکی نباشد. برای آموزش و توسعه مانند V3، پس از آن به اصطلاح کاملا ممکن است که "حباب Nvidia زودتر از موعد ترکیده شود.