فهرست مطالب
افزایش صادرات چین به کشورهای در حال توسعه
هوش مصنوعی چه مزایایی برای آموزش به ارمغان می آورد؟
کاهش هزینه های دفاعی آمریکا به نصف؟
کنفرانس بین المللی بازار کار ریاض
تلاش های پاکستان برای نوسازی ناوگان دریایی خود
خطرتبدیل بیت کوین به دارایی ذخیره
هوش مصنوعی متاو پیمانکاران دفاعی ایالات متحده
هوش مصنوعی به اسرائیل کمک می کندغزه رابمباران کند
بهترین زمان خرید صندوق های طلا
محدودیت آمریکا برای صادرات نیمه هادی های هوش مصنوعی
سه روشی که ربات ها بر اقتصاد تأثیر می گذارند
DeepSeek دوباره داغ است، رقابت هوش مصنوعی باعث افزایش قدرت نوآورانه چین می شود
منبع: 21st Century Business Herald نویسنده: Kong Haili 03-01-2025 08:23
DeepSeek دوباره محبوب شد.
اخیراً استارتآپ چینی DeepSeek، نسل جدیدی از مدل زبان بزرگ DeepSeek-V3 را منتشر کرده و انتشار متن باز آن را اعلام کرده است. در تستهای معیار چندگانه، V3 از مدلهای منبع باز اصلی بهتر عمل کرد و با بهترین مدلهای منبع بسته جهان برابری کرد.
مهمتر از آن، هزینه آموزش V3 بسیار پایین است ،با این حال، در حال حاضر ورودی و خروجی چند وجهی را پشتیبانی نمی کند.
DeepSeek یک شرکت تابعه از شرکت مدیریت دارایی کمی Huanfang است و در جولای 2023 تاسیس شد.( مدیریت داراییهای کمی، معمولا برای استفاده بهینه از تجهیزات و منابع بالفعل صورت میگیرد)
DeepSeek که به عنوان "الگویی با کارایی بالا و هزینه کم در دنیای هوش مصنوعی" شناخته می شود، مسیر جدیدی را برای فناوری هوش مصنوعی فعلی و مسیرهای توسعه ارائه می دهد و به قدرت چین در رقابت هوش مصنوعی کمک می کند.
V3 نه تنها باعث ایجاد شور و هیجان در جامعه هوش مصنوعی شد، بلکه بحث های داغی را در بازار سرمایه به راه انداخت زیرا شرکت مادر آن یک شرکت سرمایه گذاری کمی شناخته شده است.
همچنین گزارش شده است که در حال حاضر شیائومی در حال ساخت یک خوشه گرافیکی متشکل از 10000 کارت است به عنوان "دختر نابغه هوش مصنوعی" شناخته می شود.
"زیبایی شناسی خشونت آمیز" DeepSeek
آزمایشهای متعدد نشان دادهاند که V3 از مدلهای بزرگ فعلی بینالمللی Llama 3.1-405B، Claude-3.5-Sonnet و GPT-4o از نظر معیارهای ریاضی (( MATH 500 و آزمونهای AIME 2024 و توانایی کدگذاری آن (Codemark is ben )پیشی میگیرد بسیار بهتر از مدل اصلی خارجی است.
در نتیجه، مقاله فنی DeepSeek با افتخار اعلام میکند: «ارزیابیهای جامع نشان میدهد که DeepSeek-V3-Base به قدرتمندترین مدل پایه منبع باز موجود در حال حاضر تبدیل شده است، به خصوص از نظر کد و ریاضیات، نسخه چت آن برتر از سایر مدلهای باز است. مدلهای منبع باز نیز بهتر از سایر مدلهای منبع باز عمل میکند و عملکردی قابل مقایسه با مدلهای منبع بسته پیشرو مانند GPT-4o و Claude-3.5-Sonnet در طیفی از معیارهای استاندارد و باز دارد.»
مهمتر از آن، این دستاورد با هزینه های آموزشی بسیار کم به دست آمد.
DeepSeek در مقاله فنی 53 صفحهای خود فاش کرد: "مرحله پیشآموزشی ما در کمتر از دو ماه با هزینه 2664 هزار ساعت GPU تکمیل شد. DeepSeek همراه با 119 هزار ساعت GPU توسعه طول زمینه و 5K ساعت GPU پس از آموزش، DeepSeek -هزینه کامل آموزش V3 فقط 2.788 میلیون ساعت GPU است.
داریو آمودی، مدیر عامل آنتروپیک، قبلاً فاش کرده بود که هزینه آموزش مدل GPT-4o تقریباً 100 میلیون دلار بوده است. فقط آموزش Llama2 ، 760000 B دلار هزینه دارد.
به عبارت دیگر، هزینه آموزش DeepSeek-V3 تنها یک دهم برابر مدل با کارایی یکسان است. این موضوع کل جامعه هوش مصنوعی را شوکه کرد.
گزارش شده است که GPT-5 که هنوز در مرحله توسعه است، حداقل دو دوره آموزشی را گذرانده است که هر دوره چندین ماه طول کشیده است و هزینه محاسباتی تنها یک دور نزدیک به 500 میلیون دلار آمریکا بوده است. یک سال و نیم بعد، GPT-5 هنوز منتشر نشده است. این بدان معناست که هزینه آموزش نسل جدید مدل های بزرگ همه منظوره به بیش از یک میلیارد دلار یا حتی بیشتر رسیده است. XAI ماسک به تازگی یک تامین مالی 6 میلیارد دلاری را به پایان رسانده است.
با پیروی از این مسیر آموزشی، هزینه آموزش مدلهای بزرگ هوش مصنوعی در سه سال آینده به 10 میلیارد دلار یا حتی بیشتر خواهد رسید. در چنین شرایطی است که جامعه هوش مصنوعی مدتی است که قانون مقیاس بندی را زیر سوال برده است.
از آنجایی که تولید GPT-5 دشوار بود، OpenAI به مسیر توسعه دیگری روی آورد: مدل استدلال. و نتایج به زودی تولید شد: مدل استدلال شگفت انگیز o1 و مدل استدلال o3 که به تازگی منتشر شده است. عملکرد فوقالعاده O3 باعث شده است که برخی از کارشناسان اظهار داشته باشند که هیچ مانعی در مسیر AGI وجود ندارد.
استارت آپ های هوش مصنوعی الهام گرفته شده و از نزدیک دنبال می شوند. کای فو لی، بنیانگذار Zero One Everything، که چندی پیش از بازدید از سیلیکون ولی بازگشته بود، گفت که در گذشته همه فکر می کردند که قبل از تمرین کافی است، اما یک سال بعد (پس از ظهور o1 )، آنها دریافتند که پس از آموزش به همان اندازه مهم است. او فاش کرد که بسیاری از شرکتهای هوش مصنوعی در حال توسعه به سمت مدلهای استدلالی هستند و طی پنج ماه آینده، بسیاری از قابلیتهای مشابه مدل o1 در شرکتهای مدلهای مختلف، از جمله Zero One Everything، که همگی به سمت o1 میروند، ظاهر میشود.
اما ظهور DeepSeek-V3 امکانات جدیدی را فراهم می کند. در مدت زمان کوتاهتر، با کارایی بالاتر و هزینه کمتر، میتوانیم به همان سطح برسیم و "نسخه چینی" را در مسیر توسعه مدل زبان بزرگ عمومی مشارکت دهیم.
تغییرات جدیدی رخ داده است
در واقع، در 6 می 2024، DeepSeek مدل DeepSeek-V2 منبع باز MoE را منتشر کرد که با عملکرد کارآمد خود موجی از محبوبیت را در جامعه جهانی هوش مصنوعی ایجاد کرد. در مقایسه با محصولات مشابه، قیمت رابط API آن به شدت به 1 یوان به ازای هر میلیون توکن ورودی و 2 یوان در هر خروجی (32 هزار زمینه) کاهش یافته است که تنها یک درصد از GPT-4-Turbo است.
ورود «قصاب قیمت» مدلهای بزرگ تحت هوش مصنوعی Zhipu، ByteDance، Alibaba Cloud، Baidu، و Tencent Cloud را مجبور کرد که از این روند پیروی کنند و قیمتها را کاهش دهند. علاوه بر این، Tencent و Baidu اعلام کردند که چندین محصول مدل در مقیاس بزرگ رایگان خواهند بود. اگرچه برخی افراد DeepSeek-V2 را "Pinduoduo AI" می نامند، اما این استعاره کاملاً مناسب نیست زیرا این دو تقریباً هیچ اشتراکی ندارند.
قیمت گذاری API DeepSeek-V3 به 2 توکن یوان/میلیون برای ورودی و 8 توکن یوان/M برای خروجی افزایش یافته است (پس از یک دوره تخفیف قیمت 45 روزه، اگرچه این افزایش قابل توجهی در مقایسه با V2 است، اما فقط همین است). معادل هزینه Claude-3.5-Sonnet 1/53، دومی 3 دلار ورودی و 15 دلار به ازای هر میلیون توکن خروجی دارد.
بر اساس مصاحبههای خبرنگار با متخصصان هوش مصنوعی در دو روز گذشته، ظهور DeepSeek-V3 الهامبخش جدیدی برای این صنعت فراهم کرده است.
اول، بسیاری از مسیرهای توسعه ممکن برای تحقیق و توسعه مدل در مقیاس بزرگ وجود دارد.
ChatGPT مسیر پارامترهای بزرگ، قدرت محاسباتی زیاد و سرمایه گذاری زیاد را طی می کند و نیازمندی های بسیار بالایی برای قدرت محاسباتی و منابع مالی دارد. حتی شرکتهایی که دارای منابع مالی نسبتاً فراوان هستند، مانند OpenAI و Anthropic، با چالش تجاریسازی بازده سرمایهگذاری خود مواجه هستند.
مدلهای استنتاج رویکرد دیگری است. دستاوردهای o1 و o3 ثابت می کند که این مسیر نیز امکان پذیر است. اما در عین حال، بر پایه قدرت محاسباتی نسبتاً بالا و هزینه های سرمایه، به ویژه توان محاسباتی نیز استوار است.
DeepSeek-V3 سومین مسیر است. در مقایسه با آموزش مدل های بزرگ فعلی که نیاز به ادغام ده ها هزار کارت دارد، فقط از 2000 پردازنده گرافیکی A100 برای آموزش استفاده می کند و نتایج تقریباً معادل GPT-4o و Claude-3.5-Sonnet را به دست می آورد که واقعاً تحسین برانگیز است.
یک مهندس چینی که درگیر تحقیقات هوش مصنوعی در دره سیلیکون است، به خبرنگار بیزینس هرالد قرن 21 گفت که گزینههای بیشتری مانند ترکیب معماری MLA V3 و ساختار MoESparse با قابلیتهای استدلال o3 وجود دارد که ممکن است یک الگوی مدل بزرگ تولید کند. اگر به نتیجه برسد شگفت انگیز خواهد بود.
دوم، در رقابت برای هوش مصنوعی، چین فقط یک پیرو نیست، بلکه به طور قابل توجهی قابلیت های نوآوری خود را بهبود می بخشد.
در واقع، زمانی که V2 منتشر شد، سیلیکون ولی غافلگیر شد و آن را «قدرت مرموز از شرق» نامید. لیانگ ونفنگ، موسس DeepSeek، در مصاحبه ای با رسانه ها در ژوئیه 2024 گفت که Silicon Valley عادت دارد با شرکت های چینی هوش مصنوعی به عنوان دنبال کننده رفتار کند، وقتی یک شرکت چینی به عنوان یک مشارکت کننده خلاق به بازی آنها می پیوندد، آنها شوکه می شوند.
لیانگ ونفنگ معتقد است که سرمایه گذاری بیشتر لزوما منجر به نوآوری بیشتر نمی شود، در غیر این صورت شرکت های بزرگ می توانند تمام نوآوری ها را در انحصار خود درآورند. تحقیقات و نوآوری های فناوری همیشه اولویت اصلی DeepSeek خواهد بود. شایان ذکر است که طبق محاسبات کارشناسان صنعت، DeepSeek در V2 و V3 ضرر نکرده است.
V3 از تعدادی از رهبران مشهور هوش مصنوعی در سیلیکون ولی تحسین شده است. جیا یانگ کینگ، بنیانگذار هوش مصنوعی لپتون و معاون سابق علی بابا، گفت که DeepSeek مظهر خرد و عمل گرایی است: تولید بهترین نتایج از طریق تحقیقات هوشمند تحت منابع محاسباتی و شرایط نیروی انسانی محدود. این یک نظر بسیار منصفانه است.
این یک مورد مجزا نیست. Yushu Technology اخیراً جدیدترین ویدیوی محصول سگ روبات Unitree B2-W را منتشر کرده است: چرخش کامل توماس، چرخش به پهلو، چرخش پرش 360 درجه، جهش 2.8 متری، و حتی می تواند یک مرد بالغ را حمل کند و به طور پیوسته راه برود. در روزهای اخیر، تشویق این شرکت رباتیک پیشرفته چینی را می توان در همه جای پارک بحث فناوری مشاهده کرد و برخی از مفسران می گویند که مهارت های این شرکت برای شکست دادن Boston Dynamics، پیشرفته ترین شرکت رباتیک امروزی کافی است. هفته گذشته، جهشی در "مفهوم فناوری یوشو" در بازار سهام A رخ داد.
سوم، نوآوری هرگز یک بعدی یا یک طرفه نبوده است و نوآوری مخرب هوش مصنوعی در حال امکان پذیر شدن است.
OpenAI که ChatGPT را توسعه داده است، واقعاً موج جدیدی از هوش مصنوعی را به وجود آورده است. اما OpenAI بی نقص نیست، بلکه موانعی در مسیر توسعه، مشکلات در تامین مالی و تردید در انتخاب مسیر دارد.
در دو یا سه سال گذشته، دیدگاه رایج در جامعه هوش مصنوعی این است که اگر شرکتهای دره سیلیکون در رسیدن از 0 به 1 خوب هستند، پس چین در رفتن از 1 به 10 خوب هست زیرا چین بازار کاربردی گستردهای دارد. با این حال، لیانگ ونفنگ معتقد است که مرحله کنونی هنوز یک دوره انفجاری برای نوآوری فناوری هوش مصنوعی است، نه یک دوره انفجاری برای کاربردآن.
از منظر منطقی، باید بپذیریم که هنوز شکاف بزرگی بین چین و شرکتهای پیشرفته هوش مصنوعی جهان مانند OpenAI، Anthropic و DeepMind وجود دارد. به عنوان مثال، حتی V3 که نشان دهنده پیشرفته ترین سطح از مدل های بزرگ منبع بسته است، عملکردهای بسیار مشابهی با GPT-4o دارد، که سطح فنی دومی 7 ماه پیش بود که به طور متوالی o1، o3 و سایر A را راه اندازی کرد نوع جدیدی از گونه های "جهش یافته". علاوه بر این، شکاف بین اکثر محصولات مدل دیگر از منظر بین المللی چند زبانه و چندوجهی حتی بیشتر است.
اما دلیل اینکه این دور از موج هوش مصنوعی حتی هیجانانگیزتر است این است که تخیل انقلابی که به ارمغان میآورد حتی از قدرت دگرگونکننده اینترنت در اقتصاد سنتی فراتر میرود. همانطور که لیانگ ونفنگ گفت، تعدیل و ارتقاء ساختار صنعتی چین بیشتر بر نوآوری فناوری هسته سخت متکی خواهد بود. در زمینههایی مانند نیمهرساناها و مدلهای بزرگ، سقف فناوری هنوز نرسیده است و فرصتهای بیسابقهای در انتظار شرکتهای چینی است که محصولات خلاقانه هوش مصنوعی یا مدلهای راهحلی را ارائه میکنند، احتمالاً به شرکت بزرگ بعدی تبدیل میشوند.
مهندس چینی فوق الذکر در سیلیکون ولی با احساس گفت که هر چقدر هم که یک شرکت بزرگ باشد، جرات نمی کند ثابت بماند و از ثمره کار دیگران لذت ببرد.
چه کسی پنج سال پیش فکر می کرد که اینتل در معرض شایعات خرید قرار گیرد؟ امروزه، اگرچه انویدیا در دوران اوج خود است و پردازندههای گرافیکی با کمبود مواجه هستند، اگر زمان استفاده تجاری در مقیاس بزرگ از تراشههای کوانتومی تا حد زیادی کوتاه شود، یا اگر به مسیر توسعه اولیه خود ادامه دهد و دیگر به ادغام Wanka متکی نباشد. برای آموزش و توسعه مانند V3، پس از آن به اصطلاح کاملا ممکن است که "حباب Nvidia زودتر از موعد ترکیده شود.