موفقیت Deepseek نشان می دهد که چرا انگیزه برای نوآوری هوش مصنوعی مهم است
موفقیت Deepseek نشان می دهد که چرا انگیزه برای نوآوری هوش مصنوعی مهم است

موفقیت Deepseek نشان می دهد که چرا انگیزه برای نوآوری هوش مصنوعی مهم است

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید


ژانویه 2025 چشم انداز AI را لرزاند. Openai به ظاهر غیرقابل توقف و غول های قدرتمند فناوری آمریکایی از آنچه که مطمئناً می توانیم در زمینه مدل های بزرگ زبان (LLMS) نامیدنی نامیدند شوکه شدند. Deepseek ، یک شرکت چینی که روی رادار کسی نیست ، ناگهان Openai را به چالش کشید. این طور نیست که Deepseek-R1 بهتر از مدل های برتر غول های آمریکایی بود. از نظر معیارها کمی عقب مانده بود ، اما ناگهان باعث شد همه از نظر سخت افزار و مصرف انرژی در مورد کارآیی فکر کنند.

با توجه به عدم دسترسی به بهترین سخت افزار سطح بالا ، به نظر می رسد که Deepseek برای نوآوری در حوزه کارآیی انگیزه داشت ، که این نگرانی کمتری برای بازیکنان بزرگتر بود. Openai ادعا کرده است که آنها شواهدی دارند که نشان می دهد Deepseek ممکن است از مدل خود برای آموزش استفاده کرده باشد ، اما ما هیچ اثبات مشخصی برای حمایت از این امر نداریم. بنابراین ، این که آیا این درست است و چه OpenAi به سادگی تلاش برای دلجویی از سرمایه گذاران خود ، موضوع بحث است. با این حال ، Deepseek کارهای خود را منتشر کرده است ، و مردم تأیید کرده اند که نتایج حداقل در مقیاس بسیار کوچکتر قابل تکرار است.

اما چگونه Deepseek می تواند در حالی که شرکت های آمریکایی نتوانستند چنین هزینه های صرفه جویی در هزینه ها را بدست آورند؟ پاسخ کوتاه ساده است: آنها انگیزه بیشتری داشتند. پاسخ طولانی نیاز به کمی بیشتر به یک توضیح فنی دارد.

Deepseek از بهینه سازی KV-Cache استفاده کرد

یکی از مهم صرفه جویی در هزینه برای حافظه GPU بهینه سازی حافظه نهان ارزش کلیدی مورد استفاده در هر لایه توجه در LLM بود.

LLM ها از بلوک های ترانسفورماتور تشکیل شده اند که هر یک از آنها شامل یک لایه توجه است که به دنبال آن یک شبکه به طور منظم وانیلی خوراک رو به جلو است. شبکه فید به جلو از نظر مفهومی از روابط خودسرانه مدل می کند ، اما در عمل ، تعیین همیشه الگوهای موجود در داده ها برای آن دشوار است. لایه توجه این مشکل را برای مدل سازی زبان حل می کند.

این مدل متون را با استفاده از نشانه ها پردازش می کند ، اما برای سادگی ، ما به آنها به عنوان کلمات اشاره خواهیم کرد. در LLM ، هر کلمه یک بردار در ابعاد بالا (مثلاً هزار بعد) اختصاص می یابد. از نظر مفهومی ، هر بعد یک مفهوم را نشان می دهد ، مانند گرم یا سرد بودن ، سبز بودن ، نرم بودن ، اسم بودن. بازنمایی بردار یک کلمه با توجه به هر بعد معنی و مقادیر آن است.

با این حال ، زبان ما به کلمات دیگر اجازه می دهد تا معنی هر کلمه را تغییر دهند. به عنوان مثال ، یک سیب معنی دارد. اما ما می توانیم یک اپل سبز به عنوان یک نسخه اصلاح شده داشته باشیم. نمونه ای شدیدتر از اصلاح این است که یک اپل در یک زمینه آیفون با یک اپل در یک زمینه علفزار متفاوت است. چگونه می توانیم به سیستم خود اجازه دهیم معنی بردار یک کلمه را بر اساس یک کلمه دیگر تغییر دهد؟ اینجاست که توجه وارد می شود.

مدل توجه دو بردار دیگر را به هر کلمه اختصاص می دهد: یک کلید و یک پرس و جو. پرس و جو نشان دهنده خصوصیات معنای یک کلمه است که می تواند اصلاح شود ، و کلید نشان دهنده نوع اصلاحاتی است که می تواند به کلمات دیگر ارائه دهد. به عنوان مثال ، کلمه “سبز” می تواند اطلاعاتی در مورد رنگ و رنگ سبز ارائه دهد. بنابراین ، کلید کلمه “سبز” در بعد “سبز” ارزش بالایی خواهد داشت. از طرف دیگر ، کلمه “سیب” می تواند سبز باشد یا نه ، بنابراین بردار پرس و جو “سیب” نیز برای بعد سبز ارزش بالایی دارد. اگر محصول نقطه ای از “سبز” را با پرس و جو “سیب” بگیریم ، این محصول باید در مقایسه با محصول کلید “جدول” و پرس و جو “سیب” نسبتاً بزرگ باشد. لایه توجه سپس بخش کوچکی از مقدار کلمه “سبز” را به مقدار کلمه “سیب” اضافه می کند. به این ترتیب ، مقدار کلمه “اپل” اصلاح شده است تا کمی سبزتر باشد.

هنگامی که LLM متن را تولید می کند ، یک کلمه را بعد از دیگری انجام می دهد. هنگامی که یک کلمه تولید می کند ، تمام کلمات قبلاً تولید شده به بخشی از متن آن تبدیل می شوند. با این حال ، کلیدها و مقادیر آن کلمات قبلاً محاسبه شده اند. هنگامی که کلمه دیگری به متن اضافه می شود ، باید بر اساس پرس و جو و کلیدها و مقادیر تمام کلمات قبلی ، ارزش آن به روز شود. به همین دلیل تمام این مقادیر در حافظه GPU ذخیره می شوند. این حافظه نهان KV است.

Deepseek مشخص کرد که کلید و مقدار یک کلمه مرتبط است. بنابراین ، معنای کلمه سبز و توانایی آن در تأثیر سبز آشکارا بسیار نزدیک است. بنابراین ، امکان فشرده سازی هم به عنوان یک بردار واحد (و شاید کوچکتر) و در هنگام پردازش خیلی راحت امکان پذیر است. Deepseek دریافت که این امر بر عملکرد آنها در معیارها تأثیر می گذارد ، اما حافظه GPU زیادی را ذخیره می کند.

Deepseek Moe Applied

ماهیت یک شبکه عصبی این است که کل شبکه برای هر پرس و جو باید ارزیابی شود (یا محاسبه شود). با این حال ، همه اینها محاسبه مفیدی نیست. دانش جهان در وزن یا پارامترهای یک شبکه قرار دارد. دانش در مورد برج ایفل برای پاسخ به سؤالات مربوط به تاریخ قبایل آمریکای جنوبی استفاده نمی شود. دانستن اینکه سیب یک میوه است در هنگام پاسخ دادن به سؤالات مربوط به نظریه کلی نسبیت مفید نیست. با این حال ، هنگامی که شبکه محاسبه می شود ، تمام قسمت های شبکه بدون در نظر گرفتن پردازش می شوند. این هزینه های محاسبات عظیمی را در طول تولید متن متحمل می شود که باید از آن جلوگیری شود. این جایی است که ایده مخلوط کنفرانس (MOE) وارد می شود.

در یک مدل MOE ، شبکه عصبی به چندین شبکه کوچکتر به نام کارشناسان تقسیم می شود. توجه داشته باشید که “متخصص” در موضوع به صراحت تعریف نشده است. این شبکه در طول آموزش آن را مشخص می کند. با این حال ، شبکه ها نمره ارتباطی را به هر پرس و جو اختصاص می دهند و فقط قطعات را با نمرات تطبیق بالاتر فعال می کنند. این باعث صرفه جویی در هزینه های زیادی در محاسبه می شود. توجه داشته باشید که برخی از سؤالات در زمینه های مختلف به تخصص نیاز دارند تا به درستی پاسخ داده شوند و عملکرد چنین سؤالاتی تخریب می شود. با این حال ، از آنجا که مناطق از داده ها مشخص شده اند ، تعداد چنین سؤالاتی به حداقل می رسد.

اهمیت یادگیری تقویت

LLM آموخته می شود که از طریق یک مدل زنجیره ای فکر کند ، با مدل خوب تنظیم شده برای تقلید از تفکر قبل از ارائه پاسخ. از این مدل خواسته می شود تا اندیشه خود را کلامی کند (قبل از تولید جواب ، فکر را ایجاد کنید). سپس این مدل هم بر روی فکر و هم در پاسخ ارزیابی می شود و با یادگیری تقویت کننده آموزش داده می شود (برای یک مسابقه صحیح پاداش داده می شود و برای یک مسابقه نادرست با داده های آموزش مجازات می شود).

این امر به داده های آموزش گران قیمت با نشانه فکر نیاز دارد. Deepseek فقط از سیستم خواسته است تا افکار بین برچسب ها را ایجاد کند وت و برای ایجاد پاسخ بین برچسب ها وت بشر این مدل صرفاً بر اساس فرم (استفاده از برچسب ها) و مطابقت پاسخ ها پاداش یا مجازات می شود. این به داده های آموزشی بسیار ارزان تر نیاز داشت. در مرحله اولیه RL ، این مدل سعی کرد اندیشه بسیار کمی ایجاد کند ، که منجر به پاسخ های نادرست شد. سرانجام ، این مدل آموخته است که هر دو افکار طولانی و منسجم را تولید کند ، این همان چیزی است که Deepseek لحظه “A-Ha” می نامد. پس از این نکته ، کیفیت پاسخ ها بسیار بهبود یافته است.

Deepseek چندین ترفند بهینه سازی اضافی را به کار می برد. با این حال ، آنها بسیار فنی هستند ، بنابراین من در اینجا به آنها نمی پردازم.

افکار نهایی در مورد Deepseek و بازار بزرگتر

در هر تحقیق فناوری ، ابتدا باید ببینیم که قبل از بهبود کارآیی چه چیزی ممکن است. این یک پیشرفت طبیعی است. سهم Deepseek در چشم انداز LLM فوق العاده است. سهم دانشگاهی را نمی توان نادیده گرفت ، خواه آنها با استفاده از خروجی OpenAI آموزش دیده باشند یا نه. همچنین می تواند نحوه عملکرد استارتاپ ها را تغییر دهد. اما هیچ دلیلی برای Openai یا سایر غول های آمریکایی برای ناامیدی وجود ندارد. اینگونه است که تحقیقات کار می کند – یک گروه از تحقیقات گروه های دیگر بهره می برد. Deepseek مطمئناً از تحقیقات قبلی انجام شده توسط Google ، OpenAI و بسیاری از محققان دیگر بهره مند شد.

با این حال ، این ایده که Openai بر جهان LLM به طور نامحدود تسلط خواهد یافت ، اکنون بسیار بعید است. هیچ مقدار لابی نظارتی یا اشاره انگشت ، انحصار آنها را حفظ نمی کند. این فناوری در حال حاضر در دست بسیاری و خارج از کشور است و پیشرفت آن را غیرقابل توقف می کند. اگرچه این ممکن است کمی سردرد برای سرمایه گذاران Openai باشد ، اما در نهایت پیروزی برای بقیه ما است. در حالی که آینده متعلق به بسیاری است ، ما همیشه از مشارکت کنندگان اولیه مانند Google و OpenAi تشکر خواهیم کرد.

Debasish Ray Chawdhuri مهندس ارشد اصلی نرم افزار Talentica استبشر