اکنون این نوبت والدین Tiktok برای یک استدلال AI است: وارد بذر-فکر کردن-v1.5 شوید!
اکنون این نوبت والدین Tiktok برای یک استدلال AI است: وارد بذر-فکر کردن-v1.5 شوید!

اکنون این نوبت والدین Tiktok برای یک استدلال AI است: وارد بذر-فکر کردن-v1.5 شوید!

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید


این کار با اعلام مدل O1 Openai در سپتامبر 2024 آغاز شد ، اما واقعاً با Deepseek R1 منتشر شد که در ژانویه 2025 منتشر شد.

اکنون ، به نظر می رسد که بیشتر ارائه دهندگان و مربیان مدل اصلی AI در یک مسابقه جدید برای ارائه بهتر ، سریعتر ، ارزان تر ، مقرون به صرفه تر و قدرتمندتر و “استدلال” مدل های زبان هوش مصنوعی-یعنی مواردی که شاید کمی طولانی تر برای پاسخ دادن به یک کاربر انسانی طول بکشد ، اما ایده آل با بهتر ، جامع تر و خوب تر “استدلال” آنها ، که این کلاس ها را بازتاب می دهند “بازتومات” را انجام می دهند. ” آنها برای صحت قبل از پاسخ دادن.

Bytedance ، پدر و مادر رسانه های وب چینی چینی Tiktok ، آخرین کسانی است که با اعلام و انتشار مقاله فنی در پشت بذر-فکر کردن-V1.5 ، یک مدل بزرگ زبان (LLM) که برای پیشبرد عملکرد استدلال در زمینه های علم ، فناوری ، ریاضی و مهندسی (STEM) طراحی شده است ، به این حزب پیوست.

این مدل هنوز برای بارگیری یا استفاده در دسترس نیست ، و مشخص نیست که شرایط صدور مجوز چه خواهد بود – خواه اختصاصی باشد/منبع بسته یا منبع باز/رایگان برای همه برای استفاده و اصلاح در خواست یا جایی در بین. اما مقاله فنی جزئیات قابل توجهی را ارائه می دهد که ارزش آن را قبل از هر زمان که در دسترس باشد ، ارزش آن را دارند.

مانند Meta's New Llama 4 و Mixtral Mistral قبل از آن ، Seed-Thinking-V1.5 با استفاده از معماری مخلوط (MOE) ساخته شده است.

این معماری به گونه ای طراحی شده است که مدلها را کارآمدتر می کند و اساساً قابلیت های چندین مدل را در یک ترکیب می کند ، هر مدل که در یک دامنه متفاوت تخصص دارد.

در این حالت ، معماری MOE به این معنی است که فکر کردن بذر-V1.5 فقط از 20 میلیارد پارامتر در یک زمان از مجموع 200 میلیارد استفاده می کند.

Bytedance در مقاله فنی خود به GitHub منتشر شده است که بذر-فکر کردن-V1.5 استدلال ساختاری و تولید پاسخ متفکرانه را در اولویت قرار می دهد.

نتایج تقریباً برای خودشان صحبت می کنند ، با بذر-فکر کردن-V1.5 از Deepseek R1 بهتر و نزدیک به Gemini Gemini 2.5 Pro و Openai's O3-Mini-High Andioner در بسیاری از ارزیابی های معیار شخص ثالث ، حتی بیش از آن دو در پرونده AC-APER-OS-AIP ، که اندازه گیری پیشرفت در جهت پیشرفت به سمت General Generaly Generals است ، به عنوان یک هدف “. طبق تعریف Openai ، انسانها در کارهای با ارزش اقتصادی از نظر اقتصادی.

به عنوان یک جایگزین جمع و جور و در عین حال توانا برای مدلهای پیشرفته بزرگتر ، بذر-فکر-V1.5 به نتایج معیار رقابتی می رسد و نوآوری هایی را در یادگیری تقویت (RL) ، آموزش داده های آموزش و زیرساخت های هوش مصنوعی معرفی می کند.

معیارهای عملکرد و تمرکز مدل

Seed-Tinking-V1.5 عملکرد قوی را در مجموعه ای از وظایف چالش برانگیز نشان می دهد ، 86.7 ٪ در Aime 2024 ، 55.0 ٪ عبور@8 را در CodeForces و 77.3 ٪ در معیار علمی GPQA نشان می دهد. این نتایج آن را نزدیک به مدل هایی مانند Openai's O3-Mini-High High و Google's Gemini 2.5 Pro در معیارهای استدلال خاص قرار می دهد.

در کارهای غیر فصلی ، این مدل از طریق مقایسه ترجیح انسان مورد بررسی قرار گرفت و 8.0 ٪ بالاتر از پیروزی نسبت به Deepseek R1 را بدست آورد ، و این نشان می دهد که نقاط قوت آن فراتر از منطق یا چالش های ریاضی است.

برای پرداختن به اشباع در معیارهای مشترک مانند AIME ، Bytedance معرفی شده Beyondaime ، معیار ریاضی جدید و سخت تر با مشکلات سرپرستی که برای مقاومت در برابر یادآوری و عملکرد بهتر مدل طراحی شده است. این و مجموعه ارزیابی CodeForces انتظار می رود که برای پشتیبانی از تحقیقات آینده به صورت عمومی منتشر شود.

استراتژی داده ها

داده های آموزش نقش اساسی در توسعه مدل داشتند. برای تنظیم دقیق (SFT) تحت نظارت ، این تیم 400000 نمونه از جمله 300،000 قابل اثبات (STEM ، Logic و Coding) و 100000 مشکل غیر قابل تأیید مانند نوشتن خلاق و نقش بازی را تنظیم کرده است.

برای آموزش RL ، داده ها به:

  • مشکلات قابل اثبات: 100000 سؤال STEM با دقت فیلتر شده و معماهای منطقی با پاسخ های شناخته شده ، از مسابقات نخبه و بررسی متخصص.
  • وظایف غیر قابل تأیید: مجموعه داده های مقدماتی انسان متمرکز بر سوابق باز ، با استفاده از مدل های پاداش زوجی ارزیابی می شوند.

داده های STEM به شدت به ریاضیات پیشرفته تکیه داده اند و بیش از 80 ٪ از مجموعه مشکل را تشکیل می دهند. داده های منطق اضافی شامل کارهایی مانند پازل های سودوکو و 24 امتیاز ، با مشکل قابل تنظیم برای مطابقت با پیشرفت مدل است.

رویکرد یادگیری تقویت

یادگیری تقویت کننده در بذر-فکر کردن-V1.5 از چارچوب های بازیگر-انتقادی (VAPO) (VAPO) و کلاس (DAPO) ساخته شده است ، که برای پرداختن به ناپایداری های شناخته شده در آموزش RL ساخته شده است. این تکنیک ها بر کاهش کمبود سیگنال پاداش و تقویت ثبات آموزش ، به ویژه در تنظیمات زنجیره ای طولانی (COT) متمرکز شده اند.

مدل های پاداش نقش مهمی در نظارت بر خروجی های RL دارند. Bytedance دو ابزار اصلی را معرفی کرد:

  • بذر-توصیه: LLM مبتنی بر قانون که در صورت تولید و پاسخ های مرجع از نظر ریاضی معادل است.
  • مهمتر از این ، یک قاضی مبتنی بر استدلال گام به گام است که قوام قضاوت را بهبود می بخشد و در برابر هک کردن پاداش مقاومت می کند.

این سیستم پاداش دو لایه ، ارزیابی ظریف را برای هر دو کار ساده و پیچیده امکان پذیر می کند.

زیرساخت و مقیاس گذاری

برای پشتیبانی از آموزش های کارآمد در مقیاس بزرگ ، Bytedance سیستمی را در بالای چارچوب HybridFlow خود ایجاد کرد ، با اجرای آن توسط خوشه های ری و فرآیندهای آموزش و استنتاج همزمان برای کاهش زمان بیکار GPU انجام شد.

یک نوآوری قابل توجه سیستم پخش جریان (SRS) است که تکامل مدل را از اجرای زمان اجرا جدا می کند. این سرعت تکرار را با مدیریت ناهمزمان نسل های جزئی تکمیل شده در سراسر نسخه های مدل تسریع می کند. طبق گزارش ها ، این معماری تا چرخه RL 3 × سریعتر ارائه می دهد.

تکنیک های زیرساختی اضافی شامل موارد زیر است:

  • دقت مختلط (FP8) برای صرفه جویی در حافظه
  • موازی سازی متخصص و تنظیم خودکار هسته برای کارآیی MOE
  • BytecheckPoint برای بازرسی انعطاف پذیر و انعطاف پذیر
  • خودکار برای بهینه سازی موازی و تنظیمات حافظه

ارزیابی انسان و تأثیر در دنیای واقعی

برای ارزیابی تراز با ترجیحات انسانی محور ، آزمایشات آزمایش انسان را در طیف وسیعی از حوزه ها از جمله نوشتن خلاق ، دانش علوم انسانی و مکالمه عمومی انجام داد.

Seed-Thinking-V1.5 به طور مداوم از Deepseek R1 در جلسات بهتر عمل می کند و کاربرد آن را برای نیازهای کاربر در دنیای واقعی تقویت می کند.

تیم توسعه خاطرنشان می کند که مدلهای استدلال که در درجه اول در کارهای قابل اثبات آموزش داده می شوند ، تعمیم شدید به حوزه های خلاق را نشان می دهد – نتیجه ای که به ساختار و سخت گیری تعبیه شده در گردش کار ریاضی منتسب می شود.

منظور از رهبران فنی ، مهندسان داده و تصمیم گیرندگان شرکت چیست

برای منجر به فنی مدیریت چرخه عمر مدل های بزرگ زبان-از درمان داده ها تا استقرار-به عنوان-V1.5 فرصتی برای تجدید نظر در چگونگی ادغام قابلیت های استدلال در پشته های هوش مصنوعی شرکت فراهم می کند.

فرایند آموزش مدولار آن ، که شامل مجموعه داده های استدلال قابل اثبات و یادگیری تقویت چند فاز است ، به ویژه برای تیم هایی که به دنبال مقیاس توسعه LLM هستند ، در عین حال کنترل ریز دانه ای جذاب است.

حرکات Bytedance برای معرفی بذر و فرش کننده بذر ، مکانیسم هایی را برای مدل سازی پاداش قابل اعتماد تر ارائه می دهد ، که می تواند هنگام استقرار مدل ها در محیط های مشتری و یا تنظیم شده بسیار مهم باشد.

برای تیم هایی که غالباً تحت مهلت های تنگ و پهنای باند محدود فعالیت می کنند ، ثبات مدل تحت یادگیری تقویت-که توسط نوآوری هایی مانند Vapo و نمونه گیری پویا انجام می شود-می توانند چرخه تکرار را کاهش داده و تنظیم دقیق برای کارهای خاص.

از دیدگاه ارکستراسیون و استقرار ، رویکرد زیرساخت های ترکیبی مدل – از جمله سیستم پخش جریان (SRS) و پشتیبانی از بهینه سازی FP8 – سود قابل توجهی در آموزش توان و استفاده از سخت افزار دارد.

این ویژگی ها برای مهندسان مسئول مقیاس بندی عملیات LLM در سیستم های ابر و مقدماتی بسیار ارزشمند خواهد بود. این واقعیت که بذر-فکر کردن-V1.5 با مکانیسم هایی برای تطبیق بازخورد پاداش بر اساس دینامیک زمان اجرا آموزش داده شده است ، مستقیماً با چالش های مدیریت خطوط لوله داده ناهمگن و حفظ سازگاری در حوزه ها صحبت می کند.

برای تیم هایی که وظیفه اطمینان از قابلیت اطمینان ، تکرارپذیری و ادغام مداوم ابزارهای جدید را دارند ، طراحی سطح سیستم بذر-V1.5 می تواند به عنوان یک طرح برای ساخت سیستم های ارکستراسیون چند منظوره قوی و قوی باشد.

برای متخصصان مهندسی داده ، رویکرد ساختاری به داده های آموزش – از جمله فیلتر دقیق ، تقویت و تأیید متخصص – اهمیت کیفیت داده ها را به عنوان ضرب عملکرد مدل تقویت می کند. این می تواند الهام بخش رویکردهای عمدی تر در مورد خط لوله های توسعه و اعتبار سنجی مجموعه داده ها باشد.

چشم انداز آینده

Seed-Tinking-V1.5 نتیجه همکاری در تیم Seed LLM Systems Bytedance ، به رهبری Yonghui Wu و با نمایندگی عمومی توسط Haibin Lin ، یک همکار طولانی مدت هوش مصنوعی است.

این پروژه همچنین از تلاشهای قبلی مانند Doubao 1.5 Pro استفاده می کند و تکنیک های مشترک را در RLHF و CURATION DATA شامل می شود.

با نگاهی به آینده ، این تیم قصد دارد با تمرکز بر بهره وری آموزش و الگوسازی پاداش برای کارهای غیر قابل تأیید ، تکنیک های یادگیری تقویت را ادامه دهد. انتشار عمومی معیارهای داخلی مانند Beyondaime در نظر گرفته شده است تا پیشرفت گسترده تری در تحقیقات هوش مصنوعی متمرکز بر استدلال انجام دهد.