QWQ-32B-LAUNCHES بالا-کارآیی-عملکرد-اجرای | سر و صدا
Credit: SimilarWeb, AI Global Global Sector Trends on Generative AI

QWQ-32B-LAUNCHES بالا-کارآیی-عملکرد-اجرای | سر و صدا

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید


تیم Qwen ، بخشی از غول تجارت الکترونیکی چینی Alibaba در حال توسعه خانواده در حال رشد مدل های بزرگ زبان Qwen با منبع باز (LLMS) ، QWQ-32B ، یک مدل استدلال 32 میلیارد پارامتر جدید را برای بهبود عملکرد در کارهای پیچیده حل مسئله از طریق یادگیری تقویت (RL) معرفی کرده است.

این مدل به عنوان وزن باز در بغل کردن چهره و در ModelsCope تحت مجوز Apache 2.0 در دسترس است. این بدان معناست که برای استفاده های تجاری و تحقیقاتی در دسترس است ، بنابراین شرکت ها می توانند بلافاصله آن را برای تأمین نیروگاه ها و برنامه های خود (حتی مواردی که مشتری ها برای استفاده از آنها شارژ می کنند) به کار گیرند.

همچنین می توان از طریق چت QWEN برای کاربران جداگانه دسترسی پیدا کرد.

Quan-with-Soustions پاسخ Alibaba به مدل استدلال اصلی Openai O1 بود

QWQ ، کوتاه برای QWEN-WITH-STOUSTION ها ، برای اولین بار توسط Alibaba در نوامبر 2024 به عنوان یک الگوی استدلال منبع باز با هدف رقابت با O1-Preview OpenAi معرفی شد.

در هنگام راه اندازی ، این مدل برای تقویت استدلال و برنامه ریزی منطقی با بررسی و پالایش پاسخ های خود در هنگام استنتاج طراحی شده است ، تکنیکی که آن را در کارهای ریاضی و برنامه نویسی به ویژه مؤثر کرده است.

نسخه اولیه QWQ دارای 32 میلیارد پارامتر و 32،000-Token Context بود که Alibaba توانایی خود را برای بهتر کردن O1-PREVIEW در معیارهای ریاضی مانند Aime و Math و همچنین کارهای استدلال علمی مانند GPQA برجسته می کند.

علیرغم نقاط قوت ، تکرارهای اولیه QWQ با ​​معیارهای برنامه نویسی مانند LiveCodebench ، که در آن مدل های OpenAi دارای لبه ای بودند ، تلاش کرد. علاوه بر این ، مانند بسیاری از مدلهای استدلال در حال ظهور ، QWQ با ​​چالش هایی مانند مخلوط کردن زبان و حلقه های استدلال مدور گاه به گاه روبرو شد.

با این حال ، تصمیم Alibaba برای انتشار مدل تحت مجوز Apache 2.0 تضمین می کند که توسعه دهندگان و شرکت ها می توانند آزادانه آن را سازگار و تجاری کنند و آن را از گزینه های اختصاصی مانند OPEAI O1 متمایز کنند.

از زمان انتشار اولیه QWQ ، چشم انداز AI به سرعت تکامل یافته است. محدودیت های LLM های سنتی آشکارتر شده است ، با این که قوانین مقیاس پذیر باعث کاهش بازده در بهبود عملکرد می شوند.

این تغییر باعث علاقه به مدلهای استدلال بزرگ (LRM) شده است-دسته جدیدی از سیستم های هوش مصنوعی که از استدلال زمان استنباط و خود بازتاب برای افزایش دقت استفاده می کنند. این موارد شامل سری O3 Openai و Deepseek-R1 بسیار موفق از آزمایشگاه Rival Chinese Deepseek ، یک شرکت فرعی از شرکت تجزیه و تحلیل کمی هنگ کنگ مدیریت سرمایه High-Flyer است.

گزارش جدیدی از تجزیه و تحلیل ترافیک وب و شرکت تحقیقاتی SouneWB نشان داد که از زمان راه اندازی R1 در ژانویه 2024 ، Deepseek نمودارها را به دست آورد تا به وب سایت ارائه دهنده مدل AI در پشت OpenAI تبدیل شود.

اعتبار: SOLYWEB ، AI Global Sector Global Sector در AI مولد

QWQ-32B ، آخرین تکرار Alibaba ، با ادغام RL و ساختار خود ساختار ، این پیشرفت ها را بر اساس این پیشرفت ها بنا می کند ، و آن را به عنوان یک رقیب جدی در زمینه رو به رشد هوش مصنوعی متمرکز می کند.

مقیاس بندی عملکرد با یادگیری تقویت چند مرحله ای

مدل های تنظیم شده توسط دستورالعمل های سنتی اغلب با کارهای استدلال دشوار مبارزه می کنند ، اما تحقیقات تیم Qwen نشان می دهد که RL می تواند توانایی یک مدل را در حل مشکلات پیچیده بهبود بخشد.

QWQ-32B با اجرای یک رویکرد آموزش چند مرحله ای RL برای تقویت استدلال ریاضی ، مهارت کدگذاری و حل مسئله کلی ، این ایده را بر اساس این ایده بنا می کند.

این مدل در برابر گزینه های پیشرو مانند Deepseek-R1 ، O1-Mini و Deepseek-R1-Distilled-QWEN-32B معیار قرار گرفته است ، و با وجود داشتن پارامترهای کمتری نسبت به برخی از این مدل ها ، نتایج رقابتی را نشان می دهد.

به عنوان مثال ، در حالی که Deepseek-R1 با 671 میلیارد پارامتر (با 37 میلیارد فعال شده) فعالیت می کند ، QWQ-32B با یک ردپای بسیار کوچکتر عملکرد قابل مقایسه ای را به دست می آورد-به طور معمول به 24 گیگابایت VRAM در یک پردازنده گرافیکی (Nvidia's H100s دارای 80 گیگابایت) در مقایسه با بیش از 1500 gb r1 برای اجرای VRAMEK از VRAMEK است. برجسته کردن کارایی رویکرد RL Qwen.

QWQ-32B از معماری مدل زبان علّی پیروی می کند و شامل چندین بهینه سازی است:

  • 64 لایه ترانسفورماتور با طناب ، swiglu ، rmsnorm و تعصب QKV توجه.
  • توجه پرس و جو عمومی (GQA) با 40 سر توجه برای پرس و جو و 8 برای جفت های ارزش کلیدی.
  • طول زمینه گسترده 131،072 نشانه ، امکان دستیابی بهتر ورودی های دنباله طولانی را فراهم می کند.
  • آموزش چند مرحله ای از جمله پیش زمینه ، تنظیم دقیق و RL.

روند RL برای QWQ-32B در دو مرحله اجرا شد:

  1. تمرکز ریاضی و برنامه نویسی: این مدل با استفاده از یک تأیید صحت برای استدلال ریاضی و یک سرور اجرای کد برای کارهای کدگذاری آموزش داده شد. این رویکرد تضمین می کند که پاسخ های تولید شده برای صحت قبل از تقویت تأیید می شوند.
  2. تقویت قابلیت عمومی: در مرحله دوم ، این مدل با استفاده از مدلهای پاداش عمومی و تأییدیه های مبتنی بر قانون ، آموزش مبتنی بر پاداش را دریافت کرد. این مرحله دستورالعمل های زیر را بهبود بخشید ، تراز انسان و استدلال عامل بدون به خطر انداختن قابلیت های ریاضی و برنامه نویسی آن.

برای تصمیم گیرندگان سازمانی چه معنی دارد

برای رهبران سازمانی-از جمله مدیرعامل ، CTO ، رهبران فناوری اطلاعات ، مدیران تیم و توسعه دهندگان برنامه های هوش مصنوعی-QWQ-32B نشان دهنده تغییر بالقوه در چگونگی پشتیبانی از AI می تواند از تصمیم گیری تجاری و نوآوری فنی باشد.

این مدل با داشتن قابلیت های استدلال RL محور ، می تواند بینش های دقیق ، ساختاری و آگاه تر را ارائه دهد و آن را برای موارد استفاده مانند تجزیه و تحلیل خودکار داده ها ، برنامه ریزی استراتژیک ، توسعه نرم افزار و اتوماسیون هوشمند ارزشمند می کند.

شرکت هایی که به دنبال استقرار راه حل های هوش مصنوعی برای حل مسئله پیچیده ، کمک به برنامه نویسی ، مدل سازی مالی یا اتوماسیون خدمات مشتری هستند ممکن است کارایی QWQ-32B را گزینه ای جذاب بدانند. علاوه بر این ، در دسترس بودن وزن باز آن به سازمانها اجازه می دهد تا مدل را برای برنامه های خاص دامنه بدون محدودیت اختصاصی تنظیم و سفارشی سازی کنند و آن را به یک انتخاب انعطاف پذیر برای استراتژی های هوش مصنوعی سازمانی تبدیل کنند.

این واقعیت که از یک غول تجارت الکترونیکی چینی ناشی می شود ، ممکن است برخی از نگرانی های امنیتی و تعصب را برای برخی از کاربران غیر چینی ایجاد کند ، به خصوص هنگام استفاده از رابط چت QWEN. اما مانند Deepseek-R1 ، این واقعیت که این مدل در بغل کردن چهره برای بارگیری و استفاده آفلاین و تنظیم دقیق یا آموزش مجدد در دسترس است ، نشان می دهد که این موارد می توانند به راحتی برطرف شوند. و این یک جایگزین مناسب برای Deepseek-R1 است.

واکنش های اولیه کاربران قدرت AI و تأثیرگذار

انتشار QWQ-32B قبلاً مورد توجه جامعه تحقیق و توسعه هوش مصنوعی قرار گرفته است ، در حالی که چندین توسعه دهنده و متخصصان صنعت برداشت های اولیه خود را بر روی X (که قبلاً توییتر) به اشتراک می گذارند ، به اشتراک می گذارند:

  • بغل کردن Vaivhav Srivastav (reach_vb) به لطف آزمایشگاه های Hyperbolic ارائه دهنده ، سرعت QWQ-32B را در استنتاج برجسته کرد و آن را “بسیار سریع” و قابل مقایسه با مدل های برتر. وی همچنین خاطرنشان کرد: این مدل “ضرب و شتم Deepseek-R1 و Openai O1-Mini با مجوز Apache 2.0”.
  • اخبار و ناشر AI News and Rumor Chubby (Kimmonismus) از عملکرد این مدل تحت تأثیر قرار گرفت و تأکید کرد که QWQ-32B با وجود 20 برابر کوچکتر ، از Deepseek-R1 بهتر است. “مولی مقدس! Qwen پخته شد! ” آنها نوشتند.
  • Yuchen Jin (yuchenj_uw) ، بنیانگذار و CTO آزمایشگاه های Hyperbolicبا با توجه به سودهای بهره وری ، این آزادی را جشن گرفت. “مدل های کوچک بسیار قدرتمند هستند! Alibaba Qwen QWQ-32B را منتشر کرد ، یک مدل استدلال که Deepseek-R1 (671b) و Openai O1-Mini را می زند! “
  • یکی دیگر از اعضای تیم در آغوش گرفتن ، اریک کاونیسمکی (erikkaum) بر سهولت استقرار تأکید کرد و به اشتراک گذاشت که این مدل برای استقرار یک کلیک در بغل کردن نقاط پایانی صورت در دسترس است و باعث می شود بدون راه اندازی گسترده ، آن را برای توسعه دهندگان در دسترس قرار دهد.

قابلیت های عامل

QWQ-32B قابلیت های عامل را در بر می گیرد و به آن اجازه می دهد تا به صورت پویا فرآیندهای استدلال را بر اساس بازخورد محیطی تنظیم کند.

برای عملکرد بهینه ، تیم QWEN با استفاده از تنظیمات استنتاج زیر توصیه می کند:

  • درجه حرارت: 0.6
  • جبهه: 0.95
  • بالا: بین 20-40
  • مقیاس بندی نخ: برای رسیدگی به سکانس های بیش از 32،768 نشانه توصیه می شود

این مدل از استقرار با استفاده از VLLM ، یک چارچوب استنتاج با توان بالا پشتیبانی می کند. با این حال ، اجرای فعلی VLLM فقط از مقیاس نخ استاتیک پشتیبانی می کند ، که بدون در نظر گرفتن طول ورودی ، یک عامل مقیاس ثابت را حفظ می کند.

تحولات آینده

تیم Qwen QWQ-32B را به عنوان اولین قدم در مقیاس بندی RL برای افزایش قابلیت های استدلال می داند. با نگاه به جلو ، تیم قصد دارد:

  • در ادامه مقیاس RL را برای بهبود هوش مدل کشف کنید.
  • مأمورین را با RL برای استدلال طولانی تر افکار ادغام کنید.
  • در حال توسعه مدلهای پایه بهینه شده برای RL.
  • از طریق تکنیک های پیشرفته تر آموزش به سمت هوش عمومی مصنوعی (AGI) حرکت کنید.

با استفاده از QWQ-32B ، تیم QWEN در حال قرار گرفتن RL به عنوان محرک اصلی نسل بعدی مدل های هوش مصنوعی است و نشان می دهد که مقیاس گذاری می تواند سیستم های استدلال بسیار عملکردی و مؤثر ایجاد کند.