برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید
تجارت الکترونیکی و غول وب چینی Alibaba’s Qwen ، تیم Qwen به طور رسمی مجموعه جدیدی از مدل های چند مدلی زبان بزرگ منبع آزاد را که به عنوان QWEN3 شناخته می شود ، راه اندازی کرده است که به نظر می رسد در بین مدل های مد برای مدل های باز است و عملکرد مدل های اختصاصی را از امثال OpenAi و Google نزدیک می کند.
سری QWEN3 دارای دو مدل “مخلوط کردن از کارآزمایی” و شش مدل متراکم برای کل هشت مدل (!) جدید است. رویکرد “مخلوط کنفرانس” شامل داشتن چندین نوع مدل تخصصی مختلف است که در یک ترکیب می شوند ، و تنها مدل های مربوطه برای انجام کار در صورت نیاز در تنظیمات داخلی مدل (که به عنوان پارامترها شناخته می شود) فعال می شوند. این امر توسط استارتاپ AI منبع آزاد فرانسوی MISTRAL محبوب شد.
به گفته این تیم ، نسخه پارامتر 235 میلیارد QWEN3 Codenamed A22B از منبع باز Deepseek R1 و Openai اختصاصی O1 در معیارهای مهم شخص ثالث از جمله Arenahard (با 500 سؤال کاربر در مهندسی نرم افزار و ریاضیات) و عملکرد جدید ، Google Gemini 2.5-PRO استفاده می کند.
به طور کلی ، داده های معیار موقعیت QWEN3-235B-A22B را به عنوان یکی از قدرتمندترین مدلهای در دسترس عمومی ، دستیابی به برابری یا برتری نسبت به پیشنهادات اصلی صنعت قرار می دهد.
نظریه ترکیبی (استدلال)
مدل های QWEN3 برای ارائه به اصطلاح “استدلال ترکیبی” یا “استدلال پویا” آموزش داده می شوند و به کاربران این امکان را می دهند تا بین پاسخ های سریع ، دقیق و زمان استدلال بیشتر و محاسبه و محاسبه (شبیه به سری “O” Openai) برای سؤالات سخت تر در علم ، ریاضیات ، مهندسی و سایر زمینه های مختلف جابجا شوند. این رویکردی است که توسط Nous Research و سایر راه اندازی های هوش مصنوعی و مجموعه های تحقیقاتی پیشگام شده است.
با استفاده از QWEN3 ، کاربران می توانند با استفاده از دکمه مشخص شده در وب سایت چت Qwen یا با تعبیه مطالب خاص مانند “حالت تفکر” فشرده تر را درگیر کنند /think
یا /no_think
هنگام استفاده از مدل به صورت محلی یا از طریق API ، بسته به پیچیدگی کار ، امکان استفاده انعطاف پذیر را فراهم می کند.
کاربران هم اکنون می توانند به این مدل ها در سیستم عامل هایی مانند بغل کردن Face Face ، ModelScope ، Kaggle و Github دسترسی داشته و به کار ببندند و همچنین مستقیماً از طریق رابط وب چت Qwen و برنامه های تلفن همراه با آنها ارتباط برقرار کنند. این نسخه شامل هر دو مخلوط متخصصان (MOE) و مدل های متراکم است که همه آنها تحت مجوز منبع باز Apache 2.0 موجود است.
در استفاده کوتاه من از وب سایت چت Qwen تاکنون ، قادر به ایجاد تصاویر نسبتاً سریع و با پایبندی سریع مناسب بود – به خصوص هنگام ترکیب متن به صورت بومی در هنگام تطبیق سبک. با این حال ، این اغلب باعث می شد که وارد سیستم شوم و مشمول محدودیت های معمول محتوای چینی (مانند ممنوعیت اعلان ها یا پاسخ های مربوط به اعتراضات مربع Tiananmen) باشم.

علاوه بر پیشنهادات MOE ، QWEN3 شامل مدل های متراکم در مقیاس های مختلف است: QWEN3-32B ، QWEN3-14B ، QWEN3-8B ، QWEN3-4B ، QWEN3-1.7B و QWEN3-0.6B.
این مدل ها از نظر اندازه و معماری متفاوت هستند و گزینه های کاربران را متناسب با نیازهای متنوع و بودجه محاسباتی ارائه می دهند.
مدل های QWEN3 همچنین به طور قابل توجهی پشتیبانی چند زبانه را گسترش می دهند ، که اکنون 119 زبان و گویش را در خانواده های اصلی زبان پوشش می دهد. این کار برنامه های بالقوه مدل ها را در سطح جهان گسترش می دهد و تحقیقات و استقرار را در طیف گسترده ای از زمینه های زبانی تسهیل می کند.
آموزش مدل و معماری
از نظر آموزش مدل ، QWEN3 یک قدم قابل توجهی از سلف خود ، Qwen2.5 را نشان می دهد. مجموعه داده های پیش تنظیم در اندازه تقریباً 36 تریلیون نشانه دو برابر شد.
منابع داده شامل خزنده های وب ، استخراج اسناد مانند PDF و محتوای مصنوعی تولید شده با استفاده از مدلهای قبلی QWEN متمرکز بر ریاضیات و برنامه نویسی است.
خط لوله آموزشی شامل یک فرآیند مقدماتی سه مرحله ای و به دنبال آن یک پالایش چهار مرحله پس از آموزش برای فعال کردن توانایی های تفکر ترکیبی و غیر تفکر است. پیشرفت های آموزش به مدلهای پایه متراکم QWEN3 اجازه می دهد تا از عملکرد مدل های بسیار بزرگتر QWEN2.5 مطابقت داشته باشد.
گزینه های استقرار همه کاره هستند. کاربران می توانند مدل های QWEN3 را با استفاده از چارچوب هایی مانند SGLANG و VLLM ادغام کنند که هر دو نقاط پایانی سازگار با OpenAI را ارائه می دهند.
برای استفاده محلی ، گزینه هایی مانند Ollama ، Lmstudio ، MLX ، Llama.cpp و Ktransformers توصیه می شود. علاوه بر این ، کاربران علاقمند به قابلیت های عامل مدل ها به کشف ابزار ابزار Qwen-Agent تشویق می شوند ، که عملیات تماس با ابزار را ساده می کند.
Junyang Lin ، عضو تیم Qwen ، در مورد X اظهار داشت كه ساختمان Qwen3 شامل پرداختن به چالش های فنی مهم اما كمتر پر زرق و برق مانند مقیاس بندی یادگیری تقویت شده به طور پایدار ، متعادل كردن داده های چند دامنه و گسترش عملکرد چند زبانه و بدون قربانی كیفیت است.
لین همچنین اظهار داشت که این تیم در حال انتقال به سمت نمایندگان آموزش است که قادر به استدلال طولانی تر از افکار برای کارهای دنیای واقعی هستند.
برای تصمیم گیرندگان سازمانی چه معنی دارد
تیم های مهندسی می توانند به جای هفته ها ، به جای هفته ها ، نقاط پایانی سازگار با OpenAI را به مدل جدید نشان دهند. ایست بازرسی MOE (پارامترهای 235 B با 22 B فعال و 30 B با 3 B فعال) استدلال GPT-4 کلاس را تقریباً در هزینه حافظه GPU یک مدل متراکم 20-30 B ارائه می دهند.
قلاب های رسمی Lora و Qlora اجازه می دهند بدون ارسال داده های اختصاصی به یک فروشنده شخص ثالث ، تنظیم دقیق خصوصی را تنظیم کند.
انواع متراکم از 0.6 B تا 32 B امکان نمونه برداری در لپ تاپ ها و مقیاس به خوشه های چند GPU را بدون بازنویسی سریع می کند.
اجرای وزنه ها در محل به این معنی است که همه اعلان ها و خروجی ها می توانند وارد و بازرسی شوند. Moe Sparsity تعداد پارامترهای فعال در هر تماس را کاهش می دهد و سطح حمله استنتاج را کاهش می دهد.
مجوز APACHE-2.0 موانع حقوقی مبتنی بر استفاده را از بین می برد ، اگرچه سازمان ها هنوز هم باید پیامدهای کنترل و پیامدهای مدیریت استفاده از مدلی را که توسط یک فروشنده مستقر در چین آموزش دیده است ، بررسی کنند.
با این حال ، در عین حال ، یک جایگزین مناسب برای سایر بازیکنان چینی از جمله Deepseek ، Tencent و Bytedance – و همچنین تعداد بیشماری و رو به رشد مدل های آمریکای شمالی مانند Openai فوق الذکر ، Google ، Microsoft ، Anthropic ، Amazon ، Meta و دیگران ارائه می دهد. مجوز مجاز Apache 2.0 – که امکان استفاده نامحدود تجاری را فراهم می کند – همچنین یک مزیت بزرگ نسبت به سایر بازیکنان منبع باز مانند متا است که مجوزهای آن محدودتر است.
علاوه بر این ، این نشان می دهد که مسابقه بین ارائه دهندگان هوش مصنوعی برای ارائه مدلهای قدرتمند و در دسترس همیشه بسیار رقابتی باقی می ماند و سازمان های باهوش به دنبال کاهش هزینه ها باید تلاش کنند تا انعطاف پذیر و باز باشند تا مدل های جدید را برای عوامل هوش مصنوعی و گردش کار خود باز کنند.
نگاه کردن
تیم QWEN QWEN3 را نه تنها به عنوان یک پیشرفت افزایشی بلکه به عنوان گامی مهم در جهت اهداف آینده در هوش عمومی مصنوعی (AGI) و سرپرستی مصنوعی (ASI) ، هوش مصنوعی هوشمندتر از انسان قرار می دهد.
برنامه های مرحله بعدی QWEN شامل مقیاس بندی داده ها و اندازه مدل بیشتر ، گسترش طول زمینه ، گسترش پشتیبانی از شیوه ها و تقویت یادگیری تقویت با مکانیسم های بازخورد محیطی است.
از آنجا که چشم انداز تحقیقات AI در مقیاس بزرگ همچنان در حال تحول است ، انتشار با وزن باز Qwen3 تحت مجوز در دسترس ، نشانه مهم دیگری را نشان می دهد ، و موانع را برای محققان ، توسعه دهندگان و سازمان هایی با هدف نوآوری با LLM های پیشرفته ای کاهش می دهد.
ارسال پاسخ