Qwen برای یک مدل دو برابر با مدل 2.5-OMNI-3B که روی رایانه های شخصی مصرف کننده ، لپ تاپ ها اجرا می شود

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید


تجارت الکترونیکی چینی و غول ابری Alibaba فشار سایر ارائه دهندگان مدل هوش مصنوعی را در ایالات متحده و خارج از کشور وارد نمی کند.

فقط چند روز پس از انتشار منبع جدید و پیشرفته ترین منبع باز QWEN3 خانواده مدل استدلال بزرگ ، تیم Qwen Alibaba امروز QWEN2.5-OMNI-3B را منتشر کرد ، یک نسخه سبک از معماری مدل چند حالته قبلی خود طراحی شده برای اجرای سخت افزار کلاس مصرف کننده بدون قربانی کردن متن گسترده در سراسر متن ، صدا ، تصویر ، تصویر و ورودی های ویدئویی.

QWEN2.5-OMNI-3B یک نوع 3 میلیارد پارامتری مقیاس پایین ، از پرچمدار تیم 7 میلیارد پارامتر (7B) است. (پارامترهای یادآوری به تعداد تنظیمات حاکم بر رفتار و عملکرد مدل مراجعه کنید ، با این که معمولاً مدلهای قدرتمندتر و پیچیده تری را نشان می دهد).

در حالی که از نظر اندازه کوچکتر است ، نسخه 3B بیش از 90 ٪ از عملکرد چند مدلی مدل بزرگتر را حفظ می کند و نسل زمان واقعی را در هر دو متن و گفتار با صدای طبیعی ارائه می دهد.

یک پیشرفت عمده در راندمان حافظه GPU حاصل می شود. این تیم گزارش می دهد که QWEN2.5-OMNI-3B هنگام پردازش ورودی های طولانی از 25،000 نشانه ، بیش از 50 ٪ میزان استفاده از VRAM را کاهش می دهد. با تنظیمات بهینه سازی شده ، مصرف حافظه از 60.2 گیگابایتی (مدل 7b) به 28.2 گیگابایت (مدل 3B) کاهش می یابد ، و امکان استقرار در GPU های 24 گیگابایتی را که معمولاً در دسک تاپ های سطح بالا و رایانه های لپ تاپ یافت می شود-به جای خوشه های GPU اختصاصی بزرگتر که در شرکت ها یافت می شود ، امکان پذیر است.

به گفته توسعه دهندگان ، این امر از طریق ویژگی های معماری مانند طراحی متفکر-تیم و یک روش تعبیه شده موقعیت سفارشی ، TMROPE ، که ورودی های ویدئویی و صوتی را برای درک هماهنگ هماهنگ می کند ، به این امر دست می یابد.

با این حال ، شرایط صدور مجوز فقط برای تحقیق مشخص می شود – به این معنی که شرکت ها نمی توانند از این مدل برای ساخت محصولات تجاری استفاده کنند ، مگر اینکه ابتدا مجوز جداگانه ای از تیم Qwen Alibaba بدست آورند.

این اعلامیه به دنبال افزایش تقاضا برای مدل های چند مدلی قابل استقرار بیشتر است و همراه با معیارهای عملکردی است که نتایج رقابتی نسبت به مدل های بزرگتر در همان سری را نشان می دهد.

این مدل اکنون آزادانه برای بارگیری در دسترس است:

توسعه دهندگان می توانند این مدل را با استفاده از ترانسفورماتورهای بغل صورت ، ظروف داکر یا اجرای VLLM Alibaba در خطوط لوله خود ادغام کنند. بهینه سازی های اختیاری مانند Plashattention 2 و BF16 Precision برای افزایش سرعت و کاهش مصرف حافظه پشتیبانی می شود.

عملکرد معیار نتایج قوی را نشان می دهد حتی به مدلهای پارامتر بسیار بزرگتر نزدیک می شود

با وجود کاهش اندازه آن ، QWEN2.5-OMNI-3B به صورت رقابتی در معیارهای کلیدی عمل می کند:

وظیفهquen2.5-omni-3bzwen22.5-omni-7b
همه جا (استدلال چند حالته)52.256.1
چماق (درک صوتی)68.874.1
mmwanness (استدلال تصویر)53.159.2
mvbench (استدلال ویدیویی)68.770.3
آزمایش بذر-tts-are (تولید گفتار)92.193.5

شکاف عملکرد باریک در کارهای ویدئویی و گفتار ، کارایی طراحی مدل 3B را برجسته می کند ، به ویژه در مناطقی که تعامل در زمان واقعی و کیفیت خروجی بیشترین اهمیت را دارند.

گفتار در زمان واقعی ، سفارشی سازی صدا و موارد دیگر

QWEN2.5-OMNI-3B از ورودی همزمان در بین روشها پشتیبانی می کند و می تواند در زمان واقعی هم پاسخ های متن و هم صدا را ایجاد کند.

این مدل شامل ویژگی های سفارشی سازی صوتی است و به کاربران این امکان را می دهد تا بین دو صدای داخلی-Chelsie (زن) و ایتان (مرد) را انتخاب کنند-متناسب با برنامه ها یا مخاطبان مختلف.

کاربران می توانند پیکربندی پاسخ های صوتی یا متن را پیکربندی کنند و با غیرفعال کردن تولید صوتی در صورت عدم نیاز ، می توان مصرف حافظه را کاهش داد.

رشد جامعه و اکوسیستم

تیم QWEN بر ماهیت منبع باز کار خود تأکید می کند ، با ارائه ابزارهای ابزار ، پاسگاه های پیش ساخته ، دسترسی API و راهنماهای استقرار برای کمک به توسعه دهندگان به سرعت شروع می شود.

این نسخه همچنین به دنبال حرکت اخیر برای سری QWEN2.5-OMNI است که در لیست مدل های Trending Face’s Trending به رده های برتر رسیده است.

Junyang Lin از تیم Qwen درباره انگیزه انتشار در X اظهار داشت ، و اظهار داشت: “در حالی که بسیاری از کاربران امیدوارند که مدل OMNI کوچکتر برای استقرار ما این کار را بسازیم.”

برای تصمیم گیرندگان فنی سازمانی چه معنی دارد

برای تصمیم گیرندگان سازمانی که مسئول توسعه هوش مصنوعی ، ارکستر و استراتژی زیرساخت ها هستند ، انتشار QWEN2.5-OMNI-3B ممکن است در نگاه اول مانند یک جهش عملی به جلو ظاهر شود. یک مدل جمع و جور و چند مدلی که در حالی که روی GPU های مصرف کننده 24 گیگابایتی کار می کند ، در برابر خواهر و برادر 7B خود انجام می دهد ، از نظر امکان سنجی عملیاتی وعده واقعی را ارائه می دهد. اما مانند هر فناوری منبع باز ، مجوزها-و در این حالت ، مجوز مرز محکم بین اکتشاف و استقرار را به خود جلب می کند.

مدل QWEN2.5-OMNI-3B فقط طبق توافق نامه مجوز تحقیقات QWEN Alibaba Cloud برای استفاده غیر تجاری مجوز دارد. این بدان معناست که سازمانها می توانند مدل ، معیار آن را ارزیابی کنند ، یا آن را برای اهداف تحقیقاتی داخلی تنظیم کنند ، اما نمی توانند آن را در تنظیمات تجاری ، مانند برنامه های مشتری مداری یا خدمات سودآوری ، مستقر کنند ، بدون اینکه ابتدا مجوز تجاری جداگانه ای از Alibaba Cloud را تأمین کنند.

برای متخصصانی که نظارت بر چرخه های زندگی مدل هوش مصنوعی – اعم از استقرار در محیط های مشتری ، ارکستر شدن در مقیاس یا ادغام ابزارهای چند مدلی در خطوط لوله موجود – این محدودیت ملاحظات مهم را ارائه می دهد. این ممکن است نقش QWEN2.5-OMNI-3B را از یک راه حل آماده استقرار به یک آزمایشگاه برای امکان سنجی تغییر دهد ، راهی برای نمونه اولیه یا ارزیابی تعامل چندمودال قبل از تصمیم گیری در مورد مجوز تجاری یا پیگیری جایگزین.

کسانی که در نقش های ارکستراسیون و OPS هستند ، هنوز هم ممکن است در خلبانی مدل برای موارد استفاده داخلی – مانند پالایش خطوط لوله ، ابزار ساختمان یا تهیه معیارها – تا زمانی که در مرزهای تحقیقاتی باقی بماند ، ارزش پیدا کنند. مهندسان داده یا رهبران امنیتی نیز ممکن است به همین ترتیب مدل را برای اعتبار داخلی یا کارهای QA کشف کنند ، اما هنگام در نظر گرفتن استفاده از آن با داده های اختصاصی یا مشتری در محیط های تولید ، باید با دقت حرکت کنند.

غذای واقعی در اینجا ممکن است در مورد دسترسی و محدودیت باشد: QWEN2.5-OMNI-3B مانع فنی و سخت افزاری را برای آزمایش با هوش مصنوعی چندمودال کاهش می دهد ، اما مجوز فعلی آن یک مرز تجاری را اعمال می کند. با انجام این کار ، به تیم های سازمانی الگویی با کارایی بالا برای آزمایش ایده ها ، ارزیابی معماری ها یا اطلاع رسانی در مورد تصمیمات خرید-VS ارائه می دهد-در حال حاضر استفاده از تولید برای کسانی که مایل به درگیر کردن علی بابا برای بحث صدور مجوز هستند.

در این زمینه ، QWEN2.5-OMNI-3B کمتر به گزینه استقرار پلاگین و بازی تبدیل می شود و یک ابزار ارزیابی استراتژیک بیشتر می شود-راهی برای نزدیک شدن به هوش مصنوعی چندمودال با منابع کمتری ، اما هنوز راه حل کلید در دست نیست.