دست با Gemini 2.5 Pro: چرا ممکن است مفیدترین مدل استدلال باشد
Source: Polymarket

دست با Gemini 2.5 Pro: چرا ممکن است مفیدترین مدل استدلال باشد

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید


متأسفانه برای Google ، انتشار آخرین مدل زبان پرچمدار خود ، Gemini 2.5 Pro ، در زیر استودیو Ghibli AI Image Storm که هوا را از فضای هوش مصنوعی بیرون می آورد ، دفن شد. و شاید از ترس از راه اندازی های قبلی ناکام خود ، Google با احتیاط آن را به جای رویکرد سایر آزمایشگاه های هوش مصنوعی ، که مدل های جدید آنها را به عنوان بهترین در جهان معرفی می کند ، آن را به عنوان “باهوش ترین مدل هوش مصنوعی” معرفی کرد.

با این حال ، آزمایش های عملی با نمونه های دنیای واقعی نشان می دهد که Gemini 2.5 Pro واقعاً چشمگیر است و در حال حاضر ممکن است بهترین مدل استدلال باشد. این راه را برای بسیاری از برنامه های جدید باز می کند و احتمالاً Google را در خط مقدم مسابقه تولید AI قرار می دهد.

منبع: Polymarket

زمینه طولانی با قابلیت برنامه نویسی خوب

ویژگی برجسته Gemini 2.5 Pro پنجره زمینه بسیار طولانی و طول خروجی آن است. این مدل می تواند حداکثر 1 میلیون توکن را پردازش کند (با 2 میلیون به زودی) ، این امکان را فراهم می کند که در صورت لزوم چندین اسناد طولانی و کل مخازن کد را در فوری قرار دهید. این مدل همچنین به جای حدود 8000 برای سایر مدل های جمینی ، محدودیت خروجی 64000 توکن را دارد.

پنجره Long Context همچنین مکالمات گسترده ای را امکان پذیر می کند ، زیرا هر تعامل با یک مدل استدلال می تواند ده ها هزار توکن ایجاد کند ، به خصوص اگر این شامل کد ، تصاویر و فیلم باشد (من با Claude 3.7 Sonnet ، که دارای یک پنجره زمینه 200000-پوکنی است).

به عنوان مثال ، مهندس نرم افزار سیمون ویلیسون از Gemini 2.5 Pro برای ایجاد ویژگی جدید برای وب سایت خود استفاده کرد. ویلیسون در یک وبلاگ گفت: “این در کل پایگاه کد من خرد شد و تمام مکانهایی را که باید برای تغییر 18 فایله در کل مورد نیاز داشته باشم ، فهمیدم ، همانطور که می توانید در نتیجه حاصل مشاهده کنید. کل پروژه از ابتدا تا پایان به پایان رسید. من باید در هر پرونده کمتر از سه دقیقه استفاده کنم.

استدلال چند حالته چشمگیر

Gemini 2.5 Pro همچنین توانایی های استدلال چشمگیر نسبت به متن ، تصاویر و فیلم های بدون ساختار دارد. به عنوان مثال ، من آن را با متن مقاله اخیر خود در مورد جستجوی مبتنی بر نمونه گیری تهیه کردم و باعث شد که یک گرافیک SVG ایجاد کند که الگوریتم شرح داده شده در متن را نشان می دهد. Gemini 2.5 Pro به درستی اطلاعات کلیدی را از مقاله استخراج کرده و یک نمودار جریان را برای نمونه گیری و فرآیند جستجو ایجاد کرد ، حتی مراحل مشروط را به درستی دریافت کرد. (برای مرجع ، همان کار با Claude 3.7 Sonnet چندین تعامل انجام داد و من در نهایت محدودیت توکن را حداکثر کردم.)

تصویر ارائه شده دارای برخی از خطاهای بصری (سرهای فلش نادرست است). این می تواند از Facelift استفاده کند ، بنابراین من بعدی Gemini 2.5 Pro را با یک فوریت چند منظوره آزمایش کردم و به آن تصویری از فایل SVG ارائه شده به همراه کد می دهم و باعث می شود که آن را بهبود بخشد. نتایج چشمگیر بود. این سرهای فلش را اصلاح کرده و کیفیت بصری نمودار را بهبود بخشید.

سایر کاربران تجربیات مشابهی را با پیشبرد های چند مدلی داشته اند. به عنوان مثال ، در تست های خود ، DataCamp نمونه بازی Runner را که در وبلاگ Google ارائه شده است ، تکرار کرد ، سپس کد و ضبط ویدیویی بازی را به Gemini 2.5 Pro ارائه داد و باعث شد تا تغییراتی در کد بازی ایجاد کند. این مدل می تواند بر روی تصاویر استدلال کند ، بخشی از کد مورد نیاز برای تغییر را پیدا کند و اصلاحات صحیح را ایجاد کند.

با این وجود شایان ذکر است که مانند سایر مدلهای تولیدی ، Gemini 2.5 Pro مستعد اشتباهاتی مانند اصلاح پرونده های نامربوط و بخش های کد است. هرچه دستورالعمل های شما دقیق تر باشد ، خطر مدل ایجاد نادرست کمتر است.

تجزیه و تحلیل داده ها با اثری از استدلال مفید

سرانجام ، من Gemini 2.5 Pro را در تست تجزیه و تحلیل داده های کثیف کلاسیک خود برای مدل های استدلال آزمایش کردم. من آن را با پرونده ای حاوی ترکیبی از متن ساده و داده های HTML خام که از صفحات مختلف تاریخ سهام در Yahoo! امور مالی سپس من آن را ترغیب كردم كه ارزش یك سبد را كه در ابتدای هر ماه 140 دلار سرمایه گذاری می كند ، محاسبه كند ، به طور مساوی در 7 سهام باشكوه ، از ژانویه 2024 تا آخرین تاریخ پرونده گسترش یابد.

این مدل به درستی مشخص شده است که کدام سهام را برای انتخاب از پرونده (آمازون ، اپل ، Nvidia ، مایکروسافت ، تسلا ، الفبای و متا) انتخاب کرده ، اطلاعات مالی را از داده های HTML استخراج کرده و ارزش هر سرمایه گذاری را بر اساس قیمت سهام در ابتدای هر ماه محاسبه می کند. این پاسخ به یک جدول با فرمت با ارزش سهام و نمونه کارها در هر ماه پاسخ داد و تجزیه و تحلیل میزان کل سرمایه گذاری در پایان دوره را فراهم کرد.

مهمتر از همه ، من دیدم که ردیابی استدلال بسیار مفید است. هنوز مشخص نیست که آیا گوگل نشانه های زنجیره ای خام (COT) را برای Gemini 2.5 Pro آشکار می کند ، اما ردیابی استدلال بسیار مفصل است. شما به وضوح می توانید ببینید که چگونه مدل بر روی داده ها استدلال می کند ، بیت های مختلف اطلاعات را استخراج می کند و نتایج را قبل از تولید پاسخ محاسبه می کند. این می تواند به عیب یابی رفتار مدل کمک کند و وقتی اشتباه می کند ، آن را در جهت درست هدایت کنید.

استدلال درجه شرکت؟

یکی از نگرانی های مربوط به Gemini 2.5 Pro این است که فقط در حالت استدلال در دسترس است ، به این معنی که این مدل همیشه فرایند “تفکر” را حتی برای پیشبردهای بسیار ساده که مستقیماً می توان به آنها پاسخ داد ، طی می کند.

Gemini 2.5 Pro در حال حاضر در نسخه پیش نمایش است. پس از انتشار مدل کامل و اطلاعات قیمت گذاری در دسترس است ، ما درک بهتری از هزینه ساخت برنامه های سازمانی از طریق مدل خواهیم داشت. با این حال ، با ادامه هزینه های استنباط ، می توانیم انتظار داشته باشیم که در مقیاس عملی شود.

Gemini 2.5 Pro ممکن است اولین بازی پراکنده را نداشته باشد ، اما توانایی های آن نیاز به توجه دارد. پنجره زمینه عظیم آن ، استدلال چند حالته چشمگیر و زنجیره استدلال مفصل ، مزایای ملموس را برای بار کاری پیچیده سازمانی ، از بازپرداخت پایگاه کد گرفته تا تجزیه و تحلیل داده های ظریف ارائه می دهد.