Google's Gemini 2.5 Pro هوشمندترین مدل است که شما از آن استفاده نمی کنید - و 4 دلیل آن برای شرکت AI مهم است
Top of the LM Arena Leaderboard, at time of publishing.

Google's Gemini 2.5 Pro هوشمندترین مدل است که شما از آن استفاده نمی کنید – و 4 دلیل آن برای شرکت AI مهم است

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید


انتشار Gemini 2.5 Pro در روز سه شنبه دقیقاً بر چرخه خبر حاکم نبود. در همان هفته به روزرسانی نسل تصویر Openai به روز شد و رسانه های اجتماعی را با آواتارهای استودیوی Ghibli و ارائه دهنده های فوری فک پایین روشن کرد. اما در حالی که این وزوز به OpenAi رفت ، گوگل ممکن است بی سر و صدا بیشترین مدل استدلال آماده سازمانی را تا به امروز کاهش داده باشد.

Gemini 2.5 Pro در مسابقه مدل بنیادی ، یک جهش قابل توجه برای Google را نشان می دهد – نه فقط در معیارها بلکه در قابلیت استفاده. بر اساس آزمایش های اولیه ، داده های معیار و واکنش های توسعه دهنده دستی ، این مدلی است که از سوی تصمیم گیرندگان فنی سازمانی ، به ویژه کسانی که از لحاظ تاریخی به دلیل استدلال در سطح تولید به OpenAi یا Clude پیش فرض کرده اند ، مورد توجه جدی قرار می گیرد.

در اینجا چهار راه حل اصلی برای تیم های سازمانی که Gemini 2.5 Pro را ارزیابی می کنند ، آورده شده است.

1. استدلال شفاف و ساختاری-نوار جدیدی برای وضوح زنجیره ای از فکر

آنچه Gemini 2.5 Pro را از هم جدا می کند ، فقط هوش آن نیست – این است که این اطلاعات به وضوح کار خود را نشان می دهد. رویکرد آموزش گام به گام گوگل منجر به یک زنجیره اندیشه ساختاری (COT) می شود که مانند آنچه که ما از مدلهایی مانند Deepseek دیدیم ، احساس ناراحتی یا حدس نمی زند. و این تختخواب ها به خلاصه های کم عمق مانند آنچه در مدل های Openai می بینید کوتاه نمی شوند. مدل جدید جمینی ایده هایی را در مراحل شماره گذاری شده ، با زیر مجموعه ها و منطق داخلی ارائه می دهد که به طرز چشمگیری منسجم و شفاف است.

از نظر عملی ، این یک پیشرفت برای اعتماد و قابلیت اعتماد است. کاربران سازمانی که خروجی را برای کارهای مهم ارزیابی می کنند – مانند بررسی پیامدهای خط مشی ، منطق کدگذاری یا خلاصه کردن تحقیقات پیچیده – اکنون می توانند ببینند که چگونه این مدل به یک پاسخ رسید. این بدان معناست که آنها می توانند با اطمینان بیشتر آن را تأیید ، تصحیح یا تغییر مسیر دهند. این یک تکامل اساسی از احساس “جعبه سیاه” است که هنوز هم بسیاری از خروجی های LLM را گرفتار می کند.

برای یک پیاده روی عمیق تر از نحوه عملکرد این عمل ، از تجزیه ویدیویی که در آن ما Gemini 2.5 Pro Live را آزمایش می کنیم ، بررسی کنید. یک مثال که در مورد آن بحث می کنیم: وقتی در مورد محدودیت های مدل های بزرگ زبان سؤال شد ، Gemini 2.5 Pro آگاهی قابل توجهی نشان داد. این نقاط ضعف رایج را تلاوت می کرد و آنها را در مناطقی مانند “شهود جسمی” ، “سنتز مفهوم جدید” ، “برنامه ریزی دوربرد” و “ظرافت های اخلاقی” طبقه بندی می کرد و چارچوبی را فراهم می کرد که به کاربران کمک می کند تا آنچه را که مدل می داند و چگونه به مشکل نزدیک می شوند درک کنند.

تیم های فنی شرکت می توانند از این توانایی استفاده کنند:

  • زنجیره های استدلال پیچیده اشکال زدایی در برنامه های مهم
  • محدودیت های مدل را در حوزه های خاص بهتر درک کنید
  • تصمیم گیری شفاف تر AI را به ذینفعان ارائه دهید
  • با مطالعه رویکرد مدل ، تفکر انتقادی خود را بهبود بخشید

یک محدودیت قابل توجه: اگرچه این استدلال ساختاری در برنامه Gemini و Google AI استودیوی موجود است ، اما هنوز از طریق API قابل دسترسی نیست – کاستی برای توسعه دهندگان که به دنبال ادغام این توانایی در برنامه های سازمانی هستند.

2. یک مدعی واقعی برای پیشرفته ترین-نه فقط روی کاغذ

این مدل در حال حاضر با حاشیه قابل توجه در صدر جدول chatbot Arena نشسته است-35 امتیاز ELO جلوتر از مدل بعدی بعدی-که به ویژه به روزرسانی OpenAi 4O است که روز بعد از سقوط Gemini 2.5 Pro کاهش یافته است. و در حالی که برتری معیار غالباً یک تاج زودگذر است (همانطور که مدل های جدید هفتگی می افتند) ، Gemini 2.5 Pro واقعاً متفاوت است.

در زمان انتشار ، بالای صفحه رهبر LM Arena.

این در وظایفی است که استدلال عمیق را پاداش می دهد: برنامه نویسی ، حل مسئله ظریف ، سنتز در اسناد ، حتی برنامه ریزی انتزاعی. در آزمایش داخلی ، این کار به خصوص در معیارهای سخت و سخت مانند “آخرین امتحان بشریت” ، مورد علاقه برای افشای نقاط ضعف LLM در حوزه های انتزاعی و ظریف انجام شده است. (می توانید اعلامیه Google را در اینجا ، به همراه تمام اطلاعات معیار مشاهده کنید.)

تیم های سازمانی ممکن است اهمیتی ندهند که کدام مدل برنده است که کدام یک از رهبران دانشگاهی است. اما آنها اهمیتی می دهند که این فرد می تواند فکر کند – و به شما نشان می دهد که چگونه فکر می کند. تست Vibe اهمیت دارد ، و برای یک بار ، نوبت Google است که احساس می کند آنها از آن عبور کرده اند.

همانطور که ناتان لامبرت مهندس AI محترم خاطرنشان کرد ، “Google دوباره بهترین مدل ها را دارد ، زیرا آنها باید این کل شکوفه AI را شروع می کردند. خطای استراتژیک درست شده است.” کاربران سازمانی باید این موضوع را نه تنها به عنوان Google که به رقبا می رسد ، مشاهده کنند ، بلکه به طور بالقوه آنها را در قابلیت هایی که برای برنامه های تجاری مهم است ، جهش می دهد.

سرانجام: بازی برنامه نویسی گوگل قوی است

از نظر تاریخی ، Google هنگام کمک به برنامه نویسی متمرکز بر توسعه دهنده ، از Openai و Anthropic عقب مانده است. Gemini 2.5 Pro آن را تغییر می دهد – به روشی بزرگ.

در تست های دستی ، توانایی یک شات قوی در چالش های برنامه نویسی نشان داده شده است ، از جمله ساختن یک بازی کاری تتریس که اولین بار در هنگام صادر کردن برای پخش مجدد تلاش می کرد-هیچ اشکال زدایی لازم نیست. حتی قابل توجه تر: آن را از طریق ساختار کد با وضوح ، برچسب زدن به متغیرها و مراحل با اندیشه استدلال کرد و رویکرد آن را قبل از نوشتن یک خط کد واحد بیان کرد.

این مدل ، Claude 3.7 Sonnet Anthropic's Anthropic را رقم می زند ، که در تولید کد به عنوان رهبر در نظر گرفته شده است و دلیل اصلی موفقیت انسان شناسی در این شرکت است. اما Gemini 2.5 یک مزیت مهم را ارائه می دهد: یک پنجره زمینه عظیم 1 میلیون توکن. Claude 3.7 Sonnet فقط در حال حاضر به 500،000 توکن ارائه می دهد.

این پنجره زمینه عظیم امکانات جدیدی را برای استدلال در کل پایگاه های کد ، خواندن مستندات به صورت درون خطی و کار در چندین پرونده وابسته به هم باز می کند. تجربه مهندس نرم افزار سیمون ویلیسون این مزیت را نشان می دهد. هنگام استفاده از Gemini 2.5 Pro برای پیاده سازی یک ویژگی جدید در قسمت کد خود ، این مدل تغییرات لازم را در 18 پرونده مختلف مشخص کرده و کل پروژه را در حدود 45 دقیقه به پایان رساند – به طور متوسط ​​کمتر از سه دقیقه در هر پرونده اصلاح شده. برای شرکت هایی که در چارچوب های عامل یا محیط های توسعه AI به کمک AI آزمایش می شوند ، این یک ابزار جدی است.

4. ادغام چند حالته با رفتار شبیه عامل

در حالی که برخی از مدل ها مانند آخرین 4o Openai ممکن است با تولید تصویر چشمک زن خیره کننده تر نشان دهند ، Gemini 2.5 Pro احساس می کند که بی سر و صدا در حال تعریف مجدد است که استدلال چند حالته به نظر می رسد.

در یک مثال ، آزمایش دستی بن دیکسون برای VentureBeat توانایی مدل برای استخراج اطلاعات کلیدی از یک مقاله فنی در مورد الگوریتم های جستجو و ایجاد یک نمودار SVG مربوطه را نشان داد-سپس بعداً آن نمودار را بهبود بخشید که نسخه ای از آن را با خطاهای بصری نشان داد. این سطح از استدلال چند مدلی گردش کار جدیدی را که قبلاً با مدل های متن فقط امکان پذیر نبودند امکان پذیر می کند.

در مثال دیگر ، توسعه دهنده سام ویتوین یک تصویر ساده از نقشه لاس وگاس را بارگذاری کرد و پرسید که رویدادهای گوگل در 9 آوریل چه اتفاقی می افتد (به دقیقه 16:35 این ویدیو مراجعه کنید). این مدل مکان را شناسایی کرده ، قصد کاربر را استنباط می کند ، به صورت آنلاین جستجو می شود (با زمینه فعال سازی) و جزئیات دقیق درباره Google Cloud بعدی – از جمله تاریخ ، مکان و استنادها را بازگرداند. همه بدون چارچوب عامل سفارشی ، فقط مدل اصلی و جستجوی یکپارچه.

این مدل در واقع بیش از این که فقط به آن نگاه کنیم ، دلایل این ورودی چند حالته است. و این نکته را نشان می دهد که در شش ماه چه گردش کار شرکت می تواند به نظر برسد: بارگذاری اسناد ، نمودارها ، داشبورد – و داشتن این مدل بر اساس محتوا ، سنتز ، برنامه ریزی یا عمل معنادار را انجام می دهد.

جایزه: این فقط … مفید است

در حالی که یک غذای آماده جداگانه نیست ، شایان ذکر است: این اولین نسخه جمینی است که Google را برای بسیاری از ما از LLM “Backwater” بیرون کشیده است. نسخه های قبلی هرگز آن را به طور روزانه به کار می گیرند ، زیرا مدل هایی مانند Openai یا Claude دستور کار را تعیین می کنند. Gemini 2.5 Pro متفاوت است. کیفیت استدلال ، ابزار طولانی با متن و لمس های عملی UX-مانند Replit Export و Access Studio-آن را به الگویی تبدیل می کند که نادیده گرفتن آن دشوار است.

هنوز روزهای اولیه است. این مدل هنوز در Google Cloud's Vertex AI نیست ، اگرچه Google گفته است که به زودی می آید. برخی از سؤالات تأخیر ، به ویژه با روند استدلال عمیق تر (با بسیاری از نشانه های فکر می شوند ، به معنای این برای اولین بار به معنی است؟) و قیمت ها فاش نشده است.

احتیاط دیگری از مشاهدات من در مورد توانایی نوشتن آن: Openai و کلود هنوز احساس می کنند که آنها در تولید نثر قابل خواندن هستند. جمینی 2.5 بسیار ساختار یافته است و فاقد کمی از صافی مکالمه ای است که دیگران ارائه می دهند. این چیزی است که من به طور خاص متوجه شده ام که Openai به ویژه در اخیراً تمرکز زیادی می کند.

اما برای شرکتهای متعادل کننده عملکرد ، شفافیت و مقیاس ، Gemini 2.5 Pro ممکن است به تازگی Google را دوباره به یک مدعی جدی تبدیل کرده باشد.

همانطور که Zoom CTO Xuedong Huang روز گذشته با من مکالمه کرد: Google وقتی صحبت از LLMS در تولید می شود ، کاملاً در ترکیب قرار می گیرد. Gemini 2.5 Pro فقط به ما دلیلی داد تا باور کنیم که ممکن است فردا نسبت به دیروز صادق باشد.

ویدیوی کامل از پیامدهای سازمانی را اینجا تماشا کنید:

https://www.youtube.com/watch؟v=c7ldiiea7oc