GPT-4.5 برای شرکت: آیا دقت و دانش آن هزینه را توجیه می کند؟

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید

انتشار Openai GPT-4.5 تا حدودی ناامید کننده بوده است ، و بسیاری از آنها به نقطه قیمت مجنون آن اشاره می کنند (حدود 10 تا 20 برابر گرانتر از Claude 3.7 Sonnet و 15 تا 30 برابر گرانتر از GPT-4O).

با این حال ، با توجه به این که این بزرگترین و قدرتمندترین مدل غیر فصلی Openai است ، ارزش آن را دارد که نقاط قوت و مناطقی را که می درخشد در نظر بگیرید.

دانش و تراز بهتر

جزئیات کمی در مورد معماری مدل یا Corpus Training وجود دارد ، اما ما یک تخمین خشن داریم که با محاسبات 10 برابر بیشتر آموزش دیده است. و ، این مدل به حدی بزرگ بود که Openai برای به پایان رساندن آموزش در چندین مراکز داده نیاز داشت تا در یک زمان معقول به پایان برسد.

مدل های بزرگتر از ظرفیت بیشتری برای یادگیری دانش جهانی و تفاوت های ظریف زبان انسانی برخوردار هستند (با توجه به اینکه آنها به داده های آموزشی با کیفیت بالا دسترسی دارند). این در برخی از معیارهای ارائه شده توسط تیم OpenAi مشهود است. به عنوان مثال ، GPT-4.5 دارای رتبه بالایی در PersonQA ، معیار است که توهم را در مدل های AI ارزیابی می کند.

آزمایش های عملی همچنین نشان می دهد که GPT-4.5 بهتر از سایر مدلهای هدف کلی در صادقانه بودن به حقایق و پیروی از دستورالعمل های کاربر است.

کاربران خاطرنشان کرده اند که پاسخ های GPT-4.5 نسبت به مدل های قبلی احساس طبیعی تر و آگاه تر دارند. توانایی آن در پیروی از دستورالعمل های لحن و سبک نیز بهبود یافته است.

پس از آزادی GPT-4.5 ، AI Scientist و بنیانگذار OpenAI ، آندره کارپتی ، که به این مدل دسترسی زودهنگام داشت ، گفت: “انتظار دارد که (ویرایش) را در کارهایی که استدلال سنگین نیست ، مشاهده کند ، و من می گویم این وظایف هستند که بیشتر معادلات هستند (بر خلاف IQ) مربوط به و بطری های مربوط به EG HUMOR.

با این حال ، ارزیابی کیفیت نوشتن نیز بسیار ذهنی است. در نظرسنجی که Karpathy بر روی سوابق مختلف اجرا می کرد ، بیشتر افراد پاسخ GPT-4O را نسبت به GPT-4.5 ترجیح می دادند. وی در مورد X نوشت: “یا آزمایش کنندگان با طعم بالا متوجه ساختار جدید و منحصر به فرد هستند اما با طعم های کم نظرسنجی را بیش از حد در نظر می گیرند. یا ما فقط چیزها را توهم می کنیم. یا این مثالها فقط عالی نیستند. یا در واقع بسیار نزدیک است و این اندازه نمونه خیلی کوچک است. یا همه موارد فوق. “

پردازش بهتر سند

در آزمایشات خود ، جعبه ، که GPT-4.5 را در محصول استودیوی جعبه AI یکپارچه کرده است ، نوشت که GPT-4.5 “به ویژه برای موارد استفاده از شرکت ها بسیار قدرتمند است ، جایی که دقت و یکپارچگی رسالت است … آزمایش ما نشان می دهد که GPT-4.5 یکی از بهترین مدل های موجود هم از نظر نمرات ما و هم از توانایی آن در بسیاری از سؤالات سخت و سخت است.

در ارزیابی های داخلی خود ، جعبه GPT-4.5 را در کارهای پرسشنامه ای از اسناد شرکت دقیق تر نشان داد-از GPT-4 اصلی با حدود 4 درصد در مجموعه آزمون خود بهتر عمل کرد.

تست های جعبه همچنین حاکی از آن است که GPT-4.5 در سؤالات ریاضی تعبیه شده در اسناد تجاری ، که مدل های قدیمی تر GPT اغلب با آنها تلاش می کردند ، عالی است. به عنوان مثال ، بهتر بود در پاسخ به سؤالات مربوط به اسناد مالی که نیاز به استدلال بر داده ها و انجام محاسبات داشتند ، پاسخ دهند.

GPT-4.5 همچنین عملکرد بهبود یافته در استخراج اطلاعات از داده های بدون ساختار را نشان داد. در آزمایشی که شامل استخراج مزارع از صدها سند قانونی ، GPT-4.5 19 ٪ دقیق تر از GPT-4O بود.

برنامه ریزی ، برنامه نویسی ، ارزیابی نتایج

با توجه به دانش بهبود یافته جهان ، GPT-4.5 همچنین می تواند یک الگوی مناسب برای ایجاد برنامه های سطح بالا برای کارهای پیچیده باشد. سپس مراحل شکسته را می توان به مدل های کوچکتر اما کارآمدتر برای توضیح و اجرای آن تحویل داد.

طبق تحقیقات صورت فلکی ، “در آزمایش اولیه ، GPT-4.5 به نظر می رسد قابلیت های قوی در برنامه ریزی و اجرای عامل ، از جمله گردش کار کدگذاری چند مرحله ای و اتوماسیون کار پیچیده را نشان می دهد.”

GPT-4.5 همچنین می تواند در کارهای برنامه نویسی که به دانش داخلی و متنی نیاز دارند ، مفید باشد. GitHub اکنون دسترسی محدود به مدل را در دستیار برنامه نویسی Copilot خود فراهم می کند و خاطرنشان می کند که GPT-4.5 “به طور مؤثر با اعلان های خلاقانه عمل می کند و پاسخ های قابل توجهی را برای نمایش داده های دانش مبهم ارائه می دهد.”

با توجه به دانش عمیق تر جهان ، GPT-4.5 نیز برای کارهای “LLM-as-a-judge” مناسب است ، جایی که یک مدل قوی بازده مدلهای کوچکتر را ارزیابی می کند. به عنوان مثال ، مدلی مانند GPT-4O یا O3 می تواند یک یا چند پاسخ ایجاد کند ، دلیل آن را دلیل برطرف کند و پاسخ نهایی را به GPT-4.5 برای تجدید نظر و پالایش منتقل کند.

آیا ارزش قیمت دارد؟

با توجه به هزینه های عظیم GPT-4.5 ، اما توجیه بسیاری از موارد استفاده بسیار سخت است. اما این بدان معنا نیست که اینگونه باقی خواهد ماند. یکی از روندهای ثابت که در سالهای اخیر شاهد آن بودیم ، کاهش هزینه های استنباط است و اگر این روند برای GPT-4.5 اعمال شود ، ارزش آن را دارد که با آن آزمایش کنید و راه هایی برای استفاده از قدرت خود در برنامه های سازمانی پیدا کنید.

همچنین شایان ذکر است که این مدل جدید می تواند پایه و اساس مدل های استدلال آینده باشد. در مورد کارپتی: “به خاطر داشته باشید که GPT4.5 فقط با پیشگویی ، نظارت بر FinetUning و RLHF (یادگیری تقویت از بازخورد انسان) آموزش دیده است ، بنابراین این هنوز یک الگوی استدلال نیست. بنابراین ، این نسخه مدل توانایی مدل را در مواردی که استدلال بسیار مهم باشد (ریاضی ، کد و غیره) سوق نمی دهد … احتمالاً OpenAi اکنون به دنبال آموزش بیشتر با یادگیری تقویت شده در بالای مدل GPT-4.5 خواهد بود تا به آن فکر کند و توانایی مدل را در این حوزه ها فشار دهد. “

بینش روزانه در مورد موارد استفاده تجاری با VB Daily

اگر می خواهید رئیس خود را تحت تأثیر قرار دهید ، VB Daily شما را پوشش داده است. ما از آنچه شرکت ها با هوش مصنوعی تولید می کنند ، از تغییرات نظارتی گرفته تا استقرار عملی ، به شما دست و پنجه نرم می کنیم ، بنابراین می توانید بینش های حداکثر ROI را به اشتراک بگذارید.

خط مشی رازداری ما را بخوانید

با تشکر از مشترک شدن خبرنامه های بیشتر VB را در اینجا ببینید.

خطایی رخ داد

GPT-4.5 برای شرکت: آیا دقت و دانش آن هزینه را توجیه می کند؟

دانش و تراز بهتر

پردازش بهتر سند

برنامه ریزی ، برنامه نویسی ، ارزیابی نتایج

آیا ارزش قیمت دارد؟

هشدار فوری متخصص در مورد شیرین کننده در هزاران غذای مرتبط با آسیب مغزی

شهر بزرگ ایالات متحده در ساعت فوران آتشفشان تازه پس از ازدحام زمین لرزه ها ، مردم محلی را وحشت زده می کند

چرا یک مدیر کلیدی اپل به قاضی می گوید که هوش مصنوعی جایگزین جستجوی Google است

اولین بازی Symbiogenesis Onchain Square Enix در Blockchain Soneium Sony

سری Oppo Reno 14 Teasers جدید بیشتر به اشتراک گذاشته شده: جزئیات ساخت ، ظرفیت باتری ، ویژگی های دوربین و لوازم جانبی آن فاش شد

فراخوان فوری در سراسر کشور برای قطره چشم 1.8 میلیون که می تواند باعث کور شدن شما شود

شواهد جدید تأیید می کند که Pad 3 OnePlus به ایالات متحده می آید

5 استراتژی که رهبران هوش مصنوعی را از 92 ٪ جدا می کنند هنوز در حالت خلبان گیر کرده اند

ابزار تحقیق عمیق Chatgpt OpenAi اکنون می تواند مخازن GitHub را به هم وصل کند

هشدار پلیس در مورد کلاهبرداری جدید که مشتریان بزرگترین بانک آمریکا را هدف قرار می دهد

سامسونگ در این ماه شایعه شد که آزمایش اندروید 16 را آغاز کرد

چگونه بیمارستان اتاوا از ضبط صدای محیط AI برای کاهش 70 درصد فرسودگی پزشک استفاده می کند ، به 97 ٪ رضایت بیمار می رسد

مخفی مخفی “شواهد ufo” که در بایگانی واتیکان پنهان شده است

Samsung Galaxy S25 Edge به لطف این شیشه نازک و قوی باریک ترین خواهد بود

اکنون می توانید نسخه خود را از مدل استدلال O4-Mini Openai با یادگیری تقویت کننده تنظیم کنید

شهر ایالات متحده که در اثر زلزله های پشتی به عقب در میان ترس های فزاینده ای که گسل باستانی در حال بازگرداندن است ، لرزید

پیکسل 8 چهار روز غوطه ور در یک پخت و پز وان داغ در 113 درجه فارنهایت زنده مانده است

IGDA سه عضو جدید هیئت مدیره را اضافه می کند

فیلم های وحشتناک ، هواپیمای بدون سرنشین خودکشی ارتش ایالات متحده را نشان می دهد که لیست کشتار خود را ایجاد می کند

جایگزینی برای Android و iOS دیگر اختیاری نیست