GPT-4.5 برای شرکت: آیا دقت و دانش آن هزینه را توجیه می کند؟
Source: Box

GPT-4.5 برای شرکت: آیا دقت و دانش آن هزینه را توجیه می کند؟

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید


انتشار Openai GPT-4.5 تا حدودی ناامید کننده بوده است ، و بسیاری از آنها به نقطه قیمت مجنون آن اشاره می کنند (حدود 10 تا 20 برابر گرانتر از Claude 3.7 Sonnet و 15 تا 30 برابر گرانتر از GPT-4O).

با این حال ، با توجه به این که این بزرگترین و قدرتمندترین مدل غیر فصلی Openai است ، ارزش آن را دارد که نقاط قوت و مناطقی را که می درخشد در نظر بگیرید.

دانش و تراز بهتر

جزئیات کمی در مورد معماری مدل یا Corpus Training وجود دارد ، اما ما یک تخمین خشن داریم که با محاسبات 10 برابر بیشتر آموزش دیده است. و ، این مدل به حدی بزرگ بود که Openai برای به پایان رساندن آموزش در چندین مراکز داده نیاز داشت تا در یک زمان معقول به پایان برسد.

مدل های بزرگتر از ظرفیت بیشتری برای یادگیری دانش جهانی و تفاوت های ظریف زبان انسانی برخوردار هستند (با توجه به اینکه آنها به داده های آموزشی با کیفیت بالا دسترسی دارند). این در برخی از معیارهای ارائه شده توسط تیم OpenAi مشهود است. به عنوان مثال ، GPT-4.5 دارای رتبه بالایی در PersonQA ، معیار است که توهم را در مدل های AI ارزیابی می کند.

آزمایش های عملی همچنین نشان می دهد که GPT-4.5 بهتر از سایر مدلهای هدف کلی در صادقانه بودن به حقایق و پیروی از دستورالعمل های کاربر است.

کاربران خاطرنشان کرده اند که پاسخ های GPT-4.5 نسبت به مدل های قبلی احساس طبیعی تر و آگاه تر دارند. توانایی آن در پیروی از دستورالعمل های لحن و سبک نیز بهبود یافته است.

پس از آزادی GPT-4.5 ، AI Scientist و بنیانگذار OpenAI ، آندره کارپتی ، که به این مدل دسترسی زودهنگام داشت ، گفت: “انتظار دارد که (ویرایش) را در کارهایی که استدلال سنگین نیست ، مشاهده کند ، و من می گویم این وظایف هستند که بیشتر معادلات هستند (بر خلاف IQ) مربوط به و بطری های مربوط به EG HUMOR.

با این حال ، ارزیابی کیفیت نوشتن نیز بسیار ذهنی است. در نظرسنجی که Karpathy بر روی سوابق مختلف اجرا می کرد ، بیشتر افراد پاسخ GPT-4O را نسبت به GPT-4.5 ترجیح می دادند. وی در مورد X نوشت: “یا آزمایش کنندگان با طعم بالا متوجه ساختار جدید و منحصر به فرد هستند اما با طعم های کم نظرسنجی را بیش از حد در نظر می گیرند. یا ما فقط چیزها را توهم می کنیم. یا این مثالها فقط عالی نیستند. یا در واقع بسیار نزدیک است و این اندازه نمونه خیلی کوچک است. یا همه موارد فوق. “

پردازش بهتر سند

در آزمایشات خود ، جعبه ، که GPT-4.5 را در محصول استودیوی جعبه AI یکپارچه کرده است ، نوشت که GPT-4.5 “به ویژه برای موارد استفاده از شرکت ها بسیار قدرتمند است ، جایی که دقت و یکپارچگی رسالت است … آزمایش ما نشان می دهد که GPT-4.5 یکی از بهترین مدل های موجود هم از نظر نمرات ما و هم از توانایی آن در بسیاری از سؤالات سخت و سخت است.

در ارزیابی های داخلی خود ، جعبه GPT-4.5 را در کارهای پرسشنامه ای از اسناد شرکت دقیق تر نشان داد-از GPT-4 اصلی با حدود 4 درصد در مجموعه آزمون خود بهتر عمل کرد.

منبع: جعبه

تست های جعبه همچنین حاکی از آن است که GPT-4.5 در سؤالات ریاضی تعبیه شده در اسناد تجاری ، که مدل های قدیمی تر GPT اغلب با آنها تلاش می کردند ، عالی است. به عنوان مثال ، بهتر بود در پاسخ به سؤالات مربوط به اسناد مالی که نیاز به استدلال بر داده ها و انجام محاسبات داشتند ، پاسخ دهند.

GPT-4.5 همچنین عملکرد بهبود یافته در استخراج اطلاعات از داده های بدون ساختار را نشان داد. در آزمایشی که شامل استخراج مزارع از صدها سند قانونی ، GPT-4.5 19 ٪ دقیق تر از GPT-4O بود.

برنامه ریزی ، برنامه نویسی ، ارزیابی نتایج

با توجه به دانش بهبود یافته جهان ، GPT-4.5 همچنین می تواند یک الگوی مناسب برای ایجاد برنامه های سطح بالا برای کارهای پیچیده باشد. سپس مراحل شکسته را می توان به مدل های کوچکتر اما کارآمدتر برای توضیح و اجرای آن تحویل داد.

طبق تحقیقات صورت فلکی ، “در آزمایش اولیه ، GPT-4.5 به نظر می رسد قابلیت های قوی در برنامه ریزی و اجرای عامل ، از جمله گردش کار کدگذاری چند مرحله ای و اتوماسیون کار پیچیده را نشان می دهد.”

GPT-4.5 همچنین می تواند در کارهای برنامه نویسی که به دانش داخلی و متنی نیاز دارند ، مفید باشد. GitHub اکنون دسترسی محدود به مدل را در دستیار برنامه نویسی Copilot خود فراهم می کند و خاطرنشان می کند که GPT-4.5 “به طور مؤثر با اعلان های خلاقانه عمل می کند و پاسخ های قابل توجهی را برای نمایش داده های دانش مبهم ارائه می دهد.”

با توجه به دانش عمیق تر جهان ، GPT-4.5 نیز برای کارهای “LLM-as-a-judge” مناسب است ، جایی که یک مدل قوی بازده مدلهای کوچکتر را ارزیابی می کند. به عنوان مثال ، مدلی مانند GPT-4O یا O3 می تواند یک یا چند پاسخ ایجاد کند ، دلیل آن را دلیل برطرف کند و پاسخ نهایی را به GPT-4.5 برای تجدید نظر و پالایش منتقل کند.

آیا ارزش قیمت دارد؟

با توجه به هزینه های عظیم GPT-4.5 ، اما توجیه بسیاری از موارد استفاده بسیار سخت است. اما این بدان معنا نیست که اینگونه باقی خواهد ماند. یکی از روندهای ثابت که در سالهای اخیر شاهد آن بودیم ، کاهش هزینه های استنباط است و اگر این روند برای GPT-4.5 اعمال شود ، ارزش آن را دارد که با آن آزمایش کنید و راه هایی برای استفاده از قدرت خود در برنامه های سازمانی پیدا کنید.

همچنین شایان ذکر است که این مدل جدید می تواند پایه و اساس مدل های استدلال آینده باشد. در مورد کارپتی: “به خاطر داشته باشید که GPT4.5 فقط با پیشگویی ، نظارت بر FinetUning و RLHF (یادگیری تقویت از بازخورد انسان) آموزش دیده است ، بنابراین این هنوز یک الگوی استدلال نیست. بنابراین ، این نسخه مدل توانایی مدل را در مواردی که استدلال بسیار مهم باشد (ریاضی ، کد و غیره) سوق نمی دهد … احتمالاً OpenAi اکنون به دنبال آموزش بیشتر با یادگیری تقویت شده در بالای مدل GPT-4.5 خواهد بود تا به آن فکر کند و توانایی مدل را در این حوزه ها فشار دهد. “