ناظران صنعت می گویند GPT-4.5 یک مدل "عجیب" است ، قیمت آن را زیر سوال می برد

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید

Openai از انتشار GPT-4.5 خبر داد ، که مدیرعامل سام آلتمن قبلاً گفته بود آخرین مدل غیر فکر (COT) خواهد بود.

این شرکت گفت که مدل جدید “یک مدل مرزی نیست” اما هنوز هم بزرگترین مدل بزرگ زبان آن (LLM) است ، با راندمان محاسباتی بیشتری. آلتمن گفت که ، حتی اگر GPT-4.5 به همان روشی که سایر پیشنهادات جدید Openai O1 یا O3-Mini را دلیل نمی دهد ، دلیل ندارد ، این مدل جدید هنوز هم متفکرانه مانند انسان را ارائه می دهد.

ناظران صنعت ، که بسیاری از آنها به مدل جدید دسترسی داشتند ، GPT-4.5 را به عنوان یک حرکت جالب از OpenAi دانستند و انتظارات خود را از آنچه مدل باید بتواند به دست آورد ، افزایش می دهد.

ایتان مولیک ، استاد وارتون و مفسر هوش مصنوعی ، در رسانه های اجتماعی منتشر کرد که GPT-4.5 یک الگوی بسیار عجیب و جالب است ، و خاطرنشان کرد: با وجود نویسنده قوی ، می تواند “عجیب و غریب تنبل در پروژه های پیچیده” شود.

آندره کرپاتای ، بنیانگذار و رئیس سابق تسلا AI ، خاطرنشان کرد: GPT-4.5 وقتی GPT-4 بیرون آمد ، وی را به یاد آورد و او پتانسیل مدل را دید. در پستی به X ، کارپتی گفت که ، در حالی که از GPT 4.5 استفاده می کند ، “همه چیز کمی بهتر است ، و بسیار جذاب است ، اما همچنین دقیقاً به روش هایی نیست که به آن بی اهمیت باشد.”

با این حال ، Karpathy هشدار داد كه مردم نباید از این مدل تأثیر انقلابی انتظار داشته باشند ، زیرا “توانایی مدل را در مواردی كه استدلال مهم باشد (ریاضی ، كد و غیره) سوق نمی دهد.”

افکار صنعت با جزئیات

در اینجا آنچه Karpathy در مورد آخرین تکرار GPT در یک پست طولانی در X می گوید:

“امروز انتشار GPT4.5 توسط Openai است. من از زمان انتشار GPT4 ، 2 سال است که مشتاقانه منتظر این موضوع هستم ، زیرا این نسخه اندازه گیری کیفی از شیب پیشرفت را که از مقیاس محاسبات پیش فرض می کنید ، ارائه می دهد (یعنی صرفاً آموزش یک مدل بزرگتر). هر 0.5 در نسخه تقریباً 10 برابر محاسبه پیش فرض است. اکنون ، به یاد بیاورید که GPT1 به سختی متن منسجم را تولید می کند. GPT2 یک اسباب بازی گیج کننده بود. GPT2.5 مستقیماً وارد GPT3 شد که جالب تر بود. GPT3.5 از آستانه ای عبور کرد که در واقع برای حمل و نقل به عنوان یک محصول کافی بود و “لحظه چتپ” Openai را برانگیخت. و GPT4 به نوبه خود نیز احساس بهتری داشت ، اما من می گویم که قطعاً احساس ظریف می شود.

یادم است که بخشی از هکاتون بودم که سعی در یافتن اعلان های بتونی در جایی که GPT4 از 3.5 بهتر است. آنها قطعاً وجود داشتند ، اما نمونه های واضح و واضح “Slam Dunk” دشوار بود. این است … همه چیز فقط کمی بهتر بود اما به شکلی پراکنده. انتخاب کلمه کمی خلاق تر بود. درک ظریف در سریع بهبود یافت. قیاس ها کمی بیشتر حس کردند. این مدل کمی جالب تر بود. دانش و درک جهان در لبه های حوزه های نادر بهبود یافته است. توهم کمی کمتر بود. لرزها فقط کمی بهتر بودند. احساس می شود آب که همه قایق ها را بالا می برد ، جایی که همه چیز با 20 ٪ کمی بهبود می یابد. بنابراین با این انتظار است که من به آزمایش GPT4.5 ، که برای چند روز به آن دسترسی داشتم ، رفتم و شاهد محاسبات 10 برابر بیشتر از GPT4 بود. و احساس می کنم ، یک بار دیگر ، من 2 سال پیش در همان هکاتون هستم. همه چیز کمی بهتر است و بسیار جذاب است ، اما همچنین دقیقاً به روش هایی نیست که به آن بی اهمیت باشد. با این وجود ، جالب و جالب توجه به عنوان یکی دیگر از اندازه گیری های کیفی یک شیب خاص از توانایی است که از پیش بینی یک مدل بزرگتر “به صورت رایگان” می آید.

به خاطر داشته باشید که GPT4.5 فقط با پیشگویی ، نظارت بر Finetuning و RLHF آموزش دیده است ، بنابراین این هنوز یک مدل استدلال نیست. بنابراین ، این انتشار مدل توانایی مدل را در مواردی که استدلال بسیار مهم باشد (ریاضی ، کد و غیره) سوق نمی دهد. در این موارد ، آموزش با RL و به دست آوردن تفکر فوق العاده مهم است و حتی اگر در بالای یک مدل پایه قدیمی باشد (به عنوان مثال قابلیت GPT4ish یا به همین ترتیب). وضعیت هنر در اینجا همچنان O1 کامل است. احتمالاً ، Openai اکنون به دنبال آموزش بیشتر با یادگیری تقویت شده در بالای GPT4.5 خواهد بود تا به آن اجازه دهد تا در این دامنه ها توانایی مدل را تحت فشار قرار دهد و فشار دهد.

با این حال ما در واقع انتظار داریم شاهد پیشرفت در وظایف سنگین نباشیم ، و من می گویم این وظایفی هستند که EQ بیشتر هستند (بر خلاف ضریب هوشی) مرتبط با دانش جهانی ، خلاقیت ، ایجاد قیاس ، درک عمومی ، طنز و غیره. بنابراین اینها کارهایی هستند که من در هنگام بررسی های پرشور من به آنها علاقه مند شدم.

بنابراین در زیر ، من فکر کردم که برجسته کردن 5 مورد خنده دار/سرگرم کننده برای آزمایش این قابلیت ها ، و سازماندهی آنها در یک “LM Arena Lite” تعاملی درست در اینجا ، با استفاده از ترکیبی از تصاویر و نظرسنجی ها در یک موضوع ، جالب است. متأسفانه X به شما اجازه نمی دهد که هم یک تصویر و هم نظرسنجی را در یک پست واحد درج کنید ، بنابراین من باید پست های متناوب را که تصویر را نشان می دهد (نشان دادن سریع ، و دو پاسخ یکی از 4 و یک از 4.5) و نظرسنجی ، و در جایی که مردم می توانند رای دهند کدام یک بهتر است. بعد از 8 ساعت ، هویت های کدام مدل را فاش می کنم. بیایید ببینیم چه اتفاقی می افتد 🙂“

افکار مدیرعامل باکس در مورد GPT-4.5

سایر کاربران اولیه نیز در GPT-4.5 پتانسیل داشتند. آرون لوی ، مدیر عامل شرکت Box در X گفت که شرکت وی از GPT-4.5 برای کمک به استخراج داده های ساختاری و ابرداده از محتوای پیچیده سازمانی استفاده کرده است.

“پیشرفت های هوش مصنوعی فقط در حال آمدن است. Openai به تازگی GPT-4.5 را اعلام کرد ، و ما بعداً امروز در استودیوی جعبه AI آن را در دسترس مشتریان قرار خواهیم داد.

ما GPT4.5 را در حالت دسترسی اولیه با جعبه AI برای موارد پیشرفته استفاده از داده های بدون ساختار شرکت آزمایش کرده ایم و نتایج شدیدی را مشاهده کرده ایم. با استفاده از جعبه AI Enterprise Eval ، ما مدل ها را در برابر انواع سناریوهای مختلف ، مانند دقت پرسش و پاسخ ، قابلیت های استدلال و موارد دیگر آزمایش می کنیم. به طور خاص ، برای کشف قابلیت های GPT-4.5 ، ما روی یک منطقه کلیدی با پتانسیل قابل توجهی برای تأثیر شرکت متمرکز شدیم: استخراج داده های ساختاری یا استخراج ابرداده از محتوای پیچیده شرکت.

در جعبه ، ما با استفاده از چندین مجموعه داده درجه یک شرکت ، مدل های استخراج داده ها را به طور دقیق ارزیابی می کنیم. یکی از مجموعه داده های کلیدی که ما از آن استفاده می کنیم CUAD است که شامل بیش از 510 قرارداد حقوقی تجاری است. در این مجموعه داده ، جعبه 17،000 فیلد را شناسایی کرده است که می توانند از محتوای بدون ساختار استخراج شوند و مدل را بر اساس استخراج تک شات برای این زمینه ها ارزیابی کرده اند (این سخت ترین آزمایش ما است ، جایی که این مدل فقط یک بار شانس استخراج تمام ابرداده ها را در یک پاس واحد در مقابل انجام چندین بار انجام داده است). در تست های ما ، GPT-4.5 به درستی 19 درصد امتیازات را با دقت در مقایسه با GPT-4O به طور دقیق استخراج کرد و توانایی بهبود یافته آن در مدیریت داده های قرارداد ظریف را برجسته کرد.

در مرحله بعد ، برای اطمینان از GPT-4.5 می تواند خواسته های محتوای شرکت در دنیای واقعی را برطرف کند ، ما عملکرد آن را در برابر مجموعه ای دقیق تر از اسناد ، مجموعه چالش های خود جعبه ارزیابی کردیم. ما زیر مجموعه ای از قراردادهای حقوقی پیچیده را انتخاب کردیم-آنهایی که دارای محتوای چنددادی ، اطلاعات با چگالی بالا و طول بیش از 200 صفحه هستند-برای نشان دادن برخی از سناریوهایی که مشتریان ما با آن روبرو هستند. در این مجموعه چالش ، GPT-4.5 همچنین به طور مداوم از GPT-4O در استخراج زمینه های کلیدی با دقت بالاتر عمل می کند ، و توانایی برتر آن در رسیدگی به اسناد حقوقی پیچیده و ظریف را نشان می دهد.

به طور کلی ، ما برای داده های پیچیده سازمانی ، با GPT-4.5 نتایج محکمی مشاهده می کنیم ، که حتی موارد استفاده بیشتری را در شرکت باز می کند.“

سؤالات مربوط به قیمت و اهمیت آن

حتی در حالی که کاربران اولیه GPT-4.5 را کار کردند-البته کمی تنبل-آنها از انتشار آن سؤال کردند.

به عنوان مثال ، گری مارکوس ، منتقد برجسته OpenAi ، GPT-4.5 را “هیچ چیزبرگر” در Bluesky نامید.

داغ گرفتن: GPT 4.5 یک هیچ چیز نیست. GPT-5 هنوز هم خیالی است. • مقیاس گذاری داده ها یک قانون فیزیکی نیست. هر آنچه که من به شما گفتم درست است. • تمام لیسانس درباره GPT-5 که چند سال گذشته به آن گوش کردیم: نه چندان درست است.
-گری مارکوس (@garymarcus.bsky.social) 2025-02-27t20: 44: 55.115z

Clement Delangue ، مدیرعامل Face Face ، اظهار داشت كه اثبات منبع بسته GPT4.5 باعث می شود كه آن را “مه” كند.

با این حال ، بسیاری خاطرنشان كردند كه GPT-4.5 هیچ ارتباطی با عملکرد آن ندارد. درعوض ، مردم این سؤال را مطرح كردند كه چرا Openai مدلی را آنقدر گران می كند كه استفاده از آن تقریباً ممنوع است اما به اندازه مدل های دیگر آن قدرتمند نیست.

یک کاربر در مورد X اظهار داشت: “بنابراین شما به من می گویید GPT-4.5 بیش از O1 ارزش دارد اما در معیارها نیز عملکردی ندارد … معنا پیدا کند. “

سایر کاربران X تئوری هایی را مطرح کردند که هزینه توکن بالا می تواند برای جلوگیری از رقبا مانند Deepseek “برای تقطیر مدل 4.5” باشد.

Deepseek در ماه ژانویه به یک رقیب بزرگ در برابر Openai تبدیل شد و رهبران صنعت این استدلال Deepseek-R1 را پیدا کردند که به اندازه Openai توانایی داشته باشند-اما مقرون به صرفه تر هستند.

بینش روزانه در مورد موارد استفاده تجاری با VB Daily

اگر می خواهید رئیس خود را تحت تأثیر قرار دهید ، VB Daily شما را پوشش داده است. ما از آنچه شرکت ها با هوش مصنوعی تولید می کنند ، از تغییرات نظارتی گرفته تا استقرار عملی ، به شما دست و پنجه نرم می کنیم ، بنابراین می توانید بینش های حداکثر ROI را به اشتراک بگذارید.

خط مشی رازداری ما را بخوانید

با تشکر از مشترک شدن خبرنامه های بیشتر VB را در اینجا ببینید.

خطایی رخ داد