آیا محصول هوش مصنوعی شما واقعاً کار می کند؟ نحوه توسعه سیستم متریک مناسب
آیا محصول هوش مصنوعی شما واقعاً کار می کند؟ نحوه توسعه سیستم متریک مناسب

آیا محصول هوش مصنوعی شما واقعاً کار می کند؟ نحوه توسعه سیستم متریک مناسب

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید


در اولین کار من به عنوان مدیر محصول یادگیری ماشین (ML) ، یک سؤال ساده که الهام بخش مباحث پرشور در سراسر کارکردها و رهبران است: چگونه می دانیم که این محصول واقعاً کار می کند؟ محصول مورد نظر که من مدیریت کردم به مشتریان داخلی و خارجی. این مدل تیم های داخلی را قادر می سازد تا موضوعات برتر را که مشتریان با آن روبرو هستند شناسایی کنند تا بتوانند مجموعه ای مناسب از تجربیات را برای رفع مشکلات مشتری در اولویت قرار دهند. با چنین وب پیچیده ای از وابستگی های متقابل در بین مشتریان داخلی و خارجی ، انتخاب معیارهای مناسب برای گرفتن تأثیر محصول برای هدایت آن به سمت موفقیت بسیار مهم بود.

پیگیری عدم کار محصول شما به خوبی مانند فرود هواپیما بدون هیچگونه دستورالعمل کنترل ترافیک هوایی است. هیچ راهی وجود ندارد که بتوانید تصمیمات آگاهانه ای را برای مشتری خود بگیرید بدون اینکه بدانید چه چیزی درست یا غلط پیش می رود. علاوه بر این ، اگر معیارها را به طور فعال تعریف نکنید ، تیم شما معیارهای پشتیبان خود را شناسایی می کند. خطر داشتن چندین طعم از یک معیار “دقت” یا “کیفیت” این است که همه نسخه خود را توسعه می دهند و منجر به سناریویی می شوند که ممکن است همه شما به سمت همان نتیجه کار نکنید.

به عنوان مثال ، هنگامی که من هدف سالانه خود و متریک زیرین را با تیم مهندسی خود مرور کردم ، بازخورد فوری این بود: “اما این یک متریک تجاری است ، ما قبلاً دقت و یادآوری را دنبال می کنیم.”

ابتدا آنچه را که می خواهید در مورد محصول هوش مصنوعی خود بدانید شناسایی کنید

هنگامی که به وظیفه تعریف معیارهای محصول خود رسیدید – از کجا شروع کنید؟ در تجربه من ، پیچیدگی بهره برداری از یک محصول ML با مشتری های متعدد به تعریف معیارهای مدل نیز ترجمه می شود. برای اندازه گیری اینکه آیا یک مدل به خوبی کار می کند از چه چیزی استفاده می کنم؟ اندازه گیری نتیجه تیم های داخلی برای اولویت بندی پرتاب ها بر اساس مدل های ما به اندازه کافی سریع نخواهد بود. اندازه گیری اینکه آیا مشتری راه حل هایی را که توسط مدل ما توصیه شده است ، می تواند نتیجه گیری را از یک متریک بسیار گسترده تصویب کند (اگر مشتری راه حل را اتخاذ نکرده باشد زیرا آنها فقط می خواستند به یک عامل پشتیبانی برسند؟).

سریع به دوران مدل های بزرگ زبان (LLMS)-جایی که ما فقط یک خروجی واحد از یک مدل ML نداریم ، ما پاسخ های متنی ، تصاویر و موسیقی را به عنوان خروجی نیز داریم. ابعاد محصولی که اکنون به معیارها نیاز دارند به سرعت افزایش می یابد – قالب ها ، مشتریان ، نوع … لیست ادامه می یابد.

در تمام محصولات من ، وقتی سعی می کنم با معیارها روبرو شوم ، اولین قدم من این است که آنچه را که می خواهم در مورد تأثیر آن بر مشتریان در چند سؤال مهم بدانم ، تقطیر کنم. شناسایی مجموعه مناسب سؤالات ، شناسایی مجموعه مناسب معیارها را آسان تر می کند. در اینجا چند مثال آورده شده است:

  1. آیا مشتری خروجی دریافت کرد؟ → متریک برای پوشش
  2. چه مدت طول کشید تا محصول خروجی را تأمین کند؟ → متریک برای تأخیر
  3. آیا کاربر خروجی را دوست داشت؟ → معیارهای بازخورد مشتری ، پذیرش مشتری و حفظ مشتری

هنگامی که سؤالات اصلی خود را شناسایی کردید ، مرحله بعدی شناسایی مجموعه ای از زیر سوال برای سیگنال های “ورودی” و “خروجی” است. معیارهای خروجی شاخص های عقب مانده ای هستند که می توانید رویدادی را که قبلاً اتفاق افتاده است اندازه گیری کنید. از معیارهای ورودی و شاخص های پیشرو می توان برای شناسایی روندها یا پیش بینی نتایج استفاده کرد. در زیر روشهای اضافه کردن زیر سوال مناسب برای عقب نشینی و شاخص های پیشرو به سؤالات فوق را مشاهده کنید. همه سؤالات نیازی به شاخص های پیشرو/عقب مانده ندارند.

  1. آیا مشتری خروجی دریافت کرد؟ → پوشش
  2. چه مدت طول کشید تا محصول خروجی را تأمین کند؟ → عدالت
  3. آیا کاربر خروجی را دوست داشت؟ → بازخورد مشتری ، پذیرش و حفظ مشتری
    1. آیا کاربر نشان داد که خروجی درست/اشتباه است؟ (خروجی)
    2. خروجی خوب/منصفانه بود؟ (ورودی)

مرحله سوم و آخر شناسایی روش جمع آوری معیارها است. بیشتر معیارها توسط ابزار جدید از طریق مهندسی داده ها در مقیاس جمع آوری می شوند. با این حال ، در برخی موارد (مانند سؤال 3 فوق) به ویژه برای محصولات مبتنی بر ML ، شما گزینه ارزیابی دستی یا خودکار را دارید که خروجی های مدل را ارزیابی می کند. در حالی که همیشه بهتر است ارزیابی های خودکار را توسعه دهیم ، با شروع ارزیابی های دستی برای “خوب/نمایشگاه” و ایجاد یک موضوع برای تعاریف خوب ، عادلانه و خوب ، به شما کمک می کند تا زمینه را برای یک فرآیند ارزیابی خودکار دقیق و آزمایش شده انجام دهید.

موارد استفاده مثال: جستجوی هوش مصنوعی ، توضیحات لیست

چارچوب فوق می تواند برای هر محصول مبتنی بر ML اعمال شود تا لیست معیارهای اصلی محصول شما را مشخص کند. بیایید به عنوان نمونه جستجو کنیم.

پرسش معیارهاماهیت متریک
آیا مشتری خروجی دریافت کرد؟ → پوششجلسات جستجو با نتایج جستجو به مشتری نشان داده شده است
خروجی
چه مدت طول کشید تا محصول خروجی را تأمین کند؟ → عدالتزمان لازم برای نمایش نتایج جستجو برای کاربرخروجی
آیا کاربر خروجی را دوست داشت؟ → بازخورد مشتری ، پذیرش و حفظ مشتری

آیا کاربر نشان داد که خروجی درست/اشتباه است؟ (خروجی) آیا خروجی خوب/منصفانه بود؟ (ورودی)

٪ جلسات جستجو با بازخورد “انگشت شست” در مورد نتایج جستجو از مشتری یا ٪ جلسات جستجو با کلیک مشتری

٪ از نتایج جستجو برای هر اصطلاح جستجو ، به عنوان “خوب/نمایشگاه” مشخص شده است.

خروجی

ورودی

چگونه در مورد یک محصول برای تولید توضیحات برای یک لیست (خواه یک مورد منو در Doordash باشد یا یک لیست محصول در آمازون)؟

پرسش معیارهاماهیت متریک
آیا مشتری خروجی دریافت کرد؟ → پوششلیست های ٪ با توضیحات تولید شده
خروجی
چه مدت طول کشید تا محصول خروجی را تأمین کند؟ → عدالتزمان لازم برای تولید توضیحات به کاربرخروجی
آیا کاربر خروجی را دوست داشت؟ → بازخورد مشتری ، پذیرش و حفظ مشتری

آیا کاربر نشان داد که خروجی درست/اشتباه است؟ (خروجی) آیا خروجی خوب/منصفانه بود؟ (ورودی)

٪ لیست هایی با توضیحات تولید شده که نیاز به ویرایش از تیم محتوای فنی/فروشنده/مشتری دارد

٪ از توضیحات لیست که به عنوان “خوب/نمایشگاه” مشخص شده است ، در هر روال با کیفیت

خروجی

ورودی

رویکرد ذکر شده در بالا برای چندین محصول مبتنی بر ML قابل گسترش است. امیدوارم این چارچوب به شما کمک کند مجموعه ای مناسب از معیارها را برای مدل ML خود تعریف کنید.

Sharanya Rao یک مدیر محصول گروه در Intuit است.