شرکت نوپای «تُلبیت» که در حوزهی صدور مجوز محتوا فعالیت میکند، طی نامهای به ناشران، نسبت به اقدام برخی شرکتهای هوش مصنوعی در دور زدن استانداردهای رایج وب هشدار داده است. این استانداردها توسط ناشران برای جلوگیری از استخراج غیرمجاز محتوای آنها به منظور استفاده در سیستمهای هوش مصنوعی تولیدکنندهی محتوا به کار میرود.
به گزارش سرویس اخبار فناوری تک فاکس، این نامه که روز جمعه توسط رویترز رویت شد، از ذکر نام شرکتهای هوش مصنوعی یا ناشران تحت تأثیر این اقدامات خودداری کرده است. انتشار این نامه همزمان با بروز مناقشهای علنی میان شرکت نوپای جستجوی هوش مصنوعی «پِرپلِکسِتی» و رسانهی «فوربس» در خصوص همین استاندارد وب و بحثی گستردهتر در مورد ارزش محتوا در عصر هوش مصنوعی تولیدکنندهی محتوا صورت گرفته است.
تحقیقات اخیر نشریهی «وُیرد» که در این هفته منتشر شد، نشان میدهد که به احتمال زیاد «پِرپلِکسِتی» با دور زدن تلاشهای مسدودسازی خزندهی وب از طریق «پروتکل طرد روباتها» (Robots Exclusion Protocol) یا «robots.txt» در حال فعالیت است. این پروتکل، یک استاندارد پذیرفتهشده برای تعیین مجاز بودن خزیدن بخشهای مختلف یک وبسایت به شمار میرود.
«تُلبیت» که یک شرکت نوپا در مراحل اولیهی فعالیت است، خود را به عنوان واسطهای حرفهای میان شرکتهای هوش مصنوعی نیازمند به محتوا و ناشرانی که علاقمند به بستن قراردادهای مجوز با آنها هستند، معرفی میکند.
این شرکت با ردیابی ترافیک هوش مصنوعی به وبسایتهای ناشران و استفاده از تحلیل داده، به هر دو طرف برای تعیین هزینههای قابل پرداخت در قبال استفاده از انواع مختلف محتوا کمک میرساند.
در وبسایت «تُلبیت» آمده است که ناشران میتوانند برای مثال، برای «محتوای ممتاز، مانند آخرین اخبار یا بینشهای اختصاصی»، نرخهای بالاتری تعیین کنند. این شرکت همچنین اعلام کرده است که تا ماه مه ۵۰ وبسایت را بهصورت فعال تحت پوشش داشته است، هرچند نامی از آنها به میان نبرده است.
طبق نامهی «تُلبیت»، «پِرپلِکسِتی» تنها متخلفی نیست که ظاهراً «robots.txt» را نادیده میگیرد. تحلیلهای «تُلبیت» نشان میدهد «عوامل متعدد» هوش مصنوعی در حال دور زدن این پروتکل به عنوان یک ابزار استاندارد مورد استفادهی ناشران برای مشخص کردن بخشهای قابل خزیدن وبسایتشان، هستند.
«تُلبیت» در نامهی خود آورده است: «این موضوع از لحاظ عملی به این معناست که عوامل هوش مصنوعی از منابع مختلف (نه فقط یک شرکت) ترجیح میدهند برای بازیابی محتوا از وبسایتها، پروتکل «robots.txt» را دور بزنند. هرچه تعداد لاگهای ناشران بیشتری را جذب کنیم، این الگو بیشتر آشکار میشود.»