پردازش داده های دسته ای برای AI در زمان واقعی خیلی کند است: چگونه Apache Airfache منبع باز 3.0 چالش را با ارکستراسیون داده های رویداد محور حل می کند
پردازش داده های دسته ای برای AI در زمان واقعی خیلی کند است: چگونه Apache Airfache منبع باز 3.0 چالش را با ارکستراسیون داده های رویداد محور حل می کند

پردازش داده های دسته ای برای AI در زمان واقعی خیلی کند است: چگونه Apache Airfache منبع باز 3.0 چالش را با ارکستراسیون داده های رویداد محور حل می کند

به گزارش سرویس تازه های دنیای فناوری وبسایت اخبار تکنولوژی تک فاکس،

برای آخرین به روزرسانی ها و مطالب اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت ، به خبرنامه های روزانه و هفتگی ما بپیوندید. بیشتر بدانید


انتقال داده ها از منابع متنوع به مکان مناسب برای استفاده هوش مصنوعی یک کار چالش برانگیز است. این جایی است که فن آوری های ارکستراسیون داده مانند Apache Airflow در آن جا می گیرند.

امروز ، جامعه Apache Airflow با بزرگترین به روزرسانی خود در سالها ، با اولین نسخه نسخه 3.0 ، خارج شده است. نسخه جدید اولین به روزرسانی نسخه اصلی در چهار سال است. Airflow فعال بوده است ، با این حال ، به طور پیوسته در سری 2.x از جمله به روزرسانی 2.9 و 2.10 در سال 2024 افزایش می یابد ، که هر دو تمرکز سنگین روی هوش مصنوعی داشتند.

در سالهای اخیر ، مهندسان داده ها جریان Apache Airflow را به عنوان ابزار استاندارد de facto خود پذیرفته اند. Apache Airflow خود را به عنوان پلت فرم پیشرو ارکستراسیون گردش کار منبع باز با بیش از 3،000 مشارکت کننده و پذیرش گسترده در شرکت های Fortune 500 تأسیس کرده است. همچنین چندین سرویس تجاری بر اساس این سیستم عامل وجود دارد ، از جمله ستاره شناس Astro ، Google Cloud Composer ، آمازون گردش کار برای Apache Airflow (MWAA) و کارخانه داده های مایکروسافت لاجورد مدیریت جریان هوا را از جمله دیگر.

از آنجا که سازمان ها برای هماهنگی گردش کار داده ها در سیستم های متفاوت ، ابرها و بارهای کاری به طور فزاینده هوش مصنوعی تلاش می کنند ، سازمان ها نیازهای رو به رشد دارند. Apache Airflow 3.0 نیاز به نیازهای مهم شرکت با طراحی مجدد معماری دارد که می تواند نحوه ساخت و استقرار برنامه های داده را بهبود بخشد.

Vikram Koka ، Apache Airflow PMC (کمیته مدیریت پروژه) و مدیر ارشد استراتژی در اخترشناس ، در مصاحبه اختصاصی به VentureBeat گفت: “برای من ، Airflow 3 یک شروع جدید است ، این پایه و اساس مجموعه های بسیار بیشتری است.” “این تقریباً یک اصلاح کننده کامل است که براساس آنچه شرکت ها به ما گفتند برای سطح بعدی تصویب مأموریت مهم هستند.”

پیچیدگی داده های سازمانی نیازهای ارکستراسیون داده را تغییر داده است

از آنجا که مشاغل به طور فزاینده ای به تصمیم گیری مبتنی بر داده متکی هستند ، پیچیدگی گردش کار داده ها منفجر شده است. اکنون سازمان ها خطوط لوله پیچیده ای را که شامل چندین محیط ابری ، منابع داده های متنوع و بارهای کار هوش مصنوعی به طور فزاینده ای هستند ، مدیریت می کنند.

Airflow 3.0 به عنوان راه حلی که به طور خاص برای تأمین این نیازهای بنگاه های در حال تحول طراحی شده است ، ظاهر می شود. بر خلاف نسخه های قبلی ، این نسخه از یک بسته یکپارچه جدا می شود و یک مدل مشتری توزیع شده را معرفی می کند که انعطاف پذیری و امنیت را فراهم می کند. این معماری جدید به شرکتها اجازه می دهد تا:

  1. وظایف را در چندین محیط ابری انجام دهید.
  2. کنترل های امنیتی دانه ای را اجرا کنید.
  3. از زبانهای متنوع برنامه نویسی پشتیبانی کنید.
  4. استقرار چند ابر واقعی را فعال کنید.

پشتیبانی از زبان گسترده Airflow 3.0 نیز جالب است. در حالی که نسخه های قبلی در درجه اول پایتون محور بودند ، نسخه جدید به طور بومی از چندین زبان برنامه نویسی پشتیبانی می کند.

Airflow 3.0 برای پشتیبانی از پایتون و پشتیبانی برنامه ریزی شده برای جاوا ، TypeScript و Rust تنظیم شده است. این رویکرد به این معنی است که مهندسان داده می توانند وظایف خود را به زبان برنامه نویسی مورد نظر خود بنویسند و اصطکاک را در توسعه و ادغام گردش کار کاهش دهند.

قابلیت های محور رویداد گردش داده ها را تغییر می دهد

Airflow به طور سنتی در پردازش گروهی برنامه ریزی شده عالی است ، اما شرکت ها به طور فزاینده ای به قابلیت های پردازش داده در زمان واقعی احتیاج دارند. Airflow 3.0 اکنون از آنچه نیاز دارد پشتیبانی می کند.

کوکا توضیح داد: “تغییر کلیدی در جریان هوا 3 همان چیزی است که ما آن را برنامه ریزی رویداد محور می نامیم.”

به جای اجرای کار پردازش داده هر ساعت ، Airflow اکنون هنگام بارگذاری یک فایل داده خاص یا هنگام ظاهر شدن یک پیام خاص ، کار را به طور خودکار شروع می کند. این می تواند شامل داده های بارگذاری شده در یک سطل ذخیره سازی ابری Amazon S3 یا یک پیام داده جریان در Apache Kafka باشد.

قابلیت برنامه ریزی رویداد محور به شکاف بحرانی بین ابزارهای سنتی ETL (عصاره ، تبدیل و بار) و چارچوب های پردازش جریان مانند جریان ساختاری Apache Flink یا Apache Spark می پردازد و به سازمان ها اجازه می دهد تا از یک لایه ارکستریته واحد برای گردش کار برنامه ریزی شده و رویداد استفاده کنند.

جریان هوا باعث تسریع در اجرای استنباط AI شرکت و ترکیب هوش مصنوعی می شود

ارکستراسیون داده های رویداد محور همچنین به جریان هوا برای پشتیبانی از اجرای سریع استنباط کمک می کند.

به عنوان نمونه ، Koka یک مورد استفاده را شرح می دهد که در آن از استنتاج در زمان واقعی برای خدمات حرفه ای مانند ردیابی زمان قانونی استفاده می شود. در آن سناریو می توان از جریان هوا برای جمع آوری داده های خام از منابع مانند تقویم ، ایمیل و اسناد استفاده کرد. از یک مدل بزرگ زبان (LLM) می توان برای تبدیل اطلاعات بدون ساختار به داده های ساخت یافته استفاده کرد. سپس یکی دیگر از مدل های از پیش آموزش شده می تواند برای تجزیه و تحلیل داده های ردیابی زمان ساختار یافته ، تعیین کند که آیا کار قابل پرداخت است ، سپس کدها و نرخ های صورتحساب مناسب را اختصاص دهید.

کوکا از این رویکرد به عنوان یک سیستم ترکیبی هوش مصنوعی یاد کرد – یک گردش کاری که مدلهای مختلف هوش مصنوعی را برای انجام یک کار پیچیده به طور کارآمد و هوشمندانه انجام می دهد. معماری رویداد Airflow 3.0 محور این نوع فرآیند استنباط چند مرحله ای در زمان واقعی را در موارد مختلف استفاده از شرکتها ممکن می سازد.

ترکیبی هوش مصنوعی رویکردی است که برای اولین بار توسط مرکز تحقیقات هوش مصنوعی برکلی در سال 2024 تعریف شد و کمی متفاوت از عامل AI است. کوکا توضیح داد که هوش مصنوعی عامل امکان تصمیم گیری در مورد هوش مصنوعی خود را فراهم می کند ، در حالی که ترکیبی از AI دارای گردش کار از پیش تعریف شده ای است که برای موارد استفاده از مشاغل قابل پیش بینی تر و قابل اطمینان تر است.

بازی توپ با جریان هوا ، چگونه تگزاس رنجرز به نظر می رسد

از جمله بسیاری از کاربران AirFlow ، تیم بیس بال لیگ برتر تگزاس رنجرز است.

الیور دیکسترا ، مهندس داده تمام پشته در باشگاه بیس بال تگزاس رنجرز ، به VentureBeat گفت که این تیم از جریان هوایی میزبانی شده در سیستم عامل Astro ستاره شناس به عنوان “مرکز عصبی” عملیات داده های بیس بال استفاده می کند. وی خاطرنشان کرد: همه توسعه بازیکنان ، قراردادها ، تجزیه و تحلیل ها و البته داده های بازی از طریق جریان هوا ارکستر می شوند.

دایکسترا اظهار داشت: “ما مشتاقانه منتظر هستیم تا به Airflow 3 و پیشرفت های آن در برنامه ریزی ، مشاهده و داده های مربوط به رویداد محور ، ارتقاء دهیم.” “از آنجا که ما در حال حاضر برای مدیریت خطوط لوله بحرانی AI/ML خود به جریان هوا اعتماد می کنیم ، بهره وری اضافه شده و قابلیت اطمینان Airflow 3 به افزایش اعتماد و تاب آوری این محصولات داده در کل سازمان ما کمک می کند.”

این به معنای پذیرش AI Enterprise چیست

برای تصمیم گیرندگان فنی که استراتژی ارکستراسیون داده ها را ارزیابی می کنند ، Airflow 3.0 مزایای عملی را ارائه می دهد که می توانند در مراحل اجرا شوند.

اولین قدم ارزیابی گردش کار داده های فعلی است که از قابلیت های جدید محور رویداد بهره مند می شوند. سازمان ها می توانند خطوط لوله داده ای را که در حال حاضر باعث ایجاد مشاغل برنامه ریزی شده می شوند ، شناسایی کنند ، اما محرک های مبتنی بر رویداد می توانند با کارآمدتر مدیریت شوند. این تغییر می تواند ضمن از بین بردن عملیات رای گیری زباله ، تأخیر پردازش را به میزان قابل توجهی کاهش دهد.

در مرحله بعد ، رهبران فناوری باید محیط های توسعه خود را ارزیابی کنند تا مشخص کنند که آیا پشتیبانی از زبان جدید Airflow می تواند ابزارهای ارکستراسیون پراکنده را ادغام کند. تیم هایی که در حال حاضر ابزارهای ارکستراسیون جداگانه ای را برای محیط های مختلف زبان حفظ می کنند می توانند برنامه ریزی یک استراتژی مهاجرت را برای ساده سازی پشته فناوری خود آغاز کنند.

برای شرکت هایی که راه را در اجرای AI پیش می برند ، Airflow 3.0 یک مؤلفه مهم زیرساخت را نشان می دهد که می تواند یک چالش مهم در پذیرش AI را برطرف کند: مجتمع ارکستر ، جریان کار AI چند مرحله ای در مقیاس شرکت. توانایی این پلتفرم در هماهنگی سیستم های هوش مصنوعی مرکب می تواند به سازمانها کمک کند تا از اثبات مفهوم به استقرار AI در سطح شرکت با مدیریت مناسب ، امنیت و قابلیت اطمینان استفاده کنند.