來源| Apache Flink 官方博客
翻譯| 林東
Apache Flink 社區很榮幸地宣布Apache Flink ML 2.2.0 版本正式發布!本次發布的版本重點添加了Flink ML 中的特徵工程算法。現在Flink ML 包含了33 個開箱可用的特徵工程算法,可以支援很多常見的特徵工程任務。
隨著這些算法的添加,我們相信Flink ML 已經準備好用於需要特徵工程的生產作業,例如預處理離線和在線機器學習任務的輸入數據。
我們鼓勵您下載該版本 [1] 並通過Flink 郵件列表 [2] 或JIRA [3] 與社區分享您的反饋!我們希望您喜歡新版本,並且我們期待了解您的使用體驗。
1. 引入在線推理服務需要的接口和基礎設施
在機器學習中,模型訓練的主要目標之一是將已訓練好的模型部署並支援在線推理。在線推理服務需要以毫秒級延遲響應傳入請求。之前發布的Flink ML 算子僅支援使用Flink 流處理引擎進行近線推理,延遲性能無法滿足在線推理的需要。
通過使用FLIP-289 [4] 所提供的接口,Flink ML 現在支援用戶從由Estimator 生成的模型數據加載ModelServable。這個ModelServable 可以被複製和部署在多個模型推理服務器上,執行大規模分佈式的在線模型推理。並且,ModelServable 不依賴Flink 的流處理引擎,它還可以作為Java UDF 集成到其他服務或處理框架中,讀取由Flink ML 生成的模型數據來進行離線或在線模型推理。
作為展示,我們添加了LogisticRegressionModelServable 算子,支援LogisticRegression 在線推理。我們將在接下來的Flink ML 發布中添加更多Servable 算子,讓Flink ML 訓練得到的模型數據能在更廣泛的場景中產生價值。
2. 添加了27 個特徵工程算法
此次Flink ML 版本顯著擴大了特徵工程算法的覆蓋範圍,將算法數量從6 增加到33。 Flink ML 現在覆蓋了Spark ML 提供的33 個特徵工程算法中的28 個,使其成為更全面的特徵工程任務庫。
特徵工程是現代AI 基礎設施的重要組成部分。它提供的數據預處理能力,不僅適用於傳統機器學習算法(eg GBT),也適用於越來越流行的深度學習算法(eg Transformer)。通過添加這些算法,我們希望Flink ML 能在更廣泛的機器學習任務中落地產生價值。
所有特徵工程算法都可以通過Flink ML 頁面左側的下拉列表 [5] 訪問。我們為每個算法提供了Python 和Java 示例,以演示如何使用它們。
3. 添加了兩個經過生產作業驗證的在線學習算法
通過使用Flink 強大的流處理能力,Flink ML 能更好地進行在線學習和頻繁更新模型數據。為了讓這個優勢落地並產生價值,我們在Flink ML 中實現了兩個在線機器學習算法並應用於阿里集團內部的智慧運維平台上。該算法能顯著降低智慧運維平台的模型更新延遲以及運維成本 [6]。
該智慧運維任務使用在線聚類算法來分類和檢測日誌中的錯誤信息,以幫助SRE 和用戶更高效地診斷問題。通過使用OnlineStandardScaler 和AgglomerativeClustering 算子進行在線數據預處理和在線聚類,我們簡化了該任務的基礎架構,並能更頻繁地更新模型。我們在去年的Flink Forward Asia [7] 大會上展示了這項工作,並且即將把相關工作集成到開源項目SREWorks [8]。
通過這些在線算法,Flink ML 支援機器學習任務持續使用新數據更新模型,從而提升推理服務的時效性和準確率。這個能力對於能接觸到最新用戶行為數據的機器學習任務是相當有價值的。
這個版本與Flink ML 2.1 完全向後兼容。用戶應該可以升級到Flink ML 2.2.0,而不必擔心任何不兼容性或破壞性變化。
用戶可以查看發布說明 [9] 以獲得詳細的修改和新功能列表。
二進製档案和源程式碼可以從Flink 官網的下載頁面 [1] 獲得,最新的Flink ML Python 發布可以從PyPI [10] 獲得。
Apache Flink 社區感謝對此版本做出貢獻的每一位貢獻者:
Zhipeng Zhang, Dong Lin, Fan Hong, JiangXin, Zsombor Chikan, huangxingbo, taosiyuan163, vacaly, weibozhao, yunfengzhou-hub
[1] https://flink.apache.org/downloads.html
[2] https://flink.apache.org/community.html#mailing-lists
[3] https://issues.apache.org/jira/browse/flink
[4] https://cwiki.apache.org/confluence/pages/viewpage.action?pageId=240881268
[5] https://nightlies.apache.org/flink/flink-ml-docs-master/docs/operators/feature/binarizer/
[6] https://mp.weixin.qq.com/s/yhXiQtUSR4hxp9XWrkiiew
[7] https://flink-forward.org.cn/
[8] https://github.com/alibaba/SREWorks
[9] https://issues.apache.org/jira/secure/ReleaseNote.jspa?projectId=12315522&version=12351884
[10] https://pypi.org/project/apache-flink-ml/
點擊查看更多技術內容
Github 地址: https://github.com/apache/flink-ml/
#Apache #Flink #發佈公告 #科技資訊
You may also like
相关贴文:
- 上游优先的故事 – 科技資訊编辑部的个人空间 – 科技資訊
- 小米A/B 實驗場景基於Apache Doris 的查詢提速優化實踐- SelectDB的個人空間- 科技資訊
- COSCL 社區暢聊第六期:開源軟件的生態建設與風險管理- 羅奇奇的個人空間- 科技資訊
- 數據湖與LakeHouse 依然炙手可熱- 科技資訊編輯部的個人空間- 科技資訊
- Apache Kvrocks:高性能的分佈式KV 數據庫
- 官宣|Apache Flink 1.16 發佈公告
- 大中型科技企業開源戰略制定與落地- 譚中意的個人空間- 科技資訊
- 中國開源創企調查:Apache 2.0 許可證是最大贏家- 科技資訊編輯部的個人空間- 科技資訊
近期文章
- Shoplentor的WooCommerce Gutenberg Blocks
- 如何在WooCommerce上添加訂單跟踪頁面|分步指南2025
- 開始使用WordPress和WooCommerce在線銷售
- 如何使用UPSellWP插件在WooCommerce中創建經常購買的捆綁包
- 使用多合一SEO來增強您的WooCommerce頁面
- 使用WooCommerce啟動板增強您的在線商店| |終極電子商務解決方案2025
- 頂級Whols插件功能可提高您的批發銷售!
- 將產品類別添加到WordPress WooCommerce中的菜單| weeweb
- 如何在WordPress上安裝WooCommerce(Cloudways教程逐步)