一個詞來介紹我,我是個經歷者,但更像一個觀察者。我其實是整個軟件行業過去20 多年的一個見證者和觀察者。作為觀察者要有客觀總結能力,然後包括對未來的一些看法,但是未來的看法不一定對,比如說GPT 的看法沒有人能打包票。
——PingCAP 副總裁劉鬆
每個時代都需要觀察者,尤其是在技術變革加速的今天。在GPT 帶來的震蕩之中,各領域技術都在尋找新的方向, 數據庫技術也不例外,動作快的數據庫和服務廠商也已經集成了AI 工具做SQL自動生成與机能優化。然而,麵對“來勢洶洶”的AI 技術浪潮,數據庫技術的方向在哪?又該如何用好AI? 科技資訊 採訪了GOTC2023 出品人、PingCAP 副總裁劉鬆,請他談談最近大熱的AI 技術,以及在新浪潮之下,數據技術的未來。
劉鬆
PingCAP 副總裁
曾經擔任甲骨文大中國區技術戰略部總經理,阿里雲副總裁等職務,曾負責阿里雲的雲計算生態構建,智庫合作,人才培養計劃等工作。劉鬆長期活躍於中國軟件產業,親身觀察互聯網與信息化產業融合趨勢,在軟件與互聯網行業發展趨勢,雲計算和開源產業的商業模式構建,數據庫技術發展趨勢,企業數字化轉型等方麵多年的實踐經驗。
5 月28 日,劉鬆擔任GOTC 2023 “數據與數據庫技術”分論壇出品人,並發錶《從HTAP 到Serverless,TiDB 的技術演進之路》主題演講,敬請期待!
參會報名,請訪問: https://www.bagevent.com/event/8387611
科技資訊:您最近這段時間很關注GPT 的動態,到目前為止,對它最深的感觸是什麼?
劉鬆:
我覺得可以用一個詞——湧現,Emergency。
我個人是一個複雜性係統科學的愛好者,大家可能聽說過聖達菲研究所,緻力於復雜係統科學的研究。在八九十年代的美國,湧現有一個時代特定的含義——當一個複雜性係統超過某個臨界點,就會誕生很多按照原本係統的線性思維下預測不可能發生的事情。
首先是大模型,過了千億級別以後,一下子就變得有智慧了,這是一種湧現。
第二個湧現現在正在發生,當GPT 這類大模型的技術與我們熟悉的軟件事業、各行業場景結合後會有更大一輪的湧現。現在發生了很多原來我沒想過的一些非線性的爆發,短時間內突然產生了原來沒有的東西,這些東西的形態又是一個爆發狀態,像所謂寒武紀大爆發的邏輯。
ChatGPT 從去年12 月開放,中文世界到了今年2 月之後,一下子話題爆了。一方麵是技術過了臨界點,讓每個人都有所觸動,發現自己懂的東西原來AI 更懂。另外一點就是,尤其IT 圈以外的人,都覺得它能改變我的工作甚至是未來的命運,都是有可能的,所以我想這可能是最重要的感觸,是一個湧現的開始。
科技資訊:您最近還說過一句話——十年雲舞台,新的舞者是Serverless+HTAP+AI。怎麼理解這句話?
劉鬆:
我成為一個雲的從業者剛好是十年前,2013 年是我在Oracle 的最後一年,從那時候開始,Oracle 中國的人給我的稱謂是Mr. Cloud。那時候Oracle 剛開始轉型做雲,包括數據庫、SAAS。後來第二年我就去了阿里雲,算是阿里雲商業化的第一批人,主要負責雲生態,也做了一些垂直行業比如金融雲的工作。所以對雲的理解差不多正好是十年。
到了前兩年我認為雲1.0 差不多算是收官了,以資源型為主的雲是基礎設施,可以讓所有行業應用可以快速、彈性上雲。我在雲舞台上已經待了十年。現在回頭看,雲最大的方向是承擔全社會數字化轉型的最終命題,其中隱含的兩個關鍵技術,一個是數據技術,一個是人工智慧,而且這兩個東西都強調是以雲為主。
在數字化里麵,所有用戶都希望要有以HTAP 技術為代錶的一體化的數據服務。 AI 技術方麵,這一波GPT 的湧現已經告訴所有人,要有巨大的算力支撐才能將AI 訓練到這個級別。
那麼這三種技術在未來會有更深地融合。
我們在1 月10 發布了一個小產品,在TiDB Cloud 上麵發布了基於AIGC 的智慧數據探索功能- Chat2Query。大家可以很容易看到自然語彙秒內生成 SQL,然後通過 HTAP 這種技術,快速用行存列存混合的方式返回一個要查詢的結果。當資源不夠的時候,會通過 Serverless 自動擴展。
Serverless+ HTAP + AI,這三種技術在今天也有一個共同的承諾或者說特點——在秒級別去反饋人類的需求,秒級別把你說的話變成 SQL、秒級別做複雜查詢、當資源不夠時再秒級地做用戶無感的雲資源調用。
過去十年,很多互聯網公司、大型企業數字化講上雲,但本質上是做兩件事,第一件事是買雲端資源,用戶採用租用的模式,付費方式並不是因為某個特定Query 的查詢來付費。過去十年雲計算市場形成了通過互聯網的方式提供資源租用的形態,但這個形態大家已經進入到同質化的階段。向上延伸就是把雲1.0 的底座夯實。
夯實算力基礎,不管是CPU 還是GPU 都是非常重要的。大模型訓練也是靠這個,OpenAI 訓練的背後很大程度上也是靠微軟的雲。今天亞馬遜雲,阿里雲也都快速跟進,因為這對雲廠商來說絕對是一個機會。
科技資訊:未來的關鍵塑造因素在哪?數據庫技術可能的服務場景是什麼樣的?
劉鬆:
如果說過去的十幾年亞馬遜在全球靠基礎設施的創新,包含軟硬体的創新領先。那麼往下五到十年,雲2.0 的最大舞台依賴三個關鍵塑造因素,一個是云自己的雲原生,二是數據技術,第三個是AI 變成一種類似基礎服務?當然還有另外一點是,新的大模型和數據庫技術能不能在B 端融合創造出更多新場景,這也是大家非常關注的話題。
雲端的AI 和數據庫的融合可能是發生在B 端。我們現在用GPT 類產品主要還是普通人在一個公共廣場上解決一些科普性的問題,而且大部分是非結構化數據。但是我們試想一下,一個企業的执行长,他非常關注的話題,GPT 類產品是不能直接解決的,比如說我希望讓我的企業的下個月人才提效指標 10% 應該從哪些部門入手?
對於這個問題,一方麵需要企業內部的數據庫裡有大量的專業應用的模型和算法,另一方麵還要比對外界的同行、考慮經濟環境是怎麼樣的。所以我們設想一下,假如我們列一個执行长 的100 個常見問題。那麼未來五到十年,能不能通過自然語彙的方式詢問?通過AI 和數據庫結合,包括大模型,內外部數據的結合,給到执行长 這些問題,這個是我們可以憧憬的一個地方。
科技資訊:數據技術和AI 技術發展的不同在哪?
劉鬆:
數據庫行業是四世同堂,到今天,你還是可以在雲端,比如說AWS 上買到Oracle 的數據庫服務,無論是之後的開源MySQL、Redis,還是我們的分佈式數據庫 NewSQL 像TiDB 這樣的數據庫雲都有市場。數據庫相對來說格局更清晰,四世同堂,每一個都能盡量尋找自己的價值和體驗。價值就是你能不能以更好、更快的方式兌現數據價值,體驗是指在雲端的數據庫體驗會不會更好。
在數據庫領域,數據庫領域的多種技術都有存在的意義,另外一方麵反過來說,沒有一種新技術能夠完全替代原來所有的技術。
但AI 技術正好相反,AI 技術的屬性是弒父。新的技術只要一出來,原有的技術,不管是爺爺還是父親全部都沒有意義了,這個就是從GPT 對於NLP 的顛覆就能夠看出來,這思路就完全變了。那下一代出來的東西很有可能也會把當前的 GPT 模式完全殺掉。這方麵看大模型類的AI 應用確實風險等大,但機會也會更大。
我覺得AI 相關的大模型或者應用生存的關鍵在於專業門檻,未來無非就是向上和向下兩個方向發展。一個是底層技術的先進性,比如大模型本身的先進性,這個大家都看得到。然後AI 技術向場景延伸時,有兩個地方必須閉環,形成門檻:一個是專業領域的數據,比如醫療、汽車等領域,如果大模型能訪問到其數據,在這個領域裡就會更強;還有向上應用的創建性,麵向用戶的,可以想像,未來無論是人力資源管理還是所有的客服體係、數字營銷、新世代的 BI,廣義上的新世代搜索等等,這些可能都會被GPT 這樣的智慧技術重新做一遍。
那麼重複的門檻在哪裡?一個是模型本身,一個就是專業數據的提煉和學習能力,還有一個就是應用構建的友好度,或者說是體驗。即AI 在垂直行業的體驗加上價值,在這個基礎上,AI 可能要比數據技術麵臨更大的或然性和挑戰。
科技資訊:PingCAP 現在對未來是什麼看法,採取了哪些行動?
劉鬆:
我們現在有一個新的信念,認為AI 和數據融合會對於企業用戶產生巨大的、全方位的價值。
有三個層次,第一個層次是用戶最容易見到的,像Chat2Query 裡做的,就是自然語彙代替了SQL,成為主要的查詢語句。在用戶想要獲取一些洞察及服務的時候,比如一個快遞小哥、外送小哥、或者每個消費者去查詢你的商品、外賣到哪裡了的行為,其實是一種數據消費。如果這樣的查詢都用自然語彙來解決,整個數據庫的使用人數和頻次可能會大100 倍、1000 倍,甚至更大。反過來,這對數據技術與AI 技術的融合帶來了更高的要求。
第二個層次,以數據庫技術的處理和查詢優化為例,這幾年數據庫技術領域主要有兩個流派,一個是AI For DB,一個是DB For AI。簡單來說,一個是數據庫的“自動駕駛”,維護可以用機器學習去優化,這樣就不用花太多人力成本,尤其是在雲端。另外一個是查詢的優化,包括机能的調優,這是數據庫領域老大難的問題,現在可以通過GPT 和相關的AI 技術來解決。那麼這些數據運維,以及數據架構師的工作量就大幅降低了,任何一個項目都會以比之前更快的速度迭代。
最後一層對於數據庫技術本身的要求,當AI 變成每個人通用的、用來做查詢和獲取洞察的工具的時候,中間有一些工程調優,包括對算法的調用等等,那麼數據技術到底應該以什麼方式來組織?
我們認為,可能傳統數據庫的未來會變成一種在線數據服務的形態——Online Data Service,這是廣義的,還不是簡單的數據庫變成了服務。這也是PingCAP 在過去幾年一直在演進的。
我想我們最大的變化是從一個更多地服務互聯網場景的分佈式數據庫,變成了一個以雲端為主的數據服務廠商,這是一個廣泛意義上的數據服務,不管是交易還是查詢都有,我們現在也是一個開放式的架構。
所以我想總結一下,這一波AI 變成了一個新世代的GUI,會增加千倍萬倍的使用數據的用戶。首先對於數據庫的所有的從業人員,AI 是提升机能調優和各種項目工程進度的巨大助力。另外在現在這種數據服務這種形態,可能更能夠和AI 做很好地結合。這也回到我剛剛講的小例子,關於Chat2Query,用戶用秒級自然語彙提問的問題,變成Query,再到通過HTAP 技術來實現查詢,這其實就是一個數據服務,然後很快給用戶反饋結果、帶來一個決策,那這個閉環是在秒級。這就是我們認為未來,AI 和數據技術在雲端,三者形成了一個全新的、組合式的創新,變成了一種新的數據服務形態。
“數據與數據庫技術” 分論壇將在5 月28 日與大家見麵,屆時多位數據與數據庫技術領域大咖將到現場分享自己項目經驗,歡迎感興趣的小伙伴點擊下文鏈接,報名參會!
參會報名,請訪問: https://www.bagevent.com/event/8387611
全球開源技術峰會(Global Open-source Technology Conference),簡稱GOTC,是由開放原子開源基金會、上海浦東軟件園、Linux 基金會亞太區和開源中國聯合發起的,麵向全球開發者的一場盛大開源技術盛宴。 5 月27 日至28 日,GOTC 2023 將於上海舉辦為期2 天的開源行業盛會。大會將以行業展覽、主題發彙、專題論壇、開源市集的形式展現,與會者將一起探討元宇宙、3D 與遊戲、eBPF、Web3.0、區塊鍊等熱門技術主題,以及開源社區、AIGC、汽車軟件、AI 編程、開源教育培訓、雲原生等熱門話題,探討開源未來,助力開源發展。
GOTC 2023 報名通道現已開啟,誠邀全球各技術領域開源愛好者共襄盛舉!
進入官網了解更多信息,請訪問: https://gotc.oschina.net/
#GOTC2023出品人劉鬆二十年IT #見證者眼中數據技術的未來 #科技資訊編輯部的個人空間 #科技資訊
You may also like
相关贴文:
- 2022 AI 領域發展關鍵詞- 科技資訊編輯部的個人空間- 科技資訊
- 數據湖與LakeHouse 依然炙手可熱- 科技資訊編輯部的個人空間- 科技資訊
- RISC-V 有望與X86、ARM 形成三足鼎立之勢- 科技資訊編輯部的個人空間- 科技資訊
- 操作系統根社區或能應對停服難題- 科技資訊編輯部的個人空間- 科技資訊
- Rust 將進入爆發性的增長期- 科技資訊編輯部的個人空間- 科技資訊
- 爭執不斷,但低程式碼的發展已經成為趨勢- 科技資訊編輯部的個人空間- 科技資訊
- eBPF為雲原生應用可觀測性開啟更多可能性- 科技資訊編輯部的個人空間- 科技資訊
- 2022 年,雲原生開源技術生態取得什麼重要進展? – 科技資訊編輯部的個人空間- 科技資訊
近期文章
- 2024 年如何學習 Shopify 開發
- Shopify 太邪惡了!不要使用! Shopify 不會釋放我的資金 |預言性警告 | Shopify 付款
- 10 個讓你大吃一驚的 ChatGPT 黑客!
- 配置 Shopify POS – 預覽
- 得獎者 Ürün Bulmak Áçin Áhtiyacın Olan TEK 影片 (Shopify Dropshipping)
- 如何免費打造 7 位數的 Shopify 商店
- META 商務套件:終極教學 2024
- [FIL] Shopify Rebellion 與名詞 (BO5) | DreamLeague 第 24 季北美封閉預選賽總決賽
- 教學完整:Crearea Magazinului pe Shopify(Curs Gratuit Pas cu Pas Dropshipping)
發佈留言