如今,人工智能已經深入到社會的方方面面,滲透到每個人的日常生活,從自動駕駛到人臉識別,再到機器翻譯。
然而,大家似乎只知人工智能,卻少有人了解機器學習。其實,人工智能得到廣泛應用,其底層基石正是機器學習。
絕大多數涉足人工智能的公司,無論是提供解決方案的科技公司,還是應用人工智能的行業用戶,都會把機器學習作為其主要業務領域之一。
未來,隨著人工智能的社會普及和行業深入,機器學習在產業界的重要性會得到進一步加強。在新興的大模型領域,會有機會涌現出一批科技創新企業,成為人工智能賽道上真正的明珠。
機器學習是人工智能的基石
機器學習就是讓計算機來模擬人類的學習行為,是人工智能的核心,是使計算機具有智能的根本途徑。
機器學習具有兩個典型的過程,一是訓練,二是推理。這兩個過程,都需要大量的算力作為保障,尤其是“訓練”,不僅需要龐大的AI算力,往往還需要海量的數據。
機器學習的訓練和推理,相當于人類的學習和工作。其中訓練的過程尤其重要,就像人類要通過16-20年的漫長學習才能具備工作能力一樣。訓練的結果則是“模型”,類似于人類的知識。而推理的過程則是把模型(知識),應用到實踐工作中。
以自動駕駛為例。自動駕駛汽車上都安裝了很多攝像頭和傳感器,用于探測路況。根據采集到的視頻等數據,做出判斷之后,決定下一步操作:轉彎、并線、加速、減速等。這個過程就是推理,推理依賴的不僅是實時采集到的數據,更需要使用訓練產生的模型。
訓練的工作是在推理之前完成的。自動駕駛公司要進行數十萬,甚至上百萬公里的實際道路學習。對于測試中獲得的圖片和影像數據,通過人工等標注方式,告訴計算機什么是路人、什么是車道、什么是限速牌等等。計算機需要通過各種算法對數據進行分析,最后形成了模型,被裝載到自動駕駛汽車上。
目前,機器學習被普遍采用的部署方式是:在云側進行訓練,因為需要大量的數據和算力;在邊側或者端側進行推理,因為需要低時延和貼近應用。
機器學習的不同實現方式
當前,人工智能的主要處理對象是自然語言、圖片、視頻等,從這些數據中提取信息,進行處理分析,并加以理解,最終落地實際應用。機器學習的對象,也正是這些數據。如何從數據中獲得知識,一直是科學界和產業界共同努力的方向。
在機器學習的訓練過程中,算法至關重要,有決策樹算法、樸素貝葉斯算法、隨機森林算法、神經網絡算法等等。但這些是科學家們需要努力攻關的,對于產業界而言,更為關注的是機器學習的實現方法。
按照訓練(學習)方式的不同,機器學習通?梢苑譃楸O督學習、非監督學習和強化學習三大類。
監督學習,也被稱為有導師的學習,如同老師教學生一樣。在監督學習過程中,訓練的每個示例都是要有標注的,就像上面提到的自動駕駛實際道路學習一樣。監督學習依賴于高質量的數據,包括數據的質和量。質——必須準確,否則計算機就會學到錯誤的知識,導致推理出錯;量——要覆蓋到實際道路的所有情況,否則計算機就不知道該如何應對該情況。
非監督學習,即沒有導師的學習,訓練的數據不需要做標記,減少了人工做數據標識的工作量,而且能夠覆蓋人想象不到的情況。比如在AI工業質檢中,可能的產品缺陷種類太多,人工很難窮舉。非監督學習的實現難度更大,是機器學習的未來發展方向。
強化學習也叫增強學習,其訓練過程不需要數據,而是通過特定環境中一系列行為的后果進行學習。強化學習輸入的是環境反饋,即獎懲信號,類似于馬戲團的動物訓練過程。
此外,深度學習和聯邦學習,也是機器學習正在快速興起的兩個分支。前者已經在AlphaGo上得到成功實踐,后者則由于數據安全的要求而隨著隱私計算得到應用。
迅速壯大的行業應用市場
市場研究公司IDC的預測數據顯示,未來五年,全球人工智能IT投資規模的年復合增長率約為26.5%;到2026年,中國市場的規模有望達到266.9億美元,全球占比約為8.9%,位列全球第二。
在這個快速增長的市場中,機器學習算力、機器學習開發平臺、機器學習行業應用,將占據非常重要的組成部分。
在算力層面,除了專業的芯片公司,很多科技公司也在開發用于機器學習的芯片。比如,華為的昇騰芯片、AWS的訓練芯片Trainium和推理芯片Inferentia、阿里云的推理芯片含光800等。
人工智能應用要想落地,還必須要有機器學習開發平臺的支持,這是一個面向開發者、數據科學家、業務分析師的PaaS平臺。目前,機器學習開發平臺的提供商大致有兩類,一類是云服務商,比如AWS的SageMaker、華為云的ModelArts等;另外一類是專業的人工智能公司,比如第四范式的Sage Platform、九章云極的DataCanvas等。
在應用層面,隨著越來越多的企業開始數字化轉型以及智能化升級,機器學習在行業市場得到了廣泛應用,為人工智能賦能產業提供助力。除了人臉識別、自動駕駛、機器翻譯等消費級應用,工業質檢、新藥開發、金融風險評估等企業級應用,也越來越多。
制造行業的AI視覺質量檢測,是機器學習最成熟的應用場景之一。IDC預計,到2025年中國工業AI質檢整體市場將達到62億元,年均復合增長率為28.5%。中科創達在Amazon SageMaker之上構建了創達智慧視覺檢測系統,幫助某面板制造企業取代人工質檢,檢測時間從3.5秒降低到0.1秒,準確率從85%提升到99%。
另外比如蛋白質結構研究,是生命科學領域的基礎問題。深勢科技與阿里云機器學習 PAI 團隊合作,通過全新的蛋白質結構預測推理加速方案FoldAcc,結合深勢Uni-Fold最新模型代碼和參數,將單次預測能支持的最大氨基酸序列長度提升至6.6k,覆蓋99.992%已知的蛋白序列。
無論是機器學習的行業應用還是通用應用,未來都會有更多的科技創新企業涉足其中。這也對其提出了更高的要求——既要懂前沿的AI科技,也要有深度的行業洞察,兩者缺一不可。
正在快速興起的大模型市場
從機器學習的實現方式可以看出,“模型”是機器學習的關鍵環節,它是“訓練”的結果,也是“推理”的基礎。要得到一個好的模型,需要海量的高品質數據,也需要海量的算力支持,可謂成本高昂。
一方面是模型訓練的投資巨大,另一方面是每個行業應用都是差異化的,這就導致需要重復進行大量的模型訓練,使得機器學習的成本居高不下,阻礙了行業應用的普及。
大模型的概念,由此而快速興起。國內一些頭部科技公司亦涉足其中,比如華為的盤古和百度的飛槳等。
大模型更準確的叫法應該是基礎模型,是大規模預訓練的結果,因為有著多達千億甚至上萬億的參數,而被稱為大模型或者超大模型。
大模型被稱為規模化生產高性能機器學習模型的生產線:通過提煉各大領域的共性來進行大規模預訓練,生產出標準化的基礎大模型;然后再根據各個行業不同的共性需求,訓練出行業預訓練大模型;最后根據具體應用場景的需求,通過少量定制開發形成推理模型,從而落地應用。
這樣的逐級訓練大模型的方式,可以最大程度降低全社會在機器學習成本上的投入,實現AI應用的規;涞。仍以自動駕駛為例,如果每個整車廠都要從頭開始做模型訓練,無疑是很大的浪費,畢竟大家面臨的道路情況是一樣的。如果有專業第三方公司來訓練和提供標準化的大模型,就可以避免重復投入。這樣,既降低成本又能提升性能,使自動駕駛更快落地。
大模型市場才剛剛起步,未來發展空間很大,當然變數也很大。訓練好大模型和應用好大模型,同樣重要。在這兩個環節上,未來或許會涌現出一批創業企業,尤其是專注于生產行業大模型的科技創新企業。