
斯倫貝謝(SLB)軟件技術(shù)與創(chuàng)新中心高級(jí)機(jī)器學(xué)習(xí)工程師齊克里?拜拉克塔爾,探討了機(jī)器學(xué)習(xí)(ML)和人工智能(AI)這一不斷拓展的話題,及
人工智能在上游領(lǐng)域日益廣泛的應(yīng)用。
人工智能(AI)和機(jī)器學(xué)習(xí)(ML)常被互換使用。它們是否存在重疊?
拜拉克塔爾:盡管在一定程度上存在重疊,但實(shí)際上二者是不同的。人工智能廣義上專注于模擬人類決策過(guò)程以解決問(wèn)題的系統(tǒng),包括基于規(guī)則的系統(tǒng)、機(jī)器學(xué)習(xí)中的基于數(shù)據(jù)的算法、機(jī)器人技術(shù)等。
機(jī)器學(xué)習(xí)可視為人工智能的一個(gè)子集,其算法能夠從數(shù)據(jù)中學(xué)習(xí)、發(fā)現(xiàn)模式、改進(jìn)結(jié)果或在無(wú)需明確指令的情況下實(shí)現(xiàn)某些任務(wù)的自動(dòng)化。這兩個(gè)領(lǐng)域都廣泛利用現(xiàn)有數(shù)據(jù),可能消耗大量計(jì)算資源,最終也可能產(chǎn)生隨機(jī)結(jié)果。
20世紀(jì)50年代發(fā)表的三篇論文意義重大:《圖靈測(cè)試》、《機(jī)器人三定律》和《感知機(jī)》,它們從生物抽象概念出發(fā),奠定了神經(jīng)網(wǎng)絡(luò)(NN)的基礎(chǔ)。十年后,通過(guò)反向傳播訓(xùn)練的感知機(jī)為Transformer模型奠定了基礎(chǔ),而正是Transformer模型為我們帶來(lái)了如今所使用的翻譯工具、聊天機(jī)器人以及人工智能/機(jī)器學(xué)習(xí)解決方案!
能否分享一些幾年前無(wú)法實(shí)現(xiàn)、但如今借助人工智能/機(jī)器學(xué)習(xí)實(shí)現(xiàn)的解決方案案例?
拜拉克塔爾:我住在舊金山灣區(qū),這里的自動(dòng)駕駛汽車越來(lái)越多。坐進(jìn)一輛自動(dòng)駕駛汽車,發(fā)現(xiàn)沒(méi)有司機(jī),一開(kāi)始會(huì)讓人感到不安。但在復(fù)雜的城市交通中平穩(wěn)行駛幾分鐘后,你會(huì)放松下來(lái),并對(duì)這項(xiàng)技術(shù)驚嘆不已。在先進(jìn)的機(jī)器學(xué)習(xí)算法和人工智能系統(tǒng)的部分推動(dòng)下(這些系統(tǒng)能無(wú)縫融合各種傳感器并做出決策),自動(dòng)駕駛汽車已不再是幻想。
同樣,如今能與人類語(yǔ)音、攝像頭和文本交互的個(gè)人助理已成為我們?nèi)粘I畹囊徊糠郑核鼈兛梢钥刂萍矣秒娖?、開(kāi)關(guān)水電、預(yù)警安全問(wèn)題,甚至給寵物喂食。這些都得益于高精度的傳感器數(shù)據(jù)、復(fù)雜的大型語(yǔ)言模型(LLMs)和人工智能代理。
運(yùn)行人工智能/機(jī)器學(xué)習(xí)需要多大的計(jì)算機(jī)算力?我們可以在個(gè)人電腦上使用人工智能/機(jī)器學(xué)習(xí)工具嗎?
拜拉克塔爾:這要視情況而定。計(jì)算資源的需求取決于可用數(shù)據(jù)量、人工智能模型類型、機(jī)器學(xué)習(xí)模型參數(shù)數(shù)量,以及用戶愿意等待多久以獲得良好結(jié)果。
一旦數(shù)據(jù)安全得到保障且隱私得到保護(hù),根據(jù)架構(gòu)不同,機(jī)器學(xué)習(xí)模型可以在配備中央處理器(CPU)或圖形處理器(GPU)的筆記本電腦、臺(tái)式工作站,或帶有GPU、張量處理單元(TPUs)等硬件加速器的集群上進(jìn)行訓(xùn)練。
如果目標(biāo)是使用訓(xùn)練好的模型進(jìn)行推理,那么經(jīng)過(guò)蒸餾或量化的人工智能/機(jī)器學(xué)習(xí)模型(如大型語(yǔ)言模型)可以部署在個(gè)人電腦甚至手機(jī)上。經(jīng)過(guò)適當(dāng)量化的人工智能/機(jī)器學(xué)習(xí)模型所需硬件資源(內(nèi)存、GPU 等)更少,同時(shí)不會(huì)大幅犧牲性能。
像ChatGPT或Gemini這類規(guī)模的大型模型通常在配備高端GPU的共享服務(wù)器上運(yùn)行,因?yàn)閳?zhí)行速度對(duì)用戶來(lái)說(shuō)很重要。即便如此,我們也已在實(shí)時(shí)場(chǎng)景中部署了微型機(jī)器學(xué)習(xí)模型,這些模型可以適配現(xiàn)場(chǎng)工具的小內(nèi)存,甚至能在現(xiàn)場(chǎng)可編程門陣列(FPGAs)或?qū)S眉呻娐罚ˋSICs)上運(yùn)行。
如何獲取人工智能/機(jī)器學(xué)習(xí)工具?
拜拉克塔爾:如今,幾乎所有云服務(wù)提供商和科技公司都有自己的語(yǔ)言和視覺(jué)基礎(chǔ)模型版本。通過(guò)可編程應(yīng)用程序接口(APIs)和用戶友好的圖形用戶界面(GUIs)訪問(wèn)這些模型的成本正在迅速下降。這些模型在云服務(wù)器上運(yùn)行,用戶提供的任何數(shù)據(jù)都存儲(chǔ)在第三方服務(wù)器上。
開(kāi)源人工智能社區(qū)已經(jīng)取得了長(zhǎng)足發(fā)展。微軟的Phi系列和Meta的Llama系列是其復(fù)雜機(jī)器學(xué)習(xí)模型的免費(fèi)版本。這使得在私有數(shù)據(jù)上進(jìn)行本地部署變得更加容易,并促進(jìn)了人工智能/機(jī)器學(xué)習(xí)技術(shù)的更廣泛應(yīng)用。
低代碼或無(wú)代碼的自動(dòng)化機(jī)器學(xué)習(xí)工具對(duì)人工智能/機(jī)器學(xué)習(xí)新手特別有用。它們提供多種算法,用戶只需導(dǎo)入數(shù)據(jù)即可。這些工具會(huì)建議如何清理和格式化數(shù)據(jù)、選擇高效模型并進(jìn)行訓(xùn)練,還能幫助分析結(jié)果。我發(fā)現(xiàn)這些工具對(duì)于在有限數(shù)據(jù)集上訓(xùn)練新模型以快速制作原型非常有幫助。這些軟件包可以在第三方服務(wù)器上使用,也可以下載到個(gè)人電腦上。
人工智能/機(jī)器學(xué)習(xí)在石油和天然氣領(lǐng)域有哪些應(yīng)用場(chǎng)景?
拜拉克塔爾:當(dāng)前的大型語(yǔ)言模型用途極為廣泛。我們正迅速習(xí)慣人工智能語(yǔ)音代理生成會(huì)議摘要、處理復(fù)雜的財(cái)務(wù)文件或合同以提取準(zhǔn)確信息,以及實(shí)現(xiàn)財(cái)務(wù)規(guī)劃和預(yù)算應(yīng)用的自動(dòng)化。
在石油和天然氣領(lǐng)域,人工智能/機(jī)器學(xué)習(xí)應(yīng)用有助于測(cè)井信號(hào)分類、測(cè)量測(cè)井質(zhì)量檢查、井眼圖像和目標(biāo)分類、地震數(shù)據(jù)處理與自動(dòng)化、復(fù)雜物理模型的替代模型、化學(xué)合成或材料篩選的機(jī)器學(xué)習(xí)模型、過(guò)程控制與自動(dòng)化等諸多方面。
我工作的一個(gè)特定方向是將物理模型與基于機(jī)器學(xué)習(xí)的模型相融合或混合,以捕捉比以往更復(fù)雜的行為。
您曾發(fā)表過(guò)關(guān)于將人工智能/機(jī)器學(xué)習(xí)應(yīng)用于測(cè)井分析和地質(zhì)建模的文章。能否分享一下您的經(jīng)驗(yàn)和成果?
拜拉克塔爾:在過(guò)去十年中,我開(kāi)發(fā)、設(shè)計(jì)并構(gòu)建了各種人工智能/機(jī)器學(xué)習(xí)模型。在早期工作中,我構(gòu)建的替代神經(jīng)網(wǎng)絡(luò)模型比現(xiàn)有的電磁求解器快幾個(gè)數(shù)量級(jí),這些模型被用于反演問(wèn)題。這次成功之后,我開(kāi)始構(gòu)建神經(jīng)網(wǎng)絡(luò),輸入原始儀器信號(hào),生成油基泥漿微電阻率儀器的解釋結(jié)果,旨在替代反演工作流程。
借助這些神經(jīng)網(wǎng)絡(luò),我們實(shí)現(xiàn)了速度上幾個(gè)數(shù)量級(jí)的提升,同時(shí)解釋質(zhì)量與基于反演的解釋相當(dāng)。隨后,我們基于對(duì)沉積幾何形態(tài)的理解,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)(CNNs)開(kāi)展井眼圖像分類工作。從那以后,我們?cè)诓牧虾Y選、任務(wù)自動(dòng)化以及能理解我們所在領(lǐng)域的語(yǔ)言模型設(shè)計(jì)等方面發(fā)表了更多項(xiàng)目成果。
通過(guò)這些研究發(fā)現(xiàn),主要挑戰(zhàn)始終是獲取高質(zhì)量數(shù)據(jù)。一旦數(shù)據(jù)難題得到解決,設(shè)計(jì)能解決技術(shù)或業(yè)務(wù)問(wèn)題的機(jī)器學(xué)習(xí)項(xiàng)目就需要機(jī)器學(xué)習(xí)工程師與領(lǐng)域?qū)<覅f(xié)作、明確成功標(biāo)準(zhǔn),并制定周密的部署策略。在工作流程的任何階段,錯(cuò)誤的決策都可能影響模型的可行性或部署效果。
在收集優(yōu)質(zhì)且足夠大的訓(xùn)練數(shù)據(jù)方面存在哪些挑戰(zhàn)?
拜拉克塔爾:在我們這個(gè)領(lǐng)域,數(shù)據(jù)受到合理保護(hù)是理所當(dāng)然的。獲取數(shù)據(jù)用于訓(xùn)練機(jī)器學(xué)習(xí)模型是一個(gè)重大挑戰(zhàn)。如果數(shù)據(jù)量是問(wèn)題,那么參數(shù)數(shù)量少的機(jī)器學(xué)習(xí)架構(gòu)也能提供良好結(jié)果。然而,如果數(shù)據(jù)缺乏多樣性,模型就會(huì)存在偏見(jiàn),無(wú)法實(shí)現(xiàn)泛化。在這種情況下,基于局部或盆地的模型可以滿足需求。數(shù)據(jù)量沒(méi)有固定的最佳數(shù)值;人們總能調(diào)整出最佳模型架構(gòu)、優(yōu)化參數(shù)、擴(kuò)充數(shù)據(jù),并利用已知物理知識(shí)設(shè)置防護(hù)措施。
如果某個(gè)項(xiàng)目或機(jī)器學(xué)習(xí)方法是新的,那么利用公開(kāi)可用的數(shù)據(jù)集降低該方法的風(fēng)險(xiǎn)是合理的。我會(huì)保持謹(jǐn)慎,確保在著手解決問(wèn)題之前處理好數(shù)據(jù)許可問(wèn)題。對(duì)于專有數(shù)據(jù),必須采取適當(dāng)步驟保障數(shù)據(jù)駐留、數(shù)據(jù)隱私,高效整合孤立數(shù)據(jù)集,建立長(zhǎng)期的數(shù)據(jù)治理機(jī)制,并確保數(shù)據(jù)標(biāo)注在全球范圍內(nèi)保持一致。
為加速石油和天然氣領(lǐng)域人工智能/機(jī)器學(xué)習(xí)解決方案的開(kāi)發(fā),我們需要在哪些方面開(kāi)展合作?
拜拉克塔爾:要成功應(yīng)用人工智能/機(jī)器學(xué)習(xí),我們行業(yè)可以與云行業(yè)、學(xué)術(shù)機(jī)構(gòu)、政府機(jī)構(gòu)、開(kāi)源社區(qū)以及SPE等專業(yè)協(xié)會(huì)開(kāi)展合作。
云技術(shù)公司擁有資源,可為學(xué)術(shù)和研究用途提供開(kāi)源數(shù)據(jù)集共享支持。數(shù)據(jù)科學(xué)公司可以使其工具適應(yīng)我們行業(yè)的需求。軟件公司專注于行業(yè)標(biāo)準(zhǔn)數(shù)據(jù)模型,讓處理海量數(shù)據(jù)變得更加容易。
大學(xué)可以鼓勵(lì)并教授如何在人工智能項(xiàng)目中利用復(fù)雜的領(lǐng)域特定知識(shí),政府機(jī)構(gòu)可以促進(jìn)知識(shí)和數(shù)據(jù)的共享(潛在地在全球范圍內(nèi))。
SPE等專業(yè)組織可以推動(dòng)這種知識(shí)共享,倡導(dǎo)加速人工智能合作的政策,提供低成本的培訓(xùn)和認(rèn)證項(xiàng)目,并成為一個(gè)協(xié)作平臺(tái),讓從學(xué)生到石油和天然氣行業(yè)資深人士的各方都能為下一代人工智能/機(jī)器學(xué)習(xí)的發(fā)展貢獻(xiàn)力量。
開(kāi)源社區(qū)在人工智能/機(jī)器學(xué)習(xí)的未來(lái)發(fā)展中扮演什么角色?
拜拉克塔爾:我是開(kāi)源的大力支持者,并且堅(jiān)信開(kāi)源能同時(shí)加快人工智能 / 機(jī)器學(xué)習(xí)方法的開(kāi)發(fā)和應(yīng)用速度。我曾多次從其他領(lǐng)域部署的人工智能方法中獲得靈感,也受益于開(kāi)源示例,這些都降低了我的學(xué)習(xí)難度,還讓我能借鑒那些乍一看與石油和天然氣行業(yè)無(wú)關(guān)的解決方案。研究表明,開(kāi)源軟件實(shí)踐能為經(jīng)濟(jì)做出巨大貢獻(xiàn),創(chuàng)造激烈的競(jìng)爭(zhēng),并為安全、負(fù)責(zé)任的模型提供透明度。
Hugging Face是人工智能/機(jī)器學(xué)習(xí)領(lǐng)域一個(gè)成功的開(kāi)源平臺(tái),我從它成立之初就一直關(guān)注。
他們不僅創(chuàng)建了一個(gè)模型共享平臺(tái),還在一定程度上統(tǒng)一了模型開(kāi)發(fā),圍繞各種主題建立了開(kāi)放社區(qū),并分享機(jī)器學(xué)習(xí)開(kāi)發(fā)的各個(gè)方面——從數(shù)據(jù)到在線部署模型,再到圍繞該領(lǐng)域一些前沿話題構(gòu)建免費(fèi)教育資源。他們將開(kāi)源與社區(qū)相結(jié)合的方式,為如今的各項(xiàng)發(fā)展做出了重大貢獻(xiàn),這一點(diǎn)值得稱贊。
要成為石油和天然氣領(lǐng)域的人工智能/機(jī)器學(xué)習(xí)專家,有哪些培訓(xùn)資源和職業(yè)發(fā)展路徑?
拜拉克塔爾:如果您是受過(guò)訓(xùn)練的科學(xué)家或工程師,那么您很可能已經(jīng)修過(guò)數(shù)學(xué)和編程基礎(chǔ)課程,具備進(jìn)入機(jī)器學(xué)習(xí)領(lǐng)域的條件。目前,頂尖大學(xué)在 YouTube及其各自的課程網(wǎng)站上提供了各種開(kāi)源課程。
我強(qiáng)烈建議將學(xué)習(xí)資源與手頭的項(xiàng)目相匹配,邊學(xué)邊用,將所學(xué)立即應(yīng)用到實(shí)際問(wèn)題中。我發(fā)現(xiàn)各種低成本的在線課程(帶有實(shí)際編程作業(yè))非常有用,無(wú)論是在理解基礎(chǔ)理論方面,還是在基于現(xiàn)有數(shù)據(jù)訓(xùn)練模型的實(shí)踐經(jīng)驗(yàn)方面。
同樣,SPE也提供了多種學(xué)習(xí)和實(shí)踐人工智能/機(jī)器學(xué)習(xí)的資源。我的第一個(gè)機(jī)器學(xué)習(xí)項(xiàng)目(我們?yōu)榇双@得了專利)使用了簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò),但我們必須基于領(lǐng)域?qū)I(yè)知識(shí)從頭構(gòu)建工作流程。如果有人擁有人工智能/機(jī)器學(xué)習(xí)學(xué)位,他們也可以與領(lǐng)域?qū)<液献?,運(yùn)用自己的技能解決復(fù)雜的科學(xué)和工程問(wèn)題。
您個(gè)人期待人工智能/機(jī)器學(xué)習(xí)領(lǐng)域有哪些新發(fā)展?
拜拉克塔爾:生成式人工智能代理是一項(xiàng)新興且影響重大的發(fā)展,它讓人工智能的使用變得更加便捷。借助現(xiàn)有工具,無(wú)需明確指令,它就能主動(dòng)推理以實(shí)現(xiàn)用戶分配的目標(biāo)。這些專門的生成式人工智能模型可以訪問(wèn) API、數(shù)據(jù)庫(kù)或網(wǎng)絡(luò)服務(wù)、自定義專有函數(shù)、簡(jiǎn)單的物聯(lián)網(wǎng)(IoT)設(shè)備或大型系統(tǒng)。我相信我們才剛剛起步,這一領(lǐng)域?qū)⒀杆侔l(fā)展。
此外,還有幾個(gè)人工智能研究課題我希望能蓬勃發(fā)展。其中一個(gè)與石油和天然氣領(lǐng)域相關(guān)的是模型的多模態(tài)性。我們?nèi)祟悓W(xué)習(xí)和處理的數(shù)據(jù)具有多種形式。
人工智能在利用這類數(shù)據(jù)集方面可以做得更好。雖然大型語(yǔ)言模型開(kāi)辟了新途徑,但我認(rèn)為文本應(yīng)該與圖像和聲音相結(jié)合,以完成更復(fù)雜的任務(wù)。在石油和天然氣領(lǐng)域,我們有各種數(shù)據(jù)模態(tài),如果人工智能研究能專注于處理各種非結(jié)構(gòu)化數(shù)據(jù)模態(tài),我們將受益匪淺。
在我們行業(yè)之外,我期待看到人工智能天氣預(yù)報(bào)模型取得更多成就,這些模型可以拯救生命并減少財(cái)產(chǎn)損失。在這方面,傅里葉神經(jīng)算子、擴(kuò)散模型和圖神經(jīng)網(wǎng)絡(luò)在局部和全球范圍內(nèi)都展現(xiàn)出巨大潛力。