Warning: mkdir(): No space left on device in /www/wwwroot/T3.COM/func.php on line 127

Warning: file_put_contents(./cachefile_yuan/hnsstwl.com/cache/8e/e3b1e/48f44.html): failed to open stream: No such file or directory in /www/wwwroot/T3.COM/func.php on line 115
那些聯合起來訓練AI模型的企業,到底是怎麽應對數據安全顧慮的?--星空人工智能91视频免费观看網

星空人工智能91视频免费观看網

那些聯合起來訓練AI模型的企業,到底是怎麽應對數據安全顧慮的?

 機器之心原創

作者:張倩

為訓練數據建一個TB級計算「飛地」,聯邦學習的靠譜實現方式了解一下?

2017年,著名雜誌《經濟學人》發表封麵文章稱,數據已經取代石油成為當今世界最有價值的資源。在那之後,「數據是新時代的『石油』」這一說法逐漸深入人心。

圖源:http://twitter.com/theeconomist/status/860135249552003073

五年後的今天,人們對數據的重視又上了一個新的台階,尤其是在AI領域。大家普遍認為,數據的質量和規模將對AI的研究和落地產生重要影響。

在質量方麵,吳恩達等學者提出,AI領域正經曆從「以模型為中心」到「以數據為中心」的轉變。他認為,「對於很多行業來說,現在更有效率的做法是保持神經網絡體係架構不變,轉而尋找改進數據的方法」。為了幫助機構提升數據質量,吳恩達所在的Landing.AI等公司正在構建一些實用的工具。

在規模方麵,AI大廠掀起的大模型暴力美學依然占據主流,人們依然希望借助大數據、大算力探索深度學習的天花板。不過,與大模型需要的海量數據相比,單個機構所能處理的數據往往是不充分的:一是數據量不夠大,二是數據的維度和來源不夠豐富。為了解決這些問題,越來越多的機構開始走向多方聯合的道路,希望借助多方的合力訓練出更精準的AI模型,讓數據在流通中發揮應有的價值。

不過,受限於法律法規、政策監管、商業機密、個人隱私等數據隱私安全上的約束,多個數據來源方無法直接交換數據,這就形成了「數據孤島」現象,製約著AI模型能力的進一步提高。受此需求驅動,聯邦學習應運而生。

聯邦學習的核心思想是通過在多個擁有本地數據的數據源之間進行分布式模型訓練,在不需要交換本地個體或樣本數據的前提下,僅通過交換模型參數或中間結果的方式,構建基於多方數據下的全局模型,從而實現「數據可用不可見」、「數據不動模型動」。

和2016年穀歌剛剛提出這一概念時不同,聯邦學習如今已經有了很多具體的實現路徑,既有基於軟件的,也有基於硬件的。其中,基於硬件的路徑——主要是 TEE(Trusted Execution Environment,可信執行環境)——由於可支持多層次、高複雜度的算法邏輯實現以及運算效率高等優勢而受到廣大企業的青睞,落地速度也在不斷加快,尤其在醫療、金融等數據安全要求較高的行業。

基於TEE的醫療科研多方安全計算平台

首先來說醫療行業。AI+醫療是一個發展較早的細分領域,但直到今天,Geoffrey Hinton 2016年的預言——AI將取代放射科醫生——依然沒有實現。在種種阻礙因素中,醫療領域的數據聚合是一個繞不開的難題,包括患者生命體征信息、疾病信息、影像檢驗報告、互聯網診療記錄、藥品使用等各種不能離開醫院的基礎數據。

近幾年,采用TEE方案的聯邦學習方法在各醫療科研機構的實踐中收獲了良好的效果,它可以為「使用中」(即處於計算或處理中)的數據提供保護,與其他針對靜態數據和傳輸中的數據的保護方法一起,為數據流動與共享「護航」。

三種狀態下的數據保護

為了保護這些使用中的數據,TEE會在硬件中為它們單獨分配一塊隔離的內存區域,所有相關數據的計算均在這塊區域中進行,並且除了經過授權的接口外,硬件中的其他部分均不能訪問這塊隔離的內存中的信息,以此來實現隱私計算。

與一般的分布式機器學習或深度學習方案相比,聯邦學習方法可以為醫療科研增添以下優勢:

●醫療數據不脫離本地,各參與方可接入各自數據訓練全局模型;

●每個醫療科研參與方都可參與訓練過程,模型損失可控;

●訓練過程能更好地兼顧隱私和安全需求,各參與方能在不暴露數據及加密形態的前提下進行聯合建模。

如果這種聯邦學習方法或方案能再加上一個前綴——「基於TEE」,那麽它還會收獲更多強化功能,例如它可以通過硬件環境上的隔離,使安全保護機製獨立於軟件應用、操作係統或硬件配置之外,使其保護的對象可以更好地應對來自硬件驅動程序、虛擬機乃至操作係統的攻擊。再如,它的用途,不僅僅是可以提供數據運行態全鏈路的保護,來確保數據中的機密、隱私和完整性得到更強的防護,它還能對指定的應用程序或算法的代碼進行同樣可靠的防護;又如,它還擁有更完備的遠程鑒權能力,能讓相關數據和密鑰的傳遞更為可靠;最後,相比那些非硬件加速支持的聯邦學習及多方隱私計算方案,有TEE加持的方案,往往在兼顧安全防護能力和提升數據處理性能上有更好的表現。

正是這些優勢,給了眾多醫療科研機構選擇基於TEE構建自己的聯邦學習係統的理由。

以多年來一直深耕醫療AI與大數據91视频免费观看創新的醫渡雲為例,這家公司基於聯邦學習等隱私計算方法打造了一個多方安全計算解決方案,自下而上包含麵向院內外業務係統的數據采集係統、進行數據加工治理的專病庫以及開展多方隱私計算的安全計算平台等幾個部分,其中的多方安全計算平台也支持TEE方式進行構建。

醫渡雲多方安全計算解決方案整體架構

而且,他們采用的是實現TEE的一種主流91视频免费观看——英特爾®軟件防護擴展(Intel®Software Guard Extensions,英特爾®SGX)。

英特爾® SGX91视频免费观看實際作用示意圖

在工作時,SGX91视频免费观看會給相關數據分配一塊隔離區域,也叫「飛地(Enclave)」。91视频免费播放可以把它理解成一個隔離醫院,但能入駐這個醫院的並不是已經被感染的患者,而是那些健康群體,即需要受到嚴密保護的應用代碼或關鍵數據。SGX91视频免费观看能在CPU的支持下,在內存等特定硬件環境中構建出這樣一個飛地,讓各醫療科研機構的數據分析、模型訓練及推理所涉及的數據都運行在各自的飛地中,並通過訪問控製為這些應用代碼和數據提供更可信賴的安全保障。

這種飛地獨立於操作係統、虛擬機以及Bioses係統之外,也就是說,即便一些比你的應用程序更底層的基礎軟件或係統在惡意攻擊中淪陷,飛地也可以通過基於硬件的、增強型的安全防護更有效地阻斷這些攻擊,盡力避免其中的數據或代碼被竊取或篡改。

那麽,這個「飛地」有多大呢?這和你要使用的英特爾處理器的種類及型號有關。醫渡雲解決方案使用的是英特爾去年發布的麵向單路和雙路服務器的第三代至強®可擴展處理器,它已經全麵內置SGX91视频免费观看,可在雙路服務器上實現最大容量為1TB的保留加密內存區域(Enclave Page Cache,EPC,單顆處理器最高支持512GB),這對於醫療科研機構進一步擴展AI模型訓練與推理的數據規模至關重要。

不過,如果你以為醫渡雲的方案僅僅是要借SGX91视频免费观看來實現更大、更強的安全「飛地」的話,那就是小看了全新至強® 可擴展處理器在AI實踐中的價值了——它除內置有SGX91视频免费观看外,還有來自英特爾®高級矢量擴展512(英特爾®AVX-512)91视频免费观看和英特爾®深度學習加速(英特爾®DL Boost)91视频免费观看的加成,也可在兼顧更優安全能力的同時,為醫渡雲方案涉及的複雜計算需求提供有力支撐。

因此這款處理器在醫渡雲的多方安全計算解決方案中同時發揮著加固安全與提升性能的雙重價值。正是得益於它帶來的綜合優勢,醫渡雲已經開始支持多家醫院和醫療科研機構開發一係列基於該方案的聯合研究項目,同時也通過了中國信息通信研究院在隱私保護計算91视频免费观看上的兩項認證——《基於多方安全計算的數據流通產品91视频免费观看要求與測試方法》及《基於聯邦學習的數據流通產品91视频免费观看要求與測試方法》。

基於TEE的多源金融大數據隱私計算91视频免费观看驗證

另一個非常青睞TEE解決方案的是金融行業。與其他91视频免费观看方案相比,以硬件為載體來為數據和代碼提供安全可信環境的TEE,在金融行業最關注的數據安全、性能以及可用性三個維度上,能取得接近「帕累托最優」的效果,因此受到較多企業的青睞。

聯邦學習中不同安全隱私91视频免费观看綜合評估

在這個行業,企業通常需要將已有的大量AI應用以聯邦學習模式高效、便捷地擴展到現有的分布式大數據平台上(如Spark、Flink、Hadoop集群)。在此過程中,他們可能會遇到一些挑戰,比如如何在開展聯邦學習時依然保持AI訓練與推理的高效能?如何在應用TEE91视频免费观看特性時做到數據的全棧可信?如何將二進製應用程序不做改動地運行在TEE環境中?

英特爾與中國銀聯電子商務與電子支付國家工程實驗室組成的聯合研究團隊通過開源的統一大數據分析與AI平台——BigDL,驗證了基於TEE的聯邦學習與實時預測方案,有助於解決上述問題。

如圖所示,基於英特爾®SGX91视频免费观看的BigDL提供了自下而上可信的安全91视频免费观看、不同層麵的軟件框架以及用於連接大數據平台和聯邦學習方法的端到端平台。

基於英特爾®SGX91视频免费观看的BigDL平台架構

91视频免费播放重點來看一下安全91视频免费观看層麵。在這一層麵,該平台通過第三代英特爾®至強®可擴展處理器集成的英特爾®SGX91视频免费观看,提供了所需的TEE環境;同時,還通過加入Gramine-SGX這樣的開源LibOS組件,來加速既有Al模型或應用程序在SGX91视频免费观看上的無縫遷移。Gramine-SGX允許用戶在不修改相應模塊代碼的情況下,通過係統調用的方式直接在SGX環境中執行,大大降低了SGX91视频免费观看的應用門檻。同時,這一組件的加入,也使英特爾開源的OpenVINO™工具套件和OneDNN等重要Al軟件工具能夠在SGX環境中方便地運行。

一種典型的基於英特爾®SGX-BigDL平台的預測方案架構如下圖所示,用戶數據可以導入基於Gramine-SGX的SGX環境中,由BigDL平台負責連通和調度預測推理所需的模型庫、框架和工具,在完成預測推理後,再向用戶輸出相應結果,中間所涉及的數據和工作流程都可獲得更有效的安全保障。

典型的基於英特爾®SGX-BigDL平台的預測方案

聯合團隊的驗證結果表明,基於英特爾®SGX-BigDL平台部署的實時計算與預測推理方案,能在更好地保障端到端數據安全的前提下,依舊保持預期的性能。

Gartner曲線:聯邦學習91视频免费观看還在上升期

「為什麽91视频免费播放要投入聯邦學習?」中國星空人工智能開源軟件發展聯盟副理事長王健宗博士在前段時間英特爾聯合國際學術期刊《Science》推出的「架構師成長計劃」第二季係列課程中提出了這樣一個問題。

為了解釋這個問題,他向大家展示了去年的Gartner91视频免费观看成熟度曲線。這份曲線圖顯示,聯邦學習當前正處於高速發展期,未來將成為一項非常重要的計算91视频免费观看。這也是Gartner首次將聯邦學習納入91视频免费观看成熟度曲線。

Gartner91视频免费观看成熟度曲線

在應用方麵,除了91视频免费播放前麵提到的醫療和金融場景,王健宗還係統地總結了聯邦學習在物聯網、政務等領域的應用。從這裏也可以看出,聯邦學習91视频免费观看的應用範圍正在不斷擴大,越來越多企業正放下顧慮,更放心地參與到共同的AI應用開發中來。這背後,以TEE為代表的安全計算實現方案功不可沒。

聯邦學習在行業場景中的應用

值得一提的是,王健宗早在幾年前就曾帶領他在平安科技的團隊開始構建基於英特爾®SGX的TEE聯邦學習方案,也見證了這一91视频免费观看地不斷迭代。他對第三代至強®可擴展處理器1TB的EPC容量以及英特爾®SGX對雲邊協同的支持印象深刻。他認為,在現在大家都比較重視隱私保護、數據安全的環境下,英特爾®SGX為91视频免费播放提供了一個更安全的可信計算環境。

對於聯邦學習未來的發展,王健宗主要看好三個方向:自動化機器學習、零代碼聯邦和大規模互聯互通。他解釋說,聯邦學習現在仍然是一個比較複雜的91视频免费观看,有很多工程方麵的工作。未來他希望能實現自動化機器學習,以及通過簡單地拖拉拽,實現零代碼的聯邦學習,進而讓聯邦學習應用到更多對數據、代碼安全性要求更高的領域。

參考鏈接:http://www.jiqizhixin.com/articles/2022-02-20-3

更多架構師成長計劃課程,歡迎訪問英特爾架構師成長計劃平台:

http://protect-eu.mimecast.com/s/hASjC0VnLHMLXqnVtDfD69?domain=bizwebcast.intel.cn

星空人工智能91视频免费观看網 倡導尊重與保護知識產權。如發現本站文章存在版權等問題,煩請30天內提供版權疑問、身份證明、版權證明、聯係方式等發郵件至1851688011@qq.com91视频免费播放將及時溝通與處理。!:首頁 > 新聞 » 那些聯合起來訓練AI模型的企業,到底是怎麽應對數據安全顧慮的?

感覺不錯,很讚哦! ()
分享到:

相關推薦

留言與評論(共有 0 條評論)
   
驗證碼:
網站地圖