人工智能發展與數據安全挑戰
發布時間:2021-01-05 16:42:55
人工智能發展和數據安全問題日益深度交織融合,影響用戶隱私、公民權益、商業秘密、知識產權、社會公平、國家安全等各個方面,數據安全問題已然成為人工智能全面新發展的重要制約瓶頸和亟需突破的關鍵挑戰。
內容目錄:
0 引 言
1 數字經濟時代人工智能發展的趨勢
1.1 新一輪數字經濟發展浪潮全面來臨
1.2 全球人工智能發展逐步從“探索期”向“成長期”轉變
1.3 數據安全成為人工智能全面新發展的重要制約問題
2 人工智能全面新發展的數據安全挑戰
2.1 數據采集階段的安全挑戰
2.2 數據處理階段的安全挑戰
2.3 數據流通階段的安全挑戰
2.4 數據使用階段的安全挑戰
3 結 語
0 引 言
當前,隨著大數據和云計算等新一代信息技術的發展成熟,人工智能技術和應用獲得重大突破性進展,并快速向各個行業和領域滲透。其中,大數據是人工智能開發和應用的基礎, 當前以機器學習為主的人工智能技術的高速發展依賴于底層大數據的豐富程度。強大的模型往往需要含有大量樣本的數據集作為基礎,數據的質量、多樣性將對算法模型的成敗產生重大影響。數據越多,模型的準確度和重復性就越好。因此,人工智能需要數據來建立其智能。然而,隨著越來越多的數據在人們的生產和生活場景中被收集和利用,數據安全風險和隱私保護成為人工智能系統在開發和應用過程中面臨的嚴峻安全挑戰,亟需全球共同治理。
1 數字經濟時代人工智能發展的趨勢
1.1 新一輪數字經濟發展浪潮全面來臨
數字經濟是指以數字化的知識和信息為關鍵生產要素,以現代信息網絡為重要載體,以信息通信技術的廣泛普及和有效使用為核心驅動,全面推動商業模式優化創新、生產消費效率提升和產業經濟智能化升級的一系列經濟活動。近年來,隨著大數據、云計算、物聯網等為代表的數字技術帶來了全球性的科技革命和產業變革,以“數字新基建、數據新要素、在線新經濟”為核心特征的新一輪數字經濟發展浪潮全面來臨,為基于算法、算力和數據驅動下的人工智能全面新發展注入了全新的強大動能(如圖1所示)。
圖1 數字經濟時代推動人工智能全面新發展
(1)數字新基建成為人工智能新發展的堅實底座和基礎支撐
近年來,美國、歐洲、日本、英國等全球主要經濟體紛紛大力發展以5G、物聯網、工業互聯網、云計算、數據中心、衛星互聯網等為代表的新型數字基礎設施建設,而中國自2018年12月首次提出“新基建”概念以來,至今已有7次中央級會議或文件明確表示加快新基建的建設速度,并在2020年5月將“加強新型基礎設施建設”明確寫入2020年《政府工作報告》。數字新基建的加快推進和不斷完善將成為人工智能全面新發展的堅實數字底座。其中,物聯網和工業互聯網將極大拓寬人工智能的數據來源和應用場景,5G和衛星互聯網則能夠大幅度提高人工智能數據傳輸、處理以及應用開發的效率,數據中心、云計算設施確保了人工智能發展所需要的巨大基礎計算和存儲需求,以人工智能芯片、智能終端、智能計算平臺為代表的人工智能基礎設施則為人工智能應用提供了高質量的硬件支撐。
(2)數據新要素成為人工智能新發展的核心動能和強大驅動
2020年4月,中共中央、國務院發布《關于構建更加完善的要素市場化配置體制機制的意見》,將數據明確列為一種新型生產要素與土地、勞動力、資本和技術等傳統要素并列,并強調要加快培育數據要素市場。隨著全球各國不斷加快數據市場的建設,將在未來形成包括數據要素確權定價、數據交易流通和收益分配等核心功能的數據要素市場改革驅動和政策賦能,能夠極大地推動政府公共數據開放和社會企業數據共享,進一步打通數據壁壘,推動形成數據更大規模的有序、便捷、高效和安全流動交易的宏大數字空間,為人工智能全面新發展注入高質量的數據動能。
(3)在線新經濟為人工智能新發展提供豐富廣闊的應用場景
隨著全球經濟因疫情沖擊而遭受重創甚至面臨衰退,以在線新經濟為代表的數字經濟模式成為全球經濟復蘇和轉型增長的核心驅動。在線新經濟的本質是傳統行業線上化、網絡化、數字化和智能化轉型,是指以大數據、云計算、區塊鏈等新一代信息技術在辦公、醫療、教育、金融、生產、物流等各個垂直領域的加速落地并形成新型的經濟業態。在線新經濟的興起將為人工智能發展提供豐富廣闊的應用場景,不斷推動人工智能的算法迭代優化,以及向更多行業和更多領域滲透落地,形成人工智能全面新發展龐大、立體的需求牽引。
1.2 全球人工智能發展逐步從“探索期”向“成長期”轉變
根據行業生命周期理論(Industry Life Cycle)和Gartner的技術成熟度曲線模型,本文認為當前全球人工智能發展正在逐步渡過“探索期”并進入“成長期”,且已進入了全面轉型的關鍵節點。主要有以下四個關鍵特征:
(1)人工智能專用技術迅速突破
專用人工智能即面向特定領域的人工智能(即“弱人工智能”),由于其具備任務單一、需求明確、應用邊界清晰、傳統領域知識豐富和功能建模相對簡單等特征,因此在重點領域形成技術突破后,隨即進入了快速的商業化應用階段,成為人工智能邁向“成長期”的底層支撐。目前,人工智能主要的應用技術方向包括以深度學習為代表的機器學習算法;以計算機視覺、圖像識別、語音識別為代表的智能感知技術;以及以無人駕駛、自動機器人等為代表的自主無人系統的三大領域。
(2)人工智能產業生態蔚然成型
從全球范圍內看,圍繞專用人工智能技術的人工智能產業已經初具規模。中國電子學會發布的《新一代人工智能產業白皮書(2019年)》顯示,2018年全球新一代人工智能產業規模超過555.7億美元,預計2019年產業規模將突破718億美元。而據德勤公司(Deloitte)預測,2025年世界人工智能總體市場規模將超過6萬億美元,2017—2025年復合增長率達30%。在產業鏈上,形成了包括智能芯片、傳感器、智能設備廠商的硬件層;數據分析處理、算法模型、軟件開發和關鍵技術廠商的技術層;行業應用、解決方案、產品服務開發廠商的應用層等三大層級體系,整體產業生態發展開始從“探索期”的彌補市場空白向“成長期”的產業結構優化轉型發展。
(3)人工智能投融資日趨理性成熟
自2018年全球人工智能投融資達到784.8億美元高值以來,2019年全球人工智能領域的投融資規模開始回落。中國信息通信研究院發布的《全球人工智能產業數據報告》顯示, 2019 年一季度全球人工智能融資規模126億美元,環比下降7.3%。創投研究機構CB Insights發布的《全球人工智能投資趨勢年度報告》顯示,AI初創公司超過70%的投融資為早期投資或 A 輪融資,資金向頭部初創企業集中的趨勢明顯加強。伴隨著“探索期”的風險投資甚至跟風投機泡沫的消除,核心技術、商業落地和可持續發展成為投資者最關切的決策因素,投融資整體趨向理性必然帶來產業結構的優化,驅動人工智能從“探索期”向“成長期”發展。
(4)人工智能應用場景向深層拓展
目前,人工智能的應用場景包括金融、零售、醫療、教育、政務、制造、汽車、家居、智慧城市、數字內容、公共安全等多個垂直領域。相關行業場景的應用深度不一。IDC 發布的《AI 驅動金融行業智能決策(2020)》顯示,目前金融行業頭部企業AI應用滲透率達75%以上;第二梯隊的企業AI應用滲透率超過50%;第三梯隊的金融企業AI應用滲透率約30%,成為當下人工智能滲透率最高的應用場景。中國新一代人工智能發展戰略研究院對797家中國人工智能骨干企業中的581家應用層企業進行了詳細分析,提供企業技術集成與方案提供、智能機器人兩個應用領域的人工智能企業數占比最高,分別為 15.43% 和9.66%。緊隨其后的是關鍵技術研發和應用平臺、新媒體和數字內容、智能醫療、智能硬件、金融科技、智能商業和零售、智能制造領域。相關研究預測,到2022年前后,醫療、公共安全、智能制造、無人駕駛和智慧城市等場景的整體人工智能滲透率都將超過25%。可以說,“探索期”的人工智能發展將主要向更多應用領域過渡,“成長期”的人工智能應用將向更深層次滲透。
1.3 數據安全成為人工智能全面新發展的重要制約問題
數據安全是數字經濟發展中最關鍵的安全挑戰之一,隨著人工智能在產業和技術兩個方面都在加快渡過“探索期”,逐步進入“成長期”, 人工智能發展與數據安全將更加深度地交織在一起,數據安全問題已然成為人工智能突破關鍵轉軌期所必須解決的重要制約瓶頸。
一方面,人工智能發展加劇了傳統數據安全風險。在以“數字新基建、數據新要素、在線新經濟”為重要特征的數字經濟發展大背景下,人工智能的新發展必然伴隨著數據總量的井噴式爆發,各類智能化數據采集終端的加快增長,數據在多種渠道和方式下的流動更加復雜,數據利用場景更加多樣,整體數字空間對于人類現實社會各個領域的融合滲透更趨于深層,這將使得傳統數據安全風險持續地擴大泛化。另一方面,人工智能催生了各種新型的數據安全風險。人工智能通過訓練數據集構造和優化的算法模型,因其對于數據資源特有的處理方式,將會帶來數據污染、數據投毒、算法歧視等一系列的新型數據安全問題。同時,人工智能在自動化網絡攻擊、數據黑產的應用,使得傳統網絡安全和數據安全威脅更加復雜,對國家和企業現有的數據安全治理能力形成巨大沖擊。
2 人工智能全面新發展的數據安全挑戰
人工智能全面新發展的數據安全挑戰既有傳統數據安全問題的普遍共性,更具有人工智能時代的獨特烙印,影響領域覆蓋用戶隱私、公民權益、商業秘密、知識產權、社會公平、國家安全等各個方面。因此,報告基于數據生命周期的視域,從數據采集、數據處理、數據流通和數據使用4個階段,重點聚焦分析人工智能發展中較為獨特或更突出的數據安全問題(如表1所示)。
2.1 數據采集階段的安全挑戰
(1)人工智能數據采集時難以保障用戶的數據權利
人工智能算法尤其是在深度學習的開發測試過程中,需要大量訓練數據作為機器學習資料和系統性能測試。目前,人工智能企業的數據采集主要包括現場無差別采集、直接在線采集、網上公開數據源和商務采購等方式。在現場無差別采集時,由于無法提前預知采集的用戶, 難以獲得用戶的充分授權同意。而在直接在線采集時,由于人工智能系統通常由訓練好的模型部署而成,對用戶數據需要進行連續性的處理分析,因此很難保障用戶的修改、撤回等權益。在網上公開數據源和商務采購時,由于目前數據共享、交易和流通的市場化機制不健全,因此存在一部分企業通過灰色渠道獲得用戶數據,而這些數據缺乏用戶知情同意。
另外,隨著計算機視覺、圖像識別和語音識別技術的發展,以對個人生物特征數據進行采集分析的應用成為人工智能發展的重要應用方向。而在各國現行的法律規制下,人臉數據、基因數據、體型數據、語音特征等生物特征數據均屬于個人敏感數據,對此類數據的采集和處理存在較大的法律合規和隱私保護風險。
(2)現場無差別采集可能會產生過度采集
問題現場采集是人工智能數據采集的重要方式,廣泛應用于無人駕駛、智能家居、智慧城市等場景中。其主要通過在公開環境中部署各類傳感器或采集終端,以環境信息為對象進行無差別、不定向的現場實時采集。現場采集由于難以提前預知采集的數據對象和數據類型,因此在公開環境尤其是公共空間進行現場采集時, 將不可避免地因采集范圍的擴大化而帶來過度采集問題。比如在智能網聯汽車的無人駕駛場景中,自動駕駛汽車的傳感器需要采集街景數據來支持智能駕駛系統的決策從而控制汽車行駛,但是這種無差別的街景數據采集必然會采集到行人的個人數據,甚至可能會采集到路邊的重要基礎設施分布、軍事營區等重要數據給國家安全帶來風險。
2.2 數據處理階段的安全挑戰
(1)數據污染可能會導致人工智能算法模型失效
數據污染的本質是數據質量的技術性治理問題,是指數據與人工智能算法不適配,從而導致算法模型訓練成本激增甚至完全失效。數據污染產生的原因可能包括訓練數據集規模過小、多樣性或代表性不足、異構化嚴重、數據集標注質量過低、缺乏標準化的數據治理程序、數據投毒攻擊等。在數據與模型算法適配度極低的情況下,進行模型訓練時將會明顯帶來反復優化、測試結果不穩定等問題,使得人工智能運行的成本大大提高,嚴重的數據污染甚至直接導致人工智能算法模型完全不可用。
(2)惡意數據投毒攻擊導致人工智能決策
錯誤數據投毒是指惡意攻擊者人為地在訓練數據集中定向添加異常數據或是篡改數據,通過破壞原有訓練數據的概率分布而導致模型產生分類或聚類錯誤,從而連續性引發人工智能的決策偏差或錯誤,最終產生惡意攻擊者所期待的結果。在自動駕駛、智能工廠等對實時性要求極高的人工智能場景中,數據投毒對人工智能核心模塊產生的定向干擾將會直接擴散到智能設備終端(如智能駕駛汽車的剎車裝置、智能工廠的溫度分析裝置等),從而產生災難性事故后果。
(3)數據偏差可能會導致人工智能決策帶有歧視性
數據偏差是指人工智能算法決策中所使用的訓練數據,因地域數字化發展不平衡或社會價值的傾向偏見,使得數據所承載的信息帶有難以用技術手段消除的偏差,從而導致人工智能的決策結果帶有歧視性。由于當下的專用人工智能主要是通過對訓練樣本數據的結構和概率進行特征統計,從而構建輸入數據與輸出結果的相關度,而并非通過抽象化的邏輯推演獲取真正的因果關系,同時機器學習算法帶有“黑箱”的不可解釋性,因此這種因數據偏差導致的決策歧視難以使用技術性完全解決。
比如在政府基于大數據統計分析來進行決策時,其獲取的網絡數據可能會更多地體現經濟發達地區或人群的特征,對于數字化程度較低的邊緣地域以及老幼貧弱人群的特征無法有效覆蓋,從而對政策制定的公平正義產生不利影響。同時,在金融征信、醫療教育和在線招聘領域,可能會因邊遠地區、弱勢群體和少數族裔的數據量不足、數據質量不高等原因,導致自動化決策的準確率會基于人群特征形成明顯的分化,從而產生實質性的歧視影響。
2.3 數據流通階段的安全挑戰
(1)人工智能多主體之間的數據交互存在泄露和濫用隱患
由于人工智能產業生態體系中各主體之間進行數據交互而導致的數據泄露或濫用主要包括三種類型:
其一,由于大量人工智能企業會委托第三方公司或采用眾包的方式實現海量數據的采集、標注、分析和算法優化,因而數據將會在供應鏈的各個主體之間形成復雜、實時的交互流通鏈路,可能會因為各主體數據安全能力的參差不齊,產生數據泄露或濫用的風險。
其二,當下多數人工智能初創企業普遍使用開源學習框架,即通過谷歌、微軟、亞馬遜等互聯網巨頭公開的模塊化基礎算法進行應用開發,因此初創企業對于開源框架、第三方軟件包、數據庫和其他相關組件等均存在較大的依賴性,且由于缺乏嚴格的測試管理和安全認證,將會面臨不可預期的系統漏洞、數據泄露和供應鏈斷供的安全風險。
其三,通過邊緣計算的方式進行人工智能系統開發及數據訓練是目前企業較為流行的做法趨勢,人工智能云服務平臺和開發者、應用者的數據交互,將會使部署在云側和端側的數據面臨比傳統信息系統更加復雜的安全挑戰。
(2)數據孤島和數據壁壘問題可能導致滋生數據黑產
由于人工智能發展處于“探索期”向“成長期”過渡的階段性特點,對于底層數據資源的競爭仍是人工智能企業最關鍵的市場競爭力體現。然而成熟的數據要素市場尚未形成,數據合法、便捷、安全、低成本的交易流通機制仍是空白,遠遠無法滿足人工智能企業發展對于數據資源的需求。同時,在政府與企業之間、大企業與小企業之間、行業與行業之間,因數據確權、數據安全等問題存在著諸多法律和技術上的數據壁壘,形成了“數據孤島”,不僅極大制約著人工智能的發展,也成為滋生數據黑產的主要經濟動因。
(3)人工智能產生的跨境數據流動引發數據安全問題
在全球數字經濟發展不均衡的大背景下, 大型科技巨頭在人工智能的數據資源供給、數據分析能力、算法研發優化、產品設計應用等環節分散在不同的國家,而小型初創企業也需要諸多第三方平臺和數據分析公司的支撐。因此,無論是企業內部還是與第三方合作,在人工智能技術研發和場景應用中均需要常態化、持續性、高速率、低延時的跨境數據流動。
比如在智能網聯汽車領域,智能汽車產生的路況、地圖、車主信息等大量數據可能回傳境外的汽車制造商,進行產品優化升級和售后服務支撐,將會帶來個人敏感數據和重要數據出境后的安全不可控風險。這種人工智能發展引發的跨境數據流動,不僅因各國日益趨嚴的數據安全規制和本地化要求而面臨極大的政策障礙,更將對主權國家的國家安全、數據主權等帶來復雜的挑戰。
2.4 數據使用階段的安全挑戰
(1)智能化的深度挖掘將會威脅公民隱私和國家安全
深度挖掘是指人工智能技術能夠對用戶分散、公開甚至匿名化的數據項進行關聯分析,從而獲得用戶無意公開的信息特征和隱私。當前,隨著大數據分析和用戶畫像技術的快速發展,個性化服務變得越來越普遍,各類平臺和企業對于用戶“數字軌跡”數據的采集成為其提供精準化產品服務的核心基礎,這種對于用戶習慣行為的長期跟蹤和深度分析將使得公民隱私面臨安全風險。同時,隨著人工智能關聯分析技術的發展,通過對公民分散的、單個無意義的數據項進行組合關聯分析,能夠形成對特定個體識別和特征畫像的數據集(比如活動場所、行動習慣、政治態度、宗教信仰等)。這種技術不但本身會直接威脅到用戶的人身安全和隱私,若被用于政黨競選和政治宣傳,將對各國現行的政治制度產生極大的沖擊和顛覆。
(2)對人工智能的逆向還原攻擊將會侵犯商業秘密
逆向還原攻擊是指攻擊者通過人工智能應用的公開訪問接口,利用一系列技術手段逆向還原出人工智能的算法模型和訓練數據。由于算法模型在部署應用中通常需要將公共訪問接口發布給用戶使用,攻擊者可以利用神經網絡等人工智能算法對訓練數據集的記憶,通過公共訪問接口對算法模型進行黑盒訪問,從而分析系統的輸入輸出和其他外部信息,并推測系統模型的參數及訓練數據中的隱私信息。甚至部分攻擊者能夠通過構造出與目標模型相似度非常高的模型,進行不斷地優化逼近,從而實現對算法模型的竊取,進而還原出模型訓練和運行過程。逆向還原攻擊對算法模型、參數特征的竊取將直接威脅企業的知識產權和網絡資產安全,而其對訓練數據隱私信息的竊取將對個人隱私構成安全威脅。
(3)對抗樣本攻擊將會導致人工智能決策
錯誤對抗樣本攻擊是指在樣本數據輸入中添加細微、無法識別的干擾信息,導致模型在正常運轉中輸出一個錯誤的結果。此類對抗樣本攻擊既可以是網絡空間的虛擬信號錯誤,也可以是物理世界的實體識別錯誤。比如在智能網聯汽車的無人駕駛中,通過對實體停車或限速標志的精確更改,使得算法模型將其誤識別為其他標識,從而引發交通事故。
3 結 語
綜上,人工智能時代的數據安全問題極為嚴峻,亟需全球共同治理。人工智能中的數據安全治理是一個系統性工程,需要從法規、標準、技術等各個層面尋求應對策略,并需要監管方、政策制定者、人工智能開發商、制造商、服務提供商,以及網絡安全企業協作,共同應對數據安全重大挑戰,在人工智能技術發展的當前階段,同步建立安全治理體系,護航人工智能技術的健康可控發展。
來源:戰略前沿技術