前言
本書說明的是如何應用隱私保護技術來解決機器學習中的隱私問題。我們常常可以聽到,如今這個時代是「巨量資料」的時代,而「巨量資料」正是人工智慧、機器學習得以茁壯成長的原料。但是,我們又常常面對這樣一個現實:資料是分散的、碎片化的,它們分散在使用者的各個終端,如手機、平板電腦等。傳統的方法是將這些資料集中到一個中心伺服器,然後在該伺服器上進行集中式訓練。然而,這樣的方法會引起嚴重的隱私洩露問題,引發使用者對個人隱私被侵犯的擔憂。隨著各國相繼宣佈隱私保護的相關法律法規,這樣的做法也越發變得不可行。
為了保護隱私的安全,越來越多的隱私保護機器學習方法正在被提出,也有很多隱私保護機器學習系統在工業界落地,如Google 的聯邦學習,這些方案在某些特定的領域中能夠解決對應的隱私保護問題,但也面臨著很多挑戰。舉例來說,以密碼學為基礎的隱私保護方法,通常可以在不怎麼犧牲正確性的情況下,達到隱私保護的效果,但常常面臨嚴重的效率問題;基於擾動、加入雜訊的方法,可能需要在準確性和隱私性之間取得平衡;以可信執行環境為基礎的方法,具有高效率的優點,但需要所有使用者都信任TEE 的可信根,從而限制了其使用場景。
在這樣的背景下,本書將詳細介紹隱私保護機器學習的原理、方法和應用。本書的第1 章是引言部分,介紹了人工智慧的發展歷程、相關背景。第2 ∼ 4 章是機器學習和隱私保護技術相關基礎知識的介紹,以及對隱私保護機器學習所面對的場景的定義。第5 ∼ 12 章則是隱私保護機器學習的具體應用,我們將說明隱私求交技術、安全多方計算平台,以及如何將隱私保護技術應用於線性模型、樹模型和神經網路,還會介紹推薦系統、可信執行環境和MPC 編譯最佳化方法。第13 章是全書的複習和展望。
處於這個時代的演算法工程師和科學研究人員,見證著機器學習帶來的最深刻、最迅速的變革,也面臨著人工智慧帶來的種種問題和擔憂。希望本書能為對該領域感興趣的讀者提供相關知識的概述,也能幫助相關領域的從業人員建構隱私保護機器學習的框架。
▍本書特色
本書所涵蓋的範圍很廣,基本包括了隱私保護機器學習的各方面,可以為讀者提供一個全面的概覽。在內容深度方面,本書不僅是一本「概況書」。自然,書中會包含隱私保護機器學習的概況,但是在每一章裡,都會深入講解技術原理,可以作為大專院校相關專業的大學生、所究所學生的學習參考資料。在新穎度方面,筆者在寫作每一個章節時都查閱了相關領域的最新進展,希望能將最新的研究成果呈現給讀者。
▍本書讀者
(1) 工業界的相關從業者。本書涵蓋了隱私保護機器學習的各方面,希望可以給從業者提供一個了解相關技術的途徑,進而在工作中選擇合適的方案,揚長避短,不斷改進技術點。
(2) 有一定電腦基礎,該領域的同好、大專院校的學生。本書在保證深度的同時,用儘量易於了解的方式講解原理,可以作為大學生、所究所學生的參考資料。
▍歡迎交流
機器學習的發展日新月異,而我知識有限,難免有疏漏之處。歡迎讀者將閱讀時發現的問題回饋給我,或與我討論相關技術,可至深智數位的官網讀者信箱留言。
▍致謝
本書的寫作並不輕鬆,由於時間倉促,在寫作過程中幾乎擠出了所有時間查閱相關文獻、梳理技術框架、構思寫作順序,希望能以儘量通俗易懂的語言將相關內容呈現給讀者。限於時間緊迫和本人的知識水準有限,書中的疏漏不當之處懇請各位讀者批評指正。
在此,感謝參與編寫人員:陳超超、方文靜、季珂宇、盧天培、盧益彪、欒明學、王磊、王力、王志高、徐又任、殷澤原、餘超凡、袁鵬程、張秉晟、張心語、張興盟、周愛輝、周俊、周哲磊。