壞的是誰?談機器學習與人臉辨識的善與惡/Benedict Evans

人臉辨識是目前指標性的機器學習應用;它讓電腦網路能做很多過去做不到的事情,但也引發了許多關於隱私的爭議。甚至因為治理觀念的不同,這些技術讓世界各國發展出不同的用途和規範,逐漸形成了兩個不同的陣營。

早在1970到80年代初期,科技業就已經創造出一種革命性的新技術,讓政府和企業機構擁有了前所未有的能力,可以用來追踪、分析、和瞭解每個人的行為。

這種叫做「關聯式資料庫」的技術現在看來稀鬆平常,但它確實讓當時原本只涵蓋小範圍的資料庫可以彼此連結,成為涵蓋龐大範圍的資訊來源、創造出更多前所未有的應用。

對於這一點,當時的學者都表達了各種憂心、甚至寫了很多本書,例如:

總括來說,關聯式資料庫技術有兩個令人擔心的問題:

  • 這些資料庫可能包含不正確的資料、或是錯誤的假設;尤其某些社會偏見、或是帶有偏見的資料解讀方式,會無意中被編入資料庫中、甚至成為機器處理的規則。

  • 或許有人會建構並使用這些系統來做壞事。

換句話說,這類系統如果不能有效運作,我們會擔心;但如果真的可以運作,我們也同樣擔心,因為人們很難預料它的運作結果會是怎樣。

時間快轉到現在,對於人工智慧AI、尤其是人臉辨識方面的問題,我們也有相同的擔心;更縮小範圍來說,我們擔心的是「機器學習」,因為讓人臉辨識技術能夠實現的基礎,正是機器學習的能力。

而且同樣的,這種技術無論能不能如預期運作,我們都會擔心。所以,讓我們來看看這個問題到底有多大、我們到底需不需要擔心、以及我們之所以擔心的基本原因。

首先要看的是「人為錯誤」。

「好人」使用「壞資料」

過去我們在使用資料庫時,經常會犯一些人為錯誤,像是公家機關的電腦裡把你的名字寫錯,因而鬧出各種笑話;更慘的是,你改自己的名字恐怕比申請改電腦上的名字還容易。

更麻煩的是,如果你跟通緝犯同名,還可能被警察追捕、在機場被擋下來、甚至發生更麻煩的狀況。

最近的一則相關新聞,是美國有人選了「NULL」當做自己的車牌字號,結果全國所有找不到主人的罰單就統統跑到他們家去了。

美國一位宅宅工程師將車牌申請為「NULL」,結果全國辨識不清的違規罰單都找到了一個家 | T客邦

與我國主要以字母加上數字為規則的車牌設計不同,美國的車牌不但是色彩繽紛,而且可以有不同的設計,要用純字母的車牌也可以。而一位來自洛杉磯的工程師Droogie,就很工程師性格地註冊了一個「NULL」的車牌號碼,這在工程師來說應該是一個很酷的車牌,不過,這個車牌卻帶給他相當哭笑不得的後果。

這類故事反映了三種不同的問題:

  1. 系統中可能包含錯誤的資料(例如名字記錄錯誤);

  2. 系統中的資料處理設定有問題(例如沒有排除「NULL」之類可能造成問題的字、或是把某些正常的字眼判斷為「不雅」);

  3. 主管單位讓沒有經過訓練、不瞭解處理流程或架構、或是根本沒有經過授權的的人員操作系統,所以無法即時過濾並處理問題。

當然,所有的機構單位都可能碰到這種「早在電腦發明之前幾千年就已經存在」的問題。而有了資料庫之後,千奇百怪的錯誤更可能隨著技術的進步發生;而機器學習Machine Learning, ML誕生之後,也同樣帶來了各種各樣的搞砸方式,而這些還可能根本就是ML與生俱來的問題。

想像一下:假設你想開發一套「貓臉辨識系統」;傳統的方法是先建立「邏輯步驟」,例如開發辨識圖形輪廓、尖耳朵、眼睛、以及腿部的演算法或感測器,一共幾百種。結果最後常見的結果,就是把這些東西全部兜在一起之後,系統卻莫名其妙動不起來。

很多事情理論上很簡單,但實作起來卻超乎意料的困難。

有一些事情,對人類來說是舉手之勞,但我們很難把它量化、或是變成數學方程式(讓機器瞭解);但ML技術能將這類「邏輯問題」轉換成「統計問題」。

例如我們不需要自己把「如何識別X的照片」變成數學方程式,而是提供「10萬個X」和「10萬個非X」的例子給ML引擎,來「訓練」它去辨識X。

訓練完成之後,你只要給它一張照片,它就能告訴你照片上是不是X、或是「有多像X」。也就是說,不是由人類來告訴機器規則,而是讓機器根據「這是X」與「這不是X」的資料與答案,自己產生出規則。

資料來源:François Chollet

這樣的技術,可以解決包括人臉辨識在內的許多問題,但也帶來了兩類新的問題:

1. 訓練資料的正確性

首先,以這個例子來說,總共20萬筆的「X」與「非X」學習資料之中,到底是些什麼東西?你確定資料都很乾淨嗎?會不會有跟X根本無關的內容?

我很常舉的一個這類範例,是一個「識別皮膚癌照片」的系統。最常見的問題是,系統中不同膚色人種的資料樣本可能不完整,導致在識別不同人種的皮膚癌時發生誤判。

「恭喜你,你訓練出了一套『人工智慧直尺識別系統』,而不是癌症識別系統。」

更糟糕的是,醫師往往會在照片裡放一支尺,作為標示比例之用;如果所有「有癌症」的照片上都有一把尺,而「非癌症」的照片上都沒有,最後那支尺可能會變成比皮膚問題更明顯的特徵──恭喜你,你訓練出了一套「人工智慧直尺識別系統」,而不是癌症識別系統。

這個基本問題,在於ML系統並不瞭解自己看到的是什麼;它其實不知道什麼是正常、或是有癌症的皮膚,對於人種、膚色、性別、甚至是人還是動物,也根本沒有概念。

道理很簡單,就跟你的洗衣機也不知道「衣服是什麼」一樣。

即使是ML系統,也只是對資料進行統計和比較,並沒有比較「聰明」。所以要再問一次:你餵給它的資料是什麼?資料是怎麼挑選出來的?有什麼是挑選過程中可能沒有注意到的瑕疵?資料本身是不是就可能有誤導的嫌疑?

在訓練資料中,是不是出現了無關主題、也沒有統計價值,但可能影響判斷結果的東西?所有的「健康皮膚」照片都是在日光燈下拍攝的嗎?所有「不健康皮膚」的照片都是在LED燈下拍攝的嗎?人類可能不在意這些細節,但是笨笨的電腦都會把它們囫圇吞棗列入考量。

2. 「符合」如何定義?

現今的電腦和資料庫,常常會給我們「是/否」的答案。像是這輛車是贓車嗎?這張信用卡被盜刷了嗎?我的帳戶還有錢嗎?我訂的航班確認好了嗎?這個號碼的客戶名下有多少訂單?諸如此類的答案。

但對於ML系統來說,除了「是/否」之外,答案還有「或許是」、「或許不是」和「有可能」之類的好幾種選擇,因為它有「機率」的概念;而如果只有「是/否」的傳統系統介面將「或許是」顯示為「是」,就可能會出問題。

在最近的一些宣傳材料中,我們經常可以發現上述的兩個問題:資料處理人員用罪犯(只有罪犯)的臉部照片來訓練人臉辨識系統,然後找一個好人(為了避免「爭議」,通常找的是政治人物)的照片來辨識、問電腦是否有符合的罪犯資料。

令人意外的是,在較低的信賴區間設定下,系統往往會回答「有符合的資料」,代表這位政治人物「有可能」也是罪犯。

如果訓練ML時用了偏頗的資料集、準確度設定得太低,當然可能得出有問題的結果。

然而對於科學家來說,這樣的測試方式等於是在惡搞ML系統。因為訓練時刻意使用了偏頗的資料集、故意將準確度設定得太低,然後才會得出有問題的「符合」結果。

事實上,你也可以用貓的照片、或是菜頭的照片(不一定要用罪犯照片)來訓練ML系統;這時候你問電腦「請找出一顆最像這位立委的菜頭」,說真的,它也確實可以找出一顆來給你。

雖說是惡搞,但這種實驗並不是完全沒用的。許多人聽到「人工智慧」就以為它是「聰明」的;聽到「AI+數學+電腦」,就覺得「數學算出來的一定不會錯吧」;但這種惡搞證明了一件事:即使都照邏輯規則來做,結果仍然可能是錯的。

簡單的說,數學計算或許不會偏差,但原始資料是可能有偏差的;何況我們不只可以惡搞資料庫,要惡搞技術其實也沒那麼難。然而,許多公司正是在這種「可以惡搞」的基礎上設計了人臉辨識(和其他ML)系統,難怪會跑出無法預期的結果。

但廠商還是會跟採購的警察單位說:「這是人工智慧耶,不可能會錯的啦」。

對於ML系統來說,這些都是很基本的問題;而且要再強調一次的是,這些問題跟大家擔心的「個資處理方式」還談不上關係。即使是功能很強、能夠預測出機器可能失效的ML系統,也可能因為訓練期間只餵了特定廠商產品的資料,因而在實用時產生偏差。

這裡並不是要否定ML的價值:它確實可以識別出過去電腦無法識別的東西;但如果錯誤發生在資料庫端,結果還是可能出錯。

所以,我們必須瞭解ML系統如何運作,一來避免自己無心惡搞了它、也讓其他人知道它也可能出錯。ML就像緝毒犬一樣,找毒品的效率比人高得多,但我們不會只因為它疑似聞到毒品就將人定罪;何況現在狗的學習效率還比ML高。

「壞人」使用「好資料」

前面一直在談人臉辨識系統(或任何ML系統)判斷不正確時的狀況;但還有另外一個相反的問題,就是或許有人會建構一個結果準確的系統,卻將這些結果用在我們不喜歡的事物上。

人臉辨識系統(假設結果準確)就是個顯而易見的例子:它可以隔著路口拍攝你、辨識你,但多數時候你卻不能拿它怎麼樣。

說到這類大家不想要的應用,最近的例子都是中國在新疆地區使用的人臉辨識與監視技術;最近甚至有一份針對維吾爾人面貌辨識的研究論文引起了很多關注。其實,這些技術應用已經遍及整個中國,只是程度不一。

透過今年8月發布、厚達600頁的曠視科技(Megvii)公司上市募股說明書(PDF下載),我們可以看到一些相關梗概:Megvii是中國政府「智慧城市物聯網」的大型供應商之一;該公司表示,目前有106個中國城市是它的客戶,比2016年增加了30個。

Megvii旗下擁有1,500名研發人員,光是2019年上半年,就從相關業務中賺到了1億美元。總而言之,維穩控管也已經變成了一大商機。

不過Megvii沒有直接提到維穩,而是強調「公共安全」和「執法需要」;例如:

  • 讓警察能識別出路上一個忘了自己姓名地址的失智老人;

  • 自動調度大型辦公樓中的電梯;

  • 檢查獲得住房補貼的租戶是否非法轉租他們的公寓;

  • 建立允許進入幼兒園的人員白名單;

  • 讓銀行櫃檯人員查詢客戶身分。

就像過去的資料庫一樣,人臉識別的用途會越來越廣,甚至會衍生出一些看起來原本跟臉無關的方向。其中或許有些是「好」的、有些或許會引起疑慮。但我們怎麼分辨?

我們目前在判斷這類問題時,往往會使用這樣的思路:

  • 拍攝識別系統是政府還是私人公司營運?

  • 是主動的還是被動的?是在使用特定服務(例如在接待櫃檯登記資料)時發生,還是只要走進大門、甚至從街上走過門口就會被拍攝?

  • 如果是被動的(走過就被拍攝),它需要告訴你嗎?如果它是主動(在特定情境被拍攝)的,你可以選擇不被拍嗎?

  • 拍攝資料會連結你的真實身分,還是僅作為匿名統計之用(例如計算大眾運輸系統流量)?

  • 被拍攝對我有好處嗎?還是只有其他人獲益?

  • 最後,不只是「要不要被拍」,還有被記錄下來的資料問題:這些資料會存在哪裡?有誰可以看到?我可以要求查閱或刪除嗎?

在這些前提下,相信大多數人都對海關用攝影機拍你的臉、比對護照和電腦檔案上的照片、並且記錄整個過程,都不會表示反感;在有人臉辨識的銀行櫃檯也不會太不自在。

因為,這些過程都有明確而正當的理由,執行的單位也獲得你的認可;同樣的,我們會接受電話公司追蹤自己手機的位置、或是往來銀行知道戶頭裡有多少錢,因為這是他們的工作。

其實,我們已經習慣於給予不同機構各自的權限,讓他們窺探我們的隱私。

但反過來說,電話公司當然不可以知道我一個月賺多少錢。總而言之,我們已經習慣於給予不同機構各自的權限,讓他們窺探我們的隱私。

另一方面,想像一下物業開發商用人臉辨識功能來標記、追踪走在購物街上的每個人,紀錄他們進入哪些商店、看什麼產品、拿起哪些試穿,然後將這些資料連結到櫃台結帳機和信用卡。

相信多數人會對這種行為覺得不舒服;因為它是被動的,沒有經過你的知悉和同意,而且是私人公司營運、對你也沒有任何好處。

換言之,這也可以說是在您「非自願」的情況下,對隱私的入侵。

但換個方式看,如果這些追蹤記錄是匿名的,那麼是否還可以接受?如果記錄資料不會明確連結到信用卡和身分,並且僅用於分析逛街路線呢?如果它追蹤的是衣服和走路方式,而不是臉孔呢?

如果公共交通單位使用匿名的人臉辨識,來分析人們的通勤軌跡呢?這樣可以嗎?既然商家已經可以使用信用卡(購物時會連結你的真實身分)、捷運公司也可以透過智慧票卡知道你的行蹤(通常是如此),這樣又有什麼不同呢?

或許,我們對於自己同意和不同意的對象,其實並不是那麼清楚?

商家追蹤顧客的行為由來已久,只是過去沒有用到人臉辨識,而大眾似乎也不太喜歡這一點。但如果是非常明顯的政府公益用途,像是識別通緝犯,又是如何呢?

我們大家(至少筆者個人認為)我們並不會反對貼在警察局門口、或是警車上的「通緝犯照片」;另一方面,現在在收費站、停車場之類的地方,到處都有車牌辨識系統,大家也都習慣了。

但如果每輛警車上都有一大堆鏡頭,掃描百米範圍內看得到的每一張臉、並且跟全國通緝犯資料庫互相比對呢?如果有一套系統要求路上的每輛自動駕駛汽車都掃描對向來車、並且彼此交換臉孔資料來搜尋通緝犯呢?

在以上這些問題中,我們假設要找的是真正的罪犯,而不是異議人士之類的特定族群;但即使如此,大眾仍然很難達到共識。重點是,人們相信警察嗎

或許你會說,警察不可以持續掃描每一張臉(例如掃描進城地鐵車廂上的每個人),但可以調閱監視器影片,針對某一張特定的臉來進行掃描。這兩種手法似乎不一樣,但實際上有什麼不同?

美國法院曾經有過判決,限制警方在嫌犯車上放置GPS追蹤器來進行調查,多數時候必須用老派的盯梢方式來跟監。這樣的結果究竟是因為我們不要這樣的跟蹤方式,還是我們不希望警察跟蹤得太容易、太自動化?

另外一個極端案例是,美國政府禁止相關管理機構將槍枝資料紀錄在可搜尋的資料庫中;這些相關資料都不得數位化、必須用手動方式搜尋。

或許我們可以說,有某些自動化的事情,確實是我們不喜歡的:

如果有些原本只能在小範圍中完成的事情,忽然變得也可以在大範圍中實行,我們就會開始緊張。

來自資料庫的歷史經驗告訴我們,我們之所以會對某些事物感到不安,只是因為它們很新、所以我們不熟悉,而人臉辨識就是個例子。

同樣的,任何新應用都可能帶來某種程度的不安,但這些都是可以試著適應或重新思考的。因為:

  • 這些新事物確實可能不好、而且我們也不喜歡;

  • 或者我們覺得這些新東西沒什麼重要;

  • 或著我們覺得它只是新瓶裝舊酒、沒什麼了不起;

  • 或許它是原本就存在的應用,只是加上人臉辨識之後變得更厲害、或是讓我們覺得完成度更高。

以上的這些討論,都是從意識、文化、政治出發,而不只是從技術角度來看。我們都知道,在各種極端的應用案例之中,都有著一般人不見得認同的模糊空間,而是否認同則是會因人、因地而異的。

你喜歡身分證嗎?

舉個例子來說,各國公民對於強制配發「身分證」就有不同的態度。在英國並沒有身分證這種東西,民眾也一直不想擁有或使用;因為他們認為,這個制度會侵害個人自由。

但是自古崇尚自由的法國,就沒有這個問題;每位公民都有身分證,而且對它完全沒有意見。不過值得一提的是,因為過去納粹在佔領期間用「族裔背景」資料來逮捕猶太人,所以現今的法國人口普查並不包含這個項目。

理論上美國沒有身分證制度,但某種程度上也可以說有[footnote]編按:一般來說,在其他國家需要用身分證證明自己的場合,在美國都是用駕照;但前提必須是你有駕照。[/footnote]。德國也有身分證制度,但基於歷史原因,德國人對於其他形式的侵犯隱私行為都非常抗拒。

對於要不要身分證制度,並沒有唯一的標準答案,也不太可能透過資料分析來找到標準答案;因為這是個牽涉不同社會、文化、以及政治背景問題,各國都有不同的作法。

雖然如前所述,美國沒有全國性的數位化槍枝資料庫,但有一家名叫做「PatronScan」的公司提供服務,讓超過600家酒吧和夜總會掃描你的駕駛執照,再跟一個內含38,000人的黑名單互相比對,以便預防「意外事件」。此外,美國許多州的車輛監理局也出售個人資料給私人公司作為商業用途。

想像一下,要在1980年建立一個這樣的決策資料庫組合,來預測各種事件的發生,會有多麼困難?

「道德」與「控管」:不同機構有不同手法

科技業對這類問題最直覺的反應,就是公司中創立各種「道德委員會」、並且制訂各種規範工程師、研究人員、以及公司本身的行為準則。這兩種作法的基礎是:

  • 承諾不用「壞資料」(以最廣義的角度來說)來創造東西;

  • 承諾不創造「壞東西」,至於什麼是壞東西,則交由道德委員會的審查程序來判斷。

沒錯,這些都是必要的,但還不夠。

首先,如果承諾的內容是「不做壞東西」,看起來有點畫蛇添足,因為沒有人會刻意把東西做壞。你或許可以列出一些「盡量避免搞砸」的事情、並且因此有些進步;但該發生的還是一定會發生、你也沒辦法阻止別人出包。

回到資料庫的例子。筆者有個朋友最近寫了一篇部落格文章,提到因為租車公司誤報失竊,導致關於他被警察攔下並銬上手銬。這不是ML的問題,而是40年前技術的問題。

業界工程師都知道,資料庫本身出錯的歷史,比大多數資料庫工程師的壽命都還長,未來也仍會繼續發生;但重要的是,幸好原本要逮捕他的警官瞭解「資料庫可能出錯」的概念,而且(幸好)有調閱相關資料的權限,才解除了危機。

承認吧,人跟機器都會出錯

這又回到了先前提到的人臉辨識問題:你或許可以承諾自己盡量不犯錯,但抱持著「錯誤是可能發生的」概念可能更有幫助;因為,沒有人能打包票電腦一定是對的。

做「防扒竊人臉辨識系統」的外包工程師應該要有這個概念,辦這類案件的警察、律師、法官也都該有這個概念;畢竟只要電腦還是由人類操作,各種各樣的錯誤就會在每部電腦上一再發生。

其次,任何公司的任何人都該有權利判斷人臉辨識(或任何類型的ML系統)是否「邪惡」、並且主張不要把它做出來。

然而,「邪惡」與否通常是見仁見智的問題;如同前面討論過的,我們有時候就是不想要某些系統。另一方面,相信Megvii公司也有道德委員會,但他們就同意做了「智慧城市物聯網」的案子。

但正如Megvii和許多其他案例所顯示的,連維穩技術都已經成為一種商品。或許最尖端的技術仍然掌握在少數公司手中,但人臉辨識技術已經非常普遍,幾乎任何軟體公司都可以輕鬆取得、並且建構相關產品,

或許你可以決定自己要不要做某種產品,但它可能還是會被別人做出來。

如果我們認為某個產品是「邪惡」的,目標應該止於自己不做、還是想辦法防止它被任何人做出來?

如果是後者,就帶出了另外一個層次的問題:假設歐盟各級政府都決議禁用人臉辨識系統,仍然不能保證不會有人或系統出錯;但至少可以提供強制性的審查程序,以避免錯誤發生、提供補救或處罰措施、要求檢視或刪除個人資料、甚至禁止或控管特定的應用方式。

技術與人之間

在筆者看來,目前最大的挑戰是定義出正確的「抽象層」,讓討論和規範有所依據。當Bernie Madoff的龐氏騙局被踢爆時,重點絕對不在於「Excel工具需要更嚴格的監管」、或是「他的房東應該發現他在做什麼」。

在這裡,監管機構介入的「抽象層」應該是「金融服務」本身,而不是用了什麼工具。

目前對於規範技術應用的最大挑戰,是定義出正確的「抽象層」。

即使要監管金融服務,也要知道前提是貸款、信用卡、股票、以及個人金融等各種服務的條件都不一樣。同樣的道理,如果有人要立法規定只能用人臉辨識解鎖手機、超市必須掃描哪些顧客手上有會員卡、或是警察只能在哪裡拍照並儲存資料,都必定是事倍功半、效果不彰。

雖然如此,不同國家和地區仍不同的看法和手段。雖然歐盟和美國一直在熱烈討論隱私和技術應用的問題,但同時Megvii公司也已經將「智能城市物聯網」相關產品賣到中國之外的15個國家。

所以除了討論人臉辨識之類的個別應用之外,筆者覺得更重要的是,全世界在這方面已經形成了兩個陣營:一個陣營是以「歐盟模式」和美國為首,主張對隱私和技術應用嚴格監管;另一個陣營則是也正在擴散的「中國模式」。

現在看來,顯然也頗有不少國家認為,中國模式比歐盟或美國的做法更值得效法。