歡迎光臨
我們一直在努力

算法歧視? 大數據折射人類社會的偏見與陰暗

IG奪冠的喜訊讓互聯網沸騰,玩家們奔走相告,競相慶祝。 作為IG戰隊老闆的王思聰隨即在微博抽獎,隨機抽113位用戶每人發放一萬元現金為獎勵。

可是抽獎結果出乎意料,獲獎名單中有112名女性獲獎者和1名男性獲獎者,女性獲獎者比率是男性的112倍;然而根據官方數據顯示,在本次抽獎中,所有參與用戶的男女 比率是1:1.2,性別比並不存在懸殊差異。

於是不少網友開始質疑微博的抽獎算法,甚至有用戶主動測試抽獎算法,將獲獎人數設置大於參與人數,發現依然有大量用戶無法獲獎。

這些無法獲獎的用戶很有可能已經被抽獎算法判斷為“機器人”,在未來的任何抽獎活動中都可能都沒有了中獎的機會。 網友們紛紛開始測算自己是否為“垃圾用戶”,微博的“算法事件”一時滿城風雨。

這已經不是第一次人們質疑算法背後的“公正性” 。 在大數據時代,人類會有越來越多的利益分配和大數據直接相關;誰都不想在求職中被大數據自動判斷為“缺乏競爭力的求職者”或者在法庭審判上被大數據抓 進監獄。

然而事實卻是,在算法決策的“黑匣子”面前,人類無法了解到算法的決策過程,而只能夠了解到結果。

縱觀近幾年,眾多科技公司的算法都被檢測出歧視,谷歌的搜索算法將黑人標記為“大猩猩”;微軟公司的人工智能聊天機器人Tay出乎意料的被“教”成了一個集 反猶太人、性別歧視、種族歧視等於一身的“不良少女”……這些事件都引起了軒然大波,並且最終也導致了算法被叫停。

為什麼大數據算法會歧視? 上樑不正下樑歪

在計算機領域,有一句非常有名的縮寫是GIGO,翻譯過來就是說,輸入的如果是垃圾數據,那麼輸出的也將會是垃圾數據。 而在大數據領域也有類似的說法,《自然》雜誌曾用BIBO表示Bias In, Bias Out,也就是說偏見進,偏見出。

大數據可以理解成是社會的明鏡,能夠折射出人類社會中意識到的和沒意識到的偏見;如果整個社會對某少數族裔或者性別有偏見,那麼大數據也將在結果中展現出這 種偏見。

亞馬遜公司曾經在2014年開發了一套“算法篩選系統”來幫助亞馬遜在招聘的時候篩選簡歷,開發小組開發出了500個模型,同時教算法識別50000個曾經在簡歷中出現的術語讓算法學習 在不同能力分配的權重,但是久而久之,開發團隊發現算法對男性應聘者有著明顯的偏好,當算法識別出“女性”相關詞彙的時候,便會給簡歷相對較低的分數,比如,女子足球俱樂部 等;算法甚至會直接給來自於兩所女校的學生降級。

這個算法最終被路透社曝光,而亞馬遜公司也停止了算法的開發和使用,但是為什麼看似人畜無害的算法會變壞呢?

通過上圖不難發現,亞馬遜公司的整體員工構成以男性為主,而從路透社整理的自2017年起這些公司公佈的數據中得知,像谷歌、蘋果、微軟、Facebook這些公司,整體上 男性佔了2/3,而單獨挑出技術崗位,男性比例則達到了將近4/5。

亞馬遜用來訓練算法的“老師”本身就帶有很強的性別偏好,而年幼無知的算法則只能邯鄲學步,從以往的簡歷數據學習,自然而然就學到了這個偏好,算法清楚的將互聯網產業的 性別偏好擺在了檯面上。

也就是說,算法的歧視是從人類社會學來的。

數據不夠,沒法湊

現行算法中很難存在絕對公平。

眾所周知的是,當算法學習的數據量越大時,算法的錯誤會越少,而且結果會越趨向於精準。 就算人類能夠開發出一套篩選系統排除帶偏見的數據,將不帶偏見的數據輸入算法中給算法學習,算法也無法達到絕對公平。

因為非主流總是擁有更少的數據,而主流永遠擁有更多的數據;所以當兩套算法相比較的時候,數據少的一方的錯誤會更多,而數據多的一方錯誤會更少, 久而久之,兩套算法之間的還是會拉開差距。

舉個例子,如果你加入IG,同時訓練兩款遊戲,CS1.6和英雄聯盟,而你在此之前從沒有涉獵過相似的遊戲。 在加入訓練之後,每天讓你在完全相同的心理和生理狀態下玩3個小時的CS1.6和3個小時的英雄聯盟,剩下的時間吃飯睡覺,如果其他條件相同的情況下,你玩 這兩個遊戲的水平應該是以相同的速度穩步提升。

但是實際情況是,CS1.6這款遊戲已經過時,玩CS1.6的人很少,你只能通過和少數玩家一起對戰,在對戰中提升水平,學習到的地圖槍法相對固定,無法準確的 衡量自己的水平提高的程度,並且玩家數量的缺乏讓你的水平在有限範圍內提高,容易達到瓶頸。

但英雄聯盟就不同,它是一款非常火爆的遊戲,每天有無數的玩家能夠和你對戰,在每次對戰中你都能夠學到最新的戰法,對英雄的熟練程度穩步提高,並且足夠 數量的玩家能夠形成訓練梯隊,在對戰中能夠你能夠清楚的了解到自己的水平提升情況;而且永遠能夠遇到比自己強的玩家。 久而久之,雖然每天都是花相同的時間玩兩款遊戲,但是水平卻會產生巨大的差距。

現行算法中沒有任何算法的準確率和公正率是百分之百的,這是一個算法學習領域暫時還未能解決的問題。

在不遠的未來可能有依靠少量數據學習的算法,但是當算法被應用到現實中的時候,算法還是有可能會根據實際情況調整偏好,傾向於主流人群。

不能向“算法歧視”低頭,公平是每個人的事

不公平的算法帶來的歧視是無形、不易察覺而又影響深遠的,這種歧視影響到算法控制的所有領域。

如果不是本次懸殊的抽獎比率的差距,很少有人會意識到自己已經被劃歸為機器人,而被標記為機器人之後,少數群體也就被算法完全孤立了,在一個本來可以廣泛參與的社交 軟件中,少數群體成為了旁觀者,所有的抽獎活動都與他們無關,而且他們不知道如何消除自己身上的標籤,久而久之,如果沒有人關注並且發聲,少數群體只能選擇離開這個平台。

關於如何解決算法歧視問題,科技界眾說紛紜,有人曾提出算法要公正透明,能夠讓公眾監督算法,但是算法不屬於每一個人都有能力和願意去監督的,它有其專業性的壁壘。 現在已經有不少的科學家在努力開發出一套“公平公正”的算法系統,算法的未來可期。

然而不容置疑的是科技公司以及組織不應該將“帶有明顯歧視性質的算法”在不經測試之下應用到現實情景中。

如果要將算法應用到更廣泛的領域,就需要根據各行各業的情況定制算法並且對不同情況下的公平進行合理的定義,以保證人類社會中的法律規則、制度以及司法決策行為受到程序正義 和正當程序約束。

而在未來的算法開發過程中應該對算法開發者進行適當的“算法倫理”教育,並且確定一些算法的“基本準則”,如同“機器人永不能傷害人類一樣”。

*文章為作者獨立觀點,不代表虎嗅網立場

本文由 S-Tech​© 授權 虎嗅網 發表,並經虎嗅網編輯。 轉載此文請於文首標明作者姓名,保持文章完整性(包括虎嗅注及其餘作者身份信息),並請附上出處(虎嗅網)及本頁鏈接。 原文鏈接:https://www.huxiu.com/article/272714.html

未按照規範轉載者,虎嗅保留追究相應責任的權利
未來面前,你我還都是孩子,還不去下載 虎嗅App 猛嗅創新!

未經允許不得轉載:頭條楓林網 » 算法歧視? 大數據折射人類社會的偏見與陰暗