首頁 自媒自媒體 THU數據派正文

一文了解AI時代的數據風險(后真相時代、算法囚徒和權利讓渡)

當今,在基于數據的個性化推薦算法機制滿足了人們獵奇心、窺探欲、表演欲,讓人們在網絡中尋找到共鳴感和認同感時,我們未曾意識到一些新問題和新風險的出現。這些新問題和風險能夠影響個人對世界的認知,影響群體達成共識,甚至影響到整個時代的價值觀。根據清華新聞與傳播學院彭蘭教授的觀點,目前數據時代所面臨的風險來自以下幾個方面:

客觀性數據可能成為后真相時代的另一種推手;

個性化算法雖然帶來了個人信息服務水平的提升,但也給人們帶來偏見、歧視、思想被禁錮等困擾;

相關權利保護則受到更多挑戰,特別是在隱私權和被遺忘權方面。

下面,我們將進行詳細解讀。

一文了解AI時代的數據風險(后真相時代、算法囚徒和權利讓渡)

?

風險一:大數據帶來的假象

2016年,《牛津英語詞典》將“后真相”(post-truth)作為年度詞匯,揭示世界進入了后真相時代。羅輯思維曾對該名詞做出一個精辟的總結:“過去,我們相信認知源于事實;現在,認知本身就是事實”。

這其中原因,技術自然逃離不了干系。例如谷歌和臉書等公司開發的算法是基于用戶從前的搜索和點擊進行的,隨著每次搜索和每次點擊,用戶就發現自己的偏見再次得到確認。如今的社交媒體已成為大部分人獲得新聞信息的主要渠道,其中的推薦算法機制引導我們進入觀念類似者的小群體空間內,它只為用戶提供他們喜歡、或選擇相信的信息,是否真實并不重要。

后真相現象提醒我們,數據與算法這些看上去客觀的手段與方法,并不一定能帶來更多真相,反而可能走向它的反面。如果應用數據的過程不遵守一套完整的規范,或者在數據應用中出現了漏洞而未能察覺,未來我們或許會被更多由貌似客觀的數據堆積成的假象所包圍。根據彭蘭教授的觀點,數據生產的每一個步驟都存在導致假象的風險:

1. 數據樣本偏差帶來的“以偏概全”

盡管已經進入到“大數據”時代,而大數據的賣點之一是“全樣本”,但事實上,在現實中,獲得“全樣本”并不是一件容易的事。

在國內,由于歷史原因,很多行業本身就缺乏完整、系統的數據積累,或者由于隱私、信息安全等問題,能公開的只有不完整的數據。譬如醫療行業和政府部門,如何打破信息孤島,在哪種程度范圍內做到公開、透明、共享,依舊是急需攻克的難題。

至于互聯網數據則更是資源緊缺。目前互聯網數據都被少數擁有巨大流量的平臺壟斷,其他中小型企業由于先天數據不足的缺陷,只能依賴于網絡爬蟲從這些大平臺爬取數據。此前馬蜂窩被爆1800萬條以上的所謂真實用戶數據是抄襲自其他OTA平臺,暴露了互聯網行業普遍數據造假的潛規則。所以,用戶所看到的對一個酒店或餐廳的好評,并不一定是真實信息,很有可能由網絡機器人爬取而來。如果說數據缺失能夠導致“以偏概全”,數據造假則是直接簡單粗暴地蒙蔽用戶了。總之,行業數據可能存在樣本不完整的問題,這也必然對數據分析結果的完整性、代表性產生影響。

一文了解AI時代的數據風險(后真相時代、算法囚徒和權利讓渡)

2. “臟數據”帶來的污染

除了樣本的問題外,用各種方式獲取的數據,本身質量也可能存在問題。部分缺失的數據、重復的數據、失效的數據、造假的數據等,都被稱為 “臟數據”。盡管數據處理前都會要求數據清洗,但這未必能完全消除臟數據帶來的污染。某些數據分析者也可能因為一些原因無視臟數據的存在,甚至會制造一些臟數據。

此前人工智能對話系統微軟小冰剛上線時,由于她是用實時對話的數據進行訓練的,所以用戶給她一些不好的對話后,導致小冰飆臟話就是數據污染的很直接例證。不久前,亞馬遜的AI招聘系統被爆出性別歧視也是同樣道理。從技術上講,機器學習過程不會引入任何偏差,但訓練數據中存在的任何偏差都將在算法中忠實地展現出來。AI的性別歧視,只是成功模仿了亞馬遜當前的招聘狀態。

因此,數據質量永遠是數據分析立項后首先要考慮的。首先要理解數據來源、數據統計和收集邏輯、數據入庫處理邏輯;其次是理解數據在數據倉庫中是如何存放的,字段類型、小數點位數、取值范圍,規則約束如何定義的;第三是明確數據的取數邏輯,尤其是從數據倉庫中如何用SQL取數的,其中特別是對數據有沒有經過轉換和重新定義;第四是拿到數據后必須要有數據審查的過程,包括數據有效性驗證、取值范圍、空值和異常值處理等。當這些工作都做充足之后才能進行下一步分析。

3. 數據分析模型偏差帶來的方向性錯誤

在美國暢銷書《大規模殺傷數器:大數據如何加深不公和危害民主》中,作者提到現在的數據科學家,習慣用模擬的方式概括人類的行為,以群體畫像推導個人行為,依此判定。這本質上沒有問題,問題出在反饋上:大部分的模型根本沒有矯正的環節,如果模型的結果有偏差,系統本身無從得知,根據錯誤結果持續優化,最終反而變本加厲。此外,作者還認為建立怎樣的數據分析模型取決于我們自己,我們的價值觀、我們的欲望,影響我們種種決策:收集哪些數據,提起什么樣的問題。所謂的模型,是指內嵌于數學的觀點。

一文了解AI時代的數據風險(后真相時代、算法囚徒和權利讓渡)

除了以上三個環節可能造成假象外,包括數據挖掘能力有限、數據解讀能力有限,都有可能帶來偏差。總之,當今的某些大數據分析在某種意義上就是在分析甚至“制造”人們的視角,然后將符合視角的“事實”推送給他們,雖然推送的“事實”似乎是客觀的,但是,當它們被放置在人們的“視角”下時,就成為了影響主觀判斷和態度的重要手段。

2016年美國總統大選,多家民調機構的預測結果的失敗,讓人們質疑數據的客觀性與準確性。而時隔兩年之后曝出的Facebook數據泄露事件,在某種意義上是對民調結果失靈的一個回應,盡管我們并不能確定劍橋分析公司對大選結果的干預究竟起了多大作用。這一事件還有著更深層的寓意,它提醒我們面臨的一個新挑戰:一方面,數據分析的目標是追求客觀地描述事物;另一方面,數據分析也可能會成為對客觀事物或客觀進程的干預力量。可以預見的是,未來兩者之間的博弈可能會成為常態。

?

風險二:數據時代個人所面臨的風險

在大數據時代,從個人角度看,目前數據應用與他們最直接的關聯,是各種具有個性化算法推薦的應用。但事實上,這種算法既會對個人視野格局產生影響,也會暴露用戶隱私。

1. 算法是否會將人們囚禁在信息繭房中?

“信息繭房”一詞出自于美國學者桑斯坦,在他看來,信息繭房意味著人們只聽他們選擇和愉悅他們的東西。

盡管每個人都有自己的閱讀偏好是正常的現象,但如果每個人關注的只是自己興趣內的那一小片天地,他對這以外的世界,就會越來越缺乏了解。這或許不會影響到他個人的生活,但是,在需要公共對話的時候,人們會缺乏共同的 “視角”。而共同 “視角”的缺乏,意味著人們對一些事實的判斷會出現差異,共識難以形成。同時,信息環境的封閉與狹隘,也可能會進一步固化人們的某些觀點與立場。

一文了解AI時代的數據風險(后真相時代、算法囚徒和權利讓渡)

從面向個人的算法角度看,要盡可能減少信息繭房效應,就要在算法設計時深入理解考慮用戶行為與需求中的矛盾,例如能夠及時預測用戶需求的遷移或擴展,或者提供一些慣性之外的信息,給個體帶來新體驗等。

除了以算法來完成面向個體的內容推薦,算法也可以用于公共性內容的匹配,也就是通過算法洞察公眾的共同心理,使具有公共價值的內容到達更廣的人群,也同樣可能幫助個體掙脫繭房的束縛。

2. 算法是否會將人們囚禁在偏見與固有的社會結構中?

算法的另一種風險,是對社會偏見的繼承,以及這些偏見可能帶來的文化或社會禁錮。當算法用于不當的目的時,會對某些人群或個體造成歧視與傷害。算法不僅在歸納與“同構”現有文化中存在偏見、歧視,還可能用某種方式將它們放大。譬如此前舉例的亞馬遜AI招聘系統性別歧視一樣,機器的歧視來自于數據的偏差,而數據的偏差來自于人的偏見。

這一點,一些大數據的開發者體會更深,如國內大數據應用領域的代表性學者周濤所言,“讓我們不安的是,這種因為系統設計人員帶來的初始偏見,有可能隨著數據的積累和算法的運轉慢慢強化放大。”

3. 算法是否會使人陷入“幸福地被操縱”?

或許,個性化算法還會帶來另一個深層風險, 那就是在個性化服務下,個體逐漸失去自主判斷與選擇能力,越來越多地被算法或機器控制。從人的本性來說,懶惰是天然的,想以最小的成本或付出獲得最大的報償,是人之常情,個性化服務在這方面迎合了人性,但是,它也可能正在以方便、幸福的名義,漸漸地使人們對它產生依賴,并在不知不覺中被其麻痹,被其囚禁。

一文了解AI時代的數據風險(后真相時代、算法囚徒和權利讓渡)

?

風險三 個人權利的讓渡是數據時代的必然代價?

數據時代對普通個體的另一個深層影響,是個體的全面數據化。在未來,用戶的數據將更為多元,將通過更多渠道生成、保存,這也意味著用戶數據中暗藏的風險更大,數據權利的保護面臨更大的挑戰。

1. 用戶缺乏對自己數據的知情能力

此前李彥宏一句“中國人對隱私問題不敏感,愿意用隱私換取便利、安全或者效率”的言論讓自己成為眾矢之的。事實上,對于普通用戶而言,并非他們不介意隱私被暴露,而是并不知道自己的隱私會如何被侵犯,以及被侵犯到何種程度。他們與那些掌握并利用甚至可能出賣他們的隱私數據的公司之間是不平等的。在缺乏對自己數據的知情能力的情況下,隱私保護根本無從談起。

雖然在某些時候,以隱私換便利是用戶的一種不得已的選擇,但用戶應該有權利知道,出讓的是哪些隱私數據,能獲取哪些便利,以便他們做出權衡。但今天的網絡服務提供者多數并沒有提供充分的解釋,即使有一些隱私條款,也往往語焉不詳或者暗藏陷阱。

2. 用戶數據的邊界問題值得探討

此外,還有用戶數據使用權限邊界問題。譬如之前第三方公司劍橋分析利用心理測試APP來收集Facebook用戶數據一樣。即使用戶同意向某個服務商提供個人信息,但服務商是否有權向第三方透露?而第三方是否又可以再次將數據轉手?網絡中的數據都是相互關聯的,獲取未經授權的關聯數據是否合法?或許在理論上做出限定是容易的,但在現實中的操作,又并非那么簡單。

3. 用戶是否應該擁有絕對隱身的權利

再一個事關用戶隱私權的問題是,今天的用戶是否應該擁有一種隱身能力,使自己的數據不被他人獲取或存儲,從而在根本上保護自己。或許,這在國內將很難被執行。譬如人臉識別技術已被廣泛用于街頭巷尾的攝像頭,盡管“天眼”織就“天網”讓罪犯無處可逃,而對于普通個體而言,同樣讓人感覺到這是一種無處不在的監視。

在個體被隨時隨地“數字化”映射的情況下,隱身,也是保護隱私的一個重要方面。雖然在法律上要獨立形成一種“隱身權”或許并不現實(它更有可能是隱私權中的一部分),但至少在技術層面,需要給予用戶更多的“隱身”可能。在物聯網將廣泛應用的未來,隱身許可將變得更為重要。

4. 保護用戶隱私的法律并不能完全保護隱私

在保護用戶隱私的法律方面,2012年歐盟出臺《一般數據保護條例》,稱信息主體有權要求信息控制者刪除與其個人相關的資料信息。該權利被稱為被遺忘及擦除權。在國內,2016年頒布的《網絡安全法》正式確認了個人對其網上個人信息的“刪除權”:“個人發現網絡運營者違反法律、行政法規的規定或者雙方的約定收集、使用其個人信息的,有權要求網絡運營者刪除其個人信息。”這些都是對數字時代個人信息的存留風險做出的法律回應。

不過,目前被遺忘權或刪除權更多地是在學界和法律界被討論,大多數普通人并不知道它的存在。并且,即使有被遺忘權或刪除權,個體也會面臨比以往更多的風險。雖然謹言慎行或許是人們自認為的減少風險的辦法,但在算法通過若干點贊就可以判斷用戶的性格的情況下,在未來各種傳感器可以隨時隨地捕捉人的數據的情況下,被記憶仍會是常態。

一文了解AI時代的數據風險(后真相時代、算法囚徒和權利讓渡)

以上是對數據與算法時代可能面臨風險的探討。盡管數據與算法應用的價值不可否定,但我們需要對數據和算法應用的失誤或失范有足夠的警惕,也需要增強對抗風險的能力。在國內,由于觀念、基礎條件、規范等方面的障礙,都意味著大數據應用的推進需要時間。任何功利、草率的思維和行為都是對數據應用的損害而非推動。在數據技術的大躍進過程中,我們也需要回歸原點,完成一些基本建設,譬如數據素養的培養、數據資源基礎設施建設、數據質量評估體系建立、信息倫理規范的約束等。在這個時代,數據、算法將會成為決定我們生存方式的重要因素。識別、抵抗這其中的種種風險,也應該成為我們生活的一部分,成為各種數據應用機構的基本責任。

責任編輯:陳近梅

分享:
數博故事
貴州

貴州大數據產業政策

貴州大數據產業動態

貴州大數據企業

更多
大數據概念_大數據分析_大數據應用_大數據百科專題
企業
更多
三级片免费在线观看