讀AI賦能05消費者盈余

1. 肖莎娜·朱布夫
1.1. Shoshana Zuboff
1.2. 哈佛商學院榮譽退休教授
1.3. 《監控資本主義》
-
1.3.1. 2019年最佳圖書之
-
1.3.2. 谷歌和Facebook等公司用一種“感知化、網絡化、計算化的基礎設施”取代了奧威爾筆下的政府和“老大哥”?,朱布夫將其稱為“大他者”(Big Other)
-
1.3.3. 技術不再將國家武器化為“全面控制的項目”?,而是將市場武器化為“全面確定性的項目”?
-
1.3.4. “大他者”通過無處不在的監控運作,在一次一次獲取地理位置數據的請求中耗盡我們的個體能動性,吞噬我們個人數據的算法逐漸削弱了我們的自由意志
-
1.3.5. 民主逐漸優化或者說是瓦解為市場驅動的極權主義
-
1.3.5.1. 對不擁堵的出行路線和Yelp上廣受好評的比薩外賣的渴望,我們逐漸喪失了自主生活的能力
-
1.3.6. "大他者”掠奪我們的行為以獲取數據盈余,卻將蘊藏在我們的身體、大腦和跳動的心臟中的意義拋諸腦后,就像為了得到象牙而對大象進行的可怕屠殺一樣
1.4. 只要用戶從谷歌有效利用這些行為數據的工作中獲得了全部價值,這就是一種公平的交換
-
1.4.1. 不僅利用數據改善搜索體驗,還創造了諸如翻譯軟件等全新的產品和服務
-
1.4.2. “行為價值再投資循環”?
1.5. 如果你沒有為產品或服務支付費用,那“你本身就是產品”?
-
1.5.1. 你并不是產品,你只是被遺棄的軀殼
-
1.5.2. "產品”衍生于從你生活中剝奪的數據盈余
2. 數據尾氣
2.1. 谷歌在成立初期就意識到,用戶在其網站上執行的每一項操作,包括輸入的搜索關鍵詞、點擊的鏈接等,都是可追蹤的
2.2. 所有這些從某些角度看似毫無價值,有時甚至被稱為“數據尾氣”而非“數據”的東西,現在卻可以被保存、匯總、分析、重新組合,并最終以全新的方式被大規模應用
2.3. 谷歌最終犯下了朱布夫所認為的“監控資本主義”的原罪:它開始將從用戶那里收集的一些行為數據用于增強給用戶推薦廣告的精準性
-
2.3.1. 谷歌的理論是,增強廣告與用戶的相關性,用戶會更頻繁地點擊廣告,廣告商也能從這個過程中獲得更多利益
-
2.3.2. 從操作層面上講,這意味著谷歌會把不斷增長的行為數據緩存,并將卓越的計算能力和專業知識集中用于將廣告與用戶搜索相匹配這個單一任務上
-
2.3.3. “部分數據仍會用于改進服務,但越來越多的附加數據將被重新利用,以提升谷歌及其廣告商的廣告盈利能力”?
2.4. 谷歌有6個產品的用戶規模超20億,而iPhone的用戶數量約為14.6億
- 2.4.1. 科技巨頭所創造的價值在用戶與公司之間是雙向流動的
2.5. 廣泛而創造性地使用數據通常能為個人用戶、整個社會以及開發者創造巨大的價值
3. 提取數據
3.1. 提取數據并不像提取石油、銅礦,或者拔掉一顆牙齒那樣
3.2. 當從深埋于地下上千米的煤層中開采出大量煙煤時,地上留下了洞,且這一不可再生資源將不可逆轉地被耗盡
3.3. 對于數字文件,提取只是對原件的復制,原件仍然完好無損地保存在其初始位置
3.4. 全球數據儲備的增加速度之快超乎想象
-
3.4.1. 如今,人類每小時產生的新內容足以裝滿一艘虛擬超級油輪,這些內容包括自拍照、社交媒體上的發帖和點贊、營銷演示文稿、谷歌搜索、路線規劃、小說、醫學研究成果和視頻等,它們正在不斷擴充我們已經用之不竭的數據儲備
-
3.4.2. OpenAI的GPT-3是在3000億個詞元上進行訓練的,而GPT-4的訓練數據集規模更大
-
3.4.3. 非營利性組織Common Crawl維護的同名數據集,包含超過27億個網頁
-
3.4.4. 名為The Pile的數據集,在Common Crawl數據集修改版本的基礎上增加了21個子數據集
-
3.4.4.1. 包括來自微軟的編碼網站GitHub的代碼,來自PubMed Central和ArXiv的科學論文、各種書籍和文學作品數據集,來自各種法律項目的法律語料庫、美國專利局的資料,以及來自YouTube的視頻字幕等
-
3.4.5. 谷歌也創建了自己的數據集C4(Colossal Clean Crawled Corpus),意思是“巨量清潔爬取語料庫”?
-
3.4.5.1. C4的五大來源分別是:專利檢索工具Google Patents、維基百科、文檔托管網站scribd.com、?《紐約時報》網站和PLOS(一個非營利性的開放性學術出版平臺)?
-
3.4.6. 所有這些數據集都涵蓋了來自網站、書籍和科學出版物的內容,卻未獲得這些材料版權所有者的明確許可
3.5. AI開發者普遍認為,他們對數據的使用在現行版權法下是合法的,并且對用戶和整個社會普遍有益
-
3.5.1. 如果法院裁定,對數據進行訓練以提取模式和信息(而非直接復制或整合原作)不屬于合理使用,那么我們將需要新的解決方案來管理如此大規模的內容授權
-
3.5.2. 鑒于互聯網上幾乎所有內容都自動受到版權保護,我們需要全新的機制來進行清權工作,這涉及數十億的博客文章、用戶評論、產品評論、照片、表情包及新聞文章、書籍或故事片等
-
3.5.3. 這樣的機制必須平衡內容創作者、AI開發者和公共利益之間的關系
3.6. 廣泛而創造性地使用數據通常能為個人用戶、整個社會及開發者創造巨大的價值
- 3.6.1. 當那些沉睡的、未被充分利用或僅在特定背景下有意義的數據,被重新利用、合成并以新穎且具有復合效應的方式轉化時,就不是一種掠奪,而是一種對資源的有效利用與再創造
3.7. 與其稱之為“提取操作”?,不如將其視其為一種“數據農業”?
3.8. 與“大他者”從用戶那里篡奪價值的方式不同,我們看到的是開發者、平臺、用戶和內容創作者之間的互惠生態系統,這種互動和貢獻豐富了數十億人的生活
3.9. 當那些沉睡的、未被充分利用或僅在特定背景下有意義的數據,被重新利用、合成并以新穎且具有復合效應的方式轉化時,就不是一種掠奪,而是一種對資源的有效利用與再創造
- 3.9.1. 在AI時代,數據的價值將會更加凸顯
4. 私人公地
4.1. “公地”最有力的定義通常指的是那些既具有開放共享訪問權,又受到集體管理的資源,為個體和整個社區的利益服務
-
4.1.1. 公地是我們共享的財產,它不屬于任何個人或團體,而是被共同持有
-
4.1.1.1. 布朗大學史蒂文·盧巴爾(Steven Lubar)教授
-
4.1.2. 公園和海灘經常被稱為公地,空氣、水和公共圖書館也是如此
-
4.1.3. 公共領域的創意作品是公共公地的一部分,語言、文字、計算機語言、老式雞尾酒的配方,甚至在晴朗夜空中的獵戶座的景色也可以算作公共公地
4.2. 公地是一種有意管理的資源,有明確的使用者群體,有明確界定的訪問權限,對違規行為的處罰是分級的,具有可明確闡述和可操作的治理特征
- 4.2.1. 2009年榮獲諾貝爾經濟學獎埃莉諾·奧斯特羅姆(Elinor Ostrom)
4.3. "私人公地”這個短語可能聽起來自相矛盾,甚至帶有奧威爾式的意味
4.4. 自20世紀90年代互聯網首次商業化以來,以用戶作為生產者和管理者的、由私人擁有或管理的平臺大量涌現
-
4.4.1. 這個模式的不同形式和案例被貼上了各種標簽,包括Web2.0、社交媒體、共享經濟、零工經濟和監控資本主義
-
4.4.2. 免費的或幾乎免費的生活管理資源正在涌現,并有效地充當了私有化的社會服務和公用設施,就像福利國家以資本主義的速度發展一樣
4.5. 營利性公司和其他私營機構在私人公地的創建中發揮著至關重要的作用,而公眾顯然也發揮了重要的作用
- 4.5.1. 在Facebook、YouTube、X.com等平臺上,個人用戶提供的大部分內容、所有的關注,以及所有的用戶行為(如點擊、社交互動、購買商品等)?,這些都會幫助平臺運營商實現盈利
4.6. 當一種產品或服務免費時,只要消費者對其賦予一定價值,消費者盈余同樣可以存在
-
4.6.1. 廣播電視和電臺多年來就是消費者盈余的主要來源
-
4.6.1.1. 除了購買電視機或收音機的成本,你無須為電視或電臺中的節目支付費用,卻能獲得終身的娛樂和信息服務
4.7. 互聯網基本上是一臺創造消費者盈余的機器
-
4.7.1. 人們愿意放棄使用搜索引擎一年所需的中位數補償金高達17530美元
-
4.7.2. 對于電子郵件,這一金額是8414美元
-
4.7.3. 對于數字地圖,這一金額則是3648美元
-
4.7.4. 維基百科作為一項免費服務,所包含的文章數量遠遠超過《不列顛百科全書》?,且質量相當
-
4.7.4.1. 《不列顛百科全書》的售價曾高達數千美元,這意味著它的用戶認為它至少值那么多錢
-
4.7.4.2. 維基百科不僅免費取代了一個曾經相當昂貴的產品,它也是一個更好的產品,因為它包含的文章數量明顯更多
-
4.7.4.3. 維基百科也非常易于使用
4.8. 私人公地通過讓知識和機會更公平地被獲取,增強了個體能動性、教育機會公平性、社會流動性,并最終促進了職業成長
浙公網安備 33010602011771號