ChatGPT有語言偏見!非英語使用者恐紛紛「掉隊」

15 Dec 2023 • 9:05 PM MYT
華僑日報
華僑日報

Overseas Chinese Daily News (OCDN) covers a wide range of topics including international, national and domestic news, financial and business pages, sports, entertainment and leisure, women column and other pages of great interest.

image is not available

專家警告說,由於人工智能(AI)系統向英語傾斜,令全世界的非英語使用者正在「掉隊」。

聊天機器人ChatGPT和谷歌Bard等AI生成工具正在為數百萬人帶來新技能和商業理念,但也有可能讓更多人處於弱勢地位。

在過去幾個月裏,通常由政府支持的公司競相推出或開始為其母語構建AI,包括印尼語、日語、漢語、韓語和印度的多種語言等。

但它們能否與硅谷的AI機器人相抗衡,或提供可靠的替代方案呢? 以下是非英語使用者被生成式AI浪潮甩在後面的三種方式,以及為什麼我們需要重視這個問題。

1. 對於非英語使用者來說,凖確性更低,成本更高 機器學習工程師鄭甄妮(Yennie Jun,音譯)在用不同語言測試ChatGPT-4時,開始注意到這個問題。

「我發現速度慢了很多,而且不像使用韓語和漢語時效果那麼好,因為它們通常有高質量的訓練數據可供使用。

」她說道。

本月早些時候,鄭甄妮決定用一些棘手的數學問題來測試OpenAI的最新人工智能模型GPT-4。

聊天機器人ChatGPT等AI生成工具正在為數百萬人帶來新技能和商業理念,但也有可能讓更多人處於弱勢地位。

她用16種不同的語言提出相同的數學問題,結果發現GPT-4在解決某些語言(如英語、德語和西班牙語)的問題時表現得更好。

事實上,GPT-4能夠正確解決用英語提出的數學問題的概率,是亞美尼亞語或波斯語等其他語言的三倍。

而它無法解決用緬甸語或阿姆哈拉語提出的任何難題。

這只是鄭甄妮為強調ChatGPT和其他所謂AI「大型語言模型」的不平等性,而進行的最新實驗。

在今年夏季早些時候進行的另一項測試中,鄭甄妮製作了一個「Tokenizer」(分詞器)工具,用來說明為何這些AI模型在處理非英語語言時會困難重重。

AI會將語句分解成更小、更易理解的語塊,即「token」(詞節;也被譯為標記)。

它對語言的理解程度越低,創建的詞節就越多。

例如,如果你用不同的語言在她的分詞器工具中輸入「告訴我羊肚菌」(tell me about morel mushrooms)這個簡單的語句,詞節的數量會有很大的不同: 英語:6個詞節 西班牙語:8個詞節 漢語(中文):14個詞節 緬甸語:65個詞節 這很重要,因為這意味著非英語用戶面對的結果會稍慢一些,而且由於提示框受到詞節長度的限制,他們也無法像英語用戶那樣在提示框中輸入那麼多單詞。

但鄭甄妮表示,這種不平等帶來的真正劣勢,來自於企業試圖利用這些AI構建產品和服務。

例如,如果一家蘑菇種植企業在自己的應用程序中內置了ChatGPT-4來回答客戶提問,那麼該公司為緬甸客戶提供服務的成本將是英語客戶的10倍,因為為滿足客戶要求需要大量的詞節。

這並非僅限於ChatGPT,所有大型語言模型都會存在類似的差異。

當你向谷歌的Bard詢問這個問題時,它也承認了這一點:「Bard對非英語語言的詞節化可能會導致用其他語言提出提示的速度更慢、成本更高,因為非英語語言的詞節化過程要比英語複雜得多。

」 2.以英語優先的AI無法反映其他文化 在美國參議院委員會的聽證會上,OpenAI首席執行官山姆·阿爾特曼(Sam Altman)被質疑該工具偏向英語使用者。

他表示該公司「同樣重視」保障其他文化也被納入其中。

英語在互聯網上佔據主導地位,目前也在人工智能領域佔據主導地位。

這背後的原因在於,大多數AI模型都是使用從開源互聯網上搜集來的數據進行訓練的,而這些數據絕大多數都是英語。

非營利組織「民主與技術中心」(CDT)在其關於AI語言偏見的報告中指出,儘管全球只有16%的人口使用英語,但英語網站卻佔全球網站的63.7%。

英語經常被描述為一種「資源極多」的語言,從社交媒體帖子到商業報告和科學論文,英語文本似乎取之不竭。

但是,一種語言的網絡資源豐富程度與其使用人數並不成正比。

例如,「民主與技術中心」研究員表示,儘管非洲大陸有6億多互聯網用戶,但幾乎所有的非洲語言仍是「資源很少」的語言。

學術界對語言的分類各有不同,但以下是對語言資源狀況的總體概述: 資源極多的語言:英語 資源很多的語言:中文(漢語)、日語、西班牙語、德語、法語、俄語、阿拉伯語 資源中等的語言:印地語、葡萄牙語、越南語、荷蘭語、韓語、印度尼西亞語、芬蘭語、波蘭語、捷克語 資源很少的語言:巴斯克語、海地克里奧爾語、斯瓦希裏語、阿姆哈拉語、緬甸語、切羅基語、祖魯語和大多數其他語言 OpenAI沒有透露英語在ChatGPT的訓練數據中所佔比例。

如果你詢問AI,它的回答是「數據集中語言的具體分類和百分比仍然是專有信息」。

谷歌的Bard被問及這些信息時也表示,具體的數據樣本是「機密的」。

正如「民主與技術中心」在其報告中所說,「這種(對某種語言的)偏向未能反映全球互聯網用戶所使用語言的多樣性,並進一步延續了英語的主導地位」。

鄭甄妮說,她的實驗也發現了強烈的西方偏見。

「我做了一些實驗,比如向AI詢問歷史上重要的事件和人物,即使你用其他語言詢問,它仍會得出非常偏向西方的人物和事件。

」她說。

3. 硅谷可能不會解決不平等問題 「民主與技術中心」和其他研究者在內的一些人認為,多語種語言模型對於非英語用戶的表現仍然較差。

而另一些語言擁有更大的數據集,這意味著翻譯和轉錄會更加凖確。

「民主與技術中心」認為,美國公司沒有投入同樣多的資金來改善非英語客戶的體驗,因為從全球南方等地區獲得的收入更少。

據《連線》(Wired)最早報道,OpenAI的一名員工去年在一個開發者論壇上承認,該公司的模型「有意使用英語訓練」,「任何好的西班牙語結果都是額外獎勵」。

在美國參議院委員會的聽證會上,OpenAI首席執行官山姆·阿爾特曼(Sam Altman)被質疑該工具偏向英語使用者。

他表示該公司「同樣重視」保障其他文化也被納入其中。

OpenAI和谷歌都沒有回應我們向其新聞辦公室提出的問題。

另一家AI巨頭Meta正在投資一個名為「不落下任何語言」(No Language Left Behind)的大型翻譯項目,以改進數百種語言的機器學習翻譯工具。

但即便如此,該公司也承認其最新的大型語言模型Llama 2對於非英語用戶來說「仍然很脆弱,應謹慎使用」。

尼克·亞當斯(Nick Adams)是專注於AI的風險投資基金「微分創業」的創始合伙人。

他表示,如果繼續維持現狀,那麼資金和投資將繼續流向那些已經很富有的公司、國家和語言。

「我認為,AI的現狀會加速不平等,而不是讓它變得更好。

新興市場沒有足夠的算力、數據集或AI所需的財力來與西方世界的模型競爭。

」他說。

除了缺乏對非英語AI的投資外,數據問題也很難克服,甚至超出了美國科技巨頭的能力範圍。

人們曾一度認為,開發多語種語言模型可以解決數據差異問題,即通過訓練人工智能模型來發現資源較多語言的模式,並將其應用於資源較少的語言。

但包括「民主與技術中心」和其他研究者在內的一些人認為,多語種語言模型對於非英語用戶的表現仍然較差。

喬·提迪(Joe Tidy) - BBC記者 2023年11月3日 在非英語產品中使用硅谷人工智能的企業處於不利地位。

專家警告說,由於人工智能(AI)系統向英語傾斜,令全世界的非英語使用者正在「掉隊」。

聊天機器人ChatGPT和谷歌Bard等AI生成工具正在為數百萬人帶來新技能和商業理念,但也有可能讓更多人處於弱勢地位。

在過去幾個月裏,通常由政府支持的公司競相推出或開始為其母語構建AI,包括印尼語、日語、漢語、韓語和印度的多種語言等。

但它們能否與硅谷的AI機器人相抗衡,或提供可靠的替代方案呢? 以下是非英語使用者被生成式AI浪潮甩在後面的三種方式,以及為什麼我們需要重視這個問題。

1. 對於非英語使用者來說,凖確性更低,成本更高 機器學習工程師鄭甄妮(Yennie Jun,音譯)在用不同語言測試ChatGPT-4時,開始注意到這個問題。

「我發現速度慢了很多,而且不像使用韓語和漢語時效果那麼好,因為它們通常有高質量的訓練數據可供使用。

」她說道。

本月早些時候,鄭甄妮決定用一些棘手的數學問題來測試OpenAI的最新人工智能模型GPT-4。

聊天機器人ChatGPT等AI生成工具正在為數百萬人帶來新技能和商業理念,但也有可能讓更多人處於弱勢地位。

她用16種不同的語言提出相同的數學問題,結果發現GPT-4在解決某些語言(如英語、德語和西班牙語)的問題時表現得更好。

事實上,GPT-4能夠正確解決用英語提出的數學問題的概率,是亞美尼亞語或波斯語等其他語言的三倍。

而它無法解決用緬甸語或阿姆哈拉語提出的任何難題。

這只是鄭甄妮為強調ChatGPT和其他所謂AI「大型語言模型」的不平等性,而進行的最新實驗。

在今年夏季早些時候進行的另一項測試中,鄭甄妮製作了一個「Tokenizer」(分詞器)工具,用來說明為何這些AI模型在處理非英語語言時會困難重重。

AI會將語句分解成更小、更易理解的語塊,即「token」(詞節;也被譯為標記)。

它對語言的理解程度越低,創建的詞節就越多。

例如,如果你用不同的語言在她的分詞器工具中輸入「告訴我羊肚菌」(tell me about morel mushrooms)這個簡單的語句,詞節的數量會有很大的不同: 英語:6個詞節 西班牙語:8個詞節 漢語(中文):14個詞節 緬甸語:65個詞節 這很重要,因為這意味著非英語用戶面對的結果會稍慢一些,而且由於提示框受到詞節長度的限制,他們也無法像英語用戶那樣在提示框中輸入那麼多單詞。

但鄭甄妮表示,這種不平等帶來的真正劣勢,來自於企業試圖利用這些AI構建產品和服務。

例如,如果一家蘑菇種植企業在自己的應用程序中內置了ChatGPT-4來回答客戶提問,那麼該公司為緬甸客戶提供服務的成本將是英語客戶的10倍,因為為滿足客戶要求需要大量的詞節。

這並非僅限於ChatGPT,所有大型語言模型都會存在類似的差異。

當你向谷歌的Bard詢問這個問題時,它也承認了這一點:「Bard對非英語語言的詞節化可能會導致用其他語言提出提示的速度更慢、成本更高,因為非英語語言的詞節化過程要比英語複雜得多。

」 2.以英語優先的AI無法反映其他文化 在美國參議院委員會的聽證會上,OpenAI首席執行官山姆·阿爾特曼(Sam Altman)被質疑該工具偏向英語使用者。

他表示該公司「同樣重視」保障其他文化也被納入其中。

英語在互聯網上佔據主導地位,目前也在人工智能領域佔據主導地位。

這背後的原因在於,大多數AI模型都是使用從開源互聯網上搜集來的數據進行訓練的,而這些數據絕大多數都是英語。

非營利組織「民主與技術中心」(CDT)在其關於AI語言偏見的報告中指出,儘管全球只有16%的人口使用英語,但英語網站卻佔全球網站的63.7%。

英語經常被描述為一種「資源極多」的語言,從社交媒體帖子到商業報告和科學論文,英語文本似乎取之不竭。

但是,一種語言的網絡資源豐富程度與其使用人數並不成正比。

例如,「民主與技術中心」研究員表示,儘管非洲大陸有6億多互聯網用戶,但幾乎所有的非洲語言仍是「資源很少」的語言。

學術界對語言的分類各有不同,但以下是對語言資源狀況的總體概述: 資源極多的語言:英語 資源很多的語言:中文(漢語)、日語、西班牙語、德語、法語、俄語、阿拉伯語 資源中等的語言:印地語、葡萄牙語、越南語、荷蘭語、韓語、印度尼西亞語、芬蘭語、波蘭語、捷克語 資源很少的語言:巴斯克語、海地克里奧爾語、斯瓦希裏語、阿姆哈拉語、緬甸語、切羅基語、祖魯語和大多數其他語言 OpenAI沒有透露英語在ChatGPT的訓練數據中所佔比例。

如果你詢問AI,它的回答是「數據集中語言的具體分類和百分比仍然是專有信息」。

谷歌的Bard被問及這些信息時也表示,具體的數據樣本是「機密的」。

正如「民主與技術中心」在其報告中所說,「這種(對某種語言的)偏向未能反映全球互聯網用戶所使用語言的多樣性,並進一步延續了英語的主導地位」。

鄭甄妮說,她的實驗也發現了強烈的西方偏見。

「我做了一些實驗,比如向AI詢問歷史上重要的事件和人物,即使你用其他語言詢問,它仍會得出非常偏向西方的人物和事件。

」她說。

3. 硅谷可能不會解決不平等問題 「民主與技術中心」和其他研究者在內的一些人認為,多語種語言模型對於非英語用戶的表現仍然較差。

而另一些語言擁有更大的數據集,這意味著翻譯和轉錄會更加凖確。

「民主與技術中心」認為,美國公司沒有投入同樣多的資金來改善非英語客戶的體驗,因為從全球南方等地區獲得的收入更少。

據《連線》(Wired)最早報道,OpenAI的一名員工去年在一個開發者論壇上承認,該公司的模型「有意使用英語訓練」,「任何好的西班牙語結果都是額外獎勵」。

在美國參議院委員會的聽證會上,OpenAI首席執行官山姆·阿爾特曼(Sam Altman)被質疑該工具偏向英語使用者。

他表示該公司「同樣重視」保障其他文化也被納入其中。

OpenAI和谷歌都沒有回應我們向其新聞辦公室提出的問題。

另一家AI巨頭Meta正在投資一個名為「不落下任何語言」(No Language Left Behind)的大型翻譯項目,以改進數百種語言的機器學習翻譯工具。

但即便如此,該公司也承認其最新的大型語言模型Llama 2對於非英語用戶來說「仍然很脆弱,應謹慎使用」。

尼克·亞當斯(Nick Adams)是專注於AI的風險投資基金「微分創業」的創始合伙人。

他表示,如果繼續維持現狀,那麼資金和投資將繼續流向那些已經很富有的公司、國家和語言。

「我認為,AI的現狀會加速不平等,而不是讓它變得更好。

新興市場沒有足夠的算力、數據集或AI所需的財力來與西方世界的模型競爭。

」他說。

除了缺乏對非英語AI的投資外,數據問題也很難克服,甚至超出了美國科技巨頭的能力範圍。

人們曾一度認為,開發多語種語言模型可以解決數據差異問題,即通過訓練人工智能模型來發現資源較多語言的模式,並將其應用於資源較少的語言。

但包括「民主與技術中心」和其他研究者在內的一些人認為,多語種語言模型對於非英語用戶的表現仍然較差。

「巴沙達安倡議」邀請人們「通過驗證數據來改進自己的AI語言模型」,它向參加者播放不同的印度語言播客或節目音頻,然後給予數字獎牌以獎勵他們將其翻譯成自己的語言。

印度電子和信息技術部發起了一個野心勃勃的項目,旨在通過眾包提高低資源語言的訓練數據量。

「巴沙達安倡議」(Bhasha Daan initiative)邀請人們「通過驗證數據來改進自己的AI語言模型」。

該計劃向參加者播放不同的印度語言播客或節目音頻,然後給予數字獎牌以獎勵他們將其翻譯成自己的語言。

但是,該方式仍然道阻且長。

儘管母語人口眾多,但迄今只有幾千人參與其中。