ChatGPT有語言偏見！非英語使用者恐紛紛「掉隊」

專家警告說，由於人工智能（AI）系統向英語傾斜，令全世界的非英語使用者正在「掉隊」。

聊天機器人ChatGPT和谷歌Bard等AI生成工具正在為數百萬人帶來新技能和商業理念，但也有可能讓更多人處於弱勢地位。

在過去幾個月裏，通常由政府支持的公司競相推出或開始為其母語構建AI，包括印尼語、日語、漢語、韓語和印度的多種語言等。

但它們能否與硅谷的AI機器人相抗衡，或提供可靠的替代方案呢？以下是非英語使用者被生成式AI浪潮甩在後面的三種方式，以及為什麼我們需要重視這個問題。

1. 對於非英語使用者來說，凖確性更低，成本更高機器學習工程師鄭甄妮（Yennie Jun，音譯）在用不同語言測試ChatGPT-4時，開始注意到這個問題。

「我發現速度慢了很多，而且不像使用韓語和漢語時效果那麼好，因為它們通常有高質量的訓練數據可供使用。

」她說道。

本月早些時候，鄭甄妮決定用一些棘手的數學問題來測試OpenAI的最新人工智能模型GPT-4。

聊天機器人ChatGPT等AI生成工具正在為數百萬人帶來新技能和商業理念，但也有可能讓更多人處於弱勢地位。

她用16種不同的語言提出相同的數學問題，結果發現GPT-4在解決某些語言（如英語、德語和西班牙語）的問題時表現得更好。

事實上，GPT-4能夠正確解決用英語提出的數學問題的概率，是亞美尼亞語或波斯語等其他語言的三倍。

而它無法解決用緬甸語或阿姆哈拉語提出的任何難題。

這只是鄭甄妮為強調ChatGPT和其他所謂AI「大型語言模型」的不平等性，而進行的最新實驗。

在今年夏季早些時候進行的另一項測試中，鄭甄妮製作了一個「Tokenizer」（分詞器）工具，用來說明為何這些AI模型在處理非英語語言時會困難重重。

AI會將語句分解成更小、更易理解的語塊，即「token」（詞節；也被譯為標記）。

它對語言的理解程度越低，創建的詞節就越多。

例如，如果你用不同的語言在她的分詞器工具中輸入「告訴我羊肚菌」（tell me about morel mushrooms）這個簡單的語句，詞節的數量會有很大的不同：英語：6個詞節西班牙語：8個詞節漢語（中文）：14個詞節緬甸語：65個詞節這很重要，因為這意味著非英語用戶面對的結果會稍慢一些，而且由於提示框受到詞節長度的限制，他們也無法像英語用戶那樣在提示框中輸入那麼多單詞。

但鄭甄妮表示，這種不平等帶來的真正劣勢，來自於企業試圖利用這些AI構建產品和服務。

例如，如果一家蘑菇種植企業在自己的應用程序中內置了ChatGPT-4來回答客戶提問，那麼該公司為緬甸客戶提供服務的成本將是英語客戶的10倍，因為為滿足客戶要求需要大量的詞節。

這並非僅限於ChatGPT，所有大型語言模型都會存在類似的差異。

當你向谷歌的Bard詢問這個問題時，它也承認了這一點：「Bard對非英語語言的詞節化可能會導致用其他語言提出提示的速度更慢、成本更高，因為非英語語言的詞節化過程要比英語複雜得多。

」 2.以英語優先的AI無法反映其他文化在美國參議院委員會的聽證會上，OpenAI首席執行官山姆·阿爾特曼（Sam Altman）被質疑該工具偏向英語使用者。

他表示該公司「同樣重視」保障其他文化也被納入其中。

英語在互聯網上佔據主導地位，目前也在人工智能領域佔據主導地位。

這背後的原因在於，大多數AI模型都是使用從開源互聯網上搜集來的數據進行訓練的，而這些數據絕大多數都是英語。

非營利組織「民主與技術中心」（CDT）在其關於AI語言偏見的報告中指出，儘管全球只有16%的人口使用英語，但英語網站卻佔全球網站的63.7%。

英語經常被描述為一種「資源極多」的語言，從社交媒體帖子到商業報告和科學論文，英語文本似乎取之不竭。

但是，一種語言的網絡資源豐富程度與其使用人數並不成正比。

例如，「民主與技術中心」研究員表示，儘管非洲大陸有6億多互聯網用戶，但幾乎所有的非洲語言仍是「資源很少」的語言。

學術界對語言的分類各有不同，但以下是對語言資源狀況的總體概述：資源極多的語言：英語資源很多的語言：中文（漢語）、日語、西班牙語、德語、法語、俄語、阿拉伯語資源中等的語言：印地語、葡萄牙語、越南語、荷蘭語、韓語、印度尼西亞語、芬蘭語、波蘭語、捷克語資源很少的語言：巴斯克語、海地克里奧爾語、斯瓦希裏語、阿姆哈拉語、緬甸語、切羅基語、祖魯語和大多數其他語言 OpenAI沒有透露英語在ChatGPT的訓練數據中所佔比例。

如果你詢問AI，它的回答是「數據集中語言的具體分類和百分比仍然是專有信息」。

谷歌的Bard被問及這些信息時也表示，具體的數據樣本是「機密的」。

正如「民主與技術中心」在其報告中所說，「這種（對某種語言的）偏向未能反映全球互聯網用戶所使用語言的多樣性，並進一步延續了英語的主導地位」。

鄭甄妮說，她的實驗也發現了強烈的西方偏見。

「我做了一些實驗，比如向AI詢問歷史上重要的事件和人物，即使你用其他語言詢問，它仍會得出非常偏向西方的人物和事件。

」她說。

3. 硅谷可能不會解決不平等問題「民主與技術中心」和其他研究者在內的一些人認為，多語種語言模型對於非英語用戶的表現仍然較差。

而另一些語言擁有更大的數據集，這意味著翻譯和轉錄會更加凖確。

「民主與技術中心」認為，美國公司沒有投入同樣多的資金來改善非英語客戶的體驗，因為從全球南方等地區獲得的收入更少。

據《連線》（Wired）最早報道，OpenAI的一名員工去年在一個開發者論壇上承認，該公司的模型「有意使用英語訓練」，「任何好的西班牙語結果都是額外獎勵」。

在美國參議院委員會的聽證會上，OpenAI首席執行官山姆·阿爾特曼（Sam Altman）被質疑該工具偏向英語使用者。

他表示該公司「同樣重視」保障其他文化也被納入其中。

OpenAI和谷歌都沒有回應我們向其新聞辦公室提出的問題。

另一家AI巨頭Meta正在投資一個名為「不落下任何語言」（No Language Left Behind）的大型翻譯項目，以改進數百種語言的機器學習翻譯工具。

但即便如此，該公司也承認其最新的大型語言模型Llama 2對於非英語用戶來說「仍然很脆弱，應謹慎使用」。

尼克·亞當斯（Nick Adams）是專注於AI的風險投資基金「微分創業」的創始合伙人。

他表示，如果繼續維持現狀，那麼資金和投資將繼續流向那些已經很富有的公司、國家和語言。

「我認為，AI的現狀會加速不平等，而不是讓它變得更好。

新興市場沒有足夠的算力、數據集或AI所需的財力來與西方世界的模型競爭。

」他說。

除了缺乏對非英語AI的投資外，數據問題也很難克服，甚至超出了美國科技巨頭的能力範圍。

人們曾一度認為，開發多語種語言模型可以解決數據差異問題，即通過訓練人工智能模型來發現資源較多語言的模式，並將其應用於資源較少的語言。

但包括「民主與技術中心」和其他研究者在內的一些人認為，多語種語言模型對於非英語用戶的表現仍然較差。

喬·提迪（Joe Tidy） - BBC記者 2023年11月3日在非英語產品中使用硅谷人工智能的企業處於不利地位。

專家警告說，由於人工智能（AI）系統向英語傾斜，令全世界的非英語使用者正在「掉隊」。

聊天機器人ChatGPT和谷歌Bard等AI生成工具正在為數百萬人帶來新技能和商業理念，但也有可能讓更多人處於弱勢地位。

在過去幾個月裏，通常由政府支持的公司競相推出或開始為其母語構建AI，包括印尼語、日語、漢語、韓語和印度的多種語言等。

但它們能否與硅谷的AI機器人相抗衡，或提供可靠的替代方案呢？以下是非英語使用者被生成式AI浪潮甩在後面的三種方式，以及為什麼我們需要重視這個問題。

1. 對於非英語使用者來說，凖確性更低，成本更高機器學習工程師鄭甄妮（Yennie Jun，音譯）在用不同語言測試ChatGPT-4時，開始注意到這個問題。

「我發現速度慢了很多，而且不像使用韓語和漢語時效果那麼好，因為它們通常有高質量的訓練數據可供使用。

」她說道。

本月早些時候，鄭甄妮決定用一些棘手的數學問題來測試OpenAI的最新人工智能模型GPT-4。

聊天機器人ChatGPT等AI生成工具正在為數百萬人帶來新技能和商業理念，但也有可能讓更多人處於弱勢地位。

她用16種不同的語言提出相同的數學問題，結果發現GPT-4在解決某些語言（如英語、德語和西班牙語）的問題時表現得更好。

事實上，GPT-4能夠正確解決用英語提出的數學問題的概率，是亞美尼亞語或波斯語等其他語言的三倍。

而它無法解決用緬甸語或阿姆哈拉語提出的任何難題。

這只是鄭甄妮為強調ChatGPT和其他所謂AI「大型語言模型」的不平等性，而進行的最新實驗。

在今年夏季早些時候進行的另一項測試中，鄭甄妮製作了一個「Tokenizer」（分詞器）工具，用來說明為何這些AI模型在處理非英語語言時會困難重重。

AI會將語句分解成更小、更易理解的語塊，即「token」（詞節；也被譯為標記）。

它對語言的理解程度越低，創建的詞節就越多。

例如，如果你用不同的語言在她的分詞器工具中輸入「告訴我羊肚菌」（tell me about morel mushrooms）這個簡單的語句，詞節的數量會有很大的不同：英語：6個詞節西班牙語：8個詞節漢語（中文）：14個詞節緬甸語：65個詞節這很重要，因為這意味著非英語用戶面對的結果會稍慢一些，而且由於提示框受到詞節長度的限制，他們也無法像英語用戶那樣在提示框中輸入那麼多單詞。

但鄭甄妮表示，這種不平等帶來的真正劣勢，來自於企業試圖利用這些AI構建產品和服務。

例如，如果一家蘑菇種植企業在自己的應用程序中內置了ChatGPT-4來回答客戶提問，那麼該公司為緬甸客戶提供服務的成本將是英語客戶的10倍，因為為滿足客戶要求需要大量的詞節。

這並非僅限於ChatGPT，所有大型語言模型都會存在類似的差異。

當你向谷歌的Bard詢問這個問題時，它也承認了這一點：「Bard對非英語語言的詞節化可能會導致用其他語言提出提示的速度更慢、成本更高，因為非英語語言的詞節化過程要比英語複雜得多。

」 2.以英語優先的AI無法反映其他文化在美國參議院委員會的聽證會上，OpenAI首席執行官山姆·阿爾特曼（Sam Altman）被質疑該工具偏向英語使用者。

他表示該公司「同樣重視」保障其他文化也被納入其中。

英語在互聯網上佔據主導地位，目前也在人工智能領域佔據主導地位。

這背後的原因在於，大多數AI模型都是使用從開源互聯網上搜集來的數據進行訓練的，而這些數據絕大多數都是英語。

非營利組織「民主與技術中心」（CDT）在其關於AI語言偏見的報告中指出，儘管全球只有16%的人口使用英語，但英語網站卻佔全球網站的63.7%。

英語經常被描述為一種「資源極多」的語言，從社交媒體帖子到商業報告和科學論文，英語文本似乎取之不竭。

但是，一種語言的網絡資源豐富程度與其使用人數並不成正比。

例如，「民主與技術中心」研究員表示，儘管非洲大陸有6億多互聯網用戶，但幾乎所有的非洲語言仍是「資源很少」的語言。

學術界對語言的分類各有不同，但以下是對語言資源狀況的總體概述：資源極多的語言：英語資源很多的語言：中文（漢語）、日語、西班牙語、德語、法語、俄語、阿拉伯語資源中等的語言：印地語、葡萄牙語、越南語、荷蘭語、韓語、印度尼西亞語、芬蘭語、波蘭語、捷克語資源很少的語言：巴斯克語、海地克里奧爾語、斯瓦希裏語、阿姆哈拉語、緬甸語、切羅基語、祖魯語和大多數其他語言 OpenAI沒有透露英語在ChatGPT的訓練數據中所佔比例。

如果你詢問AI，它的回答是「數據集中語言的具體分類和百分比仍然是專有信息」。

谷歌的Bard被問及這些信息時也表示，具體的數據樣本是「機密的」。

正如「民主與技術中心」在其報告中所說，「這種（對某種語言的）偏向未能反映全球互聯網用戶所使用語言的多樣性，並進一步延續了英語的主導地位」。

鄭甄妮說，她的實驗也發現了強烈的西方偏見。

「我做了一些實驗，比如向AI詢問歷史上重要的事件和人物，即使你用其他語言詢問，它仍會得出非常偏向西方的人物和事件。

」她說。

3. 硅谷可能不會解決不平等問題「民主與技術中心」和其他研究者在內的一些人認為，多語種語言模型對於非英語用戶的表現仍然較差。

而另一些語言擁有更大的數據集，這意味著翻譯和轉錄會更加凖確。

「民主與技術中心」認為，美國公司沒有投入同樣多的資金來改善非英語客戶的體驗，因為從全球南方等地區獲得的收入更少。

據《連線》（Wired）最早報道，OpenAI的一名員工去年在一個開發者論壇上承認，該公司的模型「有意使用英語訓練」，「任何好的西班牙語結果都是額外獎勵」。

在美國參議院委員會的聽證會上，OpenAI首席執行官山姆·阿爾特曼（Sam Altman）被質疑該工具偏向英語使用者。

他表示該公司「同樣重視」保障其他文化也被納入其中。

OpenAI和谷歌都沒有回應我們向其新聞辦公室提出的問題。

另一家AI巨頭Meta正在投資一個名為「不落下任何語言」（No Language Left Behind）的大型翻譯項目，以改進數百種語言的機器學習翻譯工具。

但即便如此，該公司也承認其最新的大型語言模型Llama 2對於非英語用戶來說「仍然很脆弱，應謹慎使用」。

尼克·亞當斯（Nick Adams）是專注於AI的風險投資基金「微分創業」的創始合伙人。

他表示，如果繼續維持現狀，那麼資金和投資將繼續流向那些已經很富有的公司、國家和語言。

「我認為，AI的現狀會加速不平等，而不是讓它變得更好。

新興市場沒有足夠的算力、數據集或AI所需的財力來與西方世界的模型競爭。

」他說。

除了缺乏對非英語AI的投資外，數據問題也很難克服，甚至超出了美國科技巨頭的能力範圍。

人們曾一度認為，開發多語種語言模型可以解決數據差異問題，即通過訓練人工智能模型來發現資源較多語言的模式，並將其應用於資源較少的語言。

但包括「民主與技術中心」和其他研究者在內的一些人認為，多語種語言模型對於非英語用戶的表現仍然較差。

「巴沙達安倡議」邀請人們「通過驗證數據來改進自己的AI語言模型」，它向參加者播放不同的印度語言播客或節目音頻，然後給予數字獎牌以獎勵他們將其翻譯成自己的語言。

印度電子和信息技術部發起了一個野心勃勃的項目，旨在通過眾包提高低資源語言的訓練數據量。

「巴沙達安倡議」（Bhasha Daan initiative）邀請人們「通過驗證數據來改進自己的AI語言模型」。

該計劃向參加者播放不同的印度語言播客或節目音頻，然後給予數字獎牌以獎勵他們將其翻譯成自己的語言。

但是，該方式仍然道阻且長。

儘管母語人口眾多，但迄今只有幾千人參與其中。

ChatGPT有語言偏見！非英語使用者恐紛紛「掉隊」

Related News & Content

320多支抗軍圍攻緬軍政府只剩40%領土

美监管机构警示 AI对金融系统潜在威胁

承认人工智能为科学发展带来改变 ChatGPT破例成《自然》年度人物第11"人”

ChatGPT有語言偏見！非英語使用者恐紛紛「掉隊」

Related News & Content

320多支抗軍圍攻 緬軍政府只剩40%領土

美监管机构警示 AI对金融系统潜在威胁

承认人工智能为科学发展带来改变 ChatGPT破例成《自然》年度人物第11"人”

320多支抗軍圍攻緬軍政府只剩40%領土