來自:南大NLP
01研究動機
許多研究證明,學術論文表達的nativeness會影響其被接受發(fā)表的可能性[1, 2]。先前的研究也揭示了非英語母語的作者在國際期刊發(fā)表論文時所經歷的壓力和焦慮。我們通過對自然語言處理(NLP)論文摘要進行全面的統(tǒng)計分析,發(fā)現(xiàn)不同語言背景的作者在寫作中的詞匯、形態(tài)、句法和連貫性方面有明顯的差異,這表明NLP領域存在語言偏置的可能性。因此,我們提出了一系列建議,以幫助學術期刊和會議的出版社改進他們對論文作者的指南和資源,以增強學術研究的包容性和公平性。
02數(shù)據(jù)收集
為了分析NLP領域的語言偏置,我們收集的論文摘要來自于ACL和EMNLP會議上發(fā)表的論文,以及arXiv.org的論文,標簽為“Computation and Language”。本文研究中,我們假設第一作者是文章的撰寫者。為了確定每篇文章的第一作者的國籍,我們設計了一些啟發(fā)式方法。首先,我們通過提取電子郵件地址來確定作者所屬機構的國籍。然后,我們使用一個姓名起源數(shù)據(jù)庫來確定第一作者是否與該機構具有相同的國籍。在機構國籍未知或作者國籍與機構國籍不太可能相符的情況下,這些摘要將被丟棄。最后,為了確保有足夠的數(shù)據(jù)進行分析,我們保留了數(shù)據(jù)集中摘要最多的五個國家的數(shù)據(jù)。這些國家分別是中國、美國、德國、日本和印度。數(shù)據(jù)集的統(tǒng)計信息見表1。
表1:數(shù)據(jù)集統(tǒng)計數(shù)據(jù)
03分析
我們的分析涵蓋了詞匯、形態(tài)、句法和連貫性等語言特性,這被認為是語法能力和文本能力的核心組成部分[3]。以下是對每種特性的分析和討論。
3.1 詞匯
我們從兩個不同的層次分析不同國家使用的詞匯特征。首先,我們通過計算類符行符比(token-type ratio)來研究詞匯的多樣性。其次,我們通過詞匯束(lexical bundle)分析來探索多詞級別的詞匯,從中找出常用的詞匯塊。
3.1.1 詞匯多樣性
為了分析詞匯多樣性,我們計算每個文本的類符行符比(token-type ratio)。類符行符比通過將文本中獨特詞的數(shù)量除以總詞數(shù)來計算。較高的比率表示更高的詞匯多樣性。統(tǒng)計結果如表2中所示。
表2: 平均類符行符比和詞匯鏈長度
從結果中可以看到,與其他語料庫相比,美國和德國的語料庫有相對稍高的類符行符比(token-type ratio)。我們假設這是由于使用同義詞、下義詞和上義詞的增加所導致的。為了驗證這點,我們計算了詞匯鏈的長度,其中每個鏈包含一個摘要中所有語義相關的詞匯;這些詞匯可以通過同義詞、下義詞或上義詞來進行語義關聯(lián)。所有名詞的平均鏈長度展示在表2的右側列中??梢钥吹?,美國語料庫中的平均詞匯鏈長度是所有語料庫中最長的,這意味著平均而言他們會使用更廣泛的詞匯來描述類似概念。相比之下,日本和印度的語料庫具有最短的平均鏈長度,相對稍少的語義相關術語的使用是一個可能的因素。
3.1.2 詞匯束
為了捕捉不同國家的作家如何使用詞匯束,我們對四個詞匯束的使用模式進行了分析。我們通過保留超過預定頻率閾值和分散閾值的詞匯束來確保每個語料庫的代表性。表3展示了詞匯束的頻率(Bundles per Million Words)、獨特詞匯束的數(shù)量(Unique Bundles)和不同語法類別的詞匯束數(shù)量。
表3:四個詞匯束統(tǒng)計信息
從表3中可以看出,在不同的語料庫之間,詞匯束的頻率存在很大的差異。例如,在中國、日本和印度的語料庫中,詞匯束的使用量是美國語料庫的兩倍以上,而美國語料庫的使用量最少(Bundles per Million Words)。此外,還可以觀察到非英語母語的語料庫中使用的獨特詞匯束數(shù)量(Unique Bundles)比美國語料庫更多。第二語言使用者使用詞匯束的情況已經在文獻中廣泛研究過[4, 5, 6, 7],其中有一種假設是增加使用次數(shù)是因為作者依賴使用固定的詞匯表達式以產生更符合學術要求的文本,并避免產生被視為非傳統(tǒng)的表達方式[7]。
我們更深入地研究了詞匯束在摘要中特定功能的使用,即引入論文主要思想的功能。該功能的規(guī)范化束計數(shù)如表4所示。
表4: 表達引入論文主要思想的詞匯束頻率(每百萬詞)
可以看到,在中國、印度和日本的語料庫中,這個特定功能的詞匯束使用率很高,使用頻率比美國的語料庫高出41%(日本語料庫)到69%(中國語料庫)。然而,我們注意到這三個語料庫中的模式有所不同。例如,在中國語料庫中,總體使用量較高似乎可以歸因于一個特定詞匯束的高使用率(in this paper we)。如果將其與日本語料庫進行對比,我們可以看到盡管詞匯束的總體使用仍然很高,但使用情況分布在更廣泛的詞匯束范圍內,而不是一個單一的詞匯束。
3.2 形態(tài)
為了分析形態(tài)學維度,我們調查了五個國家作家使用不同動詞形式的分布情況。具體來說,對于每個語料庫中的句子,我們確定主動詞,并根據(jù)其是否是過去時態(tài)、過去分詞、基本形式、第三人稱現(xiàn)在時、非第三人稱現(xiàn)在時或動名詞來分類動詞形式。分布結果如圖1所示。
圖 1:每個語料庫中動詞形式的分布
根據(jù)分析,我們發(fā)現(xiàn)這些分布在不同地點上相當一致。然而,還是存在一些例外情況。例如,對于過去時使用(VBD),日本語料庫顯示出這種動詞形式的使用更頻繁,超過12%的動詞帶有VBD標記。這比其他地點的使用頻率高出兩倍以上。相反地,非第三人稱現(xiàn)在時(VBP)在日本語料庫中使用相對較少,有45.5%的動詞使用這種形式,而美國語料庫中有56%的動詞使用這種形式(這是最頻繁的情況)。
3.3 句法
在句法分析中,我們探索短語級別、從句級別和句子級別的復雜性。為了做到這點,我們使用了多種測量方法:名詞短語修飾語的平均數(shù)量、每個句子中的從句數(shù)量、平均解析樹深度和平均句子長度。分析結果如表5所示。
表5:句法復雜度指標
我們觀察到在名詞短語層面上,與數(shù)據(jù)集中的其他國家相比,美國和德國的語料庫表現(xiàn)出較低的復雜性(即,較少使用名詞短語修飾語)。然而,當我們觀察從句和句子的層面時,來自美國和德國的文本比其他國家的寫作表現(xiàn)出更高的復雜性。這一觀察意味著在表達復雜思想方面可能存在一些不同的偏好,其中一種選擇是通過更多的短語修飾語來表達復雜性,而另一種選擇是將句子拆分成多個從句。
3.4 連貫性
與已有分析第二語言使用者寫作連貫性的研究[8, 9, 10, 11]相似,我們比較了不同國家作者之間的語篇連接詞的使用情況。為此,我們記錄了所有來自[12]提供的語篇連接詞清單中的連接詞的使用。平均每個句子的語篇連接詞數(shù)量如表6所示。
表6: 每個句子中平均的語篇連接詞數(shù)量
如上所述,可以看出,美國和德國的文本中使用了更多的鏈接詞。為了探究不同國家的鏈接詞偏好,我們列出了與美國語料庫相比每個語料庫使用率最高的五個連詞。結果如表7所示。
表7:與美國語料庫相比,使用比例最高的五個語篇連接詞
可以看出,每個語料庫都有自己獨特的語篇連接詞集,在與整個數(shù)據(jù)集相比時更受偏愛。例如,在中國語料庫中,firstly 是一種高度偏愛的連接詞,比來自美國的作者使用頻率高出11倍。同樣,besides 也是中國作者高度偏愛的連接詞,在中國語料庫中的出現(xiàn)頻率比美國語料庫高出10倍以上。我們還注意到,德國、印度和日本語料庫中對consequential(以結果為導向)連接詞有偏好,其中hence、thereby和therefore的出現(xiàn)頻率顯著高于美國語料庫(其中一些未在表中列出,因為它們僅略遜于前5位)。
04結論和推薦
在本文研究中,我們致力于解決學術出版中的語言偏置問題。我們對自然語言處理領域的學術寫作進行了全面對比分析,發(fā)現(xiàn)了許多特征在來自不同國籍的作者之間存在很大差異。這些發(fā)現(xiàn)凸顯了語言偏置的潛在風險。為了解決這個問題,我們概述了一套推薦措施,建議學術期刊和會議在他們的作者指南中如何支持來自全球各地的論文作者。我們的建議專注于本研究中四個語言特性。例如,在不同作者群體之間差異較大的語言方面,作者指南中可以添加詳細的解釋和示例。另外,我們鼓勵出版商提供免費訪問的自動寫作工具,能夠進行改寫等功能。
審核編輯:湯梓紅
-
數(shù)據(jù)收集
+關注
關注
0文章
70瀏覽量
11149 -
數(shù)據(jù)集
+關注
關注
4文章
1200瀏覽量
24619 -
自然語言處理
+關注
關注
1文章
596瀏覽量
13482 -
nlp
+關注
關注
1文章
484瀏覽量
21987
原文標題:EMNLP2023 | 通過NLP領域學術寫作的對比分析試圖解決語言偏置問題
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論