0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NLP領域的語言偏置問題分析

深度學習自然語言處理 ? 來源:南大NLP ? 2024-01-03 11:00 ? 次閱讀

來自:南大NLP

01研究動機

許多研究證明,學術論文表達的nativeness會影響其被接受發(fā)表的可能性[1, 2]。先前的研究也揭示了非英語母語的作者在國際期刊發(fā)表論文時所經歷的壓力和焦慮。我們通過對自然語言處理(NLP)論文摘要進行全面的統(tǒng)計分析,發(fā)現(xiàn)不同語言背景的作者在寫作中的詞匯、形態(tài)、句法和連貫性方面有明顯的差異,這表明NLP領域存在語言偏置的可能性。因此,我們提出了一系列建議,以幫助學術期刊和會議的出版社改進他們對論文作者的指南和資源,以增強學術研究的包容性和公平性。

02數(shù)據(jù)收集

為了分析NLP領域的語言偏置,我們收集的論文摘要來自于ACL和EMNLP會議上發(fā)表的論文,以及arXiv.org的論文,標簽為“Computation and Language”。本文研究中,我們假設第一作者是文章的撰寫者。為了確定每篇文章的第一作者的國籍,我們設計了一些啟發(fā)式方法。首先,我們通過提取電子郵件地址來確定作者所屬機構的國籍。然后,我們使用一個姓名起源數(shù)據(jù)庫來確定第一作者是否與該機構具有相同的國籍。在機構國籍未知或作者國籍與機構國籍不太可能相符的情況下,這些摘要將被丟棄。最后,為了確保有足夠的數(shù)據(jù)進行分析,我們保留了數(shù)據(jù)集中摘要最多的五個國家的數(shù)據(jù)。這些國家分別是中國、美國、德國、日本和印度。數(shù)據(jù)集的統(tǒng)計信息見表1。

表1:數(shù)據(jù)集統(tǒng)計數(shù)據(jù)

c3399924-a97e-11ee-8b88-92fbcf53809c.png

03分析

我們的分析涵蓋了詞匯、形態(tài)、句法連貫性等語言特性,這被認為是語法能力和文本能力的核心組成部分[3]。以下是對每種特性的分析和討論。

3.1 詞匯

我們從兩個不同的層次分析不同國家使用的詞匯特征。首先,我們通過計算類符行符比(token-type ratio)來研究詞匯的多樣性。其次,我們通過詞匯束(lexical bundle)分析來探索多詞級別的詞匯,從中找出常用的詞匯塊。

3.1.1 詞匯多樣性

為了分析詞匯多樣性,我們計算每個文本的類符行符比(token-type ratio)。類符行符比通過將文本中獨特詞的數(shù)量除以總詞數(shù)來計算。較高的比率表示更高的詞匯多樣性。統(tǒng)計結果如表2中所示。

表2: 平均類符行符比和詞匯鏈長度

c34b5b82-a97e-11ee-8b88-92fbcf53809c.png

從結果中可以看到,與其他語料庫相比,美國和德國的語料庫有相對稍高的類符行符比(token-type ratio)。我們假設這是由于使用同義詞、下義詞和上義詞的增加所導致的。為了驗證這點,我們計算了詞匯鏈的長度,其中每個鏈包含一個摘要中所有語義相關的詞匯;這些詞匯可以通過同義詞、下義詞或上義詞來進行語義關聯(lián)。所有名詞的平均鏈長度展示在表2的右側列中??梢钥吹?,美國語料庫中的平均詞匯鏈長度是所有語料庫中最長的,這意味著平均而言他們會使用更廣泛的詞匯來描述類似概念。相比之下,日本和印度的語料庫具有最短的平均鏈長度,相對稍少的語義相關術語的使用是一個可能的因素。

3.1.2 詞匯束

為了捕捉不同國家的作家如何使用詞匯束,我們對四個詞匯束的使用模式進行了分析。我們通過保留超過預定頻率閾值和分散閾值的詞匯束來確保每個語料庫的代表性。表3展示了詞匯束的頻率(Bundles per Million Words)、獨特詞匯束的數(shù)量(Unique Bundles)和不同語法類別的詞匯束數(shù)量。

表3:四個詞匯束統(tǒng)計信息

c3593180-a97e-11ee-8b88-92fbcf53809c.png

從表3中可以看出,在不同的語料庫之間,詞匯束的頻率存在很大的差異。例如,在中國、日本和印度的語料庫中,詞匯束的使用量是美國語料庫的兩倍以上,而美國語料庫的使用量最少(Bundles per Million Words)。此外,還可以觀察到非英語母語的語料庫中使用的獨特詞匯束數(shù)量(Unique Bundles)比美國語料庫更多。第二語言使用者使用詞匯束的情況已經在文獻中廣泛研究過[4, 5, 6, 7],其中有一種假設是增加使用次數(shù)是因為作者依賴使用固定的詞匯表達式以產生更符合學術要求的文本,并避免產生被視為非傳統(tǒng)的表達方式[7]。

我們更深入地研究了詞匯束在摘要中特定功能的使用,即引入論文主要思想的功能。該功能的規(guī)范化束計數(shù)如表4所示。

表4: 表達引入論文主要思想的詞匯束頻率(每百萬詞)

c362bd86-a97e-11ee-8b88-92fbcf53809c.png

可以看到,在中國、印度和日本的語料庫中,這個特定功能的詞匯束使用率很高,使用頻率比美國的語料庫高出41%(日本語料庫)到69%(中國語料庫)。然而,我們注意到這三個語料庫中的模式有所不同。例如,在中國語料庫中,總體使用量較高似乎可以歸因于一個特定詞匯束的高使用率(in this paper we)。如果將其與日本語料庫進行對比,我們可以看到盡管詞匯束的總體使用仍然很高,但使用情況分布在更廣泛的詞匯束范圍內,而不是一個單一的詞匯束。

3.2 形態(tài)

為了分析形態(tài)學維度,我們調查了五個國家作家使用不同動詞形式的分布情況。具體來說,對于每個語料庫中的句子,我們確定主動詞,并根據(jù)其是否是過去時態(tài)、過去分詞、基本形式、第三人稱現(xiàn)在時、非第三人稱現(xiàn)在時或動名詞來分類動詞形式。分布結果如圖1所示。

c37360b4-a97e-11ee-8b88-92fbcf53809c.png

圖 1:每個語料庫中動詞形式的分布

根據(jù)分析,我們發(fā)現(xiàn)這些分布在不同地點上相當一致。然而,還是存在一些例外情況。例如,對于過去時使用(VBD),日本語料庫顯示出這種動詞形式的使用更頻繁,超過12%的動詞帶有VBD標記。這比其他地點的使用頻率高出兩倍以上。相反地,非第三人稱現(xiàn)在時(VBP)在日本語料庫中使用相對較少,有45.5%的動詞使用這種形式,而美國語料庫中有56%的動詞使用這種形式(這是最頻繁的情況)。

3.3 句法

在句法分析中,我們探索短語級別、從句級別和句子級別的復雜性。為了做到這點,我們使用了多種測量方法:名詞短語修飾語的平均數(shù)量、每個句子中的從句數(shù)量、平均解析樹深度和平均句子長度。分析結果如表5所示。

表5:句法復雜度指標

c37e4b5a-a97e-11ee-8b88-92fbcf53809c.png

我們觀察到在名詞短語層面上,與數(shù)據(jù)集中的其他國家相比,美國和德國的語料庫表現(xiàn)出較低的復雜性(即,較少使用名詞短語修飾語)。然而,當我們觀察從句和句子的層面時,來自美國和德國的文本比其他國家的寫作表現(xiàn)出更高的復雜性。這一觀察意味著在表達復雜思想方面可能存在一些不同的偏好,其中一種選擇是通過更多的短語修飾語來表達復雜性,而另一種選擇是將句子拆分成多個從句。

3.4 連貫性

與已有分析第二語言使用者寫作連貫性的研究[8, 9, 10, 11]相似,我們比較了不同國家作者之間的語篇連接詞的使用情況。為此,我們記錄了所有來自[12]提供的語篇連接詞清單中的連接詞的使用。平均每個句子的語篇連接詞數(shù)量如表6所示。

表6: 每個句子中平均的語篇連接詞數(shù)量

c38ce55c-a97e-11ee-8b88-92fbcf53809c.png

如上所述,可以看出,美國和德國的文本中使用了更多的鏈接詞。為了探究不同國家的鏈接詞偏好,我們列出了與美國語料庫相比每個語料庫使用率最高的五個連詞。結果如表7所示。

表7:與美國語料庫相比,使用比例最高的五個語篇連接詞

c394fb0c-a97e-11ee-8b88-92fbcf53809c.png

可以看出,每個語料庫都有自己獨特的語篇連接詞集,在與整個數(shù)據(jù)集相比時更受偏愛。例如,在中國語料庫中,firstly 是一種高度偏愛的連接詞,比來自美國的作者使用頻率高出11倍。同樣,besides 也是中國作者高度偏愛的連接詞,在中國語料庫中的出現(xiàn)頻率比美國語料庫高出10倍以上。我們還注意到,德國、印度和日本語料庫中對consequential(以結果為導向)連接詞有偏好,其中hence、thereby和therefore的出現(xiàn)頻率顯著高于美國語料庫(其中一些未在表中列出,因為它們僅略遜于前5位)。

04結論和推薦

在本文研究中,我們致力于解決學術出版中的語言偏置問題。我們對自然語言處理領域的學術寫作進行了全面對比分析,發(fā)現(xiàn)了許多特征在來自不同國籍的作者之間存在很大差異。這些發(fā)現(xiàn)凸顯了語言偏置的潛在風險。為了解決這個問題,我們概述了一套推薦措施,建議學術期刊和會議在他們的作者指南中如何支持來自全球各地的論文作者。我們的建議專注于本研究中四個語言特性。例如,在不同作者群體之間差異較大的語言方面,作者指南中可以添加詳細的解釋和示例。另外,我們鼓勵出版商提供免費訪問的自動寫作工具,能夠進行改寫等功能。

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:EMNLP2023 | 通過NLP領域學術寫作的對比分析試圖解決語言偏置問題

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    【推薦體驗】騰訊云自然語言處理

    `相信大家對NLP自然語言處理的技術都不陌生,它是計算機科學領域和AI領域中的一個分支,它與計算機和人類之間使用自然語言進行交互密切相關,而
    發(fā)表于 10-09 15:28

    NLP的介紹和如何利用機器學習進行NLP以及三種NLP技術的詳細介紹

    本文用簡潔易懂的語言,講述了自然語言處理(NLP)的前世今生。從什么是NLP到為什么要學習NLP,再到如何利用機器學習進行
    的頭像 發(fā)表于 06-10 10:26 ?7.7w次閱讀
    <b class='flag-5'>NLP</b>的介紹和如何利用機器學習進行<b class='flag-5'>NLP</b>以及三種<b class='flag-5'>NLP</b>技術的詳細介紹

    Richard Socher:NLP領域的發(fā)展要過三座大山

    面對自然語言處理發(fā)展(NLP)存在的諸多難題,該領域的大牛、Salesforce的首席科學家Richard Socher在近日指出:NLP領域
    的頭像 發(fā)表于 09-06 11:40 ?3759次閱讀

    自然語言處理(NLP)的學習方向

    自然語言處理(Natural Language Processing,NLP)是計算機科學領域與人工智能領域中的一個重要方向。它研究人與計算機之間用自然
    的頭像 發(fā)表于 07-06 16:30 ?1.3w次閱讀

    NLP 2019 Highlights 給NLP從業(yè)者的一個參考

    自然語言處理專家elvis在medium博客上發(fā)表了關于NLP在2019年的亮點總結。對于自然語言處理(NLP領域而言,2019年是令人印
    的頭像 發(fā)表于 09-25 16:56 ?1682次閱讀

    人工智能nlp是什么方向

    人工智能nlp是什么方向? 人工智能(AI)已經日益普及,正在改變我們的方法和方式。AI 涵蓋了許多領域,其中包括機器學習,計算機視覺,自然語言處理(NLP)等。在這些方向之中,
    的頭像 發(fā)表于 08-22 16:45 ?1857次閱讀

    什么是自然語言處理 (NLP)

    自然語言處理(Natural Language Processing, NLP)是人工智能領域中的一個重要分支,它專注于構建能夠理解和生成人類語言的計算機系統(tǒng)。
    的頭像 發(fā)表于 07-02 18:16 ?809次閱讀

    NLP技術在人工智能領域的重要性

    在自然語言處理(Natural Language Processing, NLP)與人工智能(Artificial Intelligence, AI)的交織發(fā)展中,NLP技術作為連接人類語言
    的頭像 發(fā)表于 07-04 16:03 ?394次閱讀

    nlp自然語言處理的應用有哪些

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領域的一個分支,它致力于使計算機能夠理解和生成自然語言。隨著技術的發(fā)展,
    的頭像 發(fā)表于 07-05 09:55 ?2375次閱讀

    nlp自然語言處理模型有哪些

    自然語言處理(Natural Language Processing,NLP)是計算機科學和人工智能領域的一個重要分支,旨在使計算機能夠理解、解釋和生成人類語言。以下是對
    的頭像 發(fā)表于 07-05 09:57 ?578次閱讀

    nlp自然語言處理模型怎么做

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領域的一個重要分支,它涉及到計算機對人類語言的理解和生成。隨著深度學習技術的發(fā)展,
    的頭像 發(fā)表于 07-05 09:59 ?493次閱讀

    nlp自然語言處理的主要任務及技術方法

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能和語言領域的一個分支,它研究如何讓計算機能夠理解、生成和處理人類
    的頭像 發(fā)表于 07-09 10:26 ?760次閱讀

    nlp自然語言處理框架有哪些

    自然語言處理(Natural Language Processing,簡稱NLP)是計算機科學和人工智能領域的一個重要分支,它致力于使計算機能夠理解和處理人類語言。隨著技術的發(fā)展,
    的頭像 發(fā)表于 07-09 10:28 ?467次閱讀

    nlp自然語言處理基本概念及關鍵技術

    自然語言處理(Natural Language Processing,簡稱NLP)是人工智能領域的一個重要分支,它致力于使計算機能夠理解、解釋和生成人類語言
    的頭像 發(fā)表于 07-09 10:32 ?471次閱讀

    nlp神經語言NLP自然語言的區(qū)別和聯(lián)系

    神經語言(Neuro-Linguistic Programming,NLP) 神經語言是一種心理學方法,它研究人類思維、語言和行為之間的關系。NLP
    的頭像 發(fā)表于 07-09 10:35 ?679次閱讀