0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

用AI打擊論文圖像造假,仍有4000多篇醫(yī)學“問題論文”

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-11-12 10:19 ? 次閱讀

在生物醫(yī)學領域的論文中,AI已經搜索出9%的高度重復圖像,0.59%的論文被認為存在欺詐嫌疑。因圖像造假撤回的醫(yī)學論文,一年時間可能浪費接近10億美元的研發(fā)成本。

“打擊論文造假,維護科研正義”。這不是一句喊口號的話。

今年6月,斯坦福大學微生物學家分析了2009-2016年發(fā)表在分子與細胞生物學(MCB)上的960篇論文,發(fā)現其中59篇(6.1%)含有“不適當的”重復圖像,約有2%值得再去進行圖像證偽。

不過,斯坦福大學微生物學家的工作完全依靠手動,五位研究人員靠十只手從近1000篇論文里總結出了這一成果。

現在,AI的介入讓論文中的可疑圖像被發(fā)現的概率大大提升,一個顯著的成果是,在生物醫(yī)學領域的論文中,AI已經搜索出9%的圖像是高度重復的,0.59%的論文被認為存在欺詐嫌疑。

用AI打擊論文圖像造假,仍有4000多篇醫(yī)學“問題論文”

使用AI來打擊論文圖像造假的工作是由紐約雪城大學(Syracuse University)機器學習研究員開發(fā)算法,他們分析了PubMed Open Access子集(PMOS)中截止到2015年發(fā)布的所有數據,包含了760036篇文章、超過200萬的數據。

研究人員構建了一個pipeline,以自動檢測不適合圖像重用候選對象,在初步檢測之后,刪除了可能只是文本的圖像或表示為圖像的方程式,留下了大約200萬張圖片。

接著,研究人員發(fā)現每張圖像平均有大約1K高熵關鍵點,這產生了大的相似度檢測問題,研究人員使用近似最近鄰算法來解決這個問題。之后,機器學習算法來估計是否顯示生物圖像。

檢測復制-移動重用。A.癌變細胞和縮小部分的原始例子。B.關鍵點(高熵區(qū)域)的計算C.最近鄰匹配。D.集群關鍵點、跨集群匹配和仿射變換。

最后,使用人工來評估不當重用。

算法檢測圖像區(qū)域重用,同時對旋轉、裁剪、調整大小和對比度變化具有魯棒性??偟膩碚f,這項研究得出一個結論:在PubMed Open Access上,大約有0.59%的文章會被一致認為是具有欺騙性的。也就是說,在760036篇文章里面,大約有4484篇文章涉嫌造假。

論文圖像篡改可能導致一年損失10億美元

學術研究論文中的圖像造假的禍害十分普遍。

兩個星期前,Science聯(lián)合撤稿觀察發(fā)布了一個“撤稿”報告,許多數字令人震驚:過去10年里學術期刊撤回的論文數量增加了10倍,撤稿率最高的國家中國排第7,撤稿最多的10位作者中,中國占了兩人。

Top 10撤稿作者(數據來自Science)

在撤稿觀察的數據庫中,有18000份研究論文被撤回(最早可追溯到20世紀70年代),其中,317篇被撤回論文進行了圖像篡改,約占整體論文的1.7%。

賓夕法尼亞大學生物工程副教授Arjun Raj早在2012年就指出,平均一篇生物醫(yī)學研究論文背后的科學成本約為30萬美元至50萬美元。而柳葉刀報道稱,美國研究人員在當年發(fā)表了近152000篇論文。

這樣推算,即使每篇論文成本30萬美元,美國研究人員在2012年發(fā)表的所有生物醫(yī)學科學論文的成本也將接近500億美元。

如果2%的論文因為圖像偽造需要撤回,美國可能會在2012年浪費接近10億美元。隨著全球科學產量每九年翻一番,照此計算,自2012年以來,因撤稿產生的負利潤率可能會更大。

圖像篡改向來如此糟糕嗎?

有些研究人員認為,這么多年來,論文圖像篡改問題一直在惡化。

來自美國研究誠信辦公室(the United States Office of Research Integrity,ORI)的數據表明,在Photoshop發(fā)布后,他們所處理的涉及圖像處理的案件比例有所增加。

技術在打擊論文造假的過程中,一直是一場“貓鼠游戲”。AI除了檢測圖像區(qū)域重用,也成為對抗Photoshop的利器。

今年9月,Scientific Reports發(fā)表了一篇論文,文章指出,基于植物Rhus toxicondendron(毒性常春藤)的稀釋度非常高的順勢療法,至少與減輕疼痛的藥物(加巴噴丁)一樣有效。

不過,很快這篇介紹順勢療法的論文,被生物學家Enrico Bucci使用的一款軟件標記出來錯誤:在兩種不同的實驗中,所建議的藥物濃度差別很大,而其圖表卻驚人地一致。

后來,論文作者回應稱,他的的團隊在準備手稿時犯了一些無意的錯誤,導致重復的圖像和重復的數據。

作者表示,文本和數字之間的差異是錯別字的結果。該小組將要求Scientific Reports更新該文章并進行更正。但也表示,“這不會以任何方式改變科學結論”。

AI距離自動打擊論文造假還有多遠?

然而,即使基于軟件的方法已經被廣泛討論了近十年,使用此類應用程序的公司還是很少用軟件發(fā)布他們的結果。

基于軟件的方法仍然需要人為的監(jiān)督支持。檢測圖像處理軟件的開發(fā)有可能增加掃描圖像期刊的數量。然而,需要注意的是,軟件的使用并不能消除對人為干預的需求。軟件的輸出必須由人來評估。

一個領域是軟件開發(fā)有可能對大型文章數據庫的圖像復制檢測產生巨大影響,使用視覺檢查技術不可能進行這種大規(guī)模的比較。

AI來檢測論文圖像造假在未來可能有兩種形式。一是,公司可以為期刊編輯提供定制的應用程序,然后編輯可以使用這些應用程序對即將發(fā)表的論文進行分析,這可能類似于反抄襲軟件的工作方式。

而另一種方法是,圖像完整性分析公司將自己的人力和計算機資源分配給期刊進行圖像完整性檢查。

隨著自動化的圖像分析軟件演變?yōu)橐粋€企業(yè),那些造假的研究人員可能會發(fā)現他們的計量很難再“瞞天過?!?。然后,也許會出現另一個更為復雜的工具,使得造假的圖像更難以被發(fā)現,這場“貓鼠游戲”更能還將繼續(xù)。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4551

    瀏覽量

    92017
  • AI
    AI
    +關注

    關注

    87

    文章

    28875

    瀏覽量

    266203
  • 機器學習
    +關注

    關注

    66

    文章

    8306

    瀏覽量

    131838

原文標題:論文造假被AI抓:機器學習檢測出4000多論文造假,一年損失高達10億美元

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    經典論文40

    經典論文40 不看會后悔! [hide]經典論文(40).rar[/hide]
    發(fā)表于 12-01 10:54

    [推薦]紅梅論文網——專業(yè)代寫代發(fā)各類職稱論文、畢業(yè)論文QQ:149580361

    教育醫(yī)學論文。 (2)        代寫代發(fā)高會、高審
    發(fā)表于 01-11 16:14

    華南論文發(fā)表網——發(fā)表醫(yī)學教育經濟類職稱論文

    ;quot;Verdana">華南論文發(fā)表網是一個專業(yè)代理發(fā)表教育論文、醫(yī)學論文、會計論文、科學技術、法律論文、哲學社會學、
    發(fā)表于 01-23 18:25

    labview論文

    labview論文
    發(fā)表于 03-12 16:33

    100單片機論文資料

    本帖最后由 eehome 于 2013-1-5 09:48 編輯 100單片機論文資料
    發(fā)表于 08-16 17:43

    寫畢業(yè)論文同學攻略,支持~paperpass有效修改論文使用手冊

    5.4%,這時為了安全我就決定知網5.0系統(tǒng)檢測,最后是8.4%,最后完成答辯~~其實整個過程走下來,如果不是抄的特別,或者對自己的論文沒信心,沒必要去太貴的檢測系統(tǒng)檢測
    發(fā)表于 05-02 21:05

    FPGA 視頻圖像 論文

    各種關于FPGA 視頻 圖像處理的論文....希望更多人加入到這個方向上來,
    發(fā)表于 08-17 09:13

    人工智能ai論文

    人工智能ai論文
    發(fā)表于 07-28 08:39

    Vxworks經典論文40

    Vxworks經典論文40
    發(fā)表于 01-11 10:31 ?32次下載

    121電源技術論文薈萃

    121電源技術論文薈萃第十三屆電源技術研討會包含的論文。
    發(fā)表于 09-26 16:20 ?264次下載
    121<b class='flag-5'>篇</b>電源技術<b class='flag-5'>論文</b>薈萃

    關于智能車的優(yōu)秀論文(43論文

    關于智能車的優(yōu)秀論文(43論文)關于智能車的優(yōu)秀論文(43論文)關于智能車的優(yōu)秀
    發(fā)表于 11-13 15:56 ?0次下載

    Vxworks經典論文(40

    Vxworks經典論文(40),有興趣的同學可以下載學習
    發(fā)表于 05-04 14:37 ?0次下載

    2018年最吸引眼球的論文都有哪些?

    從學科分類上看,與我們息息相關的醫(yī)學與健康科學論文入榜最多,共有 44 。從國家分類上看,美國學者及機構主導或參與發(fā)表的論文數量最多,有 72
    的頭像 發(fā)表于 12-20 09:39 ?2512次閱讀

    基于視圖協(xié)作學習的人崗匹配研究論文提要

    投稿,其中錄用論文193,錄取率約為21%。 而在眾多論文當中,一BOSS直聘和中國人民大學聯(lián)合發(fā)表的基于視圖協(xié)作學習的人崗匹配研究吸
    的頭像 發(fā)表于 11-05 09:32 ?1959次閱讀

    場景流論文速記—RGBD圖像場景流

    簡單記一下最近看的六場景流論文~其中3是關于RGBD圖像的場景流,另外3是關于點云的場景流。來源:[鏈接]作者:林小北
    的頭像 發(fā)表于 12-10 19:28 ?1095次閱讀