開(kāi)源工具已經(jīng)趨于成熟,這使其能構(gòu)建大規(guī)模的自然場(chǎng)景下的系統(tǒng)。與此同時(shí),機(jī)器學(xué)習(xí)領(lǐng)域?yàn)楦鞣N應(yīng)用開(kāi)發(fā)了大量強(qiáng)大的學(xué)習(xí)算法。但是,由于沒(méi)有公開(kāi)共享現(xiàn)有的實(shí)現(xiàn)方式,去真正的利用這些方法,從而導(dǎo)致軟件的可用性和互操性較弱。
本文作者認(rèn)為,可以通過(guò)提高研究人員在源代碼模型下發(fā)布軟件的動(dòng)機(jī)來(lái)明顯改善這種情況。此外,本文概述了作者在嘗試發(fā)布機(jī)器學(xué)習(xí)算法的實(shí)現(xiàn)時(shí)所面臨的問(wèn)題。作者認(rèn)為,經(jīng)過(guò)同行評(píng)審的軟件資源以及簡(jiǎn)短的文檔對(duì)機(jī)器學(xué)習(xí)和整個(gè)科學(xué)界非常有價(jià)值。
概述
機(jī)器學(xué)習(xí)領(lǐng)域發(fā)展迅速,為不同的應(yīng)用提供了各種各樣的學(xué)習(xí)算法。這些算法的最終價(jià)值在很大程度上取決于它們?cè)诮鉀Q實(shí)際問(wèn)題中的成功。因此,將算法進(jìn)行復(fù)制并應(yīng)用于新任務(wù)對(duì)于該領(lǐng)域的進(jìn)步至關(guān)重要。
但是,目前很少有機(jī)器學(xué)習(xí)研究人員發(fā)布與其論文相關(guān)的軟件和/或源代碼。這與生物信息學(xué)界的做法形成了鮮明對(duì)比,后者的開(kāi)源軟件已經(jīng)成為進(jìn)一步研究的基礎(chǔ)。缺少公開(kāi)可用的算法實(shí)現(xiàn)是我們這一學(xué)科進(jìn)步的主要障礙。
我們相信,機(jī)器學(xué)習(xí)軟件的開(kāi)源共享可以在消除障礙方面發(fā)揮非常重要的作用。
開(kāi)源模型具有許多優(yōu)勢(shì),這些優(yōu)勢(shì)將帶來(lái)更好的實(shí)驗(yàn)結(jié)果重現(xiàn)性:更快地檢測(cè)錯(cuò)誤,創(chuàng)新性應(yīng)用以及在其他學(xué)科和行業(yè)中更快地采用機(jī)器學(xué)習(xí)方法。但是,目前缺乏完善和發(fā)布軟件的動(dòng)機(jī)。已發(fā)布的軟件本身在我們領(lǐng)域中沒(méi)有標(biāo)準(zhǔn)的,可接受的引用方式。
目前引用它的唯一方法是引用與代碼相關(guān)聯(lián)的論文,或者通過(guò)引用以某種技術(shù)報(bào)告的形式發(fā)布的用戶手冊(cè)。為了解決這一難題,本文提出了一種正式發(fā)布機(jī)器學(xué)習(xí)軟件的方法,類似于ACM Transactions on Mathematical Software提供的用于數(shù)值分析的方法。
注:本文作者隨后簡(jiǎn)要解釋了開(kāi)源軟件背后的思想,然后介紹了廣泛采用開(kāi)源的模型將產(chǎn)生的一些積極影響。接下來(lái),本文討論了當(dāng)前主要的阻礙,并提出可能的改變以改善這種情況。最后,作者為JMLR(JMLR-MLOSS)中的機(jī)器學(xué)習(xí)開(kāi)源軟件提出了一個(gè)新的、單獨(dú)的track。
開(kāi)源背后的思想
開(kāi)源軟件的基本思想非常簡(jiǎn)單;程序員或用戶可以閱讀,修改和重新分發(fā)軟件的源代碼。盡管有各種開(kāi)源軟件許可,但它們都有一個(gè)共同的出發(fā)點(diǎn),那就是允許自由交換和使用信息。開(kāi)源模型更注重貢獻(xiàn)者的協(xié)作。每個(gè)貢獻(xiàn)者都可以利用網(wǎng)絡(luò)中其他人所做的工作,從而最大程度地減少“重新造輪子”所花費(fèi)的時(shí)間。
開(kāi)源的軟件主要有下面的10個(gè)屬性:
1.免費(fèi)重新使用
2.源代碼
3.衍生作品
4.作者源代碼的完整性
5.不歧視個(gè)人或群體
6.不歧視工作領(lǐng)域
7.許可證的分配
8.許可不得用于特定產(chǎn)品
9.許可不得限制其他軟件
10.許可必須是技術(shù)中立的
開(kāi)源的積極影響
這一部分主要是簡(jiǎn)要概述開(kāi)源軟件及其與科學(xué)活動(dòng)(特別是機(jī)器學(xué)習(xí))的關(guān)系。讀者可能會(huì)認(rèn)為我們對(duì)開(kāi)源的好處過(guò)于樂(lè)觀,而沒(méi)有討論負(fù)面影響。事實(shí)是,要獲得專有系統(tǒng)與開(kāi)源軟件之間抄襲的確鑿證據(jù)是極其困難的。
本文從道德,倫理和社會(huì)基礎(chǔ)三個(gè)方面進(jìn)行闡釋,開(kāi)源應(yīng)該是機(jī)器學(xué)習(xí)研究的首選軟件發(fā)布選項(xiàng),并向讀者介紹開(kāi)源軟件的許多優(yōu)點(diǎn)。在這里,本文將重點(diǎn)放在用于機(jī)器學(xué)習(xí)研究的開(kāi)源軟件的特定優(yōu)勢(shì)上,該優(yōu)勢(shì)結(jié)合了科學(xué)進(jìn)步以及軟件生產(chǎn)者和消費(fèi)者的需求和要求。作者從以下7點(diǎn)說(shuō)明了開(kāi)源的優(yōu)勢(shì):
1.科學(xué)結(jié)果的可重復(fù)性和算法的合理比較;
2.發(fā)現(xiàn)問(wèn)題;
3.利用已有資源(而不是重新實(shí)現(xiàn));
4.不斷獲得科學(xué)的工具;
5.優(yōu)勢(shì)結(jié)合;
6.在不同學(xué)科和行業(yè)中更快地適用某方法;
7.出現(xiàn)協(xié)同標(biāo)準(zhǔn)。
最后,作者使用一個(gè)表格總結(jié)了開(kāi)源會(huì)帶來(lái)的優(yōu)點(diǎn),一共有11條,分別如下:
1.提高了科學(xué)研究的可復(fù)現(xiàn)性
2.有助于公平比較在相同框架中實(shí)施的算法
3.可以更快地發(fā)現(xiàn)問(wèn)題
4.可以修復(fù)bug和擴(kuò)展外部來(lái)源的錯(cuò)誤
5.方法可以被其他人更快地采用
6.可以使用高效的算法
7.能利用現(xiàn)有資源來(lái)幫助新研究
8.廣泛的使用算法會(huì)使其得到廣泛的認(rèn)可
9.可以開(kāi)發(fā)更復(fù)雜的機(jī)器學(xué)習(xí)算法
10.可以加速研究進(jìn)展
11.對(duì)新研究者和較小的研究小組非常有幫助
開(kāi)源社區(qū)當(dāng)前主要的障礙
盡管根據(jù)開(kāi)源模型發(fā)布實(shí)現(xiàn)方式具有許多優(yōu)點(diǎn),但是當(dāng)前很少采用此選項(xiàng)。作者認(rèn)為,有六個(gè)主要的原因,總結(jié)起來(lái)概括如下:
1、發(fā)布軟件不能夠被視為一種科學(xué)貢獻(xiàn)
2、公開(kāi)與商業(yè)利益存在根源上的沖突
3、發(fā)布開(kāi)源軟件的激勵(lì)措施沒(méi)有足夠高
4、機(jī)器學(xué)習(xí)研究人員不是一個(gè)優(yōu)秀的程序員
5、這種松懈能掩蓋新方法的問(wèn)題,并降低會(huì)議和期刊的接收難度
6、存在一種習(xí)慣,對(duì)質(zhì)量相似的論文采用相同的處理方法
建議
作者給出了提交高質(zhì)量機(jī)器學(xué)習(xí)開(kāi)源軟件實(shí)現(xiàn)的描述。提交的內(nèi)容至少應(yīng)包括:
1、一封書(shū)面信,說(shuō)明該提交內(nèi)容適用于機(jī)器學(xué)習(xí)開(kāi)源軟件部分,發(fā)布該軟件的開(kāi)源許可證,項(xiàng)目的網(wǎng)址以及要查看的軟件版本。
2、最多四頁(yè)基于JMLR格式的描述。
3、包含源代碼和文檔的zip或tar壓縮的歸檔文件。
結(jié)論
綜上,作者認(rèn)為,采用共享信息的開(kāi)源模型來(lái)實(shí)現(xiàn)機(jī)器學(xué)習(xí)軟件對(duì)整個(gè)領(lǐng)域都非常有幫助。開(kāi)源模型具有許多優(yōu)勢(shì),例如提高了實(shí)驗(yàn)結(jié)果的可重復(fù)性,更快地檢測(cè)錯(cuò)誤,加速科學(xué)進(jìn)步以及在其他學(xué)科和行業(yè)中更快地采用了機(jī)器學(xué)習(xí)方法。由于當(dāng)前發(fā)布開(kāi)源軟件的動(dòng)機(jī)不足,本文概述了一個(gè)發(fā)布用于機(jī)器學(xué)習(xí)的軟件平臺(tái)。
此外,本文討論了機(jī)器學(xué)習(xí)軟件的理想功能,這些功能最終將產(chǎn)生一個(gè)高度可用,靈活和可擴(kuò)展的軟件。本文邀請(qǐng)所有開(kāi)發(fā)機(jī)器學(xué)習(xí)算法的機(jī)器學(xué)習(xí)研究人員提交機(jī)器學(xué)習(xí)軟件的JMLR track。定義精心設(shè)計(jì)的界面對(duì)于提高交互操作至關(guān)重要,這將使社區(qū)能構(gòu)建一套高質(zhì)量的機(jī)器學(xué)習(xí)軟件。
-
算法
+關(guān)注
關(guān)注
23文章
4587瀏覽量
92503 -
人工智能
+關(guān)注
關(guān)注
1789文章
46652瀏覽量
237085 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8349瀏覽量
132315
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論