甚至比 C 的速度還快,現(xiàn)在已在 GitHub 上可用。
自深度學習興起以來,Python 一直是最熱門的編程語言之一,它在數(shù)據(jù)科學和機器學習領域占主導地位,甚至是科學和數(shù)學計算領域的主角。如今你能想象到的任何項目,幾乎都可以找到一個相應的 Python 包。
然而,盡管高級語言的簡化語法使其易于學習和使用,但和 C 或 C++ 等低級語言相比,它的速度更慢。
麻省理工學院計算機科學與人工智能實驗室(CSAIL)的研究人員希望通過 Codon 來改變這一現(xiàn)狀,Codon 是一種基于 Python 的編譯器,允許用戶編寫與 C 或 C++ 程序一樣高效運行的 Python 代碼,同時可以定制和適應不同的需求和環(huán)境。
該研究的最新論文《Codon: A Compiler for High-Performance Pythonic Applications and DSLs》發(fā)表在了 2 月份的第 32 屆 ACM SIGPLAN 編譯器構(gòu)建國際會議上。
項目鏈接:https://github.com/exaloop/codon
論文:https://dl.acm.org/doi/abs/10.1145/3578360.3580275
在開發(fā)工作中,人們需要使用編譯器將源代碼轉(zhuǎn)換為可由計算機處理器執(zhí)行的機器代碼,Codon 能幫助開發(fā)者在 Python 中創(chuàng)建新的領域特定語言(DSL),同時仍然獲得其他語言的性能優(yōu)勢。
「常規(guī) Python 會被編譯成所謂的字節(jié)碼,該字節(jié)碼在虛擬機中執(zhí)行,這就會讓速度慢上很多,」Codon 論文的主要作者 Ariya Shajii 表示,「通過 Codon,我們則進行本地編譯,因此你可以直接在 CPU 上運行最終結(jié)果 —— 不經(jīng)過中間虛擬機或解釋器?!?/p>
Codon 的編譯管道包括類型檢查,使其能夠更高效地運行 Python 代碼。
基于 Python 的編譯器帶有適用于 Linux 和 macOS 的預構(gòu)建二進制文件,你還可以從源代碼構(gòu)建或生成可執(zhí)行文件?!甘褂?Codon,你可以像 Python 一樣分發(fā)源代碼,或者你可以將它編譯成二進制文件,」Shajii 說?!溉绻阆敕职l(fā)一個二進制文件,它將與像 C++ 這樣的語言一樣,例如一個 Linux 二進制文件或一個 Mac 二進制文件。」
為了讓 Codon 更快,研究人員決定在編譯時執(zhí)行類型檢查。類型檢查涉及將數(shù)據(jù)類型(例如整數(shù)、字符串、字符或浮點數(shù)等)分配給值。例如數(shù)字 5 可以分配為整數(shù),字母 c 可以分配為字符,單詞 hello 可以分配為字符串,十進制數(shù) 3.14 可以分配為浮點數(shù)。
「在常規(guī) Python 中,所有類型都給了 runtime,」Shajii 介紹道?!甘褂?Codon,我們在編譯過程中進行類型檢查,這讓我們避免了在 runtime 進行所有昂貴的類型操作?!?/p>
MIT CSAIL 首席研究員 Saman Amarasinghe 補充說,「如果你有一種動態(tài)語言(比如 Python),每次你有一些數(shù)據(jù)時,你都需要在它周圍保留很多額外的元數(shù)據(jù),以確定 runtime 的類型。Codon 取消了這種元數(shù)據(jù),因此代碼速度更快,數(shù)據(jù)更小?!?/p>
根據(jù) Shajii 的說法,Codon 在運行時沒有任何不必要的數(shù)據(jù)或類型檢查,所以開銷為零。在性能方面,「Codon 通常與 C++ 不相上下。與 Python 相比,我們通??吹降氖?10 到 100 倍的速度改進?!?/p>
另一方面,Codon 的方法有其權衡?!肝覀冞M行這種靜態(tài)類型檢查,并且不允許使用 Python 的一些動態(tài)特性,比如在 runtime 動態(tài)更改類型,」Shajii 表示。
「還有一些 Python 庫我們還沒有實現(xiàn)?!笰marasinghe 補充說,「Python 已經(jīng)過無數(shù)人的實際測試,而 Codon 還沒有達到那樣的水平,它需要運行更多的程序,獲得更多的反饋,并加固更多。達到常規(guī) Python 的穩(wěn)定水平需要一些時間?!?/p>
Codon 最初設計用于基因組學和生物信息學的工作。研究人員嘗試了大約 10 個用 Python 編寫的常用基因組學應用程序,并使用 Codon 對其進行了編譯,與最初的手動優(yōu)化實現(xiàn)相比實現(xiàn)了 5 到 10 倍的加速。
「如今這些領域的數(shù)據(jù)集已變得非常大,而像 Python 和 R 這樣的高級語言速度太慢,無法處理每組測序 TB 級的數(shù)據(jù)量,」Shajii 說道?!高@就是我們想要填補的空白 —— 通過構(gòu)建一種無需寫 C 或 C++ 代碼即可處理大數(shù)據(jù)的方法,從而為非計算機科學或?qū)I(yè)開發(fā)者的領域?qū)<姨峁椭!?/p>
上述圖表在幾個基準上比較了 Python(CPython 3)、PyPy、Codon 和 C++ 的性能。y 軸顯示 Codon 實現(xiàn)相對于 CPython 實現(xiàn)的加速。MIT/EXALOOP/UNIVERSITY OF VICTORIA/ACM
除了基因組學,Codon 還可以應用于處理海量數(shù)據(jù)集的類似應用程序,以及基于 Python 的編譯器支持的 GPU 編程和并行編程等領域。事實上,Codon 現(xiàn)在正通過初創(chuàng)公司 Exaloop 在生物信息學、深度學習和量化金融領域進行商業(yè)應用,Shajii 創(chuàng)立了該公司,旨在將 Codon 從學術項目轉(zhuǎn)變?yōu)樾袠I(yè)應用。
為了使 Codon 能夠適應不同領域,該團隊開發(fā)了一個插件系統(tǒng)?!杆拖褚粋€可擴展的編譯器,」Shajii 說道?!改憧梢詾榛蚪M學或其他領域編寫插件,這些插件可以有新的庫和新的編譯器優(yōu)化。」
此外,公司和機構(gòu)可以使用 Codon 來制作原型和開發(fā)自己的應用程序?!肝覀兛吹降囊环N模式是:人們使用 Python 進行原型設計和測試,因為它易于使用,但到了某些重要事項上,他們就不得不重寫應用程序,或讓其他人用 C 或 C++ 在更大的數(shù)據(jù)集上進行重寫與測試,」Shajii 表示?!竿ㄟ^ Codon,你就可以完全使用 Python,并獲得兩全其美的好處。」
關于 Codon 的未來,Shajii 和他的團隊目前正在研究廣泛使用的 Python 庫的本地實現(xiàn),以及特定于庫的優(yōu)化,以幫助人們從這些庫中獲得更好的性能。他們還計劃創(chuàng)建一個廣受歡迎的功能:Codon 的 WebAssembly 后端,以支持在 Web 瀏覽器上運行代碼。
審核編輯 :李倩
-
C++
+關注
關注
21文章
2085瀏覽量
73301 -
編譯器
+關注
關注
1文章
1602瀏覽量
48895 -
機器學習
+關注
關注
66文章
8306瀏覽量
131841
原文標題:這款編譯器能讓Python和C++一樣快!最高提速百倍,MIT出品!
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論