0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

數(shù)據(jù)分析中最常用、最好用的20個Python庫分享

電子設(shè)計 ? 來源:Yingying,李大囧 ? 作者:ActiveWizards ? 2021-01-03 09:28 ? 次閱讀

【導(dǎo)讀】Python在解決數(shù)據(jù)科學(xué)任務(wù)和挑戰(zhàn)方面處于領(lǐng)先地位。而一些方便易用的庫則幫助了開發(fā)人員高效開發(fā)。在這里我們整理了20個在深度學(xué)習(xí)、數(shù)據(jù)分析中最常用、最好用的Python庫,供大家一起學(xué)習(xí)。

作者| ActiveWizards

編譯|專知

整理|Yingying,李大囧

核心庫與統(tǒng)計

NumPy

我們從科學(xué)應(yīng)用程序庫開始說起,NumPy是該領(lǐng)域的主要軟件包之一。 它旨在處理大型多維數(shù)組和矩陣,并且廣泛的高級數(shù)學(xué)函數(shù)和實現(xiàn)的方法集合,使得可以使用這些對象執(zhí)行各種操作。

在這一年中,NumPy有很多更新。 除了錯誤修復(fù)和兼容性問題之外,關(guān)鍵更新還包括NumPy對象的打印格式。此外,某些函數(shù)現(xiàn)在可以處理Python中可用的任何編碼的文件。

SciPy

另一個科學(xué)計算核心庫是SciPy。它基于NumPy,并擴展了其功能。 SciPy主數(shù)據(jù)結(jié)構(gòu)又是一個多維數(shù)組,由Numpy實現(xiàn)。該軟件包包含有助于解決線性代數(shù),概率論,積分計算和更多任務(wù)的工具。

SciPy可以適配不同的操作系統(tǒng)。這一年,Scipy帶來了許多函數(shù)的更新,尤其是優(yōu)化器也更新了。此外,封裝了許多新的BLAS和LAPACK函數(shù)。

Pandas

Pandas提供了高級數(shù)據(jù)結(jié)構(gòu)和各種分析工具。該軟件包的一大特色是能夠?qū)⑾喈攺?fù)雜的數(shù)據(jù)操作轉(zhuǎn)換為一個或兩個命令。 Pandas包含許多用于分組,過濾和組合數(shù)據(jù)的內(nèi)置方法,以及時間序列功能。

Pandas在這一年的更新包括數(shù)百個新功能,bug修復(fù)和API的更改。

StatsModels

Statsmodels是一個統(tǒng)用于統(tǒng)計數(shù)據(jù)分析的方法,例如統(tǒng)計模型估計,執(zhí)行統(tǒng)計測試等。在它的幫助下,您可以實現(xiàn)許多機器學(xué)習(xí)方法。

這個庫在不停的更新。今年帶來了時間序列改進和新的計數(shù)模型,即GeneralizedPoisson,零膨脹模型和NegativeBinomialP,以及新的多變量方法 - 因子分析,MANOVA和ANOVA中的重復(fù)測量。

可視化

Matplotlib

Matplotlib是一個用于創(chuàng)建二維圖表和圖形的低級庫。 借助它的幫助,您可以構(gòu)建各種圖表,從直方圖和散點圖到非笛卡爾坐標圖。 此外,許多流行的繪圖庫被設(shè)計為與matplotlib一起使用。

顏色,尺寸,字體,圖例的樣式等都有變化。比如軸圖例的自動對齊,和更友好的配色。

pIYBAF9uKKOAZAQaAAEltPVFels346.png

Seaborn

Seaborn本質(zhì)上是基于matplotlib庫的更高級別的API。 它包含有豐富的可視化圖庫,包括時間序列,聯(lián)合圖和小提琴圖(展示數(shù)據(jù)密度分布)等復(fù)雜類型。

seaborn更新主要包括bug修復(fù)。 此外,F(xiàn)acetGrid或PairGrid與增強的交互式matplotlib后端之間的兼容性有所改進,為可視化添加了參數(shù)和選項。

o4YBAF9uKKWAJTbuAAFnnWiR5ak704.png

Plotly

Plotly是一個流行的庫,可以讓您輕松地構(gòu)建復(fù)雜的圖形。 該軟件包適用于交互式Web應(yīng)用程序。 其可視化效果包括輪廓圖形,三元圖和3D圖表。

今年該庫的更新包括對“多鏈接視圖”以及動畫和串擾集成的支持。

Bokeh

Bokeh庫使用JavaScript小部件在瀏覽器中創(chuàng)建交互式和可伸縮的可視化。 該庫提供了多種圖形,樣式及鏈接圖形式的交互能力,定義回調(diào)以及更多有用的功能。

Bokeh可以提供改進的交互式功能,例如分類刻度標簽的旋轉(zhuǎn),以及小縮放工具和自定義工具提示字段增強功能。

pIYBAF9uKKiADl8nAAJgUugR2a8987.png

Pydot

Pydot是Graphviz的一個接口,用純Python編寫。 在它的幫助下,可以顯示圖形的結(jié)構(gòu),這在構(gòu)建神經(jīng)網(wǎng)絡(luò)和基于決策樹的算法時會經(jīng)常用到。

pIYBAF9uKKuASmz2AAGODhkEbXg177.png

機器學(xué)習(xí)

Scikit-learn

這個基于NumPy和SciPy的Python模塊是處理數(shù)據(jù)的最佳庫之一。它為許多標準機器學(xué)習(xí)和數(shù)據(jù)挖掘任務(wù)提供算法,例如聚類,回歸,分類,降維和模型選擇。

今年這個庫的更新包括:修改交叉驗證,提供了使用多個指標的功能;最近鄰和邏輯回歸等幾種訓(xùn)練方法有一些小的改進。

XGBoost / LightGBM / CatBoost

Boosting是最流行的機器學(xué)習(xí)算法之一,其在于構(gòu)建基本模型的集合,即決策樹。因此,有專門的庫設(shè)計用于快速方便地實現(xiàn)該方法。XGBoost,LightGBM和CatBoost值得特別關(guān)注。這些庫提供高度優(yōu)化,可擴展和快速的梯度增強實現(xiàn),這使得它們在數(shù)據(jù)科學(xué)家和Kaggle競賽中非常受歡迎。

Eli5

通常,機器學(xué)習(xí)模型預(yù)測的結(jié)果并不完全清楚,而eli5庫有助與解決問題。它是一個可視化調(diào)試機器學(xué)習(xí)模型的包,并逐步跟蹤算法的工作過程。它可與scikit-learn,XGBoost,LightGBM,lightning和sklearn-crfsuite庫兼容。

深度學(xué)習(xí)

TensorFlow

TensorFlow是一個流行的深度和機器學(xué)習(xí)框架,由Google Brain開發(fā)。它提供了使用具有多個數(shù)據(jù)集的人工神經(jīng)網(wǎng)絡(luò)的能力。最受歡迎的TensorFlow應(yīng)用包括對象識別,語音識別等。

這個庫在新版本中很快,引入了新功能和新功能。最新的修復(fù)包括潛在的安全漏洞和改進的TensorFlow和GPU集成,例如您可以在一臺計算機上的多個GPU上運行Estimator模型。

PyTorch

PyTorch是一個大型框架,允許使用GPU加速執(zhí)行張量計算,創(chuàng)建動態(tài)計算圖并自動計算梯度。在此之上,PyTorch提供了豐富的API,用于解決與神經(jīng)網(wǎng)絡(luò)相關(guān)的應(yīng)用。

該庫基于Torch,這是一個用C語言實現(xiàn)的開源深度學(xué)習(xí)庫,在Lua中有一個包裝器。 Python API于2017年推出,從那時起,該框架越來越受歡迎并吸引了越來越多的數(shù)據(jù)科學(xué)家。

Keras

Keras是一個用于處理神經(jīng)網(wǎng)絡(luò)的高級庫,運行在TensorFlow,Theano之上。現(xiàn)在它也可以使用CNTK和MxNet作為后端。它簡化了許多特定任務(wù),并大大減少了單調(diào)代碼的數(shù)量。但是,它可能不適合某些復(fù)雜的事情。

該庫在性能,可用性,文檔和API都有一定改進。一些新功能是Conv3DTranspose層,新的MobileNet應(yīng)用程序和自我規(guī)范化網(wǎng)絡(luò)。

分布式深度學(xué)習(xí)

Dist-keras / elephas / spark-deep-learning

使用像Apache Spark這樣的分布式計算系統(tǒng)可以更輕松地處理如此大量的數(shù)據(jù),這再次擴展了深度學(xué)習(xí)的可能性。因此,dist-keras,elephas和spark-deep-learning正在迅速發(fā)展。這些軟件包可以在Apache Spark的幫助下直接基于Keras庫訓(xùn)練神經(jīng)網(wǎng)絡(luò)。 Spark-deep-learning還提供了使用Python神經(jīng)網(wǎng)絡(luò)創(chuàng)建管道的工具。

自然語言處理

NLTK

NLTK是一組庫,是自然語言處理的完整平臺。 在NLTK的幫助下,您可以通過各種方式處理和分析文本,標記文本,提取信息等。NLTK還用于原型設(shè)計和構(gòu)建研究系統(tǒng)。

這個庫的附魔包括API和兼容性的微小變化以及CoreNLP的新界面。

SpaCy

SpaCy是一個自然語言處理庫,包含優(yōu)秀的demo,API文檔和演示應(yīng)用程序。該庫是用Cython語言編寫的,它是Python的C擴展。它支持近30種語言,提供簡單的深度學(xué)習(xí)集成,并保證了穩(wěn)健性和高準確性。 SpaCy的另一個重要特性它是為整個文檔處理而設(shè)計的,而不會將文檔分成短語。

Gensim

Gensim是一個用于強大語義分析,主題建模和向量空間建模的Python庫,基于Numpy和Scipy構(gòu)建。它提供了流行的NLP算法的實現(xiàn),例如word2vec。

數(shù)據(jù)抓取

Scrapy

Scrapy是一個用于創(chuàng)建掃描網(wǎng)站頁面和收集結(jié)構(gòu)化數(shù)據(jù)的爬蟲庫。此外,Scrapy可以從API中提取數(shù)據(jù)。由于其可擴展性和可移植性,該庫恰好非常方便。

結(jié)論
與去年相比,一些新的庫越來越受歡迎,而那些已成為數(shù)據(jù)科學(xué)任務(wù)經(jīng)典庫正在不斷改進。

表格中列出了這些庫的github活動的詳細統(tǒng)計信息。

o4YBAF9uKK-AYCGJAAOx6nNMTIY255.png

編輯:hfy


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • python
    +關(guān)注

    關(guān)注

    55

    文章

    4767

    瀏覽量

    84375
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5463

    瀏覽量

    120891
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    596

    瀏覽量

    13483
收藏 人收藏

    評論

    相關(guān)推薦

    Python建模算法與應(yīng)用

    Python作為一種功能強大、免費、開源且面向?qū)ο蟮木幊陶Z言,在科學(xué)計算、數(shù)學(xué)建模、數(shù)據(jù)分析等領(lǐng)域展現(xiàn)出了卓越的性能。其簡潔的語法、對動態(tài)輸入的支持以及解釋性語言的本質(zhì),使得Python在多個平臺
    的頭像 發(fā)表于 07-24 10:41 ?408次閱讀

    網(wǎng)絡(luò)爬蟲,Python數(shù)據(jù)分析

    電子發(fā)燒友網(wǎng)站提供《網(wǎng)絡(luò)爬蟲,Python數(shù)據(jù)分析.pdf》資料免費下載
    發(fā)表于 07-13 09:27 ?1次下載

    數(shù)據(jù)分析除了spss還有什么

    數(shù)據(jù)分析是當今世界中一非常重要的領(lǐng)域,它涉及到從大量數(shù)據(jù)中提取有用信息、發(fā)現(xiàn)模式和趨勢,并為決策提供支持。SPSS(Statistical Package for the Social
    的頭像 發(fā)表于 07-05 15:01 ?502次閱讀

    數(shù)據(jù)分析的工具有哪些

    數(shù)據(jù)分析是一涉及收集、處理、分析和解釋數(shù)據(jù)以得出有意義見解的過程。在這個過程中,使用正確的工具至關(guān)重要。以下是一些主要的數(shù)據(jù)分析工具,以及
    的頭像 發(fā)表于 07-05 14:54 ?724次閱讀

    數(shù)據(jù)分析有哪些分析方法

    數(shù)據(jù)分析是一種重要的技能,它可以幫助我們從大量的數(shù)據(jù)中提取有價值的信息,從而做出更明智的決策。在這篇文章中,我們將介紹數(shù)據(jù)分析的各種方法,包括描述性分析、診斷性
    的頭像 發(fā)表于 07-05 14:51 ?471次閱讀

    深度學(xué)習(xí)常用Python

    深度學(xué)習(xí)常用Python,包括核心、可視化工具、深度學(xué)習(xí)框架、自然語言處理以及數(shù)據(jù)抓取
    的頭像 發(fā)表于 07-03 16:04 ?520次閱讀

    機器學(xué)習(xí)在數(shù)據(jù)分析中的應(yīng)用

    隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)量的爆炸性增長對數(shù)據(jù)分析提出了更高的要求。機器學(xué)習(xí)作為一種強大的工具,通過訓(xùn)練模型從數(shù)據(jù)中學(xué)習(xí)規(guī)律,為企業(yè)和組織提供了更高效、更準確的
    的頭像 發(fā)表于 07-02 11:22 ?515次閱讀

    求助,關(guān)于AD采集到的數(shù)據(jù)分析問題

    問題描述:使用AD采集一10Hz到2MHz的脈沖,脈沖底部可能大于零,由采集到的數(shù)據(jù)分析出該脈沖的上升時間,幅值和占空比。 備注:在分析的時候已經(jīng)知道脈沖的頻率,精度為2X10^-5. 在
    發(fā)表于 05-09 07:40

    Python編程的十大依賴有哪些

    Pandas數(shù)據(jù)科學(xué)家的得力工具,它提供了強大的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)分析功能。無論您需要進行數(shù)據(jù)清洗、分析
    的頭像 發(fā)表于 12-13 10:29 ?783次閱讀

    Get職場新知識:做分析,用大數(shù)據(jù)分析工具

    為什么企業(yè)每天累積那么多的數(shù)據(jù),也做數(shù)據(jù)分析,但最后決策還是靠經(jīng)驗?很大程度上是因為這些數(shù)據(jù)都被以不同的指標和存儲方式放在各自的系統(tǒng)中,這就導(dǎo)致了數(shù)據(jù)
    發(fā)表于 12-05 09:36

    python第三方有哪些

    Python) NumPy 是 Python 中最重要且最常用的科學(xué)計算之一。它提供了支持大型、多維數(shù)組和矩陣運算的高性能數(shù)學(xué)函數(shù)和計算
    的頭像 發(fā)表于 11-29 14:31 ?2070次閱讀

    python窗口圖形界面編程

    ,幫助開發(fā)者快速構(gòu)建具有良好用戶體驗的窗口應(yīng)用程序。 在Python的GUI編程領(lǐng)域,最常用是Tkinter。Tkinter是
    的頭像 發(fā)表于 11-22 14:23 ?815次閱讀

    python如何打開gui界面

    幾個主要部分,然后逐漸展開到具體細節(jié)。 提綱: 介紹Tkinter:Tkinter是Python中最常用的GUI之一,它提供了創(chuàng)建GUI界面的各種組件和功能。 安裝Tkinter:
    的頭像 發(fā)表于 11-22 14:12 ?921次閱讀

    python去除list中重復(fù)的數(shù)據(jù)

    和使用集合等。 首先,讓我們了解一下為什么需要去除列表中的重復(fù)數(shù)據(jù)。在實際編程中,經(jīng)常會遇到需要對數(shù)據(jù)進行去重的情況。例如,我們可能從數(shù)據(jù)庫或文件中獲取了一組數(shù)據(jù),但其中可能存在重復(fù)的
    的頭像 發(fā)表于 11-21 15:49 ?1495次閱讀

    反激式電源中最常見的噪聲來源

    電子發(fā)燒友網(wǎng)站提供《反激式電源中最常見的噪聲來源.doc》資料免費下載
    發(fā)表于 11-15 10:34 ?1次下載
    反激式電源<b class='flag-5'>中最常</b>見的噪聲來源