久久久亚洲欧洲日产国码aⅴ,伊人久久大香线蕉五月小说,成人妇女免费播放久久久

Google Ngram viewer是一個(gè)有趣和有用的工具，它使用谷歌從書本中掃描來的海量的數(shù)據(jù)寶藏，繪制出單詞使用量隨時(shí)間的變化。舉個(gè)例子，單詞Python(區(qū)分大小寫)：

這幅圖來自：books.google.com/ngrams/grap…，描繪了單詞 'Python' 的使用量隨時(shí)間的變化。

它是由谷歌的n-gram數(shù)據(jù)集驅(qū)動(dòng)的，根據(jù)書本印刷的每一個(gè)年份，記錄了一個(gè)特定單詞或詞組在谷歌圖書的使用量。然而這并不完整（它并沒有包含每一本已經(jīng)發(fā)布的書?。瑪?shù)據(jù)集中有成千上百萬的書，時(shí)間上涵蓋了從 16 世紀(jì)到 2008 年。數(shù)據(jù)集可以免費(fèi)從這里下載。

我決定使用 Python 和我新的數(shù)據(jù)加載庫PyTubes來看看重新生成上面的圖有多容易。

挑戰(zhàn)

1-gram 的數(shù)據(jù)集在硬盤上可以展開成為 27 Gb 的數(shù)據(jù)，這在讀入 python 時(shí)是一個(gè)很大的數(shù)據(jù)量級(jí)。Python可以輕易地一次性地處理千兆的數(shù)據(jù)，但是當(dāng)數(shù)據(jù)是損壞的和已加工的，速度就會(huì)變慢而且內(nèi)存效率也會(huì)變低。

總的來說，這 14 億條數(shù)據(jù)（1,430,727,243）分散在 38 個(gè)源文件中，一共有 2 千 4 百萬個(gè)（24,359,460）單詞（和詞性標(biāo)注，見下方），計(jì)算自 1505 年至 2008 年。

當(dāng)處理 10 億行數(shù)據(jù)時(shí)，速度會(huì)很快變慢。并且原生 Python 并沒有處理這方面數(shù)據(jù)的優(yōu)化。幸運(yùn)的是，numpy真的很擅長處理大體量數(shù)據(jù)。使用一些簡單的技巧，我們可以使用 numpy 讓這個(gè)分析變得可行。

在 python/numpy 中處理字符串很復(fù)雜。字符串在 python 中的內(nèi)存開銷是很顯著的，并且 numpy 只能夠處理長度已知而且固定的字符串。基于這種情況，大多數(shù)的單詞有不同的長度，因此這并不理想。

Loading the data

下面所有的代碼/例子都是運(yùn)行在8 GB 內(nèi)存的 2016 年的 Macbook Pro。如果硬件或云實(shí)例有更好的 ram 配置，表現(xiàn)會(huì)更好。

1-gram 的數(shù)據(jù)是以 tab 鍵分割的形式儲(chǔ)存在文件中，看起來如下：

Python158742

Python162111

Python165122

Python165911

每一條數(shù)據(jù)包含下面幾個(gè)字段：

1.Word

2.Year of Publication

3.Total number of times the word was seen

4.Total number of books containing the word

為了按照要求生成圖表，我們只需要知道這些信息，也就是：

1. 這個(gè)單詞是我們感興趣的？

2. 發(fā)布的年份

3. 單詞使用的總次數(shù)

通過提取這些信息，處理不同長度的字符串?dāng)?shù)據(jù)的額外消耗被忽略掉了，但是我們?nèi)匀恍枰獙?duì)比不同字符串的數(shù)值來區(qū)分哪些行數(shù)據(jù)是有我們感興趣的字段的。這就是 pytubes 可以做的工作：

import tubes

FILES = glob.glob(path.expanduser("~/src/data/ngrams/1gram/googlebooks*"))

WORD = "Python"

one_grams_tube = (tubes.Each(FILES)

.read_files()

.split()

.tsv(headers=False)

.multi(lambda row: (

row.get(0).equals(WORD.encode('utf-8')),

row.get(1).to(int),

row.get(2).to(int)

))

)

差不多 170 秒（3 分鐘）之后，onegrams_ 是一個(gè) numpy 數(shù)組，里面包含差不多 14 億行數(shù)據(jù)，看起來像這樣（添加表頭部為了說明）：

╒═══════════╤════════╤═════════╕

│ Is_Word │ Year │ Count │

╞═══════════╪════════╪═════════╡

│ 0 │ 1799 │ 2 │

├───────────┼────────┼─────────┤

│ 0 │ 1804 │ 1 │

├───────────┼────────┼─────────┤

│ 0 │ 1805 │ 1 │

├───────────┼────────┼─────────┤

│ 0 │ 1811 │ 1 │

├───────────┼────────┼─────────┤

│ 0 │ 1820 │ ... │

╘═══════════╧════════╧═════════╛

從這開始，就只是一個(gè)用 numpy 方法來計(jì)算一些東西的問題了：

每一年的單詞總使用量

谷歌展示了每一個(gè)單詞出現(xiàn)的百分比（某個(gè)單詞在這一年出現(xiàn)的次數(shù)/所有單詞在這一年出現(xiàn)的總數(shù)），這比僅僅計(jì)算原單詞更有用。為了計(jì)算這個(gè)百分比，我們需要知道單詞總量的數(shù)目是多少。

幸運(yùn)的是，numpy讓這個(gè)變得十分簡單：

last_year = 2008

YEAR_COL = '1'

COUNT_COL = '2'

year_totals, bins = np.histogram(

one_grams[YEAR_COL],

density=False,

range=(0, last_year+1),

bins=last_year + 1,

weights=one_grams[COUNT_COL]

)

繪制出這個(gè)圖來展示谷歌每年收集了多少單詞：

很清楚的是在 1800 年之前，數(shù)據(jù)總量下降很迅速，因此這回曲解最終結(jié)果，并且會(huì)隱藏掉我們感興趣的模式。為了避免這個(gè)問題，我們只導(dǎo)入 1800 年以后的數(shù)據(jù)：

one_grams_tube = (tubes.Each(FILES)

.read_files()

.split()

.tsv(headers=False)

.skip_unless(lambda row: row.get(1).to(int).gt(1799))

.multi(lambda row: (

row.get(0).equals(word.encode('utf-8')),

row.get(1).to(int),

row.get(2).to(int)

))

)

這返回了 13 億行數(shù)據(jù)（1800 年以前只有 3.7% 的的占比）

Python 在每年的占比百分?jǐn)?shù)

獲得 python 在每年的占比百分?jǐn)?shù)現(xiàn)在就特別的簡單了。

使用一個(gè)簡單的技巧，創(chuàng)建基于年份的數(shù)組，2008 個(gè)元素長度意味著每一年的索引等于年份的數(shù)字，因此，舉個(gè)例子，1995 就只是獲取 1995 年的元素的問題了。

這都不值得使用 numpy 來操作：

word_rows = one_grams[IS_WORD_COL]

word_counts = np.zeros(last_year+1)

for _, year, count in one_grams[word_rows]:

word_counts[year] += (100*count) / year_totals[year]

繪制出 word_counts 的結(jié)果：

形狀看起來和谷歌的版本差不多

實(shí)際的占比百分?jǐn)?shù)并不匹配，我認(rèn)為是因?yàn)橄螺d的數(shù)據(jù)集，它包含的用詞方式不一樣（比如：Python_VERB）。這個(gè)數(shù)據(jù)集在 google page 中解釋的并不是很好，并且引起了幾個(gè)問題：

人們是如何將 Python 當(dāng)做動(dòng)詞使用的？

'Python' 的計(jì)算總量是否包含 'Python_VERB'？等

幸運(yùn)的是，我們都清楚我使用的方法生成了一個(gè)與谷歌很像的圖標(biāo)，相關(guān)的趨勢都沒有被影響，因此對(duì)于這個(gè)探索，我并不打算嘗試去修復(fù)。

性能

谷歌生成圖片在 1 秒鐘左右，相較于這個(gè)腳本的 8 分鐘，這也是合理的。谷歌的單詞計(jì)算的后臺(tái)會(huì)從明顯的準(zhǔn)備好的數(shù)據(jù)集視圖中產(chǎn)生作用。

舉個(gè)例子，提前計(jì)算好前一年的單詞使用總量并且把它存在一個(gè)單獨(dú)的查找表會(huì)顯著的節(jié)省時(shí)間。同樣的，將單詞使用量保存在單獨(dú)的數(shù)據(jù)庫/文件中，然后建立第一列的索引，會(huì)消減掉幾乎所有的處理時(shí)間。

這次探索確實(shí)展示了，使用 numpy 和初出茅廬的 pytubes 以及標(biāo)準(zhǔn)的商用硬件和 Python，在合理的時(shí)間內(nèi)從十億行數(shù)據(jù)的數(shù)據(jù)集中加載，處理和提取任意的統(tǒng)計(jì)信息是可行的，

語言戰(zhàn)爭

為了用一個(gè)稍微更復(fù)雜的例子來證明這個(gè)概念，我決定比較一下三個(gè)相關(guān)提及的編程語言：Python，Pascal,和Perl.

源數(shù)據(jù)比較嘈雜（它包含了所有使用過的英文單詞，不僅僅是編程語言的提及，并且，比如，python 也有非技術(shù)方面的含義?。瑸榱诉@方面的調(diào)整，我們做了兩個(gè)事情：

只有首字母大寫的名字形式能被匹配（Python，不是 python）

每一個(gè)語言的提及總數(shù)已經(jīng)被轉(zhuǎn)換到了從 1800 年到 1960 年的百分比平均數(shù)，考慮到 Pascal 在 1970 年第一次被提及，這應(yīng)該有一個(gè)合理的基準(zhǔn)線。

結(jié)果:

對(duì)比谷歌 (沒有任何的基準(zhǔn)線調(diào)整):

運(yùn)行時(shí)間: 只有 10 分鐘多一點(diǎn)

代碼:gist.github.com/stestagg/91…

以后的 PyTubes 提升

在這個(gè)階段，pytubes 只有單獨(dú)一個(gè)整數(shù)的概念，它是 64 比特的。這意味著 pytubes 生成的 numpy 數(shù)組對(duì)所有整數(shù)都使用 i8 dtypes。在某些地方（像 ngrams 數(shù)據(jù)），8 比特的整型就有點(diǎn)過度，并且浪費(fèi)內(nèi)存（總的 ndarray 有 38Gb，dtypes 可以輕易的減少其 60%）。我計(jì)劃增加一些等級(jí) 1，2 和 4 比特的整型支持(github.com/stestagg/py…)

更多的過濾邏輯 - Tube.skip_unless() 是一個(gè)比較簡單的過濾行的方法，但是缺少組合條件（AND/OR/NOT）的能力。這可以在一些用例下更快地減少加載數(shù)據(jù)的體積。

更好的字符串匹配 —— 簡單的測試如下：startswith, endswith, contains, 和 isoneof 可以輕易的添加，來明顯地提升加載字符串?dāng)?shù)據(jù)是的有效性。

一如既往，非常歡迎大家patches！

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6080

瀏覽量
104342
python

python

+關(guān)注

關(guān)注
53

文章
4753

瀏覽量
84068
大數(shù)據(jù)

大數(shù)據(jù)

+關(guān)注

關(guān)注
64

文章
8805

瀏覽量
136989

原文標(biāo)題：使用 Python 分析 14 億條數(shù)據(jù)

文章出處：【微信號(hào)：magedu-Linux，微信公眾號(hào)：馬哥Linux運(yùn)維】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

小小的電阻，您真的吃透了它的用法嗎

小小的電阻，您真的吃透了它的用法嗎

發(fā)表于 05-28 22:39

如何從零學(xué)大數(shù)據(jù)？

設(shè)計(jì)，掌握從數(shù)據(jù)采集到實(shí)時(shí)計(jì)算到數(shù)據(jù)存儲(chǔ)再到前臺(tái)展示，所有工作一個(gè)人搞定！并可以從架構(gòu)的層次站在架構(gòu)師的角度去完成一個(gè)項(xiàng)目。第四階段：其他學(xué)習(xí)內(nèi)容：Mahout 機(jī)器學(xué)習(xí)→ R 語言→

發(fā)表于 03-01 15:41

大數(shù)據(jù)運(yùn)用的技術(shù)

，是一個(gè)為分布式應(yīng)用提供一致性服務(wù)的軟件，提供的功能包括：配置維護(hù)、域名服務(wù)、分布式同步、組件服務(wù)等，在大數(shù)據(jù)開發(fā)中要掌握ZooKeeper的常用命令及功能的實(shí)現(xiàn)方法。7. HBaseHBase是一個(gè)

發(fā)表于 04-08 16:50

學(xué)習(xí)Python大數(shù)據(jù)與機(jī)器學(xué)習(xí)必會(huì)Matplotlib知識(shí)

在python的培訓(xùn)學(xué)習(xí)中，我們會(huì)用python進(jìn)行數(shù)據(jù)分析的學(xué)習(xí)與應(yīng)用，并且在這一部分進(jìn)行繪圖是必不可少的，所以為了看一下大家的實(shí)力，今天我們python培訓(xùn)安排了

發(fā)表于 07-05 17:57

一條小小的內(nèi)存條憑啥能發(fā)揮這么大的作用？

內(nèi)存條真的有這么神奇嗎？一條小小的內(nèi)存條憑啥能發(fā)揮這么大的作用？如何去選擇電腦內(nèi)存條？

發(fā)表于 06-18 06:01

求助，求推薦一個(gè)簡單的小小的開發(fā)傳統(tǒng)51單片機(jī)的組合

推薦一個(gè)簡單的小小的開發(fā)傳統(tǒng)51單片機(jī)的組合

發(fā)表于 06-27 08:18

小小的疏忽就能毀掉EMI性能

小小的疏忽就能毀掉EMI性能，感興趣的小伙伴們可以瞧一瞧。

發(fā)表于 09-18 17:34 ?0次下載

用 Python 實(shí)現(xiàn)一個(gè)大數(shù)據(jù)搜索引擎

搜索是大數(shù)據(jù)領(lǐng)域里常見的需求。Splunk和ELK分別是該領(lǐng)域在非開源和開源領(lǐng)域里的領(lǐng)導(dǎo)者。本文利用很少的Python代碼實(shí)現(xiàn)了一個(gè)基本的數(shù)據(jù)搜索功能，試圖讓大家理解

發(fā)表于 03-06 17:26 ?4685次閱讀

一個(gè)python腳本看透Linux程序?qū)斓囊蕾?/a>

我今天寫了一個(gè)小小的python程序，可以在完全不看源代碼的情況下，分析a如果調(diào)用b.so的時(shí)候，會(huì)引用b.so的哪些函數(shù)。

發(fā)表于 12-24 13:44 ?3067次閱讀

一<b class='flag-5'>個(gè)</b><b class='flag-5'>python</b>腳本看透Linux程序?qū)斓囊蕾? /> </a>
</div> <div id=

用Python做幾個(gè)表情包

今天制作表情包用到的技術(shù)還是之前提到的Turtle庫，可以從之前的文章除了畫佩奇我們還要玩點(diǎn)更高級(jí)的，去學(xué)習(xí)Turtle的常用語法，然后就是PIL庫，之前通過這篇文章：Python騷操作|用P

發(fā)表于 02-11 11:13 ?5057次閱讀

小小的半導(dǎo)體芯片，改變了整個(gè)世界

據(jù)國外媒體報(bào)道，說到互聯(lián)全球的技術(shù)，半導(dǎo)體芯片居功至偉。但是這小小的芯片，究竟是如何走進(jìn)我們生活每一處的呢？

發(fā)表于 12-25 09:25 ?3156次閱讀

小小的采樣電阻，還真有點(diǎn)門道！資料下載

電子發(fā)燒友網(wǎng)為你提供小小的采樣電阻，還真有點(diǎn)門道！資料下載的電子資料下載，更有其他相關(guān)的電路圖、源代碼、課件教程、中文資料、英文資料、參考設(shè)計(jì)、用戶指南、解決方案等資料，希望可以幫助到廣大的電子工程師們。

發(fā)表于 04-23 08:42 ?13次下載

?51單片機(jī)也可以實(shí)現(xiàn)一個(gè)小小的智能家居√（smart-home）?

?51單片機(jī)也可以實(shí)現(xiàn)一個(gè)小小的智能家居√（smart-home）開源所有代碼?文章目錄?51單片機(jī)也可以實(shí)現(xiàn)一個(gè)小小的智能家居√（smart-home）開源所有代碼?一

發(fā)表于 11-23 16:51 ?15次下載

【Linux內(nèi)核】從小小的宏定義窺探Linux內(nèi)核的精妙設(shè)計(jì)

【Linux內(nèi)核】從小小的宏定義窺探Linux內(nèi)核的精妙設(shè)計(jì)

發(fā)表于 08-31 13:30 ?1792次閱讀

小小的保險(xiǎn)絲，究竟有哪些重要的作用呢

保險(xiǎn)絲(Fuse)是一種電氣元件，它起著非常重要的作用。今天弗瑞鑫小編將通過詳細(xì)闡述保險(xiǎn)絲的作用，讓讀者了解這個(gè)小小的元件的重要性以及其在電子設(shè)備中的好處。

發(fā)表于 05-05 08:36 ?1584次閱讀

搜索歷史

用Python玩?zhèn)€“小小的”大數(shù)據(jù)

評(píng)論

小小的電阻，您真的吃透了它的用法嗎

如何從零學(xué)大數(shù)據(jù)？

大數(shù)據(jù)運(yùn)用的技術(shù)

學(xué)習(xí)Python大數(shù)據(jù)與機(jī)器學(xué)習(xí)必會(huì)Matplotlib知識(shí)

一條小小的內(nèi)存條憑啥能發(fā)揮這么大的作用？

求助，求推薦一個(gè)簡單的小小的開發(fā)傳統(tǒng)51單片機(jī)的組合

小小的疏忽就能毀掉EMI性能

用 Python 實(shí)現(xiàn)一個(gè)大數(shù)據(jù)搜索引擎

一個(gè)python腳本看透Linux程序?qū)斓囊蕾?/a>

用Python做幾個(gè)表情包

小小的半導(dǎo)體芯片，改變了整個(gè)世界

小小的采樣電阻，還真有點(diǎn)門道！資料下載

?51單片機(jī)也可以實(shí)現(xiàn)一個(gè)小小的智能家居√（smart-home）?

【Linux內(nèi)核】從小小的宏定義窺探Linux內(nèi)核的精妙設(shè)計(jì)

小小的保險(xiǎn)絲，究竟有哪些重要的作用呢