国产福利网站,最美情侣中文字幕MV电影,一本加勒比波多野结衣

作為數(shù)據(jù)科學(xué)家，我在很多公司工作過，也遇到了很多問題和挑戰(zhàn)。事實(shí)上，很多人都會經(jīng)歷這些挑戰(zhàn)，就不同情況而言，也會有多種可行的解決方案。我將談?wù)勎以媾R的一些最常見或最困難的挑戰(zhàn)。

業(yè)務(wù)問題描述不當(dāng)

只要有一個工作人員出錯，你就會面臨這個挑戰(zhàn)。數(shù)據(jù)科學(xué)專家的主要工作之一就是做業(yè)務(wù)問題描述——這也就是起初使用數(shù)據(jù)科學(xué)的原因。

實(shí)際上，多數(shù)情況下描述不是某個數(shù)據(jù)科學(xué)專家自己，而是整個團(tuán)隊(duì)。團(tuán)隊(duì)里通常包括利益相關(guān)者，比如產(chǎn)品經(jīng)理。但是，團(tuán)隊(duì)內(nèi)可能出現(xiàn)技術(shù)脫節(jié)，任一方都可能對業(yè)務(wù)問題描述不當(dāng)。

產(chǎn)品經(jīng)理可能會說：“我們要提更多建議，大家才能買的更多”，而數(shù)據(jù)科學(xué)專家可能會說：“向大家推薦產(chǎn)品的時候，超過80%的情況下我們要有95%的把握?！?/p>

這兩種問題描述總體來講都很好，但都不夠細(xì)化，或者只是勾勒出了問題的輪廓。問題描述是要從中找出解決方案，但是本身并不是解決方案。

以下是一個更好的業(yè)務(wù)問題描述問題的例子：“顧客平均每個訂單只買一件東西”。

就是這么簡單。一開始雙方都想方設(shè)法將描述復(fù)雜化，但現(xiàn)在這樣更高效。雖然沒有解決方案，但人人都能看懂這種直接、通俗易懂的描述。

示例描述說明一件東西不夠，那么解決方案可能就是如何讓顧客更可能買一件以上的東西。一種數(shù)據(jù)科學(xué)解決方案就是使用機(jī)器學(xué)習(xí)推薦系統(tǒng)。在工作中不要好高騖遠(yuǎn)，而要專注于眼下的實(shí)際問題，這很重要。

數(shù)據(jù)失衡

任何真正與數(shù)據(jù)打交道的人大多都會遇到數(shù)據(jù)失衡的問題。比如，遇到分類問題時使用邏輯回歸給新數(shù)據(jù)賦值0或1。目標(biāo)變量預(yù)計(jì)0和1各占50%的可能。然而，結(jié)果完全出乎預(yù)料。

如果試著將一種新動物歸類為狗或者貓，就需要貓狗各1000列的訓(xùn)練數(shù)據(jù)。這樣，模型才足夠辨別二者的不同之處。如果訓(xùn)練數(shù)據(jù)中貓有1900只，狗只有100只，那么就可能產(chǎn)生誤解，認(rèn)為多數(shù)新動物都是貓，這是個很常見的問題。

可能的解決方案是使用其他補(bǔ)強(qiáng)少數(shù)部分的機(jī)器學(xué)習(xí)算法，或者創(chuàng)建新的綜合數(shù)據(jù)。有一種技術(shù)叫不均衡學(xué)習(xí)（imbalanced-learn），可以采用下列具體方法進(jìn)行過采樣：

ADASYN算法（Adaptive Synthetic，自適應(yīng)綜合過采樣）

BorderlineSMOTE算法

KMeansSMOTE算法

RandomOverSampler算法

SMOTNC算法

SVMSMOTE算法（Nominal andContinuous）

這些過采樣方法都非常有效，而且能解決數(shù)據(jù)不均衡問題。還有很多方法，比如欠采樣、二者相結(jié)合、組合法、Keras和TensorFlow的批量生成器。下面是過采樣操作的示例：

畫一幅二維視圖

繪制已知數(shù)據(jù)點(diǎn)

選擇一個已知點(diǎn)

找出最鄰近點(diǎn)

在鄰近點(diǎn)與原始數(shù)據(jù)點(diǎn)之間畫一條線

然后隨機(jī)將大頭針丟在這些線上

這就是新合成的過采樣數(shù)據(jù)

像RandomForest之類的一些機(jī)器算法函數(shù)庫的參數(shù)要指定均衡數(shù)據(jù)也很簡單。

過擬合

構(gòu)建的數(shù)據(jù)科學(xué)模型將訓(xùn)練數(shù)據(jù)解析的太透徹就會出現(xiàn)過擬合問題。模型接收了訓(xùn)練數(shù)據(jù)中的詳細(xì)信息，也包括數(shù)據(jù)中的噪音，所以過于具體，而這在預(yù)測新的真實(shí)數(shù)據(jù)時是無用的，結(jié)果模型就無法做出正確推斷和歸納。模型的目的是處理好未見過的數(shù)據(jù)，所以要想辦法找到能處理好新數(shù)據(jù)的解決辦法并付諸使用。

交叉驗(yàn)證

移除重復(fù)或相似特點(diǎn)

及早停止

正則化

集成法

非參數(shù)機(jī)器學(xué)習(xí)算法

使用更多數(shù)據(jù)訓(xùn)練

特征不足

制定業(yè)務(wù)問題描述之后，通常還需要開始尋找數(shù)據(jù)，然后形成自己的特點(diǎn)，輸入到數(shù)據(jù)科學(xué)模型中作為訓(xùn)練數(shù)據(jù)。對公司數(shù)據(jù)表了解的越多，就會發(fā)現(xiàn)還可以以其它縱列為新特征。不過，一開始特征有限的問題還有另一種解決辦法。

構(gòu)建當(dāng)前度量的統(tǒng)計(jì)數(shù)據(jù)。例如，一般具有“每位用戶點(diǎn)擊量”特征，就會停止。但也可以從如下某一縱列中創(chuàng)建新的度量：

每位用戶的平均點(diǎn)擊量

每位用戶的眾數(shù)點(diǎn)擊量

每位用戶75%百分位數(shù)點(diǎn)擊量

還有很多不同方式來描述該特征的范圍。

版本控制

數(shù)據(jù)科學(xué)家非常習(xí)慣獨(dú)自工作，喜歡對同一個重點(diǎn)項(xiàng)目創(chuàng)建20個不同版本的Jupyter Notebook。我們約定好了命名，但第二天就忘記了。然后，一切變得一團(tuán)糟。但其實(shí)還有更好的方式——那就是Git和GitHub。

Git

GitHub

如果數(shù)量較少的話，還有其它自制辦法，比如用特殊數(shù)字方法（例：Notebook1，Notebook2）創(chuàng)建新版本。

這些工具可以通過創(chuàng)建區(qū)別于主干/代碼庫的獨(dú)立分支，幫你形成自己的代碼變化。然后就可以創(chuàng)建一個拉取請求來比較代碼變化，在獲得他人認(rèn)可后并入原件。如此一來，你就不僅是在創(chuàng)建代碼評審，而且還允許大家注意到并更加了解你的特定代碼。

如你所見，數(shù)據(jù)科學(xué)家會面臨很多挑戰(zhàn)，我所談到的只是冰山一角。但這些問題是我經(jīng)歷最多的，我認(rèn)為應(yīng)該重點(diǎn)討論的。希望我的方法能幫你順利解決這些問題。
責(zé)編AJX

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

數(shù)據(jù)

數(shù)據(jù)

+關(guān)注

關(guān)注
8

文章
6713

瀏覽量
88301
算法

算法

+關(guān)注

關(guān)注
23

文章
4551

瀏覽量
92017
數(shù)據(jù)科學(xué)

數(shù)據(jù)科學(xué)

+關(guān)注

關(guān)注
0

文章
164

瀏覽量
10022

TI科學(xué)家談浮點(diǎn)DSP未來發(fā)展

TI科學(xué)家談浮點(diǎn)DSP未來發(fā)展自十多年前浮點(diǎn)數(shù)字信號處理器(DSP)誕生以來，便為實(shí)時信號處理提供了算術(shù)上更為先進(jìn)的備選方案。不過，定點(diǎn)器件至今仍是業(yè)界的主流--當(dāng)然低成本是主要原因。定點(diǎn)DSP每

發(fā)表于 11-03 15:18

美科學(xué)家推出多種波動描記傳感器

領(lǐng)導(dǎo)人、美國賓夕法尼亞大學(xué)的心理學(xué)家凱文-梅爾福稱：“多種波動描記-傳感器不論屬于何種類型，其功能都是用于測量人的緊張狀態(tài)的，而不是用來測謊的。得克薩斯大學(xué)科學(xué)家們發(fā)現(xiàn)的這種新方法很可能會為我們提供更多

發(fā)表于 10-24 11:40

生物電磁波揭密場導(dǎo)發(fā)現(xiàn)(俄羅斯華裔科學(xué)家寫的腦控技術(shù)叢書）

生物電磁波揭密場導(dǎo)發(fā)現(xiàn)(俄羅斯華裔科學(xué)家寫的腦控技術(shù)叢書）

發(fā)表于 03-05 09:31

通往數(shù)據(jù)科學(xué)家的崎嶇道路

如果你曾經(jīng)查看過數(shù)據(jù)科學(xué)家的崗位要求，你就知道它的職責(zé)范圍有多廣。有的數(shù)據(jù)科學(xué)家致力于自然語言處理、計(jì)算機(jī)視覺、深度學(xué)習(xí)，有的則從事A/B測試、產(chǎn)品分析。確定哪些工作適合自己，哪些不適

發(fā)表于 07-26 09:17 ?2464次閱讀

哪些才是對數(shù)據(jù)科學(xué)家最迫切的技能呢？

AngelList提供的是列出數(shù)據(jù)科學(xué)家崗位的公司數(shù)而不是崗位數(shù)。我把AngelList從所有分析里面排除掉了，因?yàn)槠渌阉魉惴ㄋ坪醢凑誒R型的邏輯搜索進(jìn)行，沒有辦法改成AND。如果你尋找的是“數(shù)據(jù)

發(fā)表于 11-19 18:14 ?2975次閱讀

什么是數(shù)據(jù)科學(xué)家？需要認(rèn)證嗎？

得以清晰化?！盕leming指出，IBM目前雇傭了大約1.5萬名被定義為數(shù)據(jù)科學(xué)家的技術(shù)人員，預(yù)計(jì)數(shù)據(jù)科學(xué)家人數(shù)的增長速度超過其雇員總數(shù)的增長速度。

發(fā)表于 02-14 09:41 ?6430次閱讀

介紹從數(shù)據(jù)分析師轉(zhuǎn)型為數(shù)據(jù)科學(xué)家的具體方法

入門數(shù)據(jù)科學(xué)早已有許多優(yōu)秀的博文可供參考，比如以下兩篇：《成為Jet.com數(shù)據(jù)分析師的自學(xué)之路》和《入門數(shù)據(jù)科學(xué)需掌握的基礎(chǔ)知識》，但是為

發(fā)表于 03-01 15:34 ?3028次閱讀

數(shù)據(jù)科學(xué)家與機(jī)器學(xué)習(xí)工程師怎么區(qū)分

十年來，我們一直在談?wù)?b class='flag-5'>數(shù)據(jù)科學(xué)和數(shù)據(jù)科學(xué)家。雖然在怎么才叫“數(shù)據(jù)科學(xué)家”的問題上始終存在著爭議，

發(fā)表于 05-18 11:24 ?3129次閱讀

數(shù)據(jù)科學(xué)家常犯的10個編程錯誤

數(shù)據(jù)科學(xué)家是“比軟件工程師更擅長統(tǒng)計(jì)學(xué)，比統(tǒng)計(jì)學(xué)家更擅長軟件工程的人”。

發(fā)表于 05-24 14:50 ?2591次閱讀

數(shù)據(jù)科學(xué)家與數(shù)據(jù)工程師的區(qū)別

數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師的主要區(qū)別，可以用ETL和DAD的區(qū)別來解釋。

發(fā)表于 07-10 17:06 ?2555次閱讀

企業(yè)如何解決數(shù)據(jù)科學(xué)家短缺詳細(xì)方法什么

　隨著企業(yè)以數(shù)據(jù)為中心的文化，以做出決策和規(guī)劃，數(shù)據(jù)科學(xué)家對全球企業(yè)的重要性日益增加。但是企業(yè)無法足夠快地聘請數(shù)據(jù)科學(xué)家，因?yàn)楹细窈蜻x人仍然

發(fā)表于 04-18 10:31 ?3371次閱讀

采訪資深數(shù)據(jù)科學(xué)家：成為數(shù)據(jù)科學(xué)家應(yīng)具有的品質(zhì)

作為一門逐漸成熟的新興領(lǐng)域，與數(shù)據(jù)科學(xué)相關(guān)的很多領(lǐng)域開始變得備受青睞，比如數(shù)據(jù)工程，數(shù)據(jù)分析以及機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。數(shù)據(jù)

發(fā)表于 06-30 11:28 ?2190次閱讀

什么是數(shù)據(jù)科學(xué)家的最佳編程語言？

每個數(shù)據(jù)科學(xué)學(xué)習(xí)者都最常問的問題：“ 什么是數(shù)據(jù)科學(xué)家的最佳編程語言？”。

發(fā)表于 07-05 11:32 ?2410次閱讀

深入研究數(shù)據(jù)科學(xué)家使用的常見統(tǒng)計(jì)和分析技術(shù)

數(shù)據(jù)科學(xué)技術(shù)如今已在許多組織中占有一席之地，數(shù)據(jù)科學(xué)家正迅速成為以數(shù)據(jù)為中心的組織最受歡迎的角色之一。數(shù)

發(fā)表于 01-14 16:09 ?1905次閱讀

中國聯(lián)通AI科學(xué)家廉士國入選全球前2%頂尖科學(xué)家榜單

%頂尖科學(xué)家榜單是Elsevier和斯坦福大學(xué)John P.A. Ioannidis教授團(tuán)隊(duì)合作的具有全球影響力的項(xiàng)目成果，為全球?qū)W術(shù)界提供了一個面向科學(xué)家長期科研表現(xiàn)的衡量指標(biāo)，旨在更客觀、更真實(shí)地反映科學(xué)家全球影響力。榜單以

發(fā)表于 11-07 16:18 ?2538次閱讀

搜索歷史

數(shù)據(jù)科學(xué)家遇到的常見挑戰(zhàn)及方法

評論