高清亚洲日韩欧洲不卡在线,精品国产亚洲Av羞羞影院,亚洲av成人在线免费

人工智能與大數(shù)據(jù)開發(fā)的12個注意點

人工智能是近年來科技發(fā)展的重要方向，在大數(shù)據(jù)時代，對數(shù)據(jù)采集、挖掘、應用的技術越來越受到矚目。在人工智能和大數(shù)據(jù)的開發(fā)過程中，有哪些特別需要注意的要點?來源：網(wǎng)絡大數(shù)據(jù)。

人工智能領域的算法大師、華盛頓大學教授Pedro Domingos對此進行了深入思考。在我們新近翻譯的《智能Web算法》(第2版)中，對Pedro Domingos教授的觀點進行了高度的概括，提煉出12個注意點，為行業(yè)開發(fā)實踐提供了重要參考：

1注意點1：你的數(shù)據(jù)未必可靠

在實際應用中，有很多各種各樣的原因會導致你的數(shù)據(jù)是不可靠的。因此，當你將數(shù)據(jù)用于解決問題前，必須經(jīng)常留心來檢查數(shù)據(jù)是否值得信賴。如果基于糟糕的數(shù)據(jù)來挖掘，無論多么聰明的人也永遠只會獲得糟糕的結果。下面列舉了一些常見的可導致數(shù)據(jù)可靠性問題的因素：

用于開發(fā)的數(shù)據(jù)，往往和實際情況下的數(shù)據(jù)分布不同。例如也許你想把用戶按照身高劃分為“高”、“中等”、“矮”三檔，但如果系統(tǒng)開發(fā)時使用的數(shù)據(jù)集里最低用戶的身高是6英尺(184cm)，那么很有可能你開發(fā)出來的系統(tǒng)里會把一個“僅有6英尺”的用戶稱為“矮”用戶。

你的數(shù)據(jù)集中存在很多缺失數(shù)據(jù)。事實上，除非是人為構造的數(shù)據(jù)集合，否則很難避免缺失數(shù)據(jù)問題的發(fā)生，如何處理數(shù)據(jù)缺失的問題是很有技巧的事情。實踐中我們要么是干脆丟棄一部分殘缺的數(shù)據(jù)，要么就是想辦法計算一些數(shù)值去填補這些缺失值。無論哪種方法都可能導致應用結果的不穩(wěn)定。

你的數(shù)據(jù)可能隨時在變化。數(shù)據(jù)庫的表結構可能會變，數(shù)據(jù)定義也可能會變。

你的數(shù)據(jù)可能沒有被歸一化。假設你可能在觀察一組用戶的體重，為了能夠獲得有效的結論，首先需要對每個體重的衡量單位進行歸一化，是英鎊還是公斤，不能混淆著用。

你的數(shù)據(jù)可能并不適用于相應的算法。數(shù)據(jù)存在著各種各樣的形式和規(guī)范，或者叫數(shù)據(jù)類型(data types)，有些是數(shù)值化的數(shù)據(jù)，有些則不是。有些數(shù)據(jù)集合能被有序排列，有些則做不到。有些是離散化的數(shù)據(jù)(例如房間里的人數(shù))，另一些則是連續(xù)化的(例如氣溫或者氣壓等數(shù)據(jù))。

2注意點2：計算難以瞬間完成

完成任何一個人工智能解決方案的計算，都需要一定的時間，方案的響應速度，對商業(yè)應用的成功與否起到十分關鍵的作用。不能總是盲目假設任何算法在所有數(shù)據(jù)集上都一定能在規(guī)定時間內(nèi)完成，你需要測試下算法的性能是否在可接受的應用范圍內(nèi)。

以搜索引擎為例，用戶對結果返回的時長是有忍耐的限度的。如果用戶等待的時間超過10秒，50%的用戶會流失，如果等待時間超過1分鐘，90%以上的用戶會流失。在開發(fā)智能應用系統(tǒng)時，不能為了達到更好的算法精度而忽略系統(tǒng)運算和等待的時間，否則會導致整個產(chǎn)品的失敗。

3注意點3：數(shù)據(jù)的規(guī)模非常重要

當我們考慮智能應用時，數(shù)據(jù)規(guī)模是很重要的因素。數(shù)據(jù)規(guī)模的影響可以分為兩點來考察：第一點是規(guī)模會影響應用系統(tǒng)的響應速度，上一節(jié)我們剛提過;第二點是在很大的數(shù)據(jù)集上的挖掘出有價值結果的能力會受到考驗。例如為100個用戶開發(fā)的電影或音樂推薦系統(tǒng)可能效果很好，但是同樣的算法移植到有著100000個用戶的環(huán)境里，效果可能就不盡如人意了。

其次，使用更多的數(shù)據(jù)來訓練的簡單算法，比受制于維度詛咒(Dimension Curse)的復雜算法往往有好得多的效果。類似Google這樣擁有海量數(shù)據(jù)的大型企業(yè)，優(yōu)秀的應用效果不僅來自于精妙復雜的算法，也來自于其對海量訓練數(shù)據(jù)的大規(guī)模分析挖掘。

4注意點4：不同的算法具有不同的擴展能力

我們不能假設智能應用系統(tǒng)都可以通過簡單增加服務器的方法來擴展性能。有些算法是有擴展性的，而另一些則不行。

例如如果我們要從數(shù)億的文章標題里，找出標題相似的各個組的文章，注意并不是所有的聚類算法此時都能并行化運行的，你應該在設計系統(tǒng)的同時就考慮可擴展性。有些情況下你需要將數(shù)據(jù)切分成較小的集合，并能夠讓智能算法在各個集合上并行運行。設計系統(tǒng)時所選擇的算法，往往需要有并行化的版本，而在一開始就需要將其納入考慮，因為通常圍繞著算法還會有很多相關聯(lián)的商業(yè)邏輯和體系結構需要一并考慮。

5注意點5：并不存在萬能的方法

你可能聽說過一句諺語“當你有了把榔頭的時候，看什么東西都像釘子”，這里想表達的意思是：并不存在能夠解決所有智能應用問題的萬能算法。

智能應用軟件和其他所有軟件類似——具有其特定的應用領域和局限性。當面對新的應用領域時，一定要充分的驗證原有方法的可行性，而且你最好能嘗試用全新的視角來考察問題，因為不同的算法在解決特定的問題時才會更有效和得當。

6注意點6：數(shù)據(jù)并不是萬能的

根本上看，機器學習算法并不是魔法，它需要從訓練數(shù)據(jù)開始，逐步延伸到未知數(shù)據(jù)中去。

例如假設你已經(jīng)對數(shù)據(jù)的分布規(guī)律有所了解，那么通過圖模型來表達這些先驗的知識會非常有效。除了數(shù)據(jù)以外，你還需要仔細的考慮，該領域有哪些先驗知識可以應用，這對開發(fā)一個更有效的分類器會很有幫助。數(shù)據(jù)和行業(yè)經(jīng)驗結合往往能事半功倍。

7注意點7：模型訓練的時間差異很大

在特定應用中，可能某些參數(shù)的微小變化就會讓模型的訓練時間出現(xiàn)很大的差異。例如在深度神經(jīng)網(wǎng)絡訓練時就會有各種各樣的參數(shù)調(diào)節(jié)的情況發(fā)生。

人們往往會直觀地覺得調(diào)整參數(shù)時，訓練時間是基本穩(wěn)定不變的。例如假設有個系統(tǒng)是計算地球平面上任意兩點之間的距離的，那么任意給出兩個點的坐標時，計算時間差不多都是相同的。但在另一些系統(tǒng)里卻并非如此，有時細微的調(diào)整會帶來很明顯的時間差異，有時差異甚至可以大到數(shù)小時，而不是數(shù)秒。

8注意點8：泛化能力是目標

機器學習實踐中最普遍存在的一個誤區(qū)是陷入處理細節(jié)中而忘了最初的目標——通過調(diào)查來獲得處理問題的普適的方法。

測試階段是驗證某個方法是否具備泛化能力(generalization ability)的關鍵環(huán)節(jié)(通過交叉驗證、外部數(shù)據(jù)驗證等方法)，但是尋找合適的驗證數(shù)據(jù)集不容易。如果在一個只有幾百個樣本的集合上去訓練有數(shù)百萬維特征的模型，試圖想獲得優(yōu)秀的精度是很荒唐的。

9注意點9：人類的直覺未必準確

在特征空間膨脹的時候，輸入信息間形成的組合關系會快速增加，這讓人很難像對中等數(shù)據(jù)集合那樣能夠?qū)ζ渲幸徊糠謹?shù)據(jù)進行抽樣觀察。更麻煩的是，特征數(shù)量增加時人類對數(shù)據(jù)的直覺會迅速降低。

例如在高維空間里，多元高斯分布并不是沿著均值分布，而是像一個扇貝形狀圍繞在均值附近，這和人們的主觀感受完全不同。在低維空間中建立一個分類器并不難，但是當維度增加時，人類就很難直觀的理解了。

注意點10：要考慮融入更多新特征

你很可能聽說過諺語“進來的是垃圾，出去的也是垃圾”(garbage in, garbage out)，在建立機器學習應用中這一點尤其重要。為了避免挖掘的效果失控，關鍵是要充分掌握問題所在的領域，通過調(diào)查數(shù)據(jù)來生成各種各樣的特征，這樣的做法會對提升分類的準確率和泛化能力有很大的幫助。僅靠把數(shù)據(jù)扔進分類器就想獲得優(yōu)秀結果的幻想是不可能實現(xiàn)的。(達觀數(shù)據(jù) 陳運文)

注意點11：要學習各種不同的模型

模型的組合(Ensemble)技術正變得越來越流行了，因為組合方法，僅需要付出少許偏見(bias)的代價，就能大大的減少算法的不確定性。在著名的Netflix算法競賽中，冠軍隊以及成績優(yōu)異隊伍們?nèi)际褂昧私M合模型方法，把超過100個模型合并在一起(在模型上疊加高層的模型形成組合)以提升效果。在人工智能用于實際應用時，從業(yè)者普遍都認為，未來的算法一定時會通過模型組合的方法來獲得更好精度，但是這也會抬高非專業(yè)人員理解系統(tǒng)機制的門檻。

注意點12：相關關系不等同于因果關系

這一點值得反復強調(diào)，我們可以通過一句調(diào)侃的話來解釋：“地球變暖、地震、龍卷風，以及其他自然災害，都和18世紀以來全球海盜數(shù)量的減少有直接關系”。這兩個變量的變化有相關性，但是并不能說存在因果關系，因為往往存在第三類(甚至第4、5類)未被觀察到的變量在起作用。相關關系應該看作是潛在的因果關系的一定程度的體現(xiàn)，但需要進一步研究。

在開發(fā)人工智能與大數(shù)據(jù)應用系統(tǒng)時，把握好以上十二個注意點，能夠有效避免實戰(zhàn)中的各種“坑”，幫助技術在走出實驗室，走向落地應用時，能發(fā)揮更加健壯、強大的作用。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

人工智能

人工智能

+關注

關注
1787

文章
46060

瀏覽量
234981
大數(shù)據(jù)

大數(shù)據(jù)

+關注

關注
64

文章
8805

瀏覽量
136992

原文標題：人工智能與大數(shù)據(jù)開發(fā)的12個注意點

文章出處：【微信號：machinelearningai，微信公眾號：機器學習算法與人工智能】歡迎添加關注！文章轉(zhuǎn)載請注明出處。

人工智能是什么?

的階段。阻礙前行的因素很多，要攻克的技術難點也很多，但這些問題在人工智能領域的專家來看，技術的積累都只是時間問題，對人工智能技術做更進一步剖析的話，其實就是“算法”+“海量數(shù)據(jù)”。更通俗一點

發(fā)表于 09-16 15:40

如何在人工智能機器人領域應用大數(shù)據(jù)？

` 本帖最后由 uoou 于 2015-11-13 16:42 編輯為了多來點干貨，我寫的思路會有點特別：不直接講大數(shù)據(jù)是怎么做的，我會跳出來講，在人工智能機器人這個方向，把握好

發(fā)表于 11-13 16:37

智能電器中的大數(shù)據(jù)/人工智能開發(fā)和應用

智能電器中的大數(shù)據(jù)和人工智能智能電器為何能根據(jù)你的喜好推薦你想要的服務？數(shù)據(jù)采集和處理如何為智能

發(fā)表于 06-29 14:11

數(shù)據(jù)對人工智能發(fā)展的重要性

的事情，因此大數(shù)據(jù)是人工智能的前提?！?“在企業(yè)系統(tǒng)里，絕對需要做一些判斷和推薦，你要推薦什么商品給用戶，該放什么樣的廣告，這背后都可以用到人工智能引擎?！睂?，“

發(fā)表于 10-09 15:26

MaxCompute印尼開服，成為阿里云第十二個大數(shù)據(jù)服務節(jié)點

、新加坡、悉尼、法蘭克福、吉隆坡、硅谷、東京、孟買后 MaxCompute 全球化部署的第12個國家。MaxCompute 不僅將加速印尼大數(shù)據(jù)開發(fā)框架的應用，更為阿里云向全球各地區(qū)提供大數(shù)據(jù)計算和

發(fā)表于 02-07 11:15

人工智能就業(yè)前景

據(jù)相關招聘機構數(shù)據(jù)顯示，2018年AI領域仍然是大部分資深技術人才轉(zhuǎn)崗的首選目標，在人才最緊缺的前十大職位中，時下最火的大數(shù)據(jù)、人工智能、算法類崗位占據(jù)半壁江山。據(jù)調(diào)查指出，2017年技術研發(fā)類崗位

發(fā)表于 03-29 15:46

天津大學與中科視拓共建“人工智能聯(lián)合實驗室”

大數(shù)據(jù)平臺和人工智能教學科研實驗平臺開發(fā)等方面展開深度合作，共同推動天津大學人工智能高層次人才的培養(yǎng)，同時深化中科視拓在人工智能原創(chuàng)技術上的

發(fā)表于 05-25 10:19

解讀人工智能的未來

`已歷經(jīng)60多年的人工智能在物聯(lián)網(wǎng)以及大數(shù)據(jù)的推動下，實現(xiàn)飛躍式的發(fā)展，并且迎來了第三個黃金周期。必優(yōu)傳感今天和大家解讀一下關于人工智能的未來。自從有了人工智能，引發(fā)了人類的各種“未來

發(fā)表于 11-14 10:43

人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)+醫(yī)療是這樣落地的（一）

醫(yī)院信息化建設標準與規(guī)范（試行）》明顯加強了大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等新興技術在三級醫(yī)院的場景建設思路。對于本次《建設標準》所提到的場景，采用了匿名問券的形式，邀請數(shù)十位國內(nèi)頂級醫(yī)院信息科主任以及行業(yè)

發(fā)表于 12-10 20:12

十二個Pixhawk源碼筆記分析資源下載

十二個Pixhawk源碼筆記分析資源下載

發(fā)表于 04-02 09:20 ?4次下載

人工智能與大數(shù)據(jù)的關系和影響

人工智能和大數(shù)據(jù)是密不可分的。大數(shù)據(jù)提供了足夠的數(shù)據(jù)讓機器學習，從而使人工智能更加聰明、精確和準確。同時，

發(fā)表于 08-03 17:45 ?1909次閱讀

人工智能與大數(shù)據(jù)的區(qū)別與聯(lián)系

人工智能與大數(shù)據(jù)的區(qū)別與聯(lián)系隨著互聯(lián)網(wǎng)時代的到來，大數(shù)據(jù)產(chǎn)生和存儲引發(fā)了業(yè)界的廣泛關注，而隨著人工智能（AI）技術的發(fā)展，特別是深度學習和自然語言處理技術的成熟，

發(fā)表于 08-09 18:01 ?2259次閱讀

大數(shù)據(jù)和人工智能哪個好

大數(shù)據(jù)和人工智能哪個好隨著技術的不斷發(fā)展，大數(shù)據(jù)和人工智能成為了當前最熱門的話題之一，而且這兩項技術也各有優(yōu)缺點。下面我們將探討一下

發(fā)表于 08-12 17:39 ?3201次閱讀

人工智能和大數(shù)據(jù)哪個好

人工智能和大數(shù)據(jù)哪個好 人工智能和大數(shù)據(jù)是當前科技領域最為火熱的兩個話題，吸引了越來越多的關注和研究。隨著技術的不斷發(fā)展和應用，這兩者已經(jīng)成

發(fā)表于 08-12 17:44 ?931次閱讀

什么是人工智能與大數(shù)據(jù)

人工智能與大數(shù)據(jù)在不同領域中都扮演著至關重要的角色。在技術領域，人工智能和大數(shù)據(jù)可用于智能交互和自動化流程、機器學習和自然語言處理，以及用于

發(fā)表于 08-13 09:41 ?2175次閱讀

搜索歷史

開發(fā)人工智能與大數(shù)據(jù)應用系統(tǒng)時，應把握好的十二個注意點

評論

人工智能是什么?

如何在人工智能機器人領域應用大數(shù)據(jù)？

智能電器中的大數(shù)據(jù)/人工智能開發(fā)和應用

數(shù)據(jù)對人工智能發(fā)展的重要性

MaxCompute印尼開服，成為阿里云第十二個大數(shù)據(jù)服務節(jié)點

人工智能就業(yè)前景

天津大學與中科視拓共建“人工智能聯(lián)合實驗室”

解讀人工智能的未來

人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)+醫(yī)療是這樣落地的（一）

十二個Pixhawk源碼筆記分析資源下載

人工智能與大數(shù)據(jù)的關系和影響

人工智能與大數(shù)據(jù)的區(qū)別與聯(lián)系

大數(shù)據(jù)和人工智能哪個好

人工智能和大數(shù)據(jù)哪個好

什么是人工智能與大數(shù)據(jù)