0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

為什么90%的機器學習模型從未應用于生產(chǎn)

電子設計 ? 來源:電子設計 ? 作者:電子設計 ? 2020-12-08 23:02 ? 次閱讀
時代變幻莫測,僅僅增加客戶體驗流暢度和沉浸感并不能減輕企業(yè)的壓力。在這種情況下,投入數(shù)十億美元開發(fā)可以改進產(chǎn)品機器學習模型就可以理解了。但有一個問題。公司不能只是把錢砸在數(shù)據(jù)科學家和機器學習工程師身上,就希望可以有奇跡發(fā)生。據(jù) VentureBeat 報道,大約 90% 的機器學習模型從未投入生產(chǎn)。換句話說,數(shù)據(jù)科學家的工作只有十分之一能夠真正產(chǎn)出對公司有用的東西。

本文最初發(fā)布于 Towards Data Science,由 InfoQ 中文站翻譯并分享。

大多數(shù)機器學習模型從未部署。圖片由作者提供。

企業(yè)正在經(jīng)歷艱難時期。我說的不是病毒流行和股市波動。

時代變幻莫測,僅僅增加客戶體驗流暢度和沉浸感并不能減輕企業(yè)的壓力。在這種情況下,投入 數(shù)十億美元 開發(fā)可以改進產(chǎn)品的機器學習模型就可以理解了。

但有一個問題。公司不能只是把錢砸在數(shù)據(jù)科學家和機器學習工程師身上,就希望可以有奇跡發(fā)生。

有數(shù)據(jù)為證。據(jù) VentureBeat 報道,大約 90% 的機器學習模型從未投入生產(chǎn)。換句話說,數(shù)據(jù)科學家的工作只有十分之一能夠真正產(chǎn)出對公司有用的東西。

盡管 十分之九 的科技高管相信,人工智能將成為下一次科技革命的中心,但人工智能的采用和部署尚未獲得長足的發(fā)展,而這不能怪數(shù)據(jù)科學家。

企業(yè)尚未準備好采用機器學習

領導支持并不意味著投錢多

數(shù)據(jù)科學家的 就業(yè)市場非常好。企業(yè)在招聘,而且也已經(jīng)準備好支付高薪。

當然,管理人員和企業(yè)負責人期望這些數(shù)據(jù)科學家能帶來巨大的價值。然而,就目前而言,他們并沒有為此提供便利。

GAP 數(shù)據(jù)分析高級副總裁 Chris Chapo表示:“有時人們會想,我所需要做的只是針對一個問題投入資金或技術,成功就會到來?!?/p>

為了幫助數(shù)據(jù)科學家在工作中發(fā)揮出色的作用,領導者不僅需要將資源引向正確的方向,還需要了解機器學習模型是干什么的。一個可能的解決方案是,讓領導者們自己接受一些數(shù)據(jù)科學的入門培訓,這樣他們就可以在公司里把這些知識付諸實踐。

數(shù)據(jù)訪問難度大

公司不擅長收集數(shù)據(jù)。許多公司都是高度筒倉化的,這意味著每個部門都有自己收集數(shù)據(jù)的方式、首選格式、存儲位置以及安全和隱私偏好。

另一方面,數(shù)據(jù)科學家經(jīng)常需要來自多個部門的數(shù)據(jù)。筒倉化增加了清理和處理這些數(shù)據(jù)的難度。此外,許多數(shù)據(jù)科學家 抱怨,他們甚至無法獲得他們需要的數(shù)據(jù)。如果你沒有必要的數(shù)據(jù),怎么開始訓練一個模型呢?

也許在過去,筒倉化的公司結構——以及無法訪問的數(shù)據(jù)——便于管理。但在一個技術飛速變革的時代,企業(yè)將需要加快步伐,在整個過程中建立起統(tǒng)一的數(shù)據(jù)結構。

對于數(shù)據(jù)科學家來說,能夠獲取所需的數(shù)據(jù)至關重要。圖片由作者提供。

IT、數(shù)據(jù)科學和工程脫節(jié)

如果公司的目標是減少“筒倉”,這就意味著各部門需要更多地相互溝通,調(diào)整各自的目標。

在許多公司中,IT 部門和數(shù)據(jù)科學部門之間存在著 根本性的分歧。IT 傾向于優(yōu)先考慮讓事情正常運轉(zhuǎn)并保持穩(wěn)定。另一方面,數(shù)據(jù)科學家喜歡實驗和破壞東西。這會導致溝通困難。

此外,對于數(shù)據(jù)科學家來說,工程并非總是必不可少的。這是一個問題,因為工程師有時候可能無法了解數(shù)據(jù)科學家所設想的所有細節(jié),或者可能會由于溝通錯誤而改變實現(xiàn)方式。因此,正如 StackOverflow 指出 的那樣,能夠部署模型的數(shù)據(jù)科學家比那些不能部署模型的數(shù)據(jù)科學家更有競爭優(yōu)勢。

機器學習模型自身面臨的挑戰(zhàn)

擴展比你想象的要難

模型在小環(huán)境中工作得很好,并不意味著它在任何地方都可以工作得很好。

首先,可能沒有處理更大數(shù)據(jù)集的硬件或云存儲空間可供使用。此外,在規(guī)模很大時,機器學習模型的模塊并不總是像規(guī)模較小時那么有效。

最后,數(shù)據(jù)獲取可能比較困難,甚至不可能。正如前面所討論的,這可能是由于公司的筒倉結構,也可能是由于在獲取更多數(shù)據(jù)時遇到的其他挑戰(zhàn)。

這也是在組織之間統(tǒng)一數(shù)據(jù)結構、鼓勵不同部門之間進行交流的另一個原因。

重復工作

在部署機器學習模型的漫長道路上,超過四分之一 的企業(yè)都存在重復工作。

例如,軟件工程師可能會按數(shù)據(jù)科學家的說法進行實現(xiàn)。后者可能也會繼續(xù),自己做一些工作。

這不僅浪費時間和資源,而且,當涉眾不知道使用了哪個版本的代碼,在遇到任何錯誤時就不知道應該向誰求助,這會導致額外的混亂。

如果數(shù)據(jù)科學家能夠?qū)崿F(xiàn)他們的模型,這是他們的優(yōu)勢,但對于誰做什么,他們應該與工程師溝通清楚。這樣,就可以節(jié)省公司的時間和資源。

有效溝通對于機器學習模型正常運行至關重要。圖片由作者提供。

高管們可能會不認可

總體來說,技術高管 非常相信 人工智能的力量,但這并不意味著他們會同意所有的想法。據(jù) Algorithmia 報道,三分之一的企業(yè)高管將糟糕的部署統(tǒng)計數(shù)據(jù)歸咎于缺乏高層支持。

似乎人們?nèi)匀徽J為數(shù)據(jù)科學家有點書呆子氣,缺乏商業(yè)意識。為此,數(shù)據(jù)科學家應加強他們的業(yè)務技能,并盡可能尋求與高管的對話。

當然,這并不意味著每個數(shù)據(jù)科學家需要 MBA 學位才能勝任他們的工作。然而,從課程或業(yè)務經(jīng)驗中學習一些關鍵知識可能會對他們有長遠的幫助。

不能跨語言且缺少框架支持

由于機器學習模型仍處于起步階段,不同的語言和框架仍有相當大的差距。

有些管道開始時是 Python 開始,中間是 R,最后是 Julia。有的則相反,或者完全使用其他語言。由于每種語言都有自己獨特的庫和依賴項,項目很快就變得很難跟蹤。

此外,有些管道可能會使用 Docker 和 Kubernetes 進行容器化,其他管道可能不會。有些管道將部署特定的 API,其他管道則不會。這樣的例子不勝枚舉。

為了彌補這種不足,像 TFX、Mlflow 和 Kubeflow 這樣的工具出現(xiàn)了。但這些工具仍處于起步階段,到目前為止,這方面的專家還很少。

數(shù)據(jù)科學家們知道,他們需要不斷了解自己領域的最新進展。這應該也適用于模型部署。

版本控制和再現(xiàn)仍面臨挑戰(zhàn)

與上述問題相關的是,到目前為止,機器學習模型版本控制還沒有一種可行的方法。顯然,數(shù)據(jù)科學家需要跟蹤他們所做的任何更改,但現(xiàn)在這相當麻煩。

此外,數(shù)據(jù)集可能會隨時間漂移。隨著公司和項目的發(fā)展,這是很自然的,但這使得再現(xiàn)過去的結果變得更加困難。

更重要的是,一旦項目啟動,就會建立一個基準,用于現(xiàn)在和將來對模型進行測試。結合版本控制,數(shù)據(jù)科學家可以再現(xiàn)他們的模型。

如果模型不可再現(xiàn),就會導致漫長的調(diào)查研究。圖片由作者提供。

停止嘗試,開始部署

如果數(shù)據(jù)科學家 90% 的努力都沒有結果,這可不是一個好現(xiàn)象。這不是數(shù)據(jù)科學家的錯,如上所述,這是由于組織結構上固有的障礙。

變革不是一天能完成的。對于剛剛開始接觸機器學習模型的公司,建議他們從一個非常小而簡單的項目開始。

一旦管理者勾勒出一個清晰而簡單的項目,第二步就是選擇合適的團隊。這個團隊應該是跨職能的,應該包括數(shù)據(jù)科學家、工程師、DevOps 和任何其他看起來對于獲得成功至關重要的角色。

第三,在開始的時候,管理者應該考慮利用第三方來幫助他們加速這個過程。IBM 是提供這種服務的公司之一,但市場上也有其他公司。

最后一點是,切莫不惜一切代價追求先進。如果一個簡單的低成本模型能滿足 80% 的客戶需求,并能在幾個月內(nèi)交付,這已經(jīng)是一個了不起的成就了。此外,從構建簡單模型積累的經(jīng)驗將有助于實現(xiàn)更復雜的模型,并有望使客戶百分之百滿意。

結論:革命需要時間

下一個十年注定是革命性的,就像上一個十年一樣。人工智能的廣泛應用只是 眾多發(fā)展趨勢 中的一個,物聯(lián)網(wǎng)、高級機器人技術和區(qū)塊鏈技術也在興起。

我說的是幾十年,而不是幾年。例如,考慮到 90% 的公司都 已上云——如此之多,以至于我們很難想象沒有云我們怎么生活。而另一方面,云是花了 幾十年時間 才被廣泛地采用。

我們沒有理由認為人工智能革命會有任何不同。它需要一段時間才能推廣開,因為目前還有許多需要解決的障礙。

但是,由于機器學習提供了如此多的方法來改善客戶體驗和企業(yè)效率,顯然,贏家將是那些快速并盡早部署模型的公司。

本文轉(zhuǎn)自 公眾號:AI前線 ,作者Rhea Moutafis,點擊閱讀原文

審核編輯:符乾江
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1789

    文章

    46664

    瀏覽量

    237102
  • 機器學習
    +關注

    關注

    66

    文章

    8353

    瀏覽量

    132315
  • 深度學習
    +關注

    關注

    73

    文章

    5466

    瀏覽量

    120891
收藏 人收藏

    評論

    相關推薦

    魯棒性在機器學習中的重要性

    機器學習領域,模型的魯棒性是指模型在面對輸入數(shù)據(jù)的擾動、異常值、噪聲或?qū)剐怨魰r,仍能保持性能的能力。隨著人工智能技術的快速發(fā)展,機器
    的頭像 發(fā)表于 11-11 10:19 ?38次閱讀

    AI大模型與深度學習的關系

    AI大模型與深度學習之間存在著密不可分的關系,它們互為促進,相輔相成。以下是對兩者關系的介紹: 一、深度學習是AI大模型的基礎 技術支撐 :深度學習
    的頭像 發(fā)表于 10-23 15:25 ?308次閱讀

    AI大模型與傳統(tǒng)機器學習的區(qū)別

    AI大模型與傳統(tǒng)機器學習在多個方面存在顯著的區(qū)別。以下是對這些區(qū)別的介紹: 一、模型規(guī)模與復雜度 AI大模型 :通常包含數(shù)十億甚至數(shù)萬億的參
    的頭像 發(fā)表于 10-23 15:01 ?296次閱讀

    構建語音控制機器人 - 線性模型機器學習

    2024-07-31 |Annabel Ng 在該項目的[上一篇博客文章]中,我介紹了運行機器人電機、處理音頻信號和調(diào)節(jié)電壓所需的電路的基礎知識。然而,機器人還沒有完全完成!盡管機器人可以正確移動
    的頭像 發(fā)表于 10-02 16:31 ?156次閱讀
    構建語音控制<b class='flag-5'>機器</b>人 - 線性<b class='flag-5'>模型</b>和<b class='flag-5'>機器</b><b class='flag-5'>學習</b>

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    今天來學習大語言模型在自然語言理解方面的原理以及問答回復實現(xiàn)。 主要是基于深度學習和自然語言處理技術。 大語言模型涉及以下幾個過程: 數(shù)據(jù)收集:大語言
    發(fā)表于 08-02 11:03

    pycharm如何訓練機器學習模型

    PyCharm是一個流行的Python集成開發(fā)環(huán)境(IDE),它提供了豐富的功能,包括代碼編輯、調(diào)試、測試等。在本文中,我們將介紹如何在PyCharm中訓練機器學習模型。 一、安裝PyCharm
    的頭像 發(fā)表于 07-11 10:14 ?622次閱讀

    Al大模型機器

    豐富的知識儲備。它們可以涵蓋各種領域的知識,并能夠回答相關問題。靈活性與通用性: AI大模型機器人具有很強的靈活性和通用性,能夠處理各種類型的任務和問題。持續(xù)學習和改進: 這些模型可以
    發(fā)表于 07-05 08:52

    人工神經(jīng)網(wǎng)絡與傳統(tǒng)機器學習模型的區(qū)別

    人工神經(jīng)網(wǎng)絡(ANN)與傳統(tǒng)機器學習模型之間的不同,包括其原理、數(shù)據(jù)處理能力、學習方法、適用場景及未來發(fā)展趨勢等方面,以期為讀者提供一個全面的視角。
    的頭像 發(fā)表于 07-04 14:08 ?920次閱讀

    深度學習中的模型權重

    在深度學習這一充滿無限可能性的領域中,模型權重(Weights)作為其核心組成部分,扮演著至關重要的角色。它們不僅是模型學習的基石,更是模型
    的頭像 發(fā)表于 07-04 11:49 ?817次閱讀

    名單公布!【書籍評測活動NO.35】如何用「時間序列與機器學習」解鎖未來?

    捕捉復雜非線性模式的場景中顯得力不從心。 將時間序列的分析與預測用于大規(guī)模的數(shù)據(jù)生產(chǎn)一直存在諸多困難。 在這種背景下,結合機器學習,特別是深度學習
    發(fā)表于 06-25 15:00

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    就無法修改,因此難以靈活應用于下游文本的挖掘中。 詞嵌入表示:將每個詞映射為一個低維稠密的實值向量。不同的是,基于預訓練的詞嵌入表示先在語料庫中利用某種語言模型進行預訓練,然后將其應用到下游任務中,詞
    發(fā)表于 05-05 12:17

    傅里葉變換基本原理及在機器學習應用

    連續(xù)傅里葉變換(CFT)和離散傅里葉變換(DFT)是兩個常見的變體。CFT用于連續(xù)信號,而DFT應用于離散信號,使其與數(shù)字數(shù)據(jù)和機器學習任務更加相關。
    發(fā)表于 03-20 11:15 ?804次閱讀
    傅里葉變換基本原理及在<b class='flag-5'>機器</b><b class='flag-5'>學習</b>應用

    谷歌模型框架是什么軟件?谷歌模型框架怎么用?

    谷歌模型框架通常指的是谷歌開發(fā)的用于機器學習和人工智能的軟件框架,其中最著名的是TensorFlow。TensorFlow是一個開源的機器
    的頭像 發(fā)表于 03-01 16:25 ?772次閱讀

    一文詳解Transformer神經(jīng)網(wǎng)絡模型

    Transformer模型在強化學習領域的應用主要是應用于策略學習和值函數(shù)近似。強化學習是指讓機器
    發(fā)表于 02-20 09:55 ?1.2w次閱讀
    一文詳解Transformer神經(jīng)網(wǎng)絡<b class='flag-5'>模型</b>

    如何使用TensorFlow構建機器學習模型

    在這篇文章中,我將逐步講解如何使用 TensorFlow 創(chuàng)建一個簡單的機器學習模型。
    的頭像 發(fā)表于 01-08 09:25 ?895次閱讀
    如何使用TensorFlow構建<b class='flag-5'>機器</b><b class='flag-5'>學習</b><b class='flag-5'>模型</b>