0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何從Facebook的2018年的成長中獲取養(yǎng)分

電子工程師 ? 來源:cc ? 2019-02-05 10:57 ? 次閱讀

Facebook在2018年過的并不好,一連串的數(shù)據(jù)泄露丑聞打的小扎和他同事措手不及。

但是,一年的時間,F(xiàn)acebook仍然做出了許多的成績,尤其在AI方面,這家社交媒體公司利用人工智能開發(fā)了許多的應(yīng)用。例如智能推薦系統(tǒng),例如對一些色情內(nèi)容進行識別的智能識別工具等等。

拋去那些不好的事情,我們?nèi)绾螐腇acebook 的2018年的成長中獲取養(yǎng)分?相信下面這篇Facebook 2018年的工作總結(jié)可以給你帶來一些靈感。

這篇文章,發(fā)布在code.fb.com上,大數(shù)據(jù)文摘有刪改的進行了編譯。

Facebook瞅準AI發(fā)展的眼光一直很在行,在這一領(lǐng)域里的行動也從未停止。

我們不滿足于在當(dāng)前機器學(xué)習(xí)瓶頸的發(fā)展,而是希望找尋更新、更高效的學(xué)習(xí)方式。我們抱有利用AI造福世界的信念和對機器學(xué)習(xí)研究的堅持,我們的工程師將更多前沿的算法和工具開源到AI社區(qū),例如Pytorch深度學(xué)習(xí)的開源框架及其升級,更新后的Pytorch還專門開發(fā)了支持新手的接口,使得他們更容易接觸深度學(xué)習(xí),在一定的程度上推動了相關(guān)AI項目的落地。

除了一些論文和數(shù)據(jù)集之外,還有一些很棒的日常生活助手,比如加持人工智能的MRI掃描變得更加高效了,在救災(zāi)工作和預(yù)防自殺方面也有提高。

2018年,我們找到了使用較少監(jiān)督數(shù)據(jù)進行相關(guān)研究的可行性的方法,也將研究項目從最初的圖像識別擴展到了語言的翻譯和理解。

通過半監(jiān)督和無監(jiān)督培訓(xùn)推進AI學(xué)習(xí)

當(dāng)前,大多數(shù)AI系統(tǒng)更多使用的還是監(jiān)督式學(xué)習(xí),這意味著他們必須使用大量被標(biāo)記過的樣本才能進行學(xué)習(xí)任務(wù),而這些樣本數(shù)量對于訓(xùn)練需求來說是嚴重不足的,因而這也就限制了技術(shù)長期發(fā)展的潛力,而想要改變以上問題可能需要多年的研究。

Facebook AI Research(FAIR)小組成立后,在人工智能研究上進行了多樣的探索。2018年,該小組使用了無監(jiān)督機器翻譯,通過減少對標(biāo)記訓(xùn)練數(shù)據(jù)的依賴,打開了翻譯“小語種”的大門,讓我們的系統(tǒng)支持更多的語言翻譯。

主要采用多種方法來避免標(biāo)簽訓(xùn)練數(shù)據(jù)不足的問題,包括使用多語言建模來利用給定語言組中方言之間的相似性,例如白俄羅斯語和烏克蘭語、烏爾都語等語言的資源目前都很少,與英語相比,他們現(xiàn)有數(shù)據(jù)集十分有限。

雖然使用的是無監(jiān)督的數(shù)據(jù),但是它的性能卻能與“打標(biāo)簽”數(shù)據(jù)訓(xùn)練的系統(tǒng)相媲美?,F(xiàn)在無監(jiān)督方法有了更實質(zhì)性的改進。

這就是為什么我們要探索更多的訓(xùn)練方法,讓監(jiān)督學(xué)習(xí)變得不再那么重要的原因。半監(jiān)督和無監(jiān)督式的學(xué)習(xí)方法或許是不錯的選擇。

在這項研究在今年已經(jīng)被應(yīng)用。并且為自動翻譯軟件增加了24種語言。此外,在與紐約大學(xué)合作過程中,我們?yōu)楝F(xiàn)有的MultiNLI數(shù)據(jù)集添加了14種語言,這些數(shù)據(jù)集廣泛用于自然語言理解研究,此前僅有英語版本。

我們最新的XNLI數(shù)據(jù)集中包括兩種低資源語言:斯瓦希里語和烏爾都語,這一方法有助于整體采用跨語言的語言理解,從而減少了對標(biāo)記數(shù)據(jù)的需求。

為了研究基于標(biāo)簽的圖像識別,我們顛覆了傳統(tǒng)的研究方法,新的方法能夠使得數(shù)據(jù)進行自我標(biāo)記并形成大型訓(xùn)練集,例如35億個公開的Instagram圖像就是用這么形成的。

我們的結(jié)果不僅證明使用數(shù)十億個數(shù)據(jù)點對于基于圖像的任務(wù)非常有效,而且它還使我們打破了一個記錄,比ImageNet上先前最先進的圖像識別模型的準確率高出一個百分比。

Hashtags可以幫助計算機視覺系統(tǒng)快速識別圖像的額外信息以及特定的子類。

加快人工智能研究和產(chǎn)業(yè)應(yīng)用的融合

AI已成為Facebook幾乎所有產(chǎn)品和服務(wù)的基礎(chǔ)。這點從我們的工程師正在構(gòu)建和增強的各種基于AI的平臺和工具中可以看出。

但是在2018年Facebook有了一個共同的主題:如何將人工智能技術(shù)嵌入到人工智能系統(tǒng)中。

自2017年P(guān)yTorch發(fā)布以來,深度學(xué)習(xí)框架已被AI社區(qū)廣泛采用,它目前是GitHub上增長速度第二快的開源項目。 PyTorch的用戶友好界面和靈活的編程環(huán)境使其成為AI開發(fā)中快速迭代的通用資源。由于代碼庫的貢獻和反饋,其開放式設(shè)計確保了框架將繼續(xù)改進。對于2018年,我們希望為PyTorch社區(qū)提供更加統(tǒng)一的工具集,重點是將他們的AI實驗轉(zhuǎn)變?yōu)樯a(chǎn)就緒的應(yīng)用程序。

我們在5月份的F8會議上發(fā)布了更新的框架,我們詳細介紹了它的原型系統(tǒng)和設(shè)置,以及它是如何集成Caffe2模塊的。還有產(chǎn)品為導(dǎo)向的能力和新擴展的ONNX。這一切都簡化了整個AI開發(fā)流程。

10月,我們在第一屆PyTorch開發(fā)者大會上發(fā)布了PyTorch 1.0開發(fā)人員預(yù)覽版。也展示了該框架的平臺生態(tài)系統(tǒng)。谷歌,微軟,NVIDIA,特斯拉和許多其他技術(shù)提供商在該活動中對PyTorch 1.0進行討論,且fast.ai和Udacity都上線了新版本課程,教授深度學(xué)習(xí)。

我們在本月早些時候完成了PyTorch 1.0的推出,放出了其完整版本的所有功能,例如在eager和圖形執(zhí)行模式之間無縫轉(zhuǎn)換的混合前端,改進的分布式訓(xùn)練,以及純C ++前端,用于高性能研究。

我們今年還發(fā)布了一些工具和平臺,擴展了PyTorch的核心功能,包括一對內(nèi)核庫(QNNPACK和FBGEMM),它可以使移動設(shè)備和服務(wù)器更容易運行最新的人工智能模型。還有一個加速自然語言處理開發(fā)的框架—PyText。

PyTorch還為Horizon提供了基礎(chǔ)。Horizon是第一個使用應(yīng)用強化學(xué)習(xí)(RL)來優(yōu)化大規(guī)模生產(chǎn)環(huán)境中的系統(tǒng)的開源端到端平臺。

Horizon對RL進行了大量研究,但很少嘗試進行決策,也沒有用于那種可能包含數(shù)十億條記錄的數(shù)據(jù)集的應(yīng)用程序。 在Facebook內(nèi)部部署平臺后,在優(yōu)化流視頻質(zhì)量和改進Messenger中的M建議等用例中,我們使Horizon開源橋接RL研究和生產(chǎn),讓任何人都可以下載。

這是一個顯示Horizon的反饋路徑的高級圖表。首先,我們預(yù)處理現(xiàn)有系統(tǒng)記錄的一些數(shù)據(jù)。然后,我們訓(xùn)練模型并在離線設(shè)置中分析反事實政策結(jié)果。最后,我們讓專門人員配置模型,衡量真正的政策。新模型的數(shù)據(jù)反饋到下一次迭代,大多數(shù)團隊每天都會部署一個新模型。

我們還發(fā)布了Glow——一個開源的、社區(qū)驅(qū)動的框架。其支持機器學(xué)習(xí)(ML)的硬件加速。Glow與一系列不同的編譯器,硬件平臺和深度學(xué)習(xí)框架(包括PyTorch)合作,現(xiàn)在由包括Cadence,Esperanto,Intel,Marvell和Qualcomm Technologies Inc.在內(nèi)的合作伙伴提供支持。

為了進一步鼓勵在整個行業(yè)中使用機器學(xué)習(xí),我們發(fā)布了一種新的機器學(xué)習(xí)優(yōu)化服務(wù)器設(shè)計,稱為Big Basin v2,作為開放計算項目的一部分。我們已將新的模塊化硬件添加到我們的數(shù)據(jù)中心機隊中,并且任何人都可以在OCP市場下載Big Basin v2的規(guī)格。

2018年標(biāo)志著Oculus Research轉(zhuǎn)變?yōu)镕acebook Reality Labs,以及對AI和AR / VR研究重疊的新探索。作為我們盡可能多地開源人工智能相關(guān)工具的持續(xù)努力的一部分,我們發(fā)布了DeepFocus項目的數(shù)據(jù)和模型,該項目使用深度學(xué)習(xí)算法在VR中渲染逼真的視網(wǎng)膜模糊。

在未來一年,我們希望獲得有關(guān)所有這些版本的更多反饋。我們將繼續(xù)構(gòu)建和開源工具,完成PyTorch 1.0的使命,幫助整個開發(fā)人員社區(qū)從實驗室和研究論文中,提取最先進的AI系統(tǒng)并投入生產(chǎn)。

建立有益于每個人的AI

我們在開發(fā)非常廣泛的AI技術(shù)的技術(shù)方面有著悠久的歷史記錄。在過去的一年中,我們繼續(xù)部署應(yīng)用人工智能的工具使世界受益,包括我們對自殺預(yù)防工具的擴展開發(fā),這些工具使用文本分類來識別那些表達自殺的想法和語言的帖子。該系統(tǒng)使用單獨的文本分類器來分析帖子和評論,接著如果可以的話,將它們發(fā)送給我們的社區(qū)運營團隊進行審核。

該系統(tǒng)利用我們已建立的文本理解模型和跨語言功能,讓我們能夠接觸到需要獲得服務(wù)的人群數(shù)量得到提升。

我們還發(fā)布了一種使用AI的方法,可以快速準確地幫助查明災(zāi)難影響最嚴重的區(qū)域,而無需等待手動標(biāo)注數(shù)據(jù)。

這種方法是與CrowdAI合作開發(fā)的,能夠以更快速和更高效為受害者提供援助。將來,這項技術(shù)還可用于量化森林火災(zāi),洪水和地震等大規(guī)模災(zāi)害造成的破壞程度。

我們部署了一個名為Rosetta的機器學(xué)習(xí)系統(tǒng),每天從超過十億個公共圖像和視頻幀中提取文本,并使用文本識別模型一起理解文本和圖像的上下文。 Rosetta適用于多種語言,它自動識別有助于我們了解模因meme(目前比較公認的定義是“一個想法,行為或風(fēng)格從一個人到另一個人的傳播過程。)和視頻或違反政策內(nèi)容。

2018年,一個與紐約大學(xué)醫(yī)學(xué)院的長期合作的項目—fastMRI啟動。這個項目的目標(biāo)是改進現(xiàn)有的診斷成像技術(shù),使MRI掃描速度提高10倍。

fastMRI的目標(biāo)不是開發(fā)專有流程,而是為了加速該領(lǐng)域技術(shù)。我們的合作伙伴已經(jīng)為這項研究制作了有史以來最大的全采樣MRI原始數(shù)據(jù)集(由紐約大學(xué)學(xué)院完全匿名發(fā)布),以及開源模型,可以幫助更廣泛的研究群體開始這項任務(wù)。我們還推出了在線排行榜,其他人可以發(fā)布并比較他們的結(jié)果。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    28877

    瀏覽量

    266220
  • Facebook
    +關(guān)注

    關(guān)注

    3

    文章

    1429

    瀏覽量

    54478

原文標(biāo)題:Facebook全年成果總結(jié):我們在AI領(lǐng)域的行動從未停止

文章出處:【微信號:BigDataDigest,微信公眾號:大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    我在京東做產(chǎn)研 校招 2 ,個人角度(成長)回顧 - 行且知

    自己的思考也分享給后來的同學(xué)們 文章個人角度(成長)出發(fā),回顧工作點滴。 會盡可能寫的細致點,但也僅是拋磚引玉 后續(xù)會團隊角度(互惠)出發(fā),寫成長歷程二,敬請期待 一、善于觀察,善
    的頭像 發(fā)表于 08-27 15:26 ?132次閱讀
    我在京東做產(chǎn)研 校招 2 <b class='flag-5'>年</b>,個人角度(<b class='flag-5'>成長</b>)回顧 - 行且知

    校招新星到前端技術(shù)專家的成長之路

    引言 我在2018校招進入京東,主要負責(zé)廣告投放系統(tǒng)的前端工作。在京東,這一路走來,我經(jīng)歷了多種角色轉(zhuǎn)換,我學(xué)生到職場人,校招生到校招導(dǎo)師,
    的頭像 發(fā)表于 07-16 15:00 ?607次閱讀
    <b class='flag-5'>從</b>校招新星到前端技術(shù)專家的<b class='flag-5'>成長</b>之路

    AT+CIPSNTPTIME為什么不能獲取正確時間?

    有勞各位路過的幫忙看看,為什么我獲取的是初始值時間,這是已經(jīng)連接上AP的站點模式,1.6的固件,能通過mqtt連接阿里云。就是獲取時間功能有異 AT+CIPSNTPCFG=1,8,\"
    發(fā)表于 07-15 07:17

    如何幀控制獲取WEP位?

    我知道我們可以幀控制獲取 WEP 位,以區(qū)分接收到的數(shù)據(jù)包是否經(jīng)過加密。 但是,我們有什么方法可以知道加密類型是什么?(WPA-PSK、AES、TKIP、WEP... 我正在嘗試實現(xiàn)我自己
    發(fā)表于 07-12 15:27

    如何esp32內(nèi)獲取mac地址?

    如何esp32內(nèi)獲取mac地址,然后自動打印成標(biāo)簽貼在機身上呢 這玩意沒有自動化的一套東西很麻煩啊
    發(fā)表于 06-14 07:50

    請問NT35模塊的AT指令哪里獲取呀?

    請問NT35模塊的AT指令哪里獲取呀?
    發(fā)表于 06-04 08:11

    在ethernet_input函數(shù)以太網(wǎng)模塊獲取數(shù)據(jù)就會崩潰的原因?

    你好,我需要在 ethernet_input 函數(shù)以太網(wǎng)模塊獲取數(shù)據(jù)。 但如果我試圖獲取任何信息,它就會崩潰。 以太網(wǎng)輸入(結(jié)構(gòu) pbuf*p, 結(jié)構(gòu) netif*netif)
    發(fā)表于 05-24 06:32

    銳思智芯蟬聯(lián)“2023度中國高科技高成長企業(yè)系列榜單”

    3月31日,第一新聲&天眼查聯(lián)合推出的“2023度中國高科技高成長企業(yè)系列榜單”正式發(fā)布。
    的頭像 發(fā)表于 04-02 12:20 ?407次閱讀
    銳思智芯蟬聯(lián)“2023<b class='flag-5'>年</b>度中國高科技高<b class='flag-5'>成長</b>企業(yè)系列榜單”

    如何PLC-Recorder獲取數(shù)據(jù)?

    如果你需要實時分析,則可以通過PLC-Recorder的在線轉(zhuǎn)發(fā)功能來實時獲取剛采集到的數(shù)據(jù)。
    的頭像 發(fā)表于 02-22 10:31 ?1542次閱讀
    如何<b class='flag-5'>從</b>PLC-Recorder<b class='flag-5'>獲取</b>數(shù)據(jù)?

    labview鼠標(biāo)坐標(biāo)怎么獲取

    獲取LabVIEW鼠標(biāo)坐標(biāo)的方法實際上非常簡單。在LabVIEW的Block Diagram或Front Panel,可以使用以下方法來獲取鼠標(biāo)的坐標(biāo): 使用鼠標(biāo)坐標(biāo)節(jié)點 LabV
    的頭像 發(fā)表于 01-07 17:24 ?3211次閱讀

    Facebook開源StyleX如何在JavaScript寫CSS呢?

    Meta(原 Facebook)開源了全新的 CSS-in-JS 庫 StyleX。
    的頭像 發(fā)表于 12-14 10:03 ?541次閱讀

    智慧光迅榮獲2023&quot;智能物聯(lián)成長力企業(yè)&quot;獎項

    深圳智慧光迅信息技術(shù)有限公司榮獲2023年中國物聯(lián)網(wǎng)產(chǎn)業(yè)大會的"智能物聯(lián)成長力企業(yè)"獎項。
    的頭像 發(fā)表于 12-09 10:21 ?805次閱讀

    MATLAB消息結(jié)構(gòu)獲取方法

    : ‘struct’ 使用receive訂閱者獲取數(shù)據(jù)。一旦接收到新消息,函數(shù)將返回該消息并將其存儲在posedata變量(第二個參數(shù)是以秒
    的頭像 發(fā)表于 11-15 14:40 ?282次閱讀

    指定日期中獲取星期幾的6種方法

    在Python進行數(shù)據(jù)分析時,按照日期進行分組匯總也是被需要的,比如會找到銷量的周期性規(guī)律。 那么在用Python進行數(shù)據(jù)統(tǒng)計之前,就需要額外增加一步:指定的日期當(dāng)中獲取星期幾。比如20222月
    的頭像 發(fā)表于 10-30 10:20 ?1822次閱讀
    <b class='flag-5'>從</b>指定日期中<b class='flag-5'>獲取</b>星期幾的6種方法

    如何才能獲取LabVIEW程序的傳遞參數(shù)呢?

    有些場景下,我們用LabVIEW開發(fā)的應(yīng)用程序,需要通過命令行來調(diào)用,并向該應(yīng)用程序傳遞參數(shù),那么在程序如何才能獲取這些參數(shù)呢?
    的頭像 發(fā)表于 10-11 09:26 ?1031次閱讀
    如何才能<b class='flag-5'>獲取</b>LabVIEW程序<b class='flag-5'>中</b>的傳遞參數(shù)呢?