0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

信息社會產(chǎn)生的謠言,還是借用技術(shù)來解決

電子工程師 ? 來源:lq ? 2019-05-16 18:21 ? 次閱讀

近期,HBO出品的臺劇《我們與惡的距離》熱播,在感慨劇情深度的同時,也引發(fā)了對于媒體行業(yè)生存現(xiàn)狀的反思。

《我們與惡的距離》劇照

一方面,人們希望媒體能夠堅持所謂“新聞理想”,另一方面,在信息爆炸訊息光速傳遞的今天,媒體人要堅守“客觀真實”的報道,實屬難得。

作為一位媒體從業(yè)者,文摘菌對于女主角新聞臺副總監(jiān)“宋喬安“印象深刻。

賈靜雯飾演宋喬安,演技炸裂

影片一開始,我們就目睹了一起搶熱點的假新聞事件。多家媒體同一時間播報了一條泰國發(fā)生爆炸的消息,令宋喬安和同事感到措手不及。這條消息沒有得到前方記者的證實,也缺乏官方認證,用媒體術(shù)語來說,就是不具有權(quán)威信源。但是,該爆炸性新聞自帶流量,若證實有中國游客身亡,更會讓它成為一條名副其實的爆款新聞。

競爭對手們爭相播報,宋喬安壓力頗大,盡管沒有拿到真的信源,依然硬著頭皮播了這條新聞,但最終,它被證實是一條假消息。

機器學習假新聞判別

宋喬安的尷尬處境也恰恰是當代媒體真實寫照。突發(fā)新熱點多,真假難以被證實?;蛟S,我們可以在算法的幫助下,打破這一困境。

《我們與惡的距離》劇照

AI謠言粉碎機

今年愚人節(jié)當天,阿里宣布了一項新技術(shù)被稱為“AI謠言粉碎機”。這項技術(shù)的算法模型通過深度學習神經(jīng)網(wǎng)絡(luò),設(shè)計了包括發(fā)布信息、社交畫像、回復(fù)者立場、回復(fù)信息、傳播路徑在內(nèi)的判斷系統(tǒng),將謠言識別和社交用戶觀點識別打通,最快1秒內(nèi)判定結(jié)果。在特定場景中的準確率可達到81%。

阿里希望幫助社交平臺和新聞網(wǎng)站在假新聞尚未造成大面積傷害時就快速識別出來,遏制其傳播。在信息被證實為謠言后,AI還可通過虛假信息的傳播路徑,定向給閱讀過此信息的用戶進行辟謠。

SemEval語義測試大賽中,根據(jù)主辦方提供的過去兩年社交媒體Twitter和Reddit上的近500個真實言論和1萬多條相關(guān)反饋數(shù)據(jù),阿里巴巴的人工智能技術(shù)對假新聞識別的準確率創(chuàng)造了新的紀錄。達摩院語言技術(shù)實驗室首席科學家司羅表示,“AI謠言粉碎機”未來有望幫助社交媒體的審核機構(gòu)承擔60%的工作量。

Breaking Data

英國有一家體育媒體GiveMeSport,是一個主要基Faceboook發(fā)布體育相關(guān)的新聞,最后被人工智能公司Breaking Data 收購,目前在新聞頻道的兩個終端應(yīng)用了AI技術(shù),可以分析和反應(yīng)片段及重大新聞報道。

Breaking Data運用自然語言處理技術(shù)掃描Twitter,通過相關(guān)推文篩選預(yù)定關(guān)鍵詞,如運動隊、球員姓名、球隊名稱、俱樂部、聯(lián)賽或運動場。經(jīng)過篩選和驗證關(guān)鍵詞,將其分為“重大事件”,“相關(guān)新聞”或“大幕新聞”等類別;并在BreakingSports Slack頻道中作為警報發(fā)送給記者。GiveMeSport正在使用Breaking Data的技術(shù)將其他公開可用的數(shù)據(jù)源(如Facebook,Reddit和Wikipedia)整合在一起。

這個平臺通過識別可靠的信息來源來判斷推文是否可靠,例如,歐冠中當巴薩以3:0戰(zhàn)勝利物浦時,人工智能平臺可以跟蹤Twitter上的內(nèi)容何時首次出現(xiàn),并將該帳戶標記為可靠的權(quán)限。

用AI打假AI合成圖片

除了假新聞,AI合成的視頻和照片也越來越多,利用算法實現(xiàn)AI換臉技術(shù)已經(jīng)很成熟。針對此種情況,成立于2017年的舊金山初創(chuàng)企業(yè)人工智能基金會(AI Foundation),他們正在開發(fā)的Reality Defender將幫助人們識別由人工智能算法生成的內(nèi)容,以檢測潛在的虛假媒體。

與病毒防護類似,他們的工具掃描每一幅圖像、視頻和其他媒體,尋找已知的假象,允許你報告可疑的假新聞,并使用各種人工智能驅(qū)動的分析技術(shù),以檢測變化或人為生成的跡象。

虛假、合成的照片和視頻在網(wǎng)絡(luò)的傳播,也會造成品牌和個人造成不可挽回的名譽損毀。但試圖監(jiān)管全球媒體數(shù)據(jù)將是一項艱巨的任務(wù),使用AI技術(shù)任何人都可以炮制出數(shù)百萬張看起來逼真的假照片。鑒于虛假圖像和視頻的改善速度之快,或許驗證“什么是真實的”的商業(yè)模式可能更有效,也許媒體和個人很快應(yīng)該擁有自己的數(shù)字指紋,可AI合成的底線又在哪?

假新聞訓(xùn)練模型及數(shù)據(jù)集

在某種程度上假新聞的是一個微觀領(lǐng)域問題,它和謠言分類、事實判斷、標題黨檢測、垃圾內(nèi)容挖掘等都比較類似,在宏觀上說都屬于內(nèi)容質(zhì)量的領(lǐng)域,所以很多方法其實是通用的框架。騰訊科技高級研究員孫子荀將假消息辨別模型分為兩類:

基于內(nèi)容的建模;

基于社交網(wǎng)絡(luò)的模型。

后者可以通過對虛假新聞的傳播游走軌跡跟蹤,以及通過圖模型和演化模型中針對特定假新聞的進一步調(diào)查;其次,識別虛假新聞的關(guān)鍵傳播者,對于減輕社交媒體的傳播范圍至關(guān)重要。

在2017年,Kai Shu等人的論文中將假新聞的研究主要分為三個方向:

數(shù)據(jù)方面的研究:目前還沒有標準的測評數(shù)據(jù)集,需要去建立的??梢酝ㄟ^傳播特性提前檢測假新聞。

模型特征方面的研究:通過使用用戶的畫像特征,內(nèi)容特征(NLP、CV)結(jié)合深度學習,還有傳播網(wǎng)絡(luò)特征,比如用戶和內(nèi)容之間的關(guān)系構(gòu)造出來的網(wǎng)絡(luò)特征,網(wǎng)絡(luò)本身的embedding表現(xiàn)。

模型方面的研究:這方面的工作可分為特征之間的組合、預(yù)測目標的變化、對內(nèi)容源、內(nèi)容反饋和文章風格的限制,組合這些模型,也可通過空間變換,把特征變換到另外的latent語義空間嘗試解決。

鑒定假新聞是一件任重而道遠的事,對假新聞機器學習模型感興趣的同學也可以通過以下開放的數(shù)據(jù)集進行嘗試。

1. FakeNewsNet

BuzzFeed和PolitiFact兩個平臺的數(shù)據(jù)集,包括新聞內(nèi)容本身(作者,標題,正文,圖片視頻)和社交上下文內(nèi)容(用戶畫像,收聽,關(guān)注等)。

數(shù)據(jù)集獲取方式:

https://github.com/KaiDMML/FakeNewsNet

2.LIAR

該數(shù)據(jù)集也是來自PolitiFact,包括內(nèi)容本身和內(nèi)容的基礎(chǔ)屬性數(shù)據(jù),比如來源,正文等。

數(shù)據(jù)集獲取方式:

http://www.cs.ucsb.edu/~william/data/liar_dataset.zip

3. Twitter and Weibo DataSet

一個比較全的數(shù)據(jù)集包括帖子ID,發(fā)帖用戶ID,正文,回復(fù)等數(shù)據(jù)。

數(shù)據(jù)集獲取方式:

http://alt.qcri.org/~wgao/data/rumdect.zip

4. Twitter15 Twitter16

來自 Twitter 15、16 年的帖子,包括了帖子之間的樹狀收聽,關(guān)注關(guān)系和帖子正文等。

數(shù)據(jù)集獲取方式:

https://www.dropbox.com/s/7ewzdrbelpmrnxu/rumdetect2017.zip?dl=0

5. Buzzfeed Election Dataset & Political News Dataset

Buzzfeed’s 2016 收集的選舉假新聞,以及作者收集的 75個新聞故事。包括假新聞,真新聞和諷刺新聞。

數(shù)據(jù)集獲取方式:

https://github.com/rpitrust/fakenewsdata1

相關(guān)鏈接:

http://www.sohu.com/a/311856780_99928473?sec=wd

https://zhuanlan.zhihu.com/p/57124028

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4717

    瀏覽量

    100020
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4552

    瀏覽量

    92030
  • 機器學習
    +關(guān)注

    關(guān)注

    66

    文章

    8306

    瀏覽量

    131848

原文標題:《我們與惡的距離》引發(fā)媒體反思:假新聞?chuàng)専狳c,機器學習能做些什么?

文章出處:【微信號:BigDataDigest,微信公眾號:大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    說明增強現(xiàn)實技術(shù)產(chǎn)生原因

    增強現(xiàn)實技術(shù)(Augmented Reality, AR)的產(chǎn)生,主要源于人類對信息獲取和交互方式的不斷追求與探索,以及計算機技術(shù)、圖像處理、傳感器
    的頭像 發(fā)表于 09-15 14:44 ?183次閱讀

    什么是光纖通信技術(shù)?它有哪些優(yōu)劣勢?

    光纖通信技術(shù)(Optical Fiber Communications),簡稱光纖通信,是一種利用光波作為信息載體,以光纖作為傳輸媒介的通信方式。它屬于有線通信的一種,是現(xiàn)代通信技術(shù)的重要組成部分。光纖通信
    的頭像 發(fā)表于 08-09 17:24 ?423次閱讀

    電樞繞組產(chǎn)生的電勢是直流還是交流

    基于電磁感應(yīng),即通過改變磁場產(chǎn)生力矩,從而驅(qū)動電機的旋轉(zhuǎn)。 電樞繞組的基本概念 電樞繞組是電機中的一個重要組成部分,通常由導(dǎo)線繞制而成,安裝在電機的轉(zhuǎn)子上。電樞繞組的主要功能是接收外部電源,產(chǎn)生電流,并通過電
    的頭像 發(fā)表于 07-25 17:39 ?262次閱讀

    如何借用物聯(lián)網(wǎng)快速實現(xiàn)高標準農(nóng)田信息

    如何借用物聯(lián)網(wǎng)快速實現(xiàn)高標準農(nóng)田信息化 高標準農(nóng)田信息化,作為現(xiàn)代農(nóng)業(yè)發(fā)展的重要基石,是指在建設(shè)高產(chǎn)、穩(wěn)產(chǎn)、節(jié)水、環(huán)保的農(nóng)田基礎(chǔ)上,深度融合現(xiàn)代信息技術(shù),實現(xiàn)農(nóng)田管理的精準化、智能化和
    的頭像 發(fā)表于 06-24 13:50 ?199次閱讀
    如何<b class='flag-5'>借用</b>物聯(lián)網(wǎng)快速實現(xiàn)高標準農(nóng)田<b class='flag-5'>信息</b>化

    量子加密:安全通信的未來

    隨著我國信息社會、數(shù)字社會、智能社會的發(fā)展,信息安全要求越來越迫切。傳統(tǒng)的加密方法雖然在一定程度上保障了信息的安全,但在面對日益復(fù)雜的網(wǎng)絡(luò)攻
    的頭像 發(fā)表于 06-24 10:40 ?265次閱讀
    量子加密:安全通信的未來

    氣密性檢測設(shè)備測試不出來電池包的泄漏?謠言

    在電池技術(shù)領(lǐng)域,關(guān)于氣密性檢測設(shè)備無法檢測出電池包泄漏的說法一直在流傳。但今天,我們要用科學的力量終結(jié)這個謠言。實際上,現(xiàn)代的氣密性檢測設(shè)備不僅能檢測出電池包的泄漏,而且其準確性和可靠性都達到
    的頭像 發(fā)表于 06-01 16:23 ?178次閱讀
    氣密性檢測設(shè)備測試不出來電池包的泄漏?<b class='flag-5'>謠言</b>

    華為攜手運營商及產(chǎn)業(yè)伙伴亮相2024年世界電信和信息社會日大會

    2024年世界電信和信息社會日大會暨系列活動在浙江省寧波市舉辦,本次大會主題為“數(shù)字創(chuàng)新賦能新型工業(yè)化”。
    的頭像 發(fā)表于 05-19 11:14 ?468次閱讀
    華為攜手運營商及產(chǎn)業(yè)伙伴亮相2024年世界電信和<b class='flag-5'>信息社會</b>日大會

    江蘇電信攜手華為基于云網(wǎng)融合邊緣網(wǎng)絡(luò)發(fā)布的新一代智能寬帶產(chǎn)品

    5月17日,是第55個世界電信和信息社會日(WTISD),信息通信領(lǐng)域的各項創(chuàng)新科技再次成為社會共同關(guān)注的熱點。
    的頭像 發(fā)表于 05-19 09:27 ?540次閱讀

    廣和通AIoT解決方案與創(chuàng)新技術(shù)促全球可持續(xù)發(fā)展

    今年世界電信和信息社會日主題是“數(shù)字創(chuàng)新促進可持續(xù)發(fā)展”(Digital Innovation for Sustainable Development)。
    的頭像 發(fā)表于 05-17 09:17 ?234次閱讀

    stm8s903如何設(shè)置計數(shù)器是在上溢時產(chǎn)生更新中斷,還是在下溢時產(chǎn)生更新中斷啊?

    如果將stm8s903的高級定時器tim1配置成中央技術(shù)模式的話,并且當RCR等于奇數(shù)的話,如何設(shè)置計數(shù)器是在上溢時產(chǎn)生更新中斷,還是在下溢時產(chǎn)生更新中斷?????????????希望高
    發(fā)表于 05-13 08:15

    國內(nèi)首個傳感器產(chǎn)業(yè)生態(tài)服務(wù)大數(shù)據(jù)平臺來了

    智能傳感器和半導(dǎo)體作為現(xiàn)代信息社會的基石,在工業(yè)自動化、智能制造、物聯(lián)網(wǎng)、人工智能等多個領(lǐng)域的應(yīng)用日益廣泛,成為推動經(jīng)濟社會發(fā)展的新引擎。
    的頭像 發(fā)表于 05-07 14:51 ?494次閱讀

    深圳特信電子|手機信號屏蔽器廠家:技術(shù)領(lǐng)先,保障信息安全.

    深圳特信電子|手機信號屏蔽器廠家:技術(shù)領(lǐng)先,保障信息安全在當今高度信息化的社會中,手機已成為人們?nèi)粘I钪胁豢苫蛉钡囊徊糠?。然而,在某些特定場合,如會議室、考場、影院等,手機信號的干擾
    發(fā)表于 04-26 09:09

    信息化與數(shù)字化:從概念到實踐的探索

    、信息化與數(shù)字化的關(guān)系 信息化和數(shù)字化是兩個相互關(guān)聯(lián)的概念。信息化主要指利用信息技術(shù)信息系統(tǒng)來處理和管理
    的頭像 發(fā)表于 01-22 16:10 ?359次閱讀

    拓維信息榮獲第18屆人民企業(yè)社會責任獎“年度企業(yè)獎”

    ,拓維信息榮獲第18屆人民企業(yè)社會責任獎“年度企業(yè)獎”?!叭嗣衿髽I(yè)社會責任獎”被視為衡量中國企業(yè)履行社會責任的重要標尺。隨著全球可持續(xù)發(fā)展共識不斷加深,企業(yè)如何在
    的頭像 發(fā)表于 12-23 08:14 ?345次閱讀
    拓維<b class='flag-5'>信息</b>榮獲第18屆人民企業(yè)<b class='flag-5'>社會</b>責任獎“年度企業(yè)獎”

    單片機按鍵產(chǎn)生的抖動是方波還是尖刺?

    單片機 按鍵產(chǎn)生的抖動是方波還是尖刺
    發(fā)表于 11-08 07:03