資料介紹
隨著文本數(shù)據(jù)來(lái)源渠道越來(lái)越豐富,面向多源文本數(shù)據(jù)進(jìn)行主題挖掘已成為文本挖掘領(lǐng)域的研究重點(diǎn)。由于傳統(tǒng)主題模型主要面向單源文本數(shù)據(jù)建模,直接應(yīng)用于多源文本數(shù)據(jù)有較多的限制。針對(duì)該問(wèn)題提出了基于狄利克雷多項(xiàng)分配( DMA)模型的多源文本主題挖掘模型——多源狄利克雷多項(xiàng)分配模型(MSDMA)。通過(guò)考慮主題在不同數(shù)據(jù)源的詞分布的差異性,結(jié)合DMA模型的非參聚類性質(zhì),模型主要解決了如下三個(gè)問(wèn)題:1)能夠?qū)W習(xí)出同一個(gè)主題在不同數(shù)據(jù)源中特有的詞分布形式;2)通過(guò)數(shù)據(jù)源之間共享主題空間和詞項(xiàng)空間,使得數(shù)據(jù)源間可進(jìn)行主題知識(shí)互補(bǔ),提升對(duì)高噪聲、低信息量的數(shù)據(jù)源的主題發(fā)現(xiàn)效果;3)能自主學(xué)習(xí)出每個(gè)數(shù)據(jù)源內(nèi)的主題數(shù)量,不需要事先給定主題個(gè)數(shù)。最后通過(guò)在模擬數(shù)據(jù)集和真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,所提模型比傳統(tǒng)主題模型能更有效地對(duì)多源數(shù)據(jù)進(jìn)行主題信息挖掘。
在互聯(lián)網(wǎng)發(fā)展早期,網(wǎng)絡(luò)上可獲取文本數(shù)據(jù)的渠道(數(shù)據(jù)源)較少,文本挖掘任務(wù)主要面向單源文本數(shù)據(jù)。隨著互聯(lián)網(wǎng)的快速發(fā)展,特別是移動(dòng)互聯(lián)網(wǎng)的普及率越來(lái)越高,幾乎每個(gè)人都能上網(wǎng)獲取資訊和發(fā)表觀點(diǎn),因此出現(xiàn)了各種各樣的文本數(shù)據(jù)生產(chǎn)渠道,如各種社交媒體、新聞門戶、博客及論壇等。這些渠道時(shí)刻都在產(chǎn)生海量的文本數(shù)據(jù),同時(shí)對(duì)這些文本數(shù)據(jù)源進(jìn)行主題信息提取通常具有比較重要的應(yīng)用價(jià)值,如在網(wǎng)絡(luò)新聞采編和網(wǎng)絡(luò)輿情分析應(yīng)用中,需要知道在每個(gè)渠道的主題分布,以及某個(gè)關(guān)注的主題在每個(gè)渠道的表現(xiàn)方式等。
- 抖動(dòng)按鍵技術(shù)及雙狄拉克模型綜述 2次下載
- 基于終身機(jī)器學(xué)習(xí)的主題挖掘評(píng)分和評(píng)論推薦模型 42次下載
- 文本挖掘之概率主題模型綜述 16次下載
- 基于深度學(xué)習(xí)的文本主題模型研究綜述 68次下載
- 基于Spark的學(xué)術(shù)論文熱點(diǎn)數(shù)據(jù)挖掘方法 4次下載
- 基于神經(jīng)網(wǎng)絡(luò)與隱含狄利克雷分配的文本分類 1次下載
- 基于狄利克雷過(guò)程的可擴(kuò)展高斯混合模型 7次下載
- 一種捕獲主題單詞信息的主題模型JEA-LDA 19次下載
- 基于狄利克雷問(wèn)題的動(dòng)態(tài)劃分算法 18次下載
- 基于層次交互式主題建模 0次下載
- 作者標(biāo)簽主題LAT模型在科技文獻(xiàn)中應(yīng)用 0次下載
- 適用于圖書(shū)推薦的數(shù)據(jù)挖掘模型 0次下載
- 基于LDA主題模型進(jìn)行數(shù)據(jù)源選擇方法 0次下載
- 基于概率主題模型的景點(diǎn)主題模型 3次下載
- 基于微博文本的詞對(duì)主題演化模型 14次下載
- llm模型和chatGPT的區(qū)別 406次閱讀
- 北大&華為提出:多模態(tài)基礎(chǔ)大模型的高效微調(diào) 543次閱讀
- 初識(shí)IBIS模型 1647次閱讀
- 從進(jìn)程模型轉(zhuǎn)換成線程模型的優(yōu)缺點(diǎn) 354次閱讀
- 基于預(yù)訓(xùn)練模型和語(yǔ)言增強(qiáng)的零樣本視覺(jué)學(xué)習(xí) 449次閱讀
- 基于文本到圖像模型的可控文本到視頻生成 801次閱讀
- Meta開(kāi)源文本如何生成音樂(lè)大模型 749次閱讀
- 大型語(yǔ)言模型能否捕捉到它們所處理和生成的文本中的語(yǔ)義信息 621次閱讀
- 摘要模型理解或捕獲輸入文本的要點(diǎn) 911次閱讀
- 基于文本驅(qū)動(dòng)的三維模型風(fēng)格化方法 6495次閱讀
- 基于VLP模型的語(yǔ)義對(duì)齊機(jī)制 973次閱讀
- 如何使用BERT模型進(jìn)行抽取式摘要 4652次閱讀
- 訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)模型,實(shí)現(xiàn)了根據(jù)基于文本分析預(yù)測(cè)葡萄酒質(zhì)量 5965次閱讀
- 如何使用TensorFlow Hub文本模塊構(gòu)建一個(gè)模型,以根據(jù)相關(guān)描述預(yù)測(cè)電影類型 3124次閱讀
- 一文詳解隱含狄利克雷分布(LDA) 1w次閱讀
下載排行
本周
- 1電子電路原理第七版PDF電子教材免費(fèi)下載
- 0.00 MB | 1489次下載 | 免費(fèi)
- 2單片機(jī)典型實(shí)例介紹
- 18.19 MB | 91次下載 | 1 積分
- 3S7-200PLC編程實(shí)例詳細(xì)資料
- 1.17 MB | 27次下載 | 1 積分
- 4筆記本電腦主板的元件識(shí)別和講解說(shuō)明
- 4.28 MB | 18次下載 | 4 積分
- 5開(kāi)關(guān)電源原理及各功能電路詳解
- 0.38 MB | 9次下載 | 免費(fèi)
- 6基于AT89C2051/4051單片機(jī)編程器的實(shí)驗(yàn)
- 0.11 MB | 4次下載 | 免費(fèi)
- 7基于單片機(jī)和 SG3525的程控開(kāi)關(guān)電源設(shè)計(jì)
- 0.23 MB | 3次下載 | 免費(fèi)
- 8基于單片機(jī)的紅外風(fēng)扇遙控
- 0.23 MB | 3次下載 | 免費(fèi)
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費(fèi)
- 2PADS 9.0 2009最新版 -下載
- 0.00 MB | 66304次下載 | 免費(fèi)
- 3protel99下載protel99軟件下載(中文版)
- 0.00 MB | 51209次下載 | 免費(fèi)
- 4LabView 8.0 專業(yè)版下載 (3CD完整版)
- 0.00 MB | 51043次下載 | 免費(fèi)
- 5555集成電路應(yīng)用800例(新編版)
- 0.00 MB | 33562次下載 | 免費(fèi)
- 6接口電路圖大全
- 未知 | 30319次下載 | 免費(fèi)
- 7Multisim 10下載Multisim 10 中文版
- 0.00 MB | 28588次下載 | 免費(fèi)
- 8開(kāi)關(guān)電源設(shè)計(jì)實(shí)例指南
- 未知 | 21539次下載 | 免費(fèi)
總榜
- 1matlab軟件下載入口
- 未知 | 935053次下載 | 免費(fèi)
- 2protel99se軟件下載(可英文版轉(zhuǎn)中文版)
- 78.1 MB | 537791次下載 | 免費(fèi)
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420026次下載 | 免費(fèi)
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費(fèi)
- 5Altium DXP2002下載入口
- 未知 | 233045次下載 | 免費(fèi)
- 6電路仿真軟件multisim 10.0免費(fèi)下載
- 340992 | 191183次下載 | 免費(fèi)
- 7十天學(xué)會(huì)AVR單片機(jī)與C語(yǔ)言視頻教程 下載
- 158M | 183277次下載 | 免費(fèi)
- 8proe5.0野火版下載(中文版免費(fèi)下載)
- 未知 | 138039次下載 | 免費(fèi)
評(píng)論
查看更多