0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

從文本(數(shù)據(jù))挖掘的角度去“探索”全唐詩

悟空智能科技 ? 來源:lq ? 2019-02-20 14:23 ? 次閱讀

近些年來,弘揚中華傳統(tǒng)文化的現(xiàn)象級綜藝節(jié)目不斷涌現(xiàn),如《中國漢字聽寫大會》、《中國成語大會》、《中國謎語大會》、《中國詩詞大會》等,其背后的社會成因,在于人們對中國文化中最精致文字的膜拜心理,雖然浸淫于層出不窮的網(wǎng)絡語匯,時時面臨“語言荒漠”的窘境,仍心向往之。

上述節(jié)目中,筆者最感興趣的還是《中國詩詞大會》---通過對詩詞知識的比拼及賞析,帶動全民重溫那些曾經(jīng)學過的古詩詞,分享詩詞之美,感受詩詞之趣,從古人的智慧和情懷中汲取營養(yǎng),涵養(yǎng)心靈。

由于在新浪微輿情從事的是語義分析產(chǎn)品方面的工作,平時用到很多文本挖掘的方法。所以,筆者想從文本(數(shù)據(jù))挖掘的角度去“探索”全唐詩,挑戰(zhàn)一些不同場景下(現(xiàn)代漢語和古漢語)文本處理和分析的異同點,錘煉自己的分析技能;但更想做的是,結(jié)合數(shù)據(jù)之美和詩歌之雅,用跨界思維去發(fā)現(xiàn)一些有趣的東西。

在這里,筆者分析的語料是《全唐詩》,它編校于清康熙四十四年(1705年),得詩四萬八千九百余首。

接下來,筆者將使用多種文本挖掘方法,來分析《全唐詩》。以下是本文的行文脈絡:

0 文本預處理

對于現(xiàn)代漢語的分詞,開源/免費的解決方案或工具很多,開源的解決方案如Jieba、HanLp、StanfordNLP和IKAnalyzer等,“傻瓜式”的免費操作工具的也有新浪微輿情的文本挖掘工具,如果直接采用這些現(xiàn)代漢語分詞工具對古詩詞進行分詞,結(jié)果會是這樣的:

然而,對于古漢語(文言文),尤其是詩詞的分詞處理可沒有這么簡單,因為單字詞占古漢語詞匯統(tǒng)計信息的80%以上,再加上古漢語微言大義,字字千鈞,所以針對現(xiàn)代漢語的分詞技術往往不適用于它。鑒于此種情況,筆者采取的是逐字切分的處理方式,同時去掉一些常見的虛詞,如“之”、“乎”、“者”、“也”。分詞和去停用詞處理如下所示:

經(jīng)過文本預處理后,就可以進行文本挖掘中最常規(guī)的分析---字頻統(tǒng)計,看看《全唐詩》中出現(xiàn)最多的字有哪些。

一、 字頻分析:唐詩常用高頻字分析

1.1

全局高頻字

首先,讓我們來看看去掉這些虛詞之后的全局高頻字有哪些,筆者這里展示的是TOP148?!叭恕弊峙判械谝唬@體現(xiàn)了《說文解字》里所講的“人,天地之性最貴者也”,說明唐詩很好的秉承了“以人為本”的中華文化。而后續(xù)的“山”、“風”、“月”、“日”、“天”、“云”、“春”等都是在寫景的詩句里經(jīng)常出現(xiàn)的意象。

1.2

典型意象分析

所謂“意象”,就是客觀物象經(jīng)過創(chuàng)作主體獨特的情感活動而創(chuàng)造出來的一種藝術形象。簡單地說,意象就是寓“意”之“象”,就是用來寄托主觀情思的客觀物象。在比較文學中,意象的名詞解釋是---所謂“意象”簡單說來,可以說就是主觀的“意”和客觀的“象”的結(jié)合,也就是融入詩人思想感情的“物象”,是賦有某種特殊含義和文學意味的具體形象。簡單地說就是借物抒情。

比如,“月”這個古詩詞里常見的意象,就有如下內(nèi)涵:

表達思鄉(xiāng)、思親念友之情,暗寓羈旅情懷,寂寞孤獨之感;

歷史的見證今昔滄桑感;

冷寂、凄清的感覺;

清新感。

筆者在這里挑選的意象是關于季節(jié)和顏色的。

物轉(zhuǎn)星移幾度秋---《全唐詩》中的季節(jié)

統(tǒng)計“春”、“夏/暑”、“秋”、“冬”這4個字在《全唐詩》中出現(xiàn)的頻次,“春”字排行榜首,“秋”字列第2位,“夏”和“冬”出現(xiàn)的頻次則要少1個量級,在唐詩里,傷春、惜春是常見的春詩題材,代表性的作品有朱淑真《賞春》、杜甫《麗春》、韓愈《春雪》、張若虛《春江花月夜》等。也難怪,在商代和西周前期,一年只分為春秋二時,后世也常以春秋作為一年的代稱,約定俗成,由來已久,這兩個字的使用頻率很高也就不足為奇了。

萬紫千紅一片綠---《全唐詩》中的色彩

筆者在這里找了51個古語中常用的顏色的單字(注意是古漢語語境中的顏色稱謂),其中以紅色系(紅、丹、朱、赤、絳等)、黑色系(暗、玄、烏、冥、墨等)、綠色系(綠、碧、翠、蒼等)及白色系(白、素、皎、皓等)為主,這些顏色及其對應的字頻如下表所示:

這里面“白”字的字頻最高,本意是“日出與日落之間的天色”,筆者常見的有“白發(fā)”、“白云”、“白雪”,常渲染出一種韶華易逝、悲涼的氣氛,名句如“白頭搔更短,渾欲不勝簪”、“白雪卻嫌春色晚,故穿庭樹作飛花”、“君不見,高堂明鏡悲白發(fā),朝如青絲暮成雪”、“白云一片去悠悠,青楓浦上不勝愁”。

將上述主要的色系綜合統(tǒng)計一下,得到下面的環(huán)形占比圖:

其中,綠色系的占比居多,“綠”“碧”“蒼”“翠”等大都用于寫景,“綠樹”、“碧水”、“蒼松”、“翠柳”等,這些高頻字從側(cè)面反映出全唐詩中描寫景物、寄情山水的詩句占比很大,透露出平靜、清新和閑適之感。

二、 詞匯探測:唐詩中的常用雙字詞發(fā)現(xiàn)

剛才筆者分析的是單字,而漢語的語素大都是由單音節(jié)(字)表示,即所謂的“一音一義”。當這些單音節(jié)語素,能夠獨立應用的話,就是詞。古漢語中存在著許多單音節(jié)詞,這也就是文言文翻譯中要經(jīng)常把一個字翻譯成現(xiàn)代漢語中的雙音節(jié)詞的原因。

然而,有些單音節(jié)語素,不能夠獨立使用,就不是詞,只能夠是語素,如“第-“、”躊-“、”- 們“。

鑒于此,筆者想發(fā)現(xiàn)一些唐詩中的常用雙字詞,看看其中的成詞規(guī)律是怎樣的。筆者在這里選取共現(xiàn)次數(shù)超過10次的詞匯,并列出TOP200的共現(xiàn)雙字詞。關鍵操作步驟如下所示:

以下是TOP200的共現(xiàn)雙字詞:

從上面的雙詞探測結(jié)果中,筆者可以發(fā)現(xiàn)如下6類成詞規(guī)律:

(1)復合式(A+B等于C):由兩個字組成,這兩個字分別代表意義,組成雙音節(jié)的詞,這類詞出現(xiàn)的頻次最多。比如,弟兄、砧杵、紀綱、捐軀、巡狩、犬吠。

(2)重疊式(AA等于A):瑯瑯、肅肅、忻忻、灼灼。

(3)疊音(AA不等于A):瑯瑯(單獨拆開不能組其他詞)、的的(拆開后的單字的詞義不同)等。

(4)雙聲(聲母相同):躊躇(聲母都是c,分開各自無法組詞)、參差(聲母都是c)、緬邈(聲母都是m)。

(5)疊韻(韻母相同):噫嘻(韻母是i)、繚繞(韻母是ao)、妖嬈(韻母是ao)等。

(6)雙音節(jié)擬聲詞:歔欷、咿啞等。

三、語義網(wǎng)絡分析:發(fā)現(xiàn)唐詩中的常用“字眼”

在這一部分,筆者抽取的是上述高頻字TOP148中的字的共現(xiàn)關系,詳細的原理介紹請參考筆者之前所寫的博文《以虎嗅網(wǎng)4W+文章的文本挖掘為例,展現(xiàn)數(shù)據(jù)分析的一整套流程》、《以<大秦帝國之崛起>為例,來談大數(shù)據(jù)輿情分析和文本挖掘》。

可以看到,上述的語義網(wǎng)絡可以分為3個簇群,即橙系、紫系和綠系,TOP148高頻字中,字體清晰可見字的近40個。圓圈的大小表示該字在語義網(wǎng)絡中的影響力大小,也就是“Betweenness Centrality(中介核心性),”學術的說法是“兩個非鄰接的成員間的相互作用依賴于網(wǎng)絡中的其他成員,特別是位于兩成員之間路徑上的那些成員,他們對這兩個非鄰接成員的相互作用具有某種控制和制約作用”。在詩句中,這些字常以“字眼”的形式呈現(xiàn),也就是詩文中精要的字。3類中:

橙系:北、流、馬、草、閑、孤、逢、云等;

紫系:游、樹、雨、回、笑、言、幽、清、白、野、行等

綠系:知、金、柳、難、愁、舊、仙、望、客。

其中,根據(jù)字的構(gòu)成來看,綠系簇群中的字大多跟送別(好友)有關。

四、 字向量分析:基于的Word2vec的關聯(lián)字分析

因為之前的文本預處理是按字來切分的,所以這里進行的是基于Word2vec的字向量分析。

基于Word2vec的字向量能從大量未標注的普通文本數(shù)據(jù)中無監(jiān)督地學習到字向量,而且這些字向量包含了字與字之間的語義關系,正如現(xiàn)實世界中的“物以類聚,類以群分”一樣,字可以由它們身邊的字來定義。

從原理上講,基于字嵌入的Word2vec是指把一個維數(shù)為所有字的數(shù)量的高維空間嵌入到一個維數(shù)低得多的連續(xù)向量空間中,每個單字被映射為實數(shù)域上的向量。把每個單字變成一個向量,目的還是為了方便計算,比如“求單字A的同義字”,就可以通過“求與單字A在cos距離下最相似的向量”來做到。相關案例可參看《作為一個合格的“增長黑客”,你還得重視外部數(shù)據(jù)的分析!》。下面是基于Word2vec的字向量模型原理示意圖。

下面,筆者選取一些單字進行字向量關聯(lián)分析,展示如下:

與“梅”相關的字,大致分為兩類:同屬植物,如醾、杏、梨、桃、榴、楊、柳、楝等;和“梅”相關的意象,如春(梅)、酴(酒)、(梅)花、(梅)枝、殘(梅)、(梅)梢等。最相關的是“春”,吟詠春梅,在唐詩中極為常見,賢相宋璟在東川官舍見梅花怒放于榛莽中,歸而有感,作《梅花賦》,其中,"獨步早春,自全其天",贊賞梅花在早春中一枝獨秀,自己安于凌寒而開的天命。

“靜”字則跟它的同音字“凈(連帶繁體,一共出現(xiàn)三次,即“凈”、“淨”和“凈”)”的相關度最大,結(jié)合“坐”、“院”“梵”等字,可聯(lián)想到“凈院”(佛寺,亦稱“凈宇”)、凈覺(謂心無妄念,對境不迷),這也說明,在唐詩里最能體現(xiàn)靜的,還是在寺廟里參禪,感悟佛法。

筆者還想看看唐詩里經(jīng)常出現(xiàn)的情緒,即“悲”、“憂”、“愁”、“怒”、“懼”,看看它們的相關字有哪些。這里就請讀者自行分析,筆者不做贅述。

注意,在這里得到的情緒相關字,筆者將收集整理它們,制成情緒詞典,用于后面的詩詞情緒分類。

五、 多維情緒分析:發(fā)現(xiàn)唐詩中的“七情”

王國維在《人間詞話》里曾提到:“境非獨謂景物也,喜怒哀樂,亦人心中之一境界。故能寫真景物、真感情者,謂之有境界…”,講的是"境"與"境界"通用---寫景亦可成境界,言情亦可成境界,因為景物是外在的世界,情感是內(nèi)在的世界。所以,在這里,筆者想分析一下全唐詩中詩詞所表達出來的內(nèi)在境界,也就是內(nèi)在情感,為了豐富分析維度,不采用簡單的二元分析,即“積極”和“消極”2種情緒,而是7種細顆粒的情緒分類,即悲、懼、樂、怒、思、喜、憂。

根據(jù)上面獲取到的字向量,經(jīng)過人工遴選后,得到可以用于訓練的“情緒字典”,根據(jù)詩歌中常見的主題類別,情緒類別分為:

悲:愁、慟、痛、寡、哀、傷、嗟…

懼:讒、謗、患、罪、詐、懼、誣…

樂:悅、欣、樂、怡、洽、暢、愉…

怒:怒、雷、吼、霆、霹、猛、轟…

思:思、憶、懷、恨、吟、逢、期…

喜:喜、健、倩、賀、好、良、善…

憂:恤、憂、痾、慮、艱、遑、厄…

筆者在這里采用的是基于LSTM(LongShort-Term Memory,長短期記憶網(wǎng)絡)的情緒分析模型。

在這里,我們會將文本傳遞給嵌入層(Embedding Layer),因為有數(shù)以萬計的字詞,所以我們需要比單編碼向量(One-Hot Encoded Vectors)更有效的表示來輸入數(shù)據(jù)。這里,筆者將使用上面訓練得到的Word2vec字向量模型,用預先訓練的詞嵌入(Word Embedding)來引入的外部語義信息,做遷移學習(Transfer Learning)。

以下是簡要原理展示圖:

為了取得更好的效果,筆者采用最新的NestedLSTM+Conv1D的深度學習模型來做情緒判斷,它能較好的提煉文本里的特征和語序信息,記住更長的語義依賴關系,做出較為精確的情緒判斷。其網(wǎng)絡結(jié)構(gòu)如下所示:

接著,來試試實際的效果:

筆者隨機測試了100句,判斷準確的有86條,粗略的準確率估計是86%。當然,這只是一次不太嚴謹?shù)男L試,在真實的業(yè)務場景里,這得花很多時間來做優(yōu)化,提高模型的準確率。

下面是對《全唐詩》近5萬首詩的情緒分析結(jié)果,展示如下:

可能出乎很多人的意料,代表大唐氣象的唐詩應該以積極昂揚的情緒為主,怎么會是“悲”、“思”、“憂”這樣的情緒占據(jù)主流呢?而“喜”、“樂”這樣的情緒卻占據(jù)末流呢?

接下來,筆者著重來分析下“悲”這個情緒占據(jù)主流的原因。

從常見的唐詩寫作題材上說,帶有“悲”字基調(diào)的唐詩較多,也多出名詩佳句,比如唐詩中常見的幾種情結(jié),如”悲秋情結(jié)“、”別離情結(jié)“、”薄暮情結(jié)“和”悲怨情結(jié)“,都體現(xiàn)出濃重的“悲情”色彩。

古人云:“悲憤出詩人”,它點破了人的成就與所處的環(huán)境、心境有某種關系。就像司馬遷所說:“夫《詩》、《書》隱約者,欲遂其志之思也。昔西伯拘羑里,演《周易》;孔子厄陳、蔡,作《春秋》…大抵賢圣發(fā)憤之所為作也。此人皆意有所郁結(jié),不得通其道也…”回顧古今中外的著名的詩人和作家,幾乎無一不是曾有一段被排擠,誹謗,不得志和身處逆境之經(jīng)歷,有些甚至還很悲慘。正是在這種悲難,惡劣環(huán)境中,才使得其奮發(fā)圖強。

重要的是,唐詩中的“悲”不僅僅是做“兒女態(tài)”的悲,更是具有超越時空、憐憫蒼生以及同情至美愛情的大慈大悲。如下:

陳子昂的《登幽州臺歌》,“前不見古人,后不見來者。念天地之悠悠,獨愴然而涕下?!睆臅r間與空間兩個角度把悲涼拉長了。

李白的《將進酒》中“君不見明鏡高堂悲白發(fā),朝如青絲暮成雪”,以及《夢游天姥吟留別》中“世間行樂亦如此,古來萬事東流水”讓人唏噓!還有《長相思》第一首中“天長路遠魂飛苦,夢魂不到關山難。長相思,摧心肝。”

杜甫的《登高》中“無邊落木蕭蕭下,不盡長江滾滾來。萬里悲秋常作客,百年多病獨登臺。”老病殘軀,孤苦無依獨登臺,心中悲涼陡然而生?!妒纠簟分小袄蠇灹﹄m衰,請從吏夜歸。急應河陽役,猶得備晨炊”等句語言樸實,但極具張力!

白居易的《長恨歌》末尾“七月七日長生殿,夜半無人私語時。在天愿作比翼鳥,在地愿為連理枝。天長地久有時盡,此恨綿綿無絕期?!毕鄲鄱荒芟嗑郏肋z恨,沒有盡頭!

六、 詩歌生成:用深度循環(huán)神經(jīng)網(wǎng)絡自動寫唐詩

與上面情緒分析模型采用的內(nèi)部原理一致,這里采用的還是LSTM,2層網(wǎng)絡。

上圖是文本生成的簡要原理圖,是基于字符(字母和標點符號等單個字符串,以下統(tǒng)稱為字符)進行模型構(gòu)建,也就是說我們的輸入和輸出都是字符。舉個栗子,假如我們有一個一句詩“胸中穩(wěn)處即吾鄉(xiāng)”,我們想要基于這句詩來構(gòu)建LSTM,那么希望的到的結(jié)果是,輸入“胸”,預測下一個字符為“中”;輸入“中”時,預測下一個字符為“穩(wěn)”…輸入“吾”,預測下一個字符為“鄉(xiāng)”,等等。

由于其中的原理過于繁復,涉及大量的code和數(shù)學公式,故筆者僅展示生成的結(jié)果,訓練的語料即經(jīng)過預處理的《全唐詩》。

以“春雨”打頭,生成500字的詩詞,結(jié)果如下:

可以看見,其中的詩詞大都圍繞著“春”來展開,也就是打頭的兩個字引導了后續(xù)結(jié)果的生成,這多虧了LSTM超強的“記憶能力”---記住了詩歌文本序列中的時空依賴關系。

在生成的詩句中,某些詩句還是蠻有意思的,上下聯(lián)間的意象有很強的相關性。

下面是多次生成中產(chǎn)生的較優(yōu)秀的詩句(當然,這是筆者認為的),其中有些學習到了高階的對仗技巧,如下:

白鷺驚孤島,朱旗出晚流。

筆者最喜歡的是這兩句,它們對仗工整:“白鷺”-“朱旗”,“孤島”-“晚流”,“驚”-“出”。這里體現(xiàn)出《人間詞話》中的“無我之境”:“無我之境,以物觀物,故不知何者為我,何者為物”,也就是意境交融、物我一體的優(yōu)美境界,其中的“驚”、“出”堪稱字眼,極具動感,煉字絕妙!

七、 相似文本檢索:用WMD查找相似詩詞

最后,我們來看看詩歌的信息檢索問題,也就是筆者隨意輸入一句詩詞,然后機器會按照語義相似度在《全唐詩》中檢索出若干句符合要求的詩詞。

談到這里,筆者不由得想起一個詞---“射覆”,射覆游戲早期的耍法主要是制謎猜謎和用盆盂碗等把某物件事先隱藏遮蓋起來,讓人猜度。這兩種耍法都是比較直接的。后來,在此基礎上又產(chǎn)生了一種間接曲折的語言文字形式的射覆游戲,其法是用相連字句隱寓事物,令人猜度,若射者猜不出或猜錯以及覆者誤判射者的猜度時,都要罰酒。唐浩明的長篇小說《張之洞》中有對射覆游戲的精彩描寫:

寶竹坡突然對大家說,我有一覆,諸位誰可射中。不帶大家做聲,他立刻說,《左傳》曰:伯姬歸于宋。射唐人詩一句。大家都低頭想。

...

張之洞不慌不忙地念著,白居易詩曰:老大嫁作商人婦。

如果對古文生疏,大家可能很難將這兩句聯(lián)想起來,但《張之洞》里接下來就有關于解謎的描述:

楊銳道:“伯、仲、叔、季,這是中國兄弟姊妹得排行序列。伯姬是魯國的長公主,排行老大。周公平定武庚叛亂后,把商舊都周圍地區(qū)封給商紂王的庶子啟,定國名為宋,故宋國為商人后裔聚族之地。伯姬嫁到宋國,不正是'老大嫁作商人婦'嗎?”

大家可能會想,如果是自己來思索的話,不僅需要自己具備淵博的學識,更要有疾如閃電的反應能力,這個非極頂聰明之人不可!

試想,機器來做,可以做好嗎?能的話,又會是如何操作?

這里,筆者介紹基于WMD(Earth Mover’s Distance)的語義相似度算法,與上面的情緒分析類似,還有用到之前訓練得到的字向量模型,借助外部語義信息來應對同義不同字的情形。

WMD(EarthMover’s Distance)是一種能使機器以有意義的方式(結(jié)合文本的語義特征)評估兩個文本之間的“距離(也就是文本間的相似度)”的方法,即使二者沒有包含共同的詞匯。它使用基于word2vec的詞向量,已被證明超越了k-近鄰分類中的許多現(xiàn)有技術方法。以下是基于WMD的“射覆”的機器解:

上面兩個句子沒有共同的詞匯,但通過匹配相關單字,WMD能夠準確地測量兩個句子之間的(非)相似性。該方法還使用了基于詞袋模型的文本表示方法(簡單地說,就是詞匯在文本中的頻率),如下圖所示。該方法的直覺是最小化2段文本間的“旅行距離(traveling distance)”,換句話說,該方法是將文檔A的分布“移動”到文檔B分布的最有效方式。

簡要的解釋了相關原理后,筆者緊接著展現(xiàn)最后的分析效果。由于對《妖貓傳》中的那首線索式的《清平樂》印象深刻,筆者讓機器在《全唐詩》+《全宋詞》中查找與它相關性最大的TOP9詩詞。結(jié)果如下:

查找的結(jié)果排行第一的是原句,但有一個字不同(其實古語中“花”、“華”互通,華字的繁體是會意字,本意是“花”),略微差異導致相似度不為1.0。第二相似的是一首宋詞,林正大的《括酹江月(七)》,其實這整首詞可以作為李白《清平樂》的注解,因為全篇都是對它的化用:即將《清平樂》中的句、段化解開來,增加了新的聯(lián)想,重新組合,靈活運用,對原詩的表達進行了情感上的升華。隨后的兩句詩詞也是類似的情況,只是相似度上略有差異罷了。

緊接著,是剛才機器生成的詩句,看看與它內(nèi)涵相近的詩句有哪些:

再看看筆者較為欣賞的2句名句,機器很好的捕捉到了它們之間的相似語義關系,即使詞匯不盡相同,但仍能從語義上檢索相似詩句。

寫到這里,關于《全唐詩》單獨的文本挖掘已經(jīng)完成,但筆者又想到一個有趣的分析維度---從文本挖掘的角度來比較《全唐詩》、《全宋詞》和《全元曲》之間用字的差異,借助字這種基本符號來分析各自的文學藝術特征。

八、 文本對比:用Semiotic Squares比較《全唐詩》、《全宋詞》和《全元曲》

因為分析的對象涉及3個,常規(guī)的二元對比分析方法難以得出有效的結(jié)論。因此,筆者在這里跨界采用來自符號學領域的研究成果---Semiotic Squares。

“Semiotic Squares(筆者譯作‘符號方塊’)”,是由知名符號學大師Greimas和Rastier發(fā)明,是一種提煉式的對比分析(Oppositional Analyses)方法,通過將給定的兩個相反的概念/事例(如“生命(Life)”和“死亡(Death)”)的分析類型(通過‘或’、‘與’、‘非’的邏輯)拓展到4類(如“生命(Life)”、“死亡(Death)”、“生死相間(也就是活死人,The Living Dead)”、“非生非死(天使,Angels)”,有時還可以拓展到8個或10個分析維度。以下是符號方塊的結(jié)構(gòu)示意圖:

說明:“+”符號將2個詞項組合成一個“元詞項(Metaterm)”(復合詞,Compound Term),例如,5是1和2的復合結(jié)果。

Semiotic Squares的構(gòu)成要素

Semiotic Squares主要包含以下2種元素(我們正在避開方塊的組成關系:對立,矛盾、互補或包含):

(1)詞項(Terms):

Semiotic Square由4個詞項組成::

位置1(Term 1):詞項A(Term A)

位置2(Term 2):詞項B(Term B)

位置3 (Term Not-2):非B詞項(Term Not-B)

位置4 (Term Not-1):非A詞項(Term Not-A)

Term A和TermB是相反的兩個概念,二者是對立關系,這是“符號方塊”的基礎,另外兩項是通過對Term A和Term B取反而獲得。

(2)元詞項(Metaterms)

Semiotic Square囊括6個元詞項。這些元詞項由上面的4個基礎詞項組合而成,其中的絕大部分元詞項已被命名。

位置5 (Term 1 + Term 2):復合詞項(Complex Term)

位置6 (Term 3 + Term 4):中立詞項(Neutral Term)

位置7 (Term 1 + Term 3):正向系(Positive Deixis)

位置8 (Term 2 + Term 4):負向系(Negative Deixis)

位置9(Term 1 + Term 4):未命名(Unnamed)

位置10(Term 2 + Term 3):未命名(Unnamed)

下面以“男性”和“女性”這兩個相對的概念來舉個例子,注意其中錯綜復雜的邏輯關系/類型。

說完了分析的大致原理,筆者這里就來實戰(zhàn)一番,與上述原始模型不同的是,筆者在這里除了基本的二元對立分析外,還新增了一個分析維度,總體是關于《全唐詩》、《全宋詞》和《全元曲》的三元文本對比分析。

預處理前的文本是這樣的:

預處理后是這樣的形式:

用Semiotic Squares進行分析的結(jié)果如下圖所示(點擊即可放大顯示):

從上面呈現(xiàn)的TOP10高頻字和象限區(qū)塊(左上角“唐詩”、右上角“宋詞”和正下方“元曲”)來看,唐詩、宋詞、元曲中出現(xiàn)的獨有高頻字依次是:

唐詩:唯、馀、始、鳥、含、爾、昔、茲、忽、棲、川、旌、戎、秦…

宋詞:闌、沈、匆、簾、濃、約、淡、觴、蕊、屏、凝、笙、瑤、柔…

元曲:哥、俺、咱、孩、姐、吃、哩、科、廝、拿、你、叫、呀、呵…

從上面的關鍵字來看,唐詩、宋詞和元曲各自的特征很鮮明:

唐詩:用字清澹高華、含蓄,詩味較濃,寄情山水和金戈鐵馬的特征明顯,可以聯(lián)想到唐詩流派中典型的山水田園派和盛唐邊塞詩,它們大都反映大唐詩人志趣高遠、投效報國的情懷。

宋詞:所用的字體現(xiàn)出婉約、宛轉(zhuǎn)柔美,表現(xiàn)的多是兒女情長,生活點滴,這也難怪,由于長期以來詞多趨于宛轉(zhuǎn)柔美,人們便形成了以婉約為正宗的觀念。

元曲:所用的字生活氣息濃重,通俗易懂、接地氣、詼諧、灑脫和率真,充分反映了其民間戲曲的特征,這與蒙元治下的漢族知識分子被打壓,很多文人郁郁不得志、轉(zhuǎn)入到民間戲曲的創(chuàng)作中來有關。

此外,正上方的“復合”中,表征的是三者皆常用的字,即共性特征,主要涉及寫景(如“晴”、“幽”、“溪”、“洲”、“霜”、“浦”、“露”、“碧”、“帆”、“峰”等)和抒情(等“悵”、“憶”、“寂”、“悠”等)。

下方的兩個象限,“Not唐詩”和“Not宋詞”分別代表的“宋詞+元曲”、“唐詩+元曲”,三者之二的共性高頻字,中的兩項也以此類推,筆者在這里就不贅述了,請讀者朋友們親自去挖掘里面的玄妙吧。

結(jié)語

筆者非專業(yè)的詩歌研究者,上面的分析也未必準確,如果有分析不恰當?shù)牡胤剑€請扶正。但是,筆者是想通過分析唐詩,來說下自己對于文本(數(shù)據(jù))挖掘的看法:

在數(shù)據(jù)分析中,得出的數(shù)據(jù)結(jié)果只是“引子”和“線索”,最重要的還是要靠人腦去分析結(jié)果,借助所掌握的背景/業(yè)務知識和分析模型,從文本的表層鉆取到其深層,去發(fā)現(xiàn)那些不能為淺層閱讀所把握的深層意義,挖掘其價值。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡

    關注

    42

    文章

    4717

    瀏覽量

    100018
  • 文本
    +關注

    關注

    0

    文章

    118

    瀏覽量

    17031
  • 深度學習
    +關注

    關注

    73

    文章

    5422

    瀏覽量

    120593

原文標題:大數(shù)據(jù)分析5萬首《全唐詩》,發(fā)現(xiàn)了這些秘密

文章出處:【微信號:WUKOOAI,微信公眾號:悟空智能科技】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于網(wǎng)絡共識的股票價格行為數(shù)據(jù)挖掘(英文

    的復雜性,急需從不同角度將各方面知識綜合利用。本文提出了股票價格充分融合網(wǎng)絡共識的策略,構(gòu)建了基于網(wǎng)絡共識的股票價格行為數(shù)據(jù)挖掘平臺。交易系統(tǒng)實時采集股票交易價格
    發(fā)表于 04-24 09:56

    NLPIR大數(shù)據(jù)KGB知識圖譜引擎智能挖掘各行數(shù)據(jù)

    數(shù)據(jù)語義智能分析技術是對語法、詞法和語義的綜合應用。NLPIR大數(shù)據(jù)語義智能分析平臺平臺是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡精準采集、自然語言理解、
    發(fā)表于 11-02 14:08

    NLPIR-Parser大數(shù)據(jù)技術實現(xiàn)深度文本語義理解

    組成部分,人們?nèi)粘9ぷ骱蜕钪薪佑|最多的電子文檔也是以文本的形式存在。海量文本數(shù)據(jù)挖掘有價值的信息、知識,一直都是學術界研究的熱點問題,但是文本
    發(fā)表于 12-18 11:58

    靈玖軟件:NLPIR智能挖掘系統(tǒng)專注中文處理

    和氣象學。大數(shù)據(jù)提出了數(shù)據(jù)庫和數(shù)據(jù)分析研究了隆重的挑戰(zhàn)。應對大數(shù)據(jù)的挑戰(zhàn),文本處理是不可或缺的一部分。大
    發(fā)表于 01-21 11:39

    NLPIR平臺實現(xiàn)文本挖掘的一站式應用

    的工具。語義智能分析的全鏈條指的是語料數(shù)據(jù)的采集預處理,經(jīng)過自然語言處理 到文本挖掘,信息檢索再到可視化呈現(xiàn)和導出以便適合于不同人員的使用需求的 全部處理過程。
    發(fā)表于 11-07 16:43

    數(shù)據(jù)分析與挖掘實戰(zhàn)》總結(jié)及代碼---chap3數(shù)據(jù)探索

    數(shù)據(jù)分析與挖掘實戰(zhàn)》總結(jié)及代碼練習---chap3 數(shù)據(jù)探索
    發(fā)表于 05-25 13:25

    Web文本表示及其分類研究

    Web 文本挖掘是Web 數(shù)據(jù)挖掘的一個重要研究領域。文本挖掘的主要方法是
    發(fā)表于 08-28 10:31 ?4次下載

    電網(wǎng)缺陷文本挖掘技術及其應用

    文本句子成分難以劃分、數(shù)字量無法精確提取等問題,為電網(wǎng)領域的非結(jié)構(gòu)化數(shù)據(jù)挖掘提供了新技術。首先在建立本體詞庫基礎上,對缺陷文本進行分詞、詞匯特征提取等預處理;然后定義了電力語義框架與語
    發(fā)表于 01-12 13:55 ?5次下載
    電網(wǎng)缺陷<b class='flag-5'>文本</b><b class='flag-5'>挖掘</b>技術及其應用

    文本數(shù)據(jù)分析:文本挖掘還是自然語言處理?

    自然語言處理(NLP)關注的是人類的自然語言與計算機設備之間的相互關系。NLP是計算機語言學的重要方面之一,它同樣也屬于計算機科學和人工智能領域。而文本挖掘和NLP的存在領域類似,它關注的是識別文本數(shù)據(jù)中有趣并且重要的模式。
    的頭像 發(fā)表于 04-10 14:58 ?1.8w次閱讀
    <b class='flag-5'>文本數(shù)據(jù)</b>分析:<b class='flag-5'>文本</b><b class='flag-5'>挖掘</b>還是自然語言處理?

    如何使用狄利克雷多項分配模型進行多源文本主題挖掘模型

    隨著文本數(shù)據(jù)來源渠道越來越豐富,面向多源文本數(shù)據(jù)進行主題挖掘已成為文本挖掘領域的研究重點。由于傳統(tǒng)主題模型主要面向單源
    發(fā)表于 11-27 17:30 ?4次下載
    如何使用狄利克雷多項分配模型進行多源<b class='flag-5'>文本</b>主題<b class='flag-5'>挖掘</b>模型

    用多種文本挖掘方法,來分析《全唐詩

    首先,讓我們來看看去掉這些虛詞之后的全局高頻字有哪些,筆者這里展示的是TOP148。“人”字排行第一,這體現(xiàn)了《說文解字》里所講的“人,天地之性最貴者也”,說明唐詩很好的秉承了“以人為本”的中華文化。而后續(xù)的“山”、“風”、“月”、“日”、“天”、“云”、“春”等都是在寫景的詩句里經(jīng)常出現(xiàn)的意象。
    的頭像 發(fā)表于 03-11 16:53 ?3182次閱讀
    用多種<b class='flag-5'>文本</b><b class='flag-5'>挖掘</b>方法,來分析《<b class='flag-5'>全唐詩</b>》

    基于數(shù)據(jù)挖掘的核醫(yī)學文本關聯(lián)規(guī)則挖掘方法

    的信息。為準確提取SPECT核醫(yī)學骨顯像診斷文本中疾病與其表征之間的關聯(lián)關系,硏究并提岀基于數(shù)據(jù)挖掘的核醫(yī)學文本關聯(lián)規(guī)則挖掘方法。首先,針對
    發(fā)表于 04-28 15:39 ?4次下載
    基于<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>挖掘</b>的核醫(yī)學<b class='flag-5'>文本</b>關聯(lián)規(guī)則<b class='flag-5'>挖掘</b>方法

    基于協(xié)同訓練的電商領域文本短語挖掘方法

    文本中的反序表達,構(gòu)建協(xié)同訓練的短語挖掘框架,以降低領域語料中標注訓練數(shù)據(jù)的成本,在此基礎上,利用 Stacking方法集成統(tǒng)計模型和語義模型的優(yōu)點,提升模型整體挖掘性能。在淘寶網(wǎng)查詢
    發(fā)表于 05-13 15:01 ?0次下載

    基于文本挖掘和決策樹的中國手游產(chǎn)業(yè)分析

    針對中國傳統(tǒng)的手游產(chǎn)業(yè)發(fā)展存在主題識別不精準,缺乏利用數(shù)據(jù)挖掘和可視化分析方法等問題,文中提出了一種基于文本挖掘和決策樹( Desision tree)分析的中國手游產(chǎn)業(yè)發(fā)展研究方法,
    發(fā)表于 06-17 16:16 ?4次下載

    文本挖掘之概率主題模型綜述

    文本挖掘之概率主題模型綜述
    發(fā)表于 06-24 14:16 ?16次下載