程式設計師眼中的《全唐詩》,竟然是這樣的

一部《全唐詩》裡有四萬多首詩,也許窮盡我們一生都無法全部讀完,不過,在這個大資料時代,有人發明了《全唐詩》的另類讀法。即用資料分析的角度來看《全唐詩》。

當《全唐詩》遇上“大資料”,結果會怎樣呢?

《全唐詩》中出現頻率最高的字:人

對《全唐詩》採取逐字切分的處理方式,同時去掉一些常見的虛詞,如“之乎者也”。經過文字預處理後,就可以進行文字挖掘中最常規的分析——字頻統計。

出人意料的是,《全唐詩》中出現最多的不是風花雪月,而是“人”。

李白有很多故人,他說“故人西辭黃鶴樓”

杜甫感嘆著人生,他寫“人生有情淚沾臆”

白居易愛管人間之事,他願“天上人間會相見”

“人”,是唐詩的魂魄

程式設計師眼中的《全唐詩》,竟然是這樣的

《全唐詩》中最常見的148個字排名如下:

程式設計師眼中的《全唐詩》,竟然是這樣的

《全唐詩》中出現最多的季節:春

這個,你可能已經猜到了吧

春天萬物生髮,確實讓人有寫詩的慾望

看見山山水水,別猶豫,寫一首

看見花花草草,別客氣,寫一首

看見春遊的美人,那更是要寫一首的

春,是唐詩的夢幻

程式設計師眼中的《全唐詩》,竟然是這樣的

《全唐詩》中出現最多的顏色:綠、白

找了51個古語中常用的顏色的單字

注意是古漢語語境中的顏色稱謂

主要的色系有——

紅色系(紅、丹、朱、赤、絳等)

黑色系(暗、玄、烏、冥、墨等)

綠色系(綠、碧、翠、蒼等)

白色系(白、素、皎、皓等)

這些顏色及其對應的字頻如下表所示:

程式設計師眼中的《全唐詩》,竟然是這樣的

這裡面“白”字的字頻最高

本意是“日出與日落之間的天色”

常見的有“白髮”“白雲”“白雪”

常渲染出一種韶華易逝、悲涼的氣氛

“白髮三千丈,緣愁似個長。”

“乘興輕舟無近遠,白雲明月吊湘娥。”

“居延城外獵天驕,白草連天野火燒。”

將上述主要的色系綜合統計一下

得到下面的環形佔比圖:

程式設計師眼中的《全唐詩》,竟然是這樣的

在《全唐詩》的色譜上,出現最多的色系是綠色系

“綠樹”“碧水”“蒼松”“翠柳”

這些高頻字從側面反映出全唐詩中描寫景物、寄情山水的詩句佔比很大,透露出平靜、清新和閒適之感。

《全唐詩》中的綠色,

是“綠樹村邊合,青山郭外斜”

是“客路青山外,行舟綠水前”

綠得自然,綠得愜意

白,綠,是唐詩的基準色

《全唐詩》中出現最多的雙字詞

漢語的語素大都是由單音節(字)表示,即所謂的“一音一義”。當這些單音節語素,能夠獨立應用的話,就是詞。古漢語中存在著許多單音節詞,這也就是文言文翻譯中要經常把一個字翻譯成現代漢語中雙音節詞的原因。

有些單音節語素,不能夠獨立使用,就不是詞,只能夠是語素,如“第~“、”躊~“、”-~們“。唐詩中的常用雙字詞都有哪些呢?

程式設計師眼中的《全唐詩》,竟然是這樣的

經過程式猿小哥哥的神秘運算,

以下是TOP200的共現雙字詞:

程式設計師眼中的《全唐詩》,竟然是這樣的

從上面的雙詞探測結果中,可以發現如下6類成詞規律:

(1)複合式(A+B等於C):由兩個字組成,這兩個字分別代表意義,組成雙音節的詞,這類詞出現的頻次最多。比如,弟兄、砧杵、紀綱、捐軀、巡狩、犬吠。

(2)重疊式(AA等於A): 琅琅、肅肅、忻忻、灼灼。

(3)疊音(AA不等於A):琅琅(單獨拆開不能組其他詞)、的的(拆開後的單字的詞義不同)等。

(4)雙聲(聲母相同): 躊躇(聲母都是c,分開各自無法組詞)、參差(聲母都是c)、緬邈(聲母都是m)。

(5)疊韻(韻母相同):噫嘻(韻母是i)、繚繞(韻母是ao)、妖嬈(韻母是ao)等。

(6)雙音節擬聲詞:歔欷、咿啞等。

《全唐詩》中最重要的字眼是什麼?

程式設計師眼中的《全唐詩》,竟然是這樣的

選取高頻字的TOP148抽取共現關係,可以看到,上述的語義網路可以分為3個簇群,即橙系、紫系和綠系,TOP148高頻字中,字型清晰可見字的近40個。圓圈的大小表示該字在語義網路中的影響力大小,在詩句中,這些字常以“字眼”的形式呈現,也就是詩文中精要的字。

橙系:北、流、馬、草、閒、孤、逢、雲等;

紫系:遊、樹、雨、回、笑、言、幽、清、白、野、行等

綠系:知、金、柳、難、愁、舊、仙、望、客。

其中,根據字的構成來看,綠系簇群中的字大多跟送別(好友)有關。

唐詩中出現最多的感情:悲

程式設計師眼中的《全唐詩》,竟然是這樣的

分析全唐詩中所表達出來的內在境界,也就是內在情感,為了豐富分析維度,採用7種細顆粒的情緒分類,即悲、懼、樂、怒、思、喜、憂。根據上面獲取到的字向量,經過人工遴選後,得到可以用於訓練的“情緒字典”,根據詩歌中常見的主題類別,七種情緒類別分為:

悲:愁、慟、痛、寡、哀、傷、嗟…

懼:讒、謗、患、罪、詐、懼、誣…

樂:悅、欣、樂、怡、洽、暢、愉…

怒:怒、雷、吼、霆、霹、猛、轟…

思:思、憶、懷、恨、吟、逢、期…

喜:喜、健、倩、賀、好、良、善…

憂:恤、憂、痾、慮、艱、遑、厄…

對《全唐詩》近5萬首詩的情緒分析結果,展示如下:

程式設計師眼中的《全唐詩》,竟然是這樣的

出乎很多人的意料,代表大唐氣象的唐詩應該以積極昂揚的情緒為主,可最後卻是“悲”“思”“憂”這樣的情緒佔據主流,而 “喜”“樂”這樣的情緒卻佔據末流!

“天地悠悠”是悲情的

“落木蕭蕭”是悲涼的

“黃沙百戰”是悲壯的

“彩雲易散”是悲傷的

悲,是唐詩的筋骨

《全唐詩》VS《全宋詞》VS《全元曲》

程式設計師眼中的《全唐詩》,竟然是這樣的

從上面呈現的TOP10高頻字和象限區塊(左上角“唐詩”、右上角“宋詞”和正下方“元曲”)來看,唐詩、宋詞、元曲中出現的獨有高頻字依次是:

唐詩:唯、餘、始、鳥、含、爾、昔、茲、忽、棲、川、旌、戎、秦…

宋詞:闌、沈、匆、簾、濃、約、淡、觴、蕊、屏、凝、笙、瑤、柔…

元曲:哥、俺、咱、孩、姐、吃、哩、科、廝、拿、你、叫、呀、呵…

從上面的關鍵字來看,唐詩、宋詞和元曲各自的特徵很鮮明:

唐詩:用字清澹高華、含蓄,詩味較濃,寄情山水和金戈鐵馬的特徵明顯。

宋詞:所用的字體現出婉約、宛轉柔美,表現的多是兒女情長,生活點滴。

元曲:所用的字生活氣息濃重,通俗易懂、接地氣、詼諧、灑脫和率真。

計算機也許永遠無法比過李白和杜甫。

但它總歸是人類前進的方向,用大資料的角度看《全唐詩》,給我們提供了無限的可能。

讀完你會發現,文科與理科,在詩的世界裡並沒有那麼涇渭分明。

對審美的追求,對詩性的渴望,是每一個人心中固有的基因。

--end--

TAG: 全唐詩唐詩元曲宋詞語素