這是我為了文字探勘所做的小工具。一般來說文字資料是一種非結構的質性資料,但其實還是可以透過一些簡單的計算來得知它的量化數值,這樣就能讓不同的文字資料之間的比較有了客觀的基準。這個文字探勘分析器提供了基本的敘述統計指標計算功能,包括文字長度、不同字詞的數量、文字變化程度的熵(entropy)跟辛普森指數(Simposon's Index),還有以句子、對話句為單位的分析,最後還能將N字詞的頻率分析結果繪製成文字雲。 文字探勘分析器 / Text Analyzer
分析功能說明 / Tutorial文字探勘分析器的處理很簡單,先在「Paste Text here」的文字框輸入文本。左上角是文本分析的細節設定,可以先使用預設值。接著按下「START」並稍作等待,下面就會出現分析結果了。 這樣就可以取得分析結果。 文字探勘設定 / Configuration文字探勘的設定:
對話分析:
文字雲設定:
結果分析:文本統計 / Result: Document Statistics文本統計 / Document Statistics
句子長度的次數分配表 / Sentences Length Distribution
N字詞的次數分配表 / N-Length Words Distribution
虛字分佈 / Function Words Distribution
結果分析:語句分析 / Result: Discourse Analysis整體分析 / Total Discourse
一般對話 / Normal Discourse
疑問句 / Question Discourse
驚歎句 / Exclamation Discourse
句子前的文字 / Neighbor Before句子前出現文字的次數分配表,例如「楊過道」出現了兩次。 句子後的文字 / Neighbor After句子後出現文字的次數分配表。 結果分析:文字雲 / Result: Word Cloud最下面還有文字雲的顯示。因為「蟀」這個字在文章中出現了22字,所以這個字就出現在文字雲中心,而且特別的大。 資料複製 / Data Copy為了方便大家取得資料做後續的分析,每個結果表格右上角都有「TABLE」跟「VALUE」的複製按鈕。前者按了之後就會複製下面的整個表格,後者只會複製值的部分。 這樣就可以方便你複製後貼到試算表工具進行後續的分析。 結語 / In closing其實要做文本分析,不見得需要用到R或Python。簡單的這個JavaScript小程式,就可以將非結構化的文字量化成這麼多的數值指標了,非常有趣。 這個工具僅是為了我個人分析需求而撰寫,所以看起來有點亂 (順便練習使用Sementic UI)。雖然有想過要不要結合Chart.js直接繪製圖表,但其實它更適合把結果複製到試算表來整理,在試算表中畫圖表也比較容易。所以我使用clipboard.js做了許多的複製按鈕,方便大家整理資料。 如果不確定每個功能是做什麼用的,請把滑鼠放到「i」圖示上,就會顯示該功能的解釋。 其實這個功能是在去年年底我在進行一個分析時,為了方便合作者使用所做的一個工具,結果過了快一年,到現在才整理出來供大家使用。希望這個文字探勘的小工具可以幫助大家更容易解讀文本。 這篇文字探勘分析器寫到這裡就告一段落了。不知道這是不是你心目中的文字探勘呢?還是你對文字探勘有其他看法呢?我很想知道你對於這篇文章的看法,如果可以的話,歡迎在下面留言處與我分享你的想法,或是在AddThis分享工具按讚、分享我的文章到Facebook等社群媒體。感謝你的耐心閱讀,讓我們下次見囉。 |