論文名稱:運用文字探勘技術分析PTT版上關注議題與面向-以新型冠狀肺炎事件為例
Text Mining for Public Concerns-A Case Study of the COVID-19 on PTT Text
研究生:詹晨偉
Chen-Wei Chan
指導教授:楊大和
Taho Yang
共同指導教授:李家岩
Chia-Yan Lee
召集委員:施勵行
Li-Hsing Shih
口試委員:張行道
Hsing-Tao Chang
學位類別:碩士
學院:工學院
College of Engineering
系所名稱:工程管理碩士在職專班
Institute of Engineering Management (on the job class)
畢業學年度:109
學期:1
論文出版年:110
語文別:中文
論文頁數:96
中文關鍵詞:詞頻分析、關聯分析、主題分析、情緒字詞分析、防疫政策、群聚感染事件
英文關鍵詞:Word frequency analysis、Correlation analysis、Thematic analysis、Sentiment analysis、Epidemic prevention policy、Cluster infection
近年網路社群與大眾傳播媒體的蓬勃發展,透過社群網站以隱匿身份的方式探討社會事件,人們會更有意願表達對議題的意見,進而提供不同面相的感受與觀點。本研究以台灣歷史最為悠久的電子佈告欄系統中的批踢踢實業坊(PTT)與新型冠狀肺炎相關議題之文章為例,探討政府防疫措施的推動,與民意發展的方向與感受。期望透過字詞與情緒分析,探勘出民眾在文字背後的態度與情緒感受。本研究先用Python爬蟲爬取文章,透過Jibea斷詞與詞頻分析,找出民眾再文章中最常使用的字詞,接著用關聯分析找出與新型冠狀肺炎議題關聯性較高的字詞,並透過主題分析找出新型冠狀肺炎潛在的主題,再藉由情緒分析來探討民情,而此次探討的文章內發文者與回文者的情緒面是有相關的。最後以此次疫情中兩起遊輪的群聚感染事件「鑽石公主號」、「寶瓶星號」為例,探討民眾在兩起事件中所經過所關注的議題面向,並比對政府所針對事件所執行的防疫措施,來討論民眾對政策措施的意見態度與感受,發現寶瓶星號出遊,雖符合旅遊疫情所規範,民眾仍給予較多負面情緒,表示政府於當時的旅遊疫情制訂上不符合民意與狀況,仍需較完善的評估與考量方式;政府決策如能及時給予相對應的說明與解釋,能降低民眾負面情緒。如:北北基旅遊資訊、寶瓶星號採檢人數以及檢驗次數;未來若發生相關群聚感染事件,提出建議的執行防疫步驟。
Text Mining for Public Concerns-A Case Study of the COVID-19 on PTT Text
Author:Chen-Wei Chan
Advisor:Taho Yang
Co-advisod:Chia-Yen Lee
Institute of Engineering Management, College of Engineering
In recent years, internet communities and mass media have been developed rapidly. People are able to discuss social events in online social communities with anonymous identities, and thus are more willing to express their opinions on issues, providing different aspects of feelings and points of view. The purpose of this study, taking the Taiwanese historic electronic bulletin board system PTT and articles related to the COVID-19 issue as examples, was to explore the emotions and attitudes of humans that lie behind the text via word and sentiment analysis. The study used Python crawlers to crawl the articles, picked up the most commonly used words through Jibea word segmentation and word frequency analysis, utilized correlation analysis to find the words highly related to the COVID-19 issue, found out the potential theme discussing COVID-19 via thematic analysis, and explored public opinions through sentiment analysis. It was found that, in the articles examined, the posters’ and the repliers’ feelings were related. Lastly, in order to discuss people’s attitudes and feelings toward the policies and measurements, the study took the two cluster infection incidents which happened on the cruise ships “Diamond Princess” and “SuperStar Aquarius” as examples to explore what aspects of the issue did the public opinions concern and compare them to the epidemic prevention measures which the government had implemented. By conducting text exploration, the study aimed to help epidemic prevention units grasp the focal point of public opinions so that the units can strengthen the content of policy promotion.
摘要 I
Extended Abstract II
致謝 III
目錄 V
圖目錄 VII
表目錄 IX
第一章 緒論 1
1.1 研究背景與動機 1
1.2 研究目的與範圍 3
1.3 研究方法與流程 4
1.4 論文架構 6
第二章 文獻探討 7
2.1 資料探勘 7
2.2 文字探勘 10
2.3 全球疫情與台灣政策推動 13
第三章 研究方法 19
3.1 資料編碼、爬蟲與網路聲浪 19
3.2 斷詞與詞彙權重 23
3.3 關聯分析 25
3.4 主題分析 26
3.5 情緒分析 28
第四章 資料分析結果 33
4.1 資料說明 33
4.2 描述統計與說明 34
4.3 文字分析 38
4.4 情緒字詞分析 45
4.5 群聚感染事件分析 50
第五章 結論建議 75
5.1 結論建議 75
5.2 研究限制 76
5.3 未來研究 77
參考文獻 79
附錄 84
 附錄1 爬蟲程式碼 84
 附錄2 鑽石公主號主題分析字詞 93
 附錄3 寶瓶星號主題分析字詞 95
英文文獻
Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent dirichlet allocation. Journal of machine Learning research, 3(Jan), 993-1022.
Bose, I., & Mahapatra, R. K. (2001). Business data mining—a machine learning perspective. Information & management, 39(3), 211-225.
Cook, K. A., & Thomas, J. J. (2005). Illuminating the path: The research and development agenda for visual analytics.
Deb, S. (2019). Apriori Algorithm — Know How to Find Frequent Itemsets. Retrieved from https://medium.com/edureka/apriori-algorithm-d7cc648d4f1e
Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). From data mining to knowledge discovery in databases. AI magazine, 17(3), 37-37.
Feldman, R., & Dagan, I. (1995). Knowledge Discovery in Textual Databases (KDT). Paper presented at the KDD.
Few, S. (2013). Data visualization for human perception. The Encyclopedia of Human-Computer Interaction, 2nd Ed.
Frawley, W. J., Piatetsky-Shapiro, G., & Matheus, C. J. (1992). Knowledge discovery in databases: An overview. AI magazine, 13(3), 57-57.
Han, J., Pei, J., & Kamber, M. (2011). Data mining: concepts and techniques: Elsevier.
IDC. (2014). The Digital Universe of Opportunities: Rich Data and the Increasing Value of the Internet of Things. Retrieved from https://www.emc.com/leadership/digital-universe/2014iview/index.htm

Pearson, K. (1900). X. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling. The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science, 50(302), 157-175.
Self, S. G., & Liang, K.-Y. (1987). Asymptotic properties of maximum likelihood estimators and likelihood ratio tests under nonstandard conditions. Journal of the American Statistical Association, 82(398), 605-610.
Spasic, I., Ananiadou, S., McNaught, J., & Kumar, A. (2005). Text mining and ontologies in biomedicine: making sense of raw text. Briefings in bioinformatics, 6(3), 239-251.
Tan, P.-N., Steinbach, M., & Kumar, V. (2006). Data Mining Introduction. In: Bei Jing: The people post and Telecommunications Press.
Wang, C.-J., & Shen, M.-H. (2015). Mining Issues of Public Concern by Association Analysis: Using Environmental Issue as an Example[In Chinese]. Paper presented at the Proceedings of the 27th Conference on Computational Linguistics and Speech Processing (ROCLING 2015).



中文文獻
王禹衡,「運用文字探勘探討網路匿名性對個人發言之影響」,碩士論文,國立中央大學資訊管理學系,2017。
李奇璇,「結合資料探勘及影像處理技術建立異常影像預測模式以增加放射科醫師報告醫療品質--以肝癌患者為例」,碩士論文,國立中正大學資訊管理系醫療資訊管理研究所,2019。
李恕毅,「運用資料探勘方法預測矽晶圓製造產量」,碩士論文,國立交通大學管理學院資訊管理學程,2017。
邵軒磊,曾元顯,「文字探勘技術輔助主題分析—以 [中國大陸研究] 期刊為例」,問題與研究,57(1),29-62,2018。
馬萌璠,「結合文字探勘和協同過濾開發化妝品粉底液之推薦系統」,碩士論文,國立臺北科技大學工業工程與管理系,2020。
翁慈宗,「資料探勘的發展與挑戰」,Featuer Report 專題報導資訊與生活科技, 科學發展,442,2009。
許書華,「運用文字探勘分析政府政策推動與民意發展-以限塑政策為例」,碩士論文,逢甲大學應用數學系,2019。
張日威,「應用LDA進行Plurk主題分類及使用者情緒分析」,碩士論文,國立雲林科技大學資訊管理系,2014。
張琬堉,「預測精神疾病患者於住院期間之暴力行為 :使用文字探勘技術於護理紀錄」,碩士論文,國立中正大學資訊管理系研究所,2020。
郭瀚揚,「資料探勘應用之研究:零售業的RFM分析架構」,碩士論文,國立臺灣師範大學全球經營與策略研究所,2019。
陳建成,「在行動裝置資料探勘通話與移動行為」,博士論文,國立交通大學資訊科學與工程研究所,2017。
黃正男,「在資料探勘中頻繁項目集的精簡表示法」,博士論文,國立中山大學資訊工程學系研究所,2016。
陳安怡,「運用文字探勘及情緒分析技術發展店家品項評價模組」,碩士論文,國立臺北大學資訊管理研究所,2017。
詹海柏,「以衛星熱紅外影像資料探勘及監測北台灣的地熱與火山活動」,博士論文,國立中央大學地球科學學系,2017。
廖述賢,朱佩慧,「以文字探勘與書目分析法探討資料探勘技術的發展與應用」,德霖學報,32,2019。
蔡松諺,「以資料探勘方法預測台灣地區太陽能發電量之研究」,碩士論文,國立中興大學資訊管理學系所,2017。
謝祥耕,「資料探勘應用於乳癌治療評估」,碩士論文,國立交通大學機械工程系所,2017。
蘇立鼎,「基於分散式階層化字尾樹之大量序列資料探勘」,碩士論文,國立中央大學資訊工程學系,2017。

網路文獻
BBC. (2020). 新冠病毒疫情爆發至今大事記. Retrieved from https://www.bbc.com/zhongwen/trad/chinese-news-51382117
Standard, L. (2020). Encoding. Retrieved from https://encoding.spec.whatwg.org/#security-background
Taiwan Centers for Disease Control, C. (2020). 嚴重特殊傳染性肺炎疾病介紹. Retrieved from https://www.cdc.gov.tw/Category/Page/vleOMKqwuEbIMgqaTeXG8A
World Health Organization, W. (2020). Coronavirus disease (COVID-19) pandemic. Retrieved from https://www.who.int/emergencies/diseases/novel-coronavirus-2019
維基百科. (2020a). 批踢踢. Retrieved from https://zh.wikipedia.org/wiki/%E6%89%B9%E8%B8%A2%E8%B8%A2
維基百科. (2020b). 嚴重特殊傳染性肺炎疫情. Retrieved from https://zh.wikipedia.org/wiki/2019%E5%86%A0%E7%8A%B6%E7%97%85%E6%AF%92%E7%97%85%E7%96%AB%E6%83%85#cite_note-335
林志傑. (2014). 如何使用 jieba 結巴中文分詞程式. Retrieved from https://blog.fukuball.com/%E5%A6%82%E4%BD%95%E4%BD%BF%E7%94%A8-jieba-%E7%B5%90%E5%B7%B4%E4%B8%AD%E6%96%87%E5%88%86%E8%A9%9E%E7%A8%8B%E5%BC%8F/
林秀姿;蔡佩蓉;聯合報新媒體中心;視覺設計中心. (2020). 抗新冠肺炎 台灣防疫決策贏在哪裡?. Retrieved from https://udn.com/newmedia/2020/covid-19-timeline/
  • 同意授權校內瀏覽/列印電子全文服務,於2021-02-08起公開。
  • 同意授權校外瀏覽/列印電子全文服務,於2021-02-08起公開。