🏆攻頂組第三名:【e手包辦情緒網】-109年全國大學校院數位人文大數據學生競賽


圖1.「e手包辦新聞網」首頁,圖片來源:網站截圖。

已故蘋果執行長賈伯斯(Steve Jobs)曾說過:「創新=借用與連結」,要讓自己的作品從眾多競爭者中脫穎而出,您可以點擊歷屆競賽得獎作品(拜託點我:heartbeat:)或參考以下文章來汲取更多靈感:point_down::point_down::point_down:

已經準備好!?:point_right:報名傳送門(內含報名簡章)

回想一下,當隨手點開新聞網頁時,你的目光是否較容易先被負面的新聞標題吸引呢?這邊小編想與大家分享一下最近看到的小知識,關於人類的「負面偏好」(negativity bias)可是「其來有自」。依據研究者圖斯勒(Marc Trussler)和索羅卡(Stuart Soroka)在加拿大麥基爾大學(McGill University)進行的一項實驗,我們特別喜歡壞消息,被認為是長期演化的結果,為了能對潛藏的危機做出快速反應,壞消息就像告知我們必須趕緊避開危險的信號(註1)。

「e手包辦情緒網」(圖1)在109年全國大學校院數位人文大數據學生競賽中榮獲「攻頂組第三名」的佳績。自2020年來與疫情有關的負面新聞天天在各大國際媒體上「氾濫成災」,長久以來恐影響讀者的身心健康,因此獲獎團隊建立「e手包辦新聞網」,將新聞標題進行10多種情緒分析,讓我們有選擇觀看正面、負面與中性新聞的機會。藉由新聞的情緒篩選機制,避免人們可能因無意間吸收過多負面新聞而容易感到心情鬱卒,並希冀對常處於情緒低谷的讀者能產生療癒效果!

再來談談建立網站所需的數位技術,團隊運用10項分析工具中包含:中研院中文計算語言研究小組開發的 CKIP Tagger 中文斷詞系統(線上系統展示)、TF-IDF(詞頻與逆向檔案頻率)、SnowNLP 等中文文字探勘與情感分析技術,並再結合Google於2018年推出用於自然語言處理(NLP)的預訓練神經網絡技術 - Bidirectional Encoder Representations from Transformers (BERT)(圖2)開發AI模型,以利後續的新聞情緒分類工作。網站在使用上也相當方便且淺顯易懂,使用者在註冊會員時即可同時設定偏好的新聞情緒與版面,例如:「最新熱門」區塊提供當日的Google熱門關鍵字排行與情緒、「統計資料」區塊有多種視覺化圖表來呈現新聞情緒分析資料……,這些功能也都讓小編覺得相當有趣喔!


圖2.「使用預先訓練好的BERT 對下游任務做 fine tuning (微調)」,圖片來源:「e手包辦情緒網」作品構想書。

:point_right:團隊除運用中文文本分析技術為新聞標題的情緒做更精準的分類外,如何再讓網站為個別讀者建立推薦內容,以及資料庫部分如何搭配目前知名企業都在用的「亞馬遜雲端運算服務」(AWS)?

:mag_right:答案皆在本文底下的【作品資訊整理】

:point_right:大家都說BERT功能很強大?

:mag_right:可以參考國立臺灣大學電機工程學系李弘毅老師的BERT介紹影片「ELMO, BERT, GPT」(相關內容約19:09至49:23)。

總之,小編對於作品背後如此溫馨的動機也是相當感動:heartbeat:,希望今年有更多具人文、社會關懷性質的作品誕生,一起來讓世界變得更美好!

然而這邊也不忘再次提醒想報名攻頂組的團隊們,請記得作品一定要使用上競賽指定之「人文社會資料庫名錄檢索」,以及之後須於作品構想書內「作品介紹」項下列出所應用之數據從資料庫出發的完整連結路徑。(如圖3)再談到大家最常問小編的資料庫數據使用方式,舉例來說以上作品團隊為分析疫情發生前後對新聞標題所產生的情緒變化,因此從指定資料庫中選擇「聯合知識庫新聞圖庫」,再透過其中「全文報紙資料庫」蒐集 2019 及 2020 年的新聞標題、版別、時間與網址,以對新聞標題進行情緒分析與分類。在此小編認為指定資料庫目前收錄的各學門資料庫已經相當豐富,團隊們也一定可以從中找到自己作品適合使用的資料庫及數據喔!如果又有優秀的作品因沒使用資料庫而失去拿獎金的機會,小編也會很想哭的:sob:。

另外秉持著數位經濟時代「共享經濟」(sharing economy)的精神,計畫網站上也將各領域專家學者們分享的公開資料庫匯集成「課堂資料集資料庫」,提供各參賽團隊在蒐集數據也可多加運用!


圖3.參賽作品應用之數據從資料庫出發的完整連結路徑範例其一,圖片來源:「e手包辦情緒網」作品構想書。

最後也照慣例邀請各位師長、同學或只是剛好路過,若對團隊的發想或以上介紹有任何看法,都可在本文底下的回覆區與論壇成員一起討論喔:heart_eyes:,尤其想報名今年競賽的團隊也快快加進來互相交流,把知識「吸飽飽」:muscle:

【作品資訊整理】

1.作品構想書
2.網站
3.學生FUN創意-經驗分享與互動工作坊:獲獎團隊「現身說法」

【獲獎團隊資訊】

參賽學生:

  • 國立政治大學 圖書資訊與檔案學研究所

謝承曄、古雅琪、李婉瑀、徐子心、陳惠如、林庭漪

  • 長庚大學 資訊管理學系 陳畇巧
  • 明志科技大學 電子工程所 葉昱修

指導老師:

  • 國立政治大學 圖書資訊與檔案學研究所 羅崇銘副教授

專任助理 賴玉樺 筆

本篇關鍵字:負面新聞、疫情、文字探勘、自然語言處理、中文情感分析、中文文本分析、CKIP Tagger、TF-IDF、SnowNLP、BERT、人文社會資料庫名錄檢索、課堂資料集資料庫

[參考資料]

註1:地球圖輯隊/ by 維多魚,為什麼媒體都只報負面新聞?

:speech_balloon:與我們隨時交流:

  1. Facebook「數位人文創新人才培育計畫」,隨時瀏覽本計畫最新活動資訊。
  2. Instagram(@tcdh2021),增進數位人文知識傳遞,需有您的支持!