導論——什麼是數位人文

原文: 導論——什麼是數位人文 - 台灣歷史數位圖書館 - 國立臺灣大學
作者:項潔、涂豐恩

內容摘錄:

「究竟什麼是數位人文?如果要有個簡單的定義,那麼,它指的是那些唯有借助數位科技方能進行的人文研究。反過來講,數位人文的研究,即是企圖尋找在前數位時代中難以觀察的現象、無法想像的議題與無法進行的研究。」

與一度風行的「人文計算」相比,「數位人文」至少有三個有別於前者的特點:第一、它擁有的資料量更加龐大;第二、它所強調的不只是計算,不認為計算能解答所有人文的問題;第三、它重視資料的開放與分享,且努力降低進入領域的門檻,擴大影響層面。

在資訊技術的協助下,研究者宛如快速看過了大量的資料,並迅速找出所需的部分。這樣的改變,是經常要讓上一個世代、以土法煉鋼尋找資料的研究者大感驚訝的。這個時代的研究者面對不是資料匱乏,而是另一種「富裕的難題」(problem of abundance)。過量的資料要如何處理?究竟其中有多少是有意義的?或者,如何讓大量的資料產生新的意義?還有,過去逐筆細讀資料的方式,是否還能適用?如果不行,需要發展出什麼樣的新取徑?凡此種種,都是數位人文要處理的根本問題。一個能夠符合研究者需求的資料庫,或者,用我們的詞彙,一個「數位研究環境」,應該是數位人文進步的關鍵。也就是說,單單有資料是不夠的,資料需要有妥善的工具,才能被確實運用、發揮潛力。

數位人文的具體研究,包括「詞頻分析」,計算文本中所出現詞彙的次數。以莎士比亞為例,所有以他為名的作品,是否都是出自莎士比亞一人之手?這向來是聚訟不休的問題。嘗試解答的方式有很多種,譬如分析莎士比亞的生平,尋找他代筆的證據;或者從文本本身分析寫作風格在各作品之間的差異。就後者而言,難免有陷入主觀困境的可能:寫作風格如何判定?這時詞頻的統計就可能派上用場。不同的作品、甚至不同的章節,是否有一致的慣用詞彙?雖然這類的統計不見得能直接導出結果,但至少可以提供討論的基礎。(Craig, 2004)同樣的方式也可以應用在中國文學作品中,如《紅樓夢》後四十回是否為曹雪芹所寫,或是由他人續作——這是另一個聚訟不休的問題。而早在上個世紀便有學者嘗試用電腦統計紅樓夢的詞頻,試圖為這個爭論提出新的角度。

數位人文的另一種可能,是發現大量資料內部隱含的關係,也就是應用資訊科技中的資訊探勘(data mining)或文本探勘(text mining)的技術。這類技術應用的範圍很廣。比如在商業範圍內,資料探勘可以用來分析顧客的行為模式,以利對後續的服務,提供參考的基準。比如網路書店中常用的商品推薦機制,即是利用大量
的購買紀錄,去推測出可能的購買模式或偏好。

本文廣泛地介紹了數位人文研究的成果,希望提供出一個背景圖像,讓讀者理解目前這個領域的趨勢。一如我們在前言中所說,這是個年輕的領域,充滿活力,還在不斷成長。