數據與文學(郭德偉)
本文作者郭德偉(Andy Kwok),為數據素養協會資深創會會員兼 OpenCertHub 創辦人及行政總裁 ,為《EJTech》撰寫專欄
每當我們談及數據時,話題總離不開商業或⼯作應⽤上,不如今次換個⾓度,講解如何利⽤數據幫助我們對文學作品的深入理解。⼤家有沒有想過,文字本⾝也是⼀種數據,在⼤數據的領域中,所有文字、語⾳或圖象訊息均可歸類為「非結構化數據 (unstructured data)」。運⽤⼤數據模型進⾏分析,能夠揭⽰出新的⾒解。在文學研究中,數據的應⽤不僅增強了我們的閱讀體驗,還促進了對經典作品的理解。
由於我從⼩就熱愛東洋文化,中學時期對⽇本文學作品特別情有獨鍾,尤以夏⽬漱⽯為我最喜愛的作家。或許有些讀者對這位作家的名字不甚熟悉,但我相信如果你是⽇本旅遊的常客的話,你對他的肖像可能感覺並不陌⽣。何解?這是因為⽇本政府為紀念夏⽬漱⽯這位文學巨匠,⾃ 1984 年(昭和 59 年)11 ⽉ 1 ⽇⾄ 2007 年(平成 19年)4 ⽉ 2 ⽇期間,將其肖像印刷於⼀千⽇圓的鈔票上。⽽我作為他的粉絲,當然也收藏了⼀張以作紀念。
就以夏⽬漱⽯的其中⼀部經典⼩說《我是貓》(⽇語:吾輩は猫である)為例,借助有趣的數據和分析⾓度,嘗試深入理解這部文學作品。⾸先我為⼤家簡單介紹⼀下,《我是貓》是夏⽬老師於 1905 年出版的⼩說,這部作品被認為是⽇本文學中的經典之⼀。故事以透過⼀隻貓的視⾓為題,觀察⼈類的⽣活與社會的各種現象,展現了豐富的⼈性和社會批判。
透過⼤數據模型去研究文學作品,可以從以下幾⽅⾯分析找出新亮點:
- 詞頻分析
利⽤關鍵詞作統計,分析文中經常出現的詞彙,例如「貓」、「⼈」、「孤獨」、「觀察」等。這些詞的出現頻率可以反映出作品的核⼼主題。⾼比例的「⼈」詞彙可能表明夏⽬對⼈類社會的批評或反思,⽽「貓」的頻繁出現則強調了貓的獨特視⾓和思維。另外透過詞彙變化,隨著故事情節的發展,特定詞彙的出現頻率是否有所變化,這可以揭⽰⾓⾊⼼理的變化或情節的轉折。
- ⾓⾊分析
利⽤⾓⾊出現的頻率,統計各個⾓⾊在⼩說中的出現次數,了解哪些⾓⾊的重要性,以及他們的互動模式。透過分析⾓⾊在不同情況下表達的情感,了解他們的情感傾向。例如貓對⼈類的看法是積極還是消極,這樣可以幫助讀者對⾓⾊的理解。
- 文本結構分析
利⽤章節⻑度統計,分析各章節的字數,了解作者在不同情節中所花費的篇幅,有助反映出重要情節的強調。透過分析語句⻑度,測量句⼦的⻑度和結構,了解漱⽯的寫作風格和語⾔特點。掌握這些數據不僅能夠幫助讀者更深入地理解《我是貓》這部作品,還能增加閱讀文學的趣味性,讓作品的分析變得更為豐富和立體,促進讀者之間的交流。
數據在我們⽇常⽣活中已廣泛地應⽤,掌握數據素養有助提⾼我們的⽣活質素及⼯作效率。下次我會尋找⼀些有趣的數據主題,再與⼤家分享和學習。