人民網>>IT>>業界

文化傳信集團電子漢文史資料庫建設透視
人民網記者   劉聖清 李士燕
  2005年03月10日17:10 【字號 】【留言】【論壇】【打印】【關閉
公司人員合影
公司人員合影
  我國的古籍浩如煙海,汗牛充棟,是中國傳統文化的主要傳播形式,對世界人類文明的發展起著十分重要的作用。作為世界四大文明古國之一的中國,其歷史之所以綿延幾千年而從未中斷,古籍對中華文化的傳播和繼承起著至為重要的作用。中國的古籍整理,有著悠久的歷史和傳統。從孔子刪詩、劉向校書開始,歷朝各代大規模的古籍整理持續不斷,影響深遠。新中國成立以后,黨和國家對古籍整理事業給予了高度的重視和極大的支持。特別是1981年9月中共中央發布《關於整理我國古籍的指示》以來,我國的古籍整理出版事業飛速發展,成績斐然。據不完全統計,新中國整理出版的古籍圖書已逾萬種,是現有傳世古籍總量的近十分之一,為清修《四庫全書》的三倍之多。

  隨著社會的進步,經濟的發展,文化賴以存在和發展的物質基礎、社會環?和傳播手段發生了根本性的改變。信息傳播手段的快速發展,向傳統的印刷術提出了強烈的挑戰。這既對古籍整理出版工作提出了新的要求,也為傳統的古籍整理開拓了新的領域,在古籍的保存,傳播和使用上發揮了巨大的效用,帶來了新的發展契機。古籍的電子化、數字化,是古籍整理出版發展的未來方向。香港文化傳信集團屬下的北京文信傳文史研究院,在文化傳信集團及社會各界的全力支持下制作的“電子漢文史數據資料庫”,為全球首個具有研究性的中國古典文獻數據資料庫,在這方面作出了巨大的貢獻。

  錢鍾書力主中國古籍電子數據化

  對於中國漢文史電子資料庫的建立,錢鍾書可謂是積極的推動者。1984年錢鍾書聽女兒錢媛談到英國學者用計算機研究莎士比亞戲劇,取得顯著成果,大受啟發。於是錢先生在中國社會科學院開始倡導古籍電子數據化,建立漢文史電子資料庫,並對該項目的立意、實施細節及目標成果都有明確的指歸。在他的指導下, 由中國社會科學院文學研究所研究員欒貴明、國家科技進步獎得獎者田奕等組成了研究小組。工作之初,研究小組搜求了當時所有的“中文系統”及相關資料,其中包括近十個中文系統的漢字收字情況、輸入方法、構成理論和論文著述等,請錢鍾書先生選定。經過深入了解之后,錢先生選擇了朱邦復發明的倉頡法及其漢字平台,並斷言:“倉頡法好,發明人懂中文,有遠見。”

  研究小組的工作一直得到錢鍾書先生的關注。1986年,當研究小組的工作遇到困難時,錢鍾書先生還為研究小組專門寫下一段話,鼓舞士氣:“從理論上來說,計算機和人類使用過的其它工具沒有什麼性質的不同。它在還未被人廣泛使用的時候,除自身尚待完善以外,總會遭到一些抵拒。慣用舊家什的人依然偏愛著他們熟悉的工具。有了紙墨筆硯‘文房四寶’,准還有人用刀筆和竹簡﹔有了汽車、飛機、電報電話,也還有不惜體力和時間的保守者。對新事物的抗拒是歷史上常有的現象,抗拒新事物到頭來的失敗也是歷史常給人的教訓。” 在錢鍾書先生、楊絳先生、以及多位志士大德的鼓勵下,20年來,研究小組不敢有一日懈怠,並於2003年完成了錢鍾書的遺願《十三經索引》逐字索引。這個項目由研究小組負責人田奕帶領5、6個人僅用25天完成全部6000頁的清樣,又經3個月精校和排版,后由中國社會科學出版社出版,時間之快、質量之高令人驚訝。

  “倉頡輸入法”提供正確適合的漢字輸入平台

  古籍文史資料搜集整理的一個顯著特點,是漢字庫的容量必須足夠。異體字情況復雜,是許多電腦漢字系統所不能承載的。使用什麼樣的電腦漢字工作平台,在當時是一件頗費腦筋的事情,也是古籍數字化最關鍵的問題。最后由錢鍾書先生親自決定採用“倉頡輸入法系統”。該輸入法的優勢是:一是錄入方法符合中國傳統規則,二是字數全,絕不能讓古文獻削足適履。錢鍾書先生曾贊嘆說:看來這個人是個絕頂聰明之人。20年來該院研究人員一直使用這個輸入法系統,現在看來,正是因為有這個原則在,漢文史電子資料庫建設才得以順利進行。

  發明“倉頡輸入法”進而被喻為世界“中文電腦之父”、17年后成為漢文史電子資料庫最大支持者並出任“文信傳文史研究院”院長的是———香港文化傳信集團副主席朱邦復。其於1973年開始研究“漢字基因理論” 、發明“倉頡輸入法”,此后,推出世界上第一台“中文電腦”, 2000年完成“字形產生技術”,2003年研制成功全球第一顆中文“中國芯”———飛龍中文處理器,2004年又與IBM緊密合作,憑著一顆中文“中國芯”,制定了世界多元文化低廉計算機工業全新標准和體系。這是世界信息資訊科技革命性的突破,它打破了電腦單一文化困局,開創了計算機多元文化的新時代。更可期盼的是,朱邦復在漢字基因理論的指導下,多方位深入開發漢字的智能化特性,把漢字全面引入聲光磁的多媒體技術,這不僅帶來漢文化的大發展,對中華文化的傳承將有重要意義。

  漢文史電子數據庫成果巨大

  從1985年開始,研究小組首先進行了《論語》數據庫的建設,試驗成功,順利地出版了第一部使用電腦編制的《論語數據庫》一書,取得了一大批科學化的《論語》數據。此后,從1986年到1993年研究小組進行了多項試驗,取得了許多成果,其中比較成功的部分是對唐詩和宋詞的研究。當時中國社科院院長胡繩和錢鍾書先生都對此大為認可,還受到海內外學術界的贊譽,並得到國家和中國社科院的多種獎項,其中包括1990年度的國家科技進步獎,這是國內社科領域在計算機應用方面的第一個大獎。1999年,正是得知以“倉頡輸入法”為平台的電子漢文史數據庫取得巨大成就時,朱邦復先生及香港文化傳信集團開始給予極大支持和鼓勵。

  從1993年到2000年,研究小組克服各種困難,繼續漢文史數據庫的建設。2000年,應朱邦復先生和香港文化傳信集團主席張偉東之邀,研究小組進入香港文化傳信集團。至今已完成由甲骨文至北宋中期的文獻入庫工作。並使用電腦完成了數以億計的漢文史研究資料的整理和出版工作。成功出版的《全唐詩索引》(30種)﹔《全唐文新編》(22大冊)﹔《十三經索引》(4大冊)以及數以十計的學術專著,均能按時、按質、按量在電腦上完成,受到國內外學術界的廣泛好評。到目前止已收錄宋代以前逾1億1千萬文字和168,429幅圖片,宋至清的部分正在建設和擬建中。這個數據庫對於古文獻的整理考証及學術研究有很大的貢獻。

  就文史庫的規模來說。五代之前的作品12萬件已基本入庫。另有專著和小說近千種。此外還有二十四史。文史數據庫收有一套精細掃描的百衲本原本圖庫,同時還制作了對應的精校文字庫。二十四史在文史庫裡主要作為工具書使用,把二十四史中從帝王到牛二全部人物,盡數收入,鉤連起文字庫和百衲本的圖形文件,從根本上克服了從善和機檢不便的矛盾。其文字庫同時也參與全文檢索的運作,從而達到了一件成果處處應用的好境界。這種橫向的聯接,對於一般平版書來說,是不能實現的。至於通行本的刪、漏、誤諸多欠缺,以確鑿的善本為依據,多有補充和糾正。

  一個科學、先進的漢文史數據庫

  由於古典庫對文史研究的巨大作用,其研究工作也廣泛開展。目前,國內外此類“古典庫”在網上和光牒也有幾十種,但各自特點不一。“漢文史庫”的方法和原則,標示著古籍“數字化”,不應該是單純的介質的進步,需要側重推動古籍整理和研究的科學化和人文化。以文信傳文史研究院電子漢文史數據庫資料的基本構筑方式來說,它一不採取按時代劃分,二不採取按文體編輯,而是以作者為中心,貫徹“以人為本”的原則。不像《全唐詩》《全唐文》一類的編輯方法,存在重復混亂,有許多跨朝代、越文體的紛爭和遺漏等問題。同時,也絕不採用《十三經》用后人海量注疏箋証淹沒經典的傳統方法。該數據庫一改傳統的經、史、子、集編排方法,以人為中心,作品回歸作者,從而使古文獻資料的整理編輯和數字化邁上合理、科學的台階,也可以說是首創了漢文化資料系統化的新格局。同時注重對前人成果的斟別。比如《易經》經過了多人的注釋解析,有的甚至已經違背了原書的旨意,從而引起了“解意”的對立和紛爭,這顯然與《易經》本身無關。為此,文信傳文史研究院漢文史數據庫充分利用電子化的優勢,採取經典與注釋合而分、分而合的慎重措施。此外,文信傳文史研究院的漢文史數據庫設有多個附件:

  其中的《人名大典》已收入22萬人,另有輔名10萬個,已超過通行的僅收有五、六萬人的《人名大辭典》。其本身既可作為工具書,又是構成漢文史數據庫的核心框架。該人名典廣泛搜求可信史料,按計算機技術要求統一編寫,在檢索方面可對人名典下列的項目進行全文、選項、加減項和模糊的檢索。其中有主名、輔名、朝代、簡歷小傳以及資料出處和作品收載的依據等,總字數已超過1400萬字。

  另一個附件《中國歷史日歷》也基本制作完成。這部分資料,數量巨大,約2億3千萬字,可徹底規范中歷公歷的復雜對照關系。日歷制作的大忌是依年表推算估計。本日歷上起夏朝禹(公元前2071.12.28)下迄清末帝(公元1912.02.17),共計3983年,1454111天。由於多元歷法的存在,同一天可能是不同朝代、不同帝王、不同年號,甚至不同的紀歷方式,實際日歷單數多達5194662條。因是以一天為單位,故使用起來既完整、准確,又方便。制作時盡量將所能得到的正確信息悉數列入歷表,內容包括朝代、帝諱、帝號、年號、年數、年干支、月數、月干支、日期、日干支、公元年、月、日等。將來逐步擴充為大事紀略性質的歷史日歷。

  相關鏈接一:《中國歷史日歷》的精妙之處——與文信傳文史研究院副院長、中國社會科學院研究員\著名學者欒貴明教授的對話

  人民網記者  劉聖清   《中國歷史日歷》資料豐富,數量巨大,3983年145萬天,實際日歷條數達519萬條,總字書超過2億3千萬字,以每頁50行、1000頁為一冊計算,約需10萬個頁碼,則100冊才能印刷成書。為什麼要花費那麼大的精力做這項工作,它有什麼精妙之處?本報記者就此專門採訪了追隨錢鍾書先生30余年,現具體負責電子資料庫建設的中國社會科學院原研究員、文信傳文史研究院副院長、著名學者欒貴明教授。

  他告訴記者,簡而言之,這個日歷會給文史研究送來一把科學的標尺,可徹底規范中公歷的復雜對照關系。他介紹說,我國採用的傳統歷法經常被稱為陰歷。它用嚴格的朔望周期來定月,又用設置閏月的辦法使年的平均長度與回歸年相近,兼有陰歷月和陽歷年的性質,因此實質上是陰陽合歷。我國採用干支紀年大約始於東漢,也稱農歷紀年法。用十“天干”、十二“地支”相配紀年、紀月、紀日,共得六十個單位。有了干支,中華民族四千年歷史就呈現於眼前。中國歷中的干支,不僅有記錄時間數序的意義,還兼有自然陰陽五行的具體指征,這顯然為中華歷法增加了深邃的哲學意味。關於這一點,歷來存有爭議,而且爭議會隨著歷史而延續,這是中國古代歷法科學家始料所不及的。至於干支法為我國幾千年日歷帶來的准確性,也就是科學性,似乎並無爭議。

  有了《中國歷史日歷表》可以很輕鬆地查找到你所需日期信息。從公歷日期也可以准確查找對應的中歷日期、朝代、帝諱、年號等。相反,知道了中歷日期、年號等也可查出對應的公歷日期。更重要的是,我們還能利用它來糾正被專家學者和權威著作由於工具的欠缺而長期延用推算錯誤的那些年月日。如:

  史學界對明代嘉靖皇帝有多種爭議,但似乎對他死於公元1566年沒有分歧。這個說法究竟對不對呢?翻翻《明史》,《世宗本紀》清晰的記錄著:(嘉靖四十五年)“十一月己未,帝不豫。十二月庚子,大漸,自西苑還乾清宮。是日崩”。據此很容易在本歷表裡找出明世宗死的公歷日期,即公元1567年1月23日。不難看出,嘉靖皇帝死於公元1567年而不是網上學者們所說的公元1566年。

  又如,上海古籍出版社1999年版的《中國歷代人名大辭典》第1625頁關於唐代趙鳳的小傳:“趙鳳(?-953)”。墓志銘應該是最好的証明他確切卒日的依據。劉德潤所作《大周故金紫光祿大夫檢校司徒使持節單州諸軍事單州刺史兼御史大夫上柱國天水郡開國侯食邑一千戶趙公墓志銘》一文中記載(趙鳳)“於廣順三年十二月五日,終於旅館”。經查,廣順三年十二月五日是公歷的公元954年1月12日。這說明趙鳳確切的卒年是公元954年,並非《大辭典》說的公元953年。

  再如,歷史上赫赫有名的英雄岳飛的卒年,人民教育出版社2003年11月出版的《中國歷史》(九年義務教育三年制初級中學教科書)第二冊寫道:“1141年,宋高宗解除岳飛、韓世忠等人的兵權。秦檜還指使爪牙誣陷岳飛,以謀反罪名殺害了他。”我們核實了一下史書,《宋史·高宗本紀》是這樣記載的,紹興十一年十二月“癸巳,賜岳飛死於大理寺,斬其子雲及張憲於市”。查對日歷表,紹興十一年十二月癸巳,是公歷公元1142年1月27日。顯然課本錯了。而我們從杭州岳王廟獲知,岳飛的卒日被定為公元1142年1月28日,也與正史中准確日期相差一天,可以說是個小小的憾事。

  中歷的一、二、十一、十二月份都可能存在公歷跨年問題,但不意味著遇到此類問題就可以類推。把“某個”當作“全部”,也會出現新的漏洞。關於唐代著名文學家韓愈的生平,我們在翻閱1992年版《中國文學家大辭典》第747頁時,明確的印著“韓愈(768-825)”,正文中詳盡地描述了韓愈的事跡,並引証了李翱《贈禮部尚書韓公行狀》等資料,說他長慶“四年十二月二日卒”,也是該書編者對韓愈卒年判斷的第一論據,這無疑是確鑿的。長慶四年為公歷公元824-825年,韓愈死於四年十二月二日,經推論應為公元825年,一切順理成章,看似毫無疑問。但查一下日歷表,長慶四年十二月二日竟“破例”為公歷公元824年12月25日。事實韓愈並未活到編者“推論”出來的公元825年。

  中歷魏明帝景初元年(公元237-238年),三月開始使用《景初歷》,以當年三月為四月,造成該年無三月,這同樣是“人為”造成的,如不注意,轉換成公歷就可能出現一個月的誤差。“人為”改變中西歷法的事件屢見不鮮,不是用“慣例推算”,特別是計算機的“演算”能夠解決的。而文信傳文史研究院在制作《中國歷史日歷》過程中,並非企圖糾正歷史的誤會或強權的膨脹,而只是如實地記錄歷史的原貌。

  相關鏈接二:專家點評

  1、史樹青(國家文物鑒定委員會副主任委員、國家歷史博物館研究員、中國國學院名譽院長、中國收藏家協會名譽會長):

  如果把數據庫做好了,我們就能為社會、為國家、為文史研究做更多的貢獻。我們過去研究的東西是憑文獻為主,應該看到,今天必須把文獻和科學技術相結合,這是很有意義的。他們近來研制的漢文史資料庫的兩個附件,跟我談得很具體,他們工夫用得很深,我很佩服他們的工作,他們的精神值得學習。(摘自第三屆漢文史資料庫研討會會議簡報第七期)

  2、董名垂(清華大學著名教授):很少有國家像中國這樣,有如此悠久的歷史,有如此多樣的文化。以漢字為載體的五千年文獻,是中國歷史文化的可信記錄。新開發的“漢文史資料庫”,就是應用現代技術、特別是朱邦復的電腦漢字技術活化了的漢文獻,無疑會推動漢文史研究手段的變革。我積極支持這項工程。

  3、台灣佛光大學教授龔鵬程,去年八月專門趕來北京香山出席“漢文史資料庫研討會”。期間,對該庫的建設贊譽有加,提出了很具體的建議,並贈詩一首:“參求數據欲窮年,電腦再添倉頡篇。豈但蟲魚疏爾雅,激揚文字創新天。”(摘自第三屆漢文史資料庫研討會會議簡報第八期)

  相關鏈接三:建議與呼聲

  全社會都應該關注“漢文史數據庫”

  漢文史資料庫是一個巨大的工程,對我國史料的收集整理起到不可估量的作用。目前,海外學者和學術界對漢文史數據庫十分關注,但在國內卻影響不大。目前,文信傳文史研究院在按計劃進行遼金元明部分校訂外,正著手開始籌措一項更重大的工程——整理全清詩文。據統計,清代詩文作者的總數已超過三萬人,總字數估計在4億字左右。清代從公元1644年建立,到公元1911年滅亡,共歷十帝,268年。漢文化在此期間雖有波折,但取得了前所未有的發展也是事實。清代文獻的存留數量,已超過歷代的總和便是一個証明。

  據了解,由於全清詩文篇幅浩翰,作者眾多,狀況復雜,至今無人提出。前人已進行或完成的相關書籍有《全清詞》《清詩紀事》《近代詩鈔》《近代詞抄》《晚清簃詩匯》《清文海》《廣清碑傳集》等,都是局部有選擇的整理,距准確地反映清代文化的原貌相去遠甚,更與我國國力強大?文化的繁榮不相稱。《全清詩文》具有深遠的社會意義,將成為具有開創性的文化基礎工程,它將妥善地解決清代文獻的精整保存課題。並將為清代社會、文化、經濟、軍事、農業、科技等深入提供集中、准確、完整的資料,同時也為配合國家項目《清史》編纂的任務提供方便和全面可信的資料。

  香港文化傳信集團主席張偉東表示,作為以傳承中華文化為己任的集團,將不惜代價支持搞好中國文史資料的收集整理和研究工作。但由於時間緊,任務重,投入大,困難多,希望全社會能給予更多地關心與支持,力爭把這個歷史上空前浩繁的文史搜集工程早日完成,為建設和諧社會和全面實現中華民族的偉大復興作出更大貢獻。 

出版成果
出版成果
論語數據庫
論語數據庫
錢鐘書的信
錢鐘書的信
來源:人民網 (責任編輯:陳健)
精彩推薦:
25年冒死拍攝火山
25年冒死拍攝火山
豬販拉豬險象環生
豬販拉豬險象環生
四川涼山發生泥石流
四川涼山發生泥石流
吊車斗車砸進教室
吊車斗車砸進教室



熱點新聞榜
...更多
  
人民網搜索  互聯網搜索


   

鏡像:日本  教育網  科技網
E-mail:info@peopledaily.com.cn 新聞線索:rm@peopledaily.com.cn

人民日報社概況 | 關於人民網 | 招聘英才 | 幫助中心 | 廣告服務 | 合作加盟 | 網站聲明 | 網站律師 | 聯系我們 | ENGLISH 
京ICP証000006號|
網上傳播視聽節目許可証(0104065)| 京朝工商廣字第0394號
人 民 網 版 權 所 有 ,未 經 書 面 授 權 禁 止 使 用
Copyright © 1997-2007 by www.people.com.cn. all rights reserved