看板: BudaTech ◎ 佛典电子化讨论 板主: HeavenChow |
阅读文章: 第 1503/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
发信人: Heavenchow@Lion (Heaven), 信区: BudaTech 标 题: CBETA 0924电子报--标记语言 发信站: 狮子吼站 (Sun Sep 26 15:58:30 1999) 转信站: Lion ===========《 CBETA E-News 中华电子佛典协会新闻电子报 》============ 1999-09-24 第五期 http://ccbs.ntu.edu.tw/cbeta ==================================================================== □□□□□□□□□□□□□□〉专题报导〈□□□□□□□□□□□□□□ =================================================标记语言的应用===== 标记语言的应用(二) □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 简介学术版XML标记——以《般若波罗蜜多心经》为例(上) CBETA研发组撰 一、前言 二、标记符号的设定 三、标记符号的应用 1. 经文的标记 2. 校勘条目 vs <app> (Apparatus Entry) 3.《般若波罗蜜多心经》学术版XML电子档□例 四、结语 附件:学术版XML之DTD的设定 □□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□ 一、前言 在佛典电子化的过程中,如果仅仅只是做文字的电子化,那便丧失了原 来书本资料所拥有的许多宝贵资讯,例如:经名、年代、作者、译者、校勘 等等。因此 CBETA的大正藏电子化工作,使用XML(eXtensible Markup Language) 标记技术将这些宝贵的资讯记录下来,以便後续进行更广泛的学 术研究应用。 XML 是一个允许使用者自订标记的语言,佛教经典是否能有一套共同的 标准标记,以利将来的资讯交换?CBETA采用国际标准TEI (Text Encoding and Interchange),TEI 是针对电子文献所制定的标准标记组(tag set), 透过使用国际标准标记,使 CBETA制作的电子佛典更便於国际间分享。 然而,由於 TEI并不是针对中文文献所设计的,在 CBETA的实做过程中, 发现仍然有许多标记是 TEI所未提供的,於是我们采用这样的策略:尽量采 用 TEI标准的标记,在 TEI□实在找不到适用的标记,便尝试著自己制定适 用於中文佛典的标记。期待 CBETA这样的工作,能为未来佛典的标准标记有 所贡献。 以下就延续简单标记的介绍,说明CBETA学术版XML佛典电子化的文件标 准标记。 二、标记符号的设定 CBETA学术版XML所用的标记符号有下列数种: <header>:表示一经电子档的开头。 <title>:表示经文等的标题。 <trailer>:表示卷终的经题。 <app>:Apparatus Entry,表示底本与异本之容器,含<lem>,<rdg>。 <lem>:Lemma,表示底本的文字,在wit属性(Witness)记录版本的名称。可 包含一组以上的<app>标记定型式。 <rdg>:Reading,表示异本的文字,在wit属性记录版本的名称。只允许<note> 及<p>二种标记。 <div1>:Text Division,在经文中把它看成是一部经文的完整内容。可包含 一组以上的<app>标记定型式。 <juan>:表示「卷」(juan)。可包含一组以上的<app>标记定型式。 <jhead>:表示「卷」(juan)的开头(head)。 <byline>:表示「作者」、「译者」等。可包含一组以上的<app>标记定型式。 <head>:表示一经中的「品」名。可包含一组以上的<app>标记定型式。 <p>:Paragraph,表示经文的一个「段落」。可包含一组以上的<app>标记定 型式。 <pb>:Page Break,表示「栏」。 <lb>:Line Break,表示每行的行首资讯。 <lg>:Line Group,表示一首「偈颂」之容器,含<l>。 <l>:Verse Line,表示一句四言、五言、七言或九言的「偈颂」。 <fan>:表示反切音之容器,含<zi>,<yin>。 <zi>:表示反切音解的目的字。 <yin>:表示反切音解的音。 <note>:表示「注」。 <corr>:Correction,表示订正。 &lac; :表示经文「缺」某字。 <skgloss>:表示梵语之容器,含有<gloss>,<term>。 <gloss>:表示梵语。 <term>:表示汉语词。可包含一组以上的<app>标记定型式。 三、标记符号的应用 1. 经文的标记 CBETA学术版所用的标记甚多,不能一一介绍,在这里首先以唐玄奘所译 的《般若波罗蜜多心经》为例,简略介绍给大家认识。 【<div1>】(Text Division) 如前所言,<div1>在经文中把它看成是一部经文的完整内容。其属性(type) 可分为:「经」(<div1 type="juan">)和「品」(<div1 type="pin">)二种。 以《般若波罗蜜多心经》为例,如下所示。 【XML电子档】: <lb n="0848c04"/><div1 type="jing"><title>般若波罗蜜多心经</title> …… <lb n="0848c24"/><trailer><title>般若波罗蜜多心经</title></trailer> </div1> 【<byline>】 表示「作者」(<byline type="Author">)、「译者」(<byline type=" Translator">)等。 【XML电子档】: <lb n="0848c06"/>< byline type="Translator">唐三藏法师玄奘译</byline> 【<p>】(Paragraph) <p>(Paragraph)表示经文的一个「段落」。其属性有「夹注」(<p type="inline"> ...</p>)、「卷末附文」(<p type="w">...</p>)、「咒」(<p type="dharani">... </p>)等。 【XML电子档】: <p><lb n="0848c07"/>观自在菩萨。 …… <lb n="0848c23"/>菩提<app n="084807"> <lem>僧莎</lem> <rdg wit="【三】">萨婆</rdg> </app>诃 </p> 【<pb>】(Page Break)与【<lb>】(Line Break) 大正藏经文中,一页有上中下三栏,每栏二十九行。在XML电子档中, 以<pb>表示「栏」。以<lb>表示每行的行首资讯。如下所示: <pb ed="T" id="T08.0251.0848c" n="0848c"/> <lb n="0848c01"/> <lb n="0848c02"/> <lb n="0848c03"/> <lb n="0848c04"/></div1><div1 type="jing"> <head><skgloss n="084801"> <gloss>Prajñ&amacron;p&amacron;ramit&amacron; h&rdotblw;daya(A.小).</gloss> <term><title>般若波罗蜜多心经</title></term> </skgloss> </head> 2. 校勘条目 vs <app> (Apparatus Entry) A. 【<app>】标记定型式 除了认识 CBETA学术版经文中的标记外,有一组重要的标记定型式,大 家非得知道不可,那就是标记校勘条目的<app>标记定型式。 经文中或有一笔一条校勘条目、或有一笔二条校勘条目、或有一笔三条 校勘条目,在XML电子档中都以<app>标记定型式来呈现校勘条目的内容,如 下所示: 【标记定型式】: <app> <lem>...</lem> <rdg wit=【?】>...</rdg> <app> 其中<lem>...</lem>标记大正藏的经文字。<rdg wit=【?】>...</rdg> 标记其他版本的校勘字。而<rdg wit=【?】>...</rdg>可能有多笔,视情况 决定。【?】表示版本名,如宋元明三本表示【三】,圣本表示【圣】,宫 本表示【宫】等。在标记<juan>、<byline>、<head>、<p>和<skgloss>等, 可包含一组以上的<app>标记定型式。 B.【&lac;】(缺) 在介绍<app>标记定型式之前,首先必须了解「&lac;」的用法。 大正藏的校勘条目有时以「+」表示其他版本多了某字,以「-」表示大正 藏少了某字,在XML电子档往往以「&lac;」适时的表示该笔校勘条目的内容, 「&lac;」即「缺」意。 C.【<app>】标记定型式的应用 大正藏的校勘略符,有提到「作(various reading)」、「无(omit; diest)」、「有(add)」、「下同与*」和「汉梵语词」等校勘资讯,以下就 《般若波罗蜜多心经》为例,一一介绍。 【作(various reading)】 经文中,一笔的校勘条目,就是甲字作乙字。如《般若波罗蜜多心经》 的 T08.251.848c的「菩提[07]僧莎诃」的「僧莎」二字,宋元明三本作「萨 婆」二字。 【大正藏】: 经文 菩提[07]僧莎诃 校勘条目 [07]僧莎=萨婆【三】 【XML电子档】: <lb n="0848c23"/>菩提<app n="084807"> <lem>僧莎</lem> <rdg wit="【三】">萨婆</rdg> </app> 【有(add)】 《般若波罗蜜多心经》的T08.251.848c的「[02]唐三藏」,大正藏有「唐」 字,但是宋本少了「唐」字。在XML电子档中,以<lem>标记「唐」字,同时将 <rdg wit="【宋】">&lac;</rdg>写成「&lac;」,「&lac;」即「缺」意,表 示在宋本《般若波罗蜜多心经》少了「唐」字。 【大正藏】: 经文(译者) [02]唐三藏法师玄[03]奘译 校勘条目 [02]〔唐〕-【宋】 [03]奘+(奉诏)【三】 【XML电子档】: <lb n="0848c06"/> <byline> <app n="084802"> <lem>唐</lem> <rdg wit="【宋】">&lac;</rdg> </app>三藏法师玄奘<app n="084803"> <lem>&lac;</lem> <rdg wit="【三】">奉诏</rdg> </app>译 </byline> 【无(omit;diest)】 同例如上所示,经文中的「玄[03]奘译」三字,大正藏少了「奉诏」二 字,宋元明三本作「玄奘奉诏译」五字。在XML电子档中,以<lem>标记「&lac;」, 「&lac;」即「缺」意,在<rdg wit="【三】">奉诏</rdg>标记宋元明三本 的《般若波罗蜜多心经》多了「奉诏」二字。 【下同与*】 大正藏经文中经常可以在经文中或校勘条目中看到「*」的校勘符号或 「下同」二字的注明。在大正藏略符中,「*」的校勘符号表示「下同」 (so below, so above)的意思。经文或校勘条目中有时用「*」,有时用 「下同」二字。 在XML电子档中,以<app>标记第一笔的校勘字,如果第二笔的校勘字出 现「*」,就得重覆第一笔的校勘条目之资讯。如《般若波罗蜜多心经》 「揭[04]帝揭[05] 帝」的「帝」字,宋元明三本作「谛」字,该「帝」字 在下一句「般罗揭*帝」出现,该「帝」字却以「*」表示,此时以校勘代 码「n="y084801"」表示这「*」在这一页(T08.251.848c)是第一个「*」 的校勘码,并重复校勘码[05]的校勘资讯。 【大正藏】: 经文 揭[04]帝揭[05]帝 般罗揭*帝…… 校勘条目 [05]帝=谛【三】* 【XML电子档】: <p type="dharani"><lb n="0848c22"/>……揭帝揭 <app n="084805"> <lem>帝</lem> <rdg wit="【三】*">谛</rdg> </app>…… ……罗揭<app n="y084801"> <lem>帝</lem> <rdg wit="【三】">谛</rdg> </app>…… 【中梵语词】 如果遇到有中梵语词对照的校勘条目,其标记有一定的形式,如上 所述<skgloss>表示梵语之容器,含有<gloss>,<term>。<gloss>置放梵语 词。<term> 置放汉语词,在<term>中可包含一组以上的<app>标记定型式。 【标记定型式】: <skgloss n="?"> <gloss>(梵语)</gloss> <term> <app n="?"> <lem>...</lem> <rdg wit="【?】">...</rdg> </app> </term> </skgloss> 【大正藏】: 经文 [01]般若波罗蜜多心经 校勘条目 [01] Prajñ&amacron;p&amacron;ramit&amacron; h&rdotblw;daya(A.小) 【XML电子档】: <lb n="0848c04"/></div1><div1 type="jing"> <head> <skgloss n="084801"> <gloss> Prajñ&amacron;p&amacron;ramit&amacron; &rdotblw;daya(A.小). </gloss> <term> <title>般若波罗蜜多心经</title> </term> </skgloss> <待续> ==================================================================== 【 CBETA E-News 中华电子佛典协会新闻电子报】 http://ccbs.ntu.edu.tw/cbeta 台北市朱仑街36号303室 TEL:(02)8773-6469 FAX:(02)8773-6470 取消 newsletter 请使用浏览器连线到: http://ccbs.ntu.edu.tw/cgi-bin/cbinto.pl?goal=news/index.htm 输入你的电子邮件帐号,选择「删除」并确定按钮即可。 ==================================================================== -- ◇ 若言下相应 即共论佛义 若实不相应 合掌令欢喜 ◇ ◇ 此宗本无诤 诤即失道意 执逆诤法门 自性入生死 ◇ ◇ 南无 本师释迦牟尼佛 南无 护法韦驮尊天菩萨 ◇ □ 欢迎光临 [鹿苑] 五明学馆 : buddha.nsysu.edu.tw □ □ 欢迎光临中华电子佛典协会 : http://ccbs.ntu.edultw/cbeta □ Ξ 狮子吼站 版面介绍: cbs.ntu.edu.tw ⊙ 学佛心得.酸甜苦辣留言版 - 释放心灵的尘埃 BudaFeeling |
阅读文章: 第 1503/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
□ 台大狮子吼佛学专站 http://buddhaspace.org |