===========《 CBETA E-News 中华电子佛典协会新闻电子报 》============
1999-09-24 第五期 http://ccbs.ntu.edu.tw/cbeta
====================================================================
□□□□□□□□□□□□□□〉专题报导〈□□□□□□□□□□□□□□
=================================================标记语言的应用=====
标记语言的应用(二)
□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□
简介学术版XML标记——以《般若波罗蜜多心经》为例(上)
CBETA研发组撰
一、前言
二、标记符号的设定
三、标记符号的应用
1. 经文的标记
2. 校勘条目 vs <app> (Apparatus Entry)
3.《般若波罗蜜多心经》学术版XML电子档□例
四、结语
附件:学术版XML之DTD的设定
□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□
一、前言
在佛典电子化的过程中,如果仅仅只是做文字的电子化,那便丧失了原
来书本资料所拥有的许多宝贵资讯,例如:经名、年代、作者、译者、校勘
等等。因此 CBETA的大正藏电子化工作,使用XML(eXtensible Markup
Language) 标记技术将这些宝贵的资讯记录下来,以便後续进行更广泛的学
术研究应用。
XML 是一个允许使用者自订标记的语言,佛教经典是否能有一套共同的
标准标记,以利将来的资讯交换?CBETA采用国际标准TEI (Text Encoding
and Interchange),TEI 是针对电子文献所制定的标准标记组(tag set),
透过使用国际标准标记,使 CBETA制作的电子佛典更便於国际间分享。
然而,由於 TEI并不是针对中文文献所设计的,在 CBETA的实做过程中,
发现仍然有许多标记是 TEI所未提供的,於是我们采用这样的策略:尽量采
用 TEI标准的标记,在 TEI□实在找不到适用的标记,便尝试著自己制定适
用於中文佛典的标记。期待 CBETA这样的工作,能为未来佛典的标准标记有
所贡献。
以下就延续简单标记的介绍,说明CBETA学术版XML佛典电子化的文件标
准标记。
二、标记符号的设定
CBETA学术版XML所用的标记符号有下列数种:
<header>:表示一经电子档的开头。
<title>:表示经文等的标题。
<trailer>:表示卷终的经题。
<app>:Apparatus Entry,表示底本与异本之容器,含<lem>,<rdg>。
<lem>:Lemma,表示底本的文字,在wit属性(Witness)记录版本的名称。可
包含一组以上的<app>标记定型式。
<rdg>:Reading,表示异本的文字,在wit属性记录版本的名称。只允许<note>
及<p>二种标记。
<div1>:Text Division,在经文中把它看成是一部经文的完整内容。可包含
一组以上的<app>标记定型式。
<juan>:表示「卷」(juan)。可包含一组以上的<app>标记定型式。
<jhead>:表示「卷」(juan)的开头(head)。
<byline>:表示「作者」、「译者」等。可包含一组以上的<app>标记定型式。
<head>:表示一经中的「品」名。可包含一组以上的<app>标记定型式。
<p>:Paragraph,表示经文的一个「段落」。可包含一组以上的<app>标记定
型式。
<pb>:Page Break,表示「栏」。
<lb>:Line Break,表示每行的行首资讯。
<lg>:Line Group,表示一首「偈颂」之容器,含<l>。
<l>:Verse Line,表示一句四言、五言、七言或九言的「偈颂」。
<fan>:表示反切音之容器,含<zi>,<yin>。
<zi>:表示反切音解的目的字。
<yin>:表示反切音解的音。
<note>:表示「注」。
<corr>:Correction,表示订正。
&lac; :表示经文「缺」某字。
<skgloss>:表示梵语之容器,含有<gloss>,<term>。
<gloss>:表示梵语。
<term>:表示汉语词。可包含一组以上的<app>标记定型式。
三、标记符号的应用
1. 经文的标记
CBETA学术版所用的标记甚多,不能一一介绍,在这里首先以唐玄奘所译
的《般若波罗蜜多心经》为例,简略介绍给大家认识。
【<div1>】(Text Division)
如前所言,<div1>在经文中把它看成是一部经文的完整内容。其属性(type)
可分为:「经」(<div1 type="juan">)和「品」(<div1 type="pin">)二种。
以《般若波罗蜜多心经》为例,如下所示。
【XML电子档】:
<lb n="0848c04"/><div1 type="jing"><title>般若波罗蜜多心经</title>
……
<lb n="0848c24"/><trailer><title>般若波罗蜜多心经</title></trailer>
</div1>
【<byline>】
表示「作者」(<byline type="Author">)、「译者」(<byline type="
Translator">)等。
【XML电子档】:
<lb n="0848c06"/>< byline type="Translator">唐三藏法师玄奘译</byline>
【<p>】(Paragraph)
<p>(Paragraph)表示经文的一个「段落」。其属性有「夹注」(<p type="inline">
...</p>)、「卷末附文」(<p type="w">...</p>)、「咒」(<p type="dharani">...
</p>)等。
【XML电子档】:
<p><lb n="0848c07"/>观自在菩萨。
……
<lb n="0848c23"/>菩提<app n="084807">
<lem>僧莎</lem>
<rdg wit="【三】">萨婆</rdg>
</app>诃
</p>
【<pb>】(Page Break)与【<lb>】(Line Break)
大正藏经文中,一页有上中下三栏,每栏二十九行。在XML电子档中,
以<pb>表示「栏」。以<lb>表示每行的行首资讯。如下所示:
<pb ed="T" id="T08.0251.0848c" n="0848c"/>
<lb n="0848c01"/>
<lb n="0848c02"/>
<lb n="0848c03"/>
<lb n="0848c04"/></div1><div1 type="jing">
<head><skgloss n="084801">
<gloss>Prajñ&amacron;p&amacron;ramit&amacron;
h&rdotblw;daya(A.小).</gloss>
<term><title>般若波罗蜜多心经</title></term>
</skgloss>
</head>
2. 校勘条目 vs <app> (Apparatus Entry)
A. 【<app>】标记定型式
除了认识 CBETA学术版经文中的标记外,有一组重要的标记定型式,大
家非得知道不可,那就是标记校勘条目的<app>标记定型式。
经文中或有一笔一条校勘条目、或有一笔二条校勘条目、或有一笔三条
校勘条目,在XML电子档中都以<app>标记定型式来呈现校勘条目的内容,如
下所示:
【标记定型式】:
<app>
<lem>...</lem>
<rdg wit=【?】>...</rdg>
<app>
其中<lem>...</lem>标记大正藏的经文字。<rdg wit=【?】>...</rdg>
标记其他版本的校勘字。而<rdg wit=【?】>...</rdg>可能有多笔,视情况
决定。【?】表示版本名,如宋元明三本表示【三】,圣本表示【圣】,宫
本表示【宫】等。在标记<juan>、<byline>、<head>、<p>和<skgloss>等,
可包含一组以上的<app>标记定型式。
B.【&lac;】(缺)
在介绍<app>标记定型式之前,首先必须了解「&lac;」的用法。
大正藏的校勘条目有时以「+」表示其他版本多了某字,以「-」表示大正
藏少了某字,在XML电子档往往以「&lac;」适时的表示该笔校勘条目的内容,
「&lac;」即「缺」意。
C.【<app>】标记定型式的应用
大正藏的校勘略符,有提到「作(various reading)」、「无(omit;
diest)」、「有(add)」、「下同与*」和「汉梵语词」等校勘资讯,以下就
《般若波罗蜜多心经》为例,一一介绍。
【作(various reading)】
经文中,一笔的校勘条目,就是甲字作乙字。如《般若波罗蜜多心经》
的 T08.251.848c的「菩提[07]僧莎诃」的「僧莎」二字,宋元明三本作「萨
婆」二字。
【大正藏】:
经文 菩提[07]僧莎诃
校勘条目 [07]僧莎=萨婆【三】
【XML电子档】:
<lb n="0848c23"/>菩提<app n="084807">
<lem>僧莎</lem>
<rdg wit="【三】">萨婆</rdg>
</app>
【有(add)】
《般若波罗蜜多心经》的T08.251.848c的「[02]唐三藏」,大正藏有「唐」
字,但是宋本少了「唐」字。在XML电子档中,以<lem>标记「唐」字,同时将
<rdg wit="【宋】">&lac;</rdg>写成「&lac;」,「&lac;」即「缺」意,表
示在宋本《般若波罗蜜多心经》少了「唐」字。
【大正藏】:
经文(译者) [02]唐三藏法师玄[03]奘译
校勘条目 [02]〔唐〕-【宋】
[03]奘+(奉诏)【三】
【XML电子档】:
<lb n="0848c06"/>
<byline>
<app n="084802">
<lem>唐</lem>
<rdg wit="【宋】">&lac;</rdg>
</app>三藏法师玄奘<app n="084803">
<lem>&lac;</lem>
<rdg wit="【三】">奉诏</rdg>
</app>译
</byline>
【无(omit;diest)】
同例如上所示,经文中的「玄[03]奘译」三字,大正藏少了「奉诏」二
字,宋元明三本作「玄奘奉诏译」五字。在XML电子档中,以<lem>标记「&lac;」,
「&lac;」即「缺」意,在<rdg wit="【三】">奉诏</rdg>标记宋元明三本
的《般若波罗蜜多心经》多了「奉诏」二字。
【下同与*】
大正藏经文中经常可以在经文中或校勘条目中看到「*」的校勘符号或
「下同」二字的注明。在大正藏略符中,「*」的校勘符号表示「下同」
(so below, so above)的意思。经文或校勘条目中有时用「*」,有时用
「下同」二字。
在XML电子档中,以<app>标记第一笔的校勘字,如果第二笔的校勘字出
现「*」,就得重覆第一笔的校勘条目之资讯。如《般若波罗蜜多心经》
「揭[04]帝揭[05] 帝」的「帝」字,宋元明三本作「谛」字,该「帝」字
在下一句「般罗揭*帝」出现,该「帝」字却以「*」表示,此时以校勘代
码「n="y084801"」表示这「*」在这一页(T08.251.848c)是第一个「*」
的校勘码,并重复校勘码[05]的校勘资讯。
【大正藏】:
经文 揭[04]帝揭[05]帝 般罗揭*帝……
校勘条目 [05]帝=谛【三】*
【XML电子档】:
<p type="dharani"><lb n="0848c22"/>……揭帝揭
<app n="084805">
<lem>帝</lem>
<rdg wit="【三】*">谛</rdg>
</app>……
……罗揭<app n="y084801">
<lem>帝</lem>
<rdg wit="【三】">谛</rdg>
</app>……
【中梵语词】
如果遇到有中梵语词对照的校勘条目,其标记有一定的形式,如上
所述<skgloss>表示梵语之容器,含有<gloss>,<term>。<gloss>置放梵语
词。<term> 置放汉语词,在<term>中可包含一组以上的<app>标记定型式。
【标记定型式】:
<skgloss n="?">
<gloss>(梵语)</gloss>
<term>
<app n="?">
<lem>...</lem>
<rdg wit="【?】">...</rdg>
</app>
</term>
</skgloss>
【大正藏】:
经文 [01]般若波罗蜜多心经
校勘条目 [01] Prajñ&amacron;p&amacron;ramit&amacron;
h&rdotblw;daya(A.小)
【XML电子档】:
<lb n="0848c04"/></div1><div1 type="jing">
<head>
<skgloss n="084801">
<gloss>
Prajñ&amacron;p&amacron;ramit&amacron; &rdotblw;daya(A.小).
</gloss>
<term>
<title>般若波罗蜜多心经</title>
</term>
</skgloss>
<待续>
====================================================================
【 CBETA E-News 中华电子佛典协会新闻电子报】
http://ccbs.ntu.edu.tw/cbeta
台北市朱仑街36号303室 TEL:(02)8773-6469 FAX:(02)8773-6470
取消 newsletter 请使用浏览器连线到:
http://ccbs.ntu.edu.tw/cgi-bin/cbinto.pl?goal=news/index.htm
输入你的电子邮件帐号,选择「删除」并确定按钮即可。
====================================================================
--
◇ 若言下相应 即共论佛义 若实不相应 合掌令欢喜 ◇
◇ 此宗本无诤 诤即失道意 执逆诤法门 自性入生死 ◇
◇ 南无 本师释迦牟尼佛 南无 护法韦驮尊天菩萨 ◇
□ 欢迎光临 [鹿苑] 五明学馆 : buddha.nsysu.edu.tw □
□ 欢迎光临中华电子佛典协会 : http://ccbs.ntu.edultw/cbeta □
Ξ 狮子吼站 版面介绍: cbs.ntu.edu.tw
⊙ 学佛心得.酸甜苦辣留言版 - 释放心灵的尘埃 BudaFeeling