您有新信

 
CBETA 0924电子报--标记语言
#1
Heaven
发信站: 狮子吼站 (Lion , 信区: BudaTech)
===========《 CBETA E-News 中华电子佛典协会新闻电子报 》============
1999-09-24   第五期       http://ccbs.ntu.edu.tw/cbeta
====================================================================
□□□□□□□□□□□□□□〉专题报导〈□□□□□□□□□□□□□□
=================================================标记语言的应用=====

标记语言的应用(二)
□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□
简介学术版XML标记——以《般若波罗蜜多心经》为例(上)
                                                     CBETA研发组撰
一、前言
二、标记符号的设定
三、标记符号的应用
  1. 经文的标记
  2. 校勘条目 vs <app> (Apparatus Entry)
  3.《般若波罗蜜多心经》学术版XML电子档□例
四、结语
附件:学术版XML之DTD的设定
□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□□

一、前言
  在佛典电子化的过程中,如果仅仅只是做文字的电子化,那便丧失了原
来书本资料所拥有的许多宝贵资讯,例如:经名、年代、作者、译者、校勘
等等。因此 CBETA的大正藏电子化工作,使用XML(eXtensible Markup
Language) 标记技术将这些宝贵的资讯记录下来,以便後续进行更广泛的学
术研究应用。

  XML 是一个允许使用者自订标记的语言,佛教经典是否能有一套共同的
标准标记,以利将来的资讯交换?CBETA采用国际标准TEI (Text Encoding
and Interchange),TEI 是针对电子文献所制定的标准标记组(tag set),
透过使用国际标准标记,使 CBETA制作的电子佛典更便於国际间分享。

  然而,由於 TEI并不是针对中文文献所设计的,在 CBETA的实做过程中,
发现仍然有许多标记是 TEI所未提供的,於是我们采用这样的策略:尽量采
用 TEI标准的标记,在 TEI□实在找不到适用的标记,便尝试著自己制定适
用於中文佛典的标记。期待 CBETA这样的工作,能为未来佛典的标准标记有
所贡献。

  以下就延续简单标记的介绍,说明CBETA学术版XML佛典电子化的文件标
准标记。

二、标记符号的设定

  CBETA学术版XML所用的标记符号有下列数种:

<header>:表示一经电子档的开头。
<title>:表示经文等的标题。
<trailer>:表示卷终的经题。
<app>:Apparatus Entry,表示底本与异本之容器,含<lem>,<rdg>。
<lem>:Lemma,表示底本的文字,在wit属性(Witness)记录版本的名称。可
      包含一组以上的<app>标记定型式。
<rdg>:Reading,表示异本的文字,在wit属性记录版本的名称。只允许<note>
      及<p>二种标记。
<div1>:Text Division,在经文中把它看成是一部经文的完整内容。可包含
      一组以上的<app>标记定型式。
<juan>:表示「卷」(juan)。可包含一组以上的<app>标记定型式。
<jhead>:表示「卷」(juan)的开头(head)。
<byline>:表示「作者」、「译者」等。可包含一组以上的<app>标记定型式。
<head>:表示一经中的「品」名。可包含一组以上的<app>标记定型式。
<p>:Paragraph,表示经文的一个「段落」。可包含一组以上的<app>标记定
型式。
<pb>:Page Break,表示「栏」。
<lb>:Line Break,表示每行的行首资讯。
<lg>:Line Group,表示一首「偈颂」之容器,含<l>。
<l>:Verse Line,表示一句四言、五言、七言或九言的「偈颂」。
<fan>:表示反切音之容器,含<zi>,<yin>。
<zi>:表示反切音解的目的字。
<yin>:表示反切音解的音。
<note>:表示「注」。
<corr>:Correction,表示订正。
&lac; :表示经文「缺」某字。
<skgloss>:表示梵语之容器,含有<gloss>,<term>。
<gloss>:表示梵语。
<term>:表示汉语词。可包含一组以上的<app>标记定型式。

三、标记符号的应用

1. 经文的标记

  CBETA学术版所用的标记甚多,不能一一介绍,在这里首先以唐玄奘所译
的《般若波罗蜜多心经》为例,简略介绍给大家认识。

【<div1>】(Text Division)
如前所言,<div1>在经文中把它看成是一部经文的完整内容。其属性(type)
可分为:「经」(<div1 type="juan">)和「品」(<div1 type="pin">)二种。
以《般若波罗蜜多心经》为例,如下所示。

【XML电子档】:

<lb n="0848c04"/><div1 type="jing"><title>般若波罗蜜多心经</title>
……
<lb n="0848c24"/><trailer><title>般若波罗蜜多心经</title></trailer>
</div1>

【<byline>】
  表示「作者」(<byline type="Author">)、「译者」(<byline type="
Translator">)等。

【XML电子档】:

<lb n="0848c06"/>< byline type="Translator">唐三藏法师玄奘译</byline>

【<p>】(Paragraph)

<p>(Paragraph)表示经文的一个「段落」。其属性有「夹注」(<p type="inline">
...</p>)、「卷末附文」(<p type="w">...</p>)、「咒」(<p type="dharani">...
</p>)等。

【XML电子档】:

<p><lb n="0848c07"/>观自在菩萨。
……
<lb n="0848c23"/>菩提<app n="084807">
            <lem>僧莎</lem>
                        <rdg wit="【三】">萨婆</rdg>
                   </app>诃
</p>

【<pb>】(Page Break)与【<lb>】(Line Break)
  大正藏经文中,一页有上中下三栏,每栏二十九行。在XML电子档中,
以<pb>表示「栏」。以<lb>表示每行的行首资讯。如下所示:

<pb ed="T" id="T08.0251.0848c" n="0848c"/>
<lb n="0848c01"/>
<lb n="0848c02"/>
<lb n="0848c03"/>
<lb n="0848c04"/></div1><div1 type="jing">
<head><skgloss n="084801">
               <gloss>Praj&ntilde;&amacron;p&amacron;ramit&amacron;
           h&rdotblw;daya(A.小).</gloss>
                <term><title>般若波罗蜜多心经</title></term>
</skgloss>
</head>


2. 校勘条目 vs <app> (Apparatus Entry)

A. 【<app>】标记定型式

  除了认识 CBETA学术版经文中的标记外,有一组重要的标记定型式,大
家非得知道不可,那就是标记校勘条目的<app>标记定型式。
  经文中或有一笔一条校勘条目、或有一笔二条校勘条目、或有一笔三条
校勘条目,在XML电子档中都以<app>标记定型式来呈现校勘条目的内容,如
下所示:

【标记定型式】:

<app>
<lem>...</lem>
<rdg wit=【?】>...</rdg>
<app>

  其中<lem>...</lem>标记大正藏的经文字。<rdg wit=【?】>...</rdg>
标记其他版本的校勘字。而<rdg wit=【?】>...</rdg>可能有多笔,视情况
决定。【?】表示版本名,如宋元明三本表示【三】,圣本表示【圣】,宫
本表示【宫】等。在标记<juan>、<byline>、<head>、<p>和<skgloss>等,
可包含一组以上的<app>标记定型式。

B.【&lac;】(缺)

  在介绍<app>标记定型式之前,首先必须了解「&lac;」的用法。
大正藏的校勘条目有时以「+」表示其他版本多了某字,以「-」表示大正
藏少了某字,在XML电子档往往以「&lac;」适时的表示该笔校勘条目的内容,
「&lac;」即「缺」意。

C.【<app>】标记定型式的应用

  大正藏的校勘略符,有提到「作(various reading)」、「无(omit;
diest)」、「有(add)」、「下同与*」和「汉梵语词」等校勘资讯,以下就
《般若波罗蜜多心经》为例,一一介绍。

【作(various reading)】
  经文中,一笔的校勘条目,就是甲字作乙字。如《般若波罗蜜多心经》
的 T08.251.848c的「菩提[07]僧莎诃」的「僧莎」二字,宋元明三本作「萨
婆」二字。

【大正藏】:
经文           菩提[07]僧莎诃
校勘条目        [07]僧莎=萨婆【三】

【XML电子档】:
        <lb n="0848c23"/>菩提<app n="084807">
                                <lem>僧莎</lem>
                                <rdg wit="【三】">萨婆</rdg>
                           </app>


【有(add)】
  《般若波罗蜜多心经》的T08.251.848c的「[02]唐三藏」,大正藏有「唐」
字,但是宋本少了「唐」字。在XML电子档中,以<lem>标记「唐」字,同时将
<rdg wit="【宋】">&lac;</rdg>写成「&lac;」,「&lac;」即「缺」意,表
示在宋本《般若波罗蜜多心经》少了「唐」字。

【大正藏】:
经文(译者)   [02]唐三藏法师玄[03]奘译
校勘条目        [02]〔唐〕-【宋】
        [03]奘+(奉诏)【三】

【XML电子档】:
        <lb n="0848c06"/>
      <byline>
                <app n="084802">
              <lem>唐</lem>
                  <rdg wit="【宋】">&lac;</rdg>
                </app>三藏法师玄奘<app n="084803">
                                   <lem>&lac;</lem>
                                   <rdg wit="【三】">奉诏</rdg>
                                 </app>译
             </byline>

【无(omit;diest)】
  同例如上所示,经文中的「玄[03]奘译」三字,大正藏少了「奉诏」二
字,宋元明三本作「玄奘奉诏译」五字。在XML电子档中,以<lem>标记「&lac;」,
「&lac;」即「缺」意,在<rdg wit="【三】">奉诏</rdg>标记宋元明三本
的《般若波罗蜜多心经》多了「奉诏」二字。

【下同与*】
  大正藏经文中经常可以在经文中或校勘条目中看到「*」的校勘符号或
「下同」二字的注明。在大正藏略符中,「*」的校勘符号表示「下同」
(so below, so above)的意思。经文或校勘条目中有时用「*」,有时用
「下同」二字。
  在XML电子档中,以<app>标记第一笔的校勘字,如果第二笔的校勘字出
现「*」,就得重覆第一笔的校勘条目之资讯。如《般若波罗蜜多心经》
「揭[04]帝揭[05] 帝」的「帝」字,宋元明三本作「谛」字,该「帝」字
在下一句「般罗揭*帝」出现,该「帝」字却以「*」表示,此时以校勘代
码「n="y084801"」表示这「*」在这一页(T08.251.848c)是第一个「*」
的校勘码,并重复校勘码[05]的校勘资讯。

【大正藏】:

经文        揭[04]帝揭[05]帝   般罗揭*帝……
校勘条目  [05]帝=谛【三】*

【XML电子档】:

<p type="dharani"><lb n="0848c22"/>……揭帝揭
  <app n="084805">
    <lem>帝</lem>
        <rdg wit="【三】*">谛</rdg>
  </app>……

……罗揭<app n="y084801">
          <lem>帝</lem>
          <rdg wit="【三】">谛</rdg>
        </app>……

【中梵语词】
        如果遇到有中梵语词对照的校勘条目,其标记有一定的形式,如上
所述<skgloss>表示梵语之容器,含有<gloss>,<term>。<gloss>置放梵语
词。<term> 置放汉语词,在<term>中可包含一组以上的<app>标记定型式。

【标记定型式】:
<skgloss n="?">
  <gloss>(梵语)</gloss>
        <term>
                <app n="?">
                         <lem>...</lem>
                        <rdg wit="【?】">...</rdg>
                 </app>
    </term>
</skgloss>


【大正藏】:
经文            [01]般若波罗蜜多心经
校勘条目        [01] Praj&ntilde;&amacron;p&amacron;ramit&amacron;
                     h&rdotblw;daya(A.小)

【XML电子档】:
<lb n="0848c04"/></div1><div1 type="jing">
<head>
<skgloss n="084801">
<gloss>
Praj&ntilde;&amacron;p&amacron;ramit&amacron; &rdotblw;daya(A.小).
</gloss>
<term>
<title>般若波罗蜜多心经</title>
</term>
</skgloss>

<待续>
====================================================================
          【 CBETA E-News 中华电子佛典协会新闻电子报】
                      http://ccbs.ntu.edu.tw/cbeta
  台北市朱仑街36号303室   TEL:(02)8773-6469    FAX:(02)8773-6470
  取消 newsletter 请使用浏览器连线到:
  http://ccbs.ntu.edu.tw/cgi-bin/cbinto.pl?goal=news/index.htm
  输入你的电子邮件帐号,选择「删除」并确定按钮即可。
====================================================================

--
◇   若言下相应   即共论佛义     若实不相应   合掌令欢喜   ◇
◇   此宗本无诤   诤即失道意     执逆诤法门   自性入生死   ◇
◇   南无 本师释迦牟尼佛          南无 护法韦驮尊天菩萨    ◇
□ 欢迎光临 [鹿苑] 五明学馆 : buddha.nsysu.edu.tw          □
□ 欢迎光临中华电子佛典协会 : http://ccbs.ntu.edultw/cbeta □
Ξ 狮子吼站 版面介绍:                                          cbs.ntu.edu.tw
 学佛心得.酸甜苦辣留言版 - 释放心灵的尘埃                      BudaFeeling
Sun Sep 26 15:58:30 1999
回覆 | 转寄 | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org