看板: BudaTech ◎ 佛典电子化讨论    板主: HeavenChow
阅读文章: 第 1540/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回
发信人: Heavenchow@Lion (Heaven), 信区: BudaTech
标  题: Re: 大正藏共 28 册全文检索上网
发信站: 狮子吼站 (Sun Dec 26 12:14:39 1999)
转信站: Lion

==> 於 自了 (tyuan@Lion) 文中述及:
: 我记得 cbeta 曾经 released 一份 XML 的 dtd 还是什麽的?
: 刚问过林晰(负责全文检索计画)他说你们去年有一位德国先生早用 sgml
: 定义一些 tag 了。
: 因为我的确不清楚大家目前进行的如何了。所以,请耐心回答我一下:)谢谢。
: 目前,看来 XML 的部分是没问题了。不知道你们有没有定义好标记的部分。
: 如果用 ie5 来看经文应该就可以有 outline 的架构出来。
: 应该也可以 bookmark 起来。(不过,我没试过。)

早期我们的确是用 SGML 做为原始经文资料库的标记格式,
但现在已经改用 XML 了, 毕竟 SGML 实在太复杂, 我们只用到其中
一小部份标记, 而这部份使用 XML 就已经足够了, 再者未来二大浏览器
都号称会直接支援 XML , 这对使用 XML 而言, 无疑是利多的消息,
至少使用者不用再花一道转换的手续, 即可直接利用最原始的档案.

我在 CBETA 网页上放了一份 Word 格式的《悲华经》(大正藏第三册 157 经)
http://ccbs.ntu.edu.tw/cbeta/step/cd121999/index.htm
的最底下即可看到, 另外有一个专用的 CBETA 工具列亦可在 "问题一" 中取得,
上网即可了解我在说啥! :)

只放一个档案是因为 Word 部份还在测试, 不打算全数提供, 目的仅在提供
未取得 CBETA 测试光碟者一个测试的□例, 若将 Word 格式经文的隐藏文字
全部呈现, 即是一份 XML 标记, 有兴趣的人可以参考研究, 并且随经文
附上 dtd 以供参考, 唯一可惜是今昔文字镜字型太大, 无法上传供大家下载.

: 至於,搜寻部分大概用 java 写是比较 portable。如此,将来可以有 unicode
: 的环境一起看到各国语文。另外,一个问题是怎麽让 java plugin 在 web browser
: 或是说乾脆写 java 版的 browser。
: 简单讲就是想问说你们是不是有对经文的 markup 做过什麽处理。
: 这样我们将来可以拿来配合 XML 来 reuse。
: 还有 browsing, searching, ... 甚至多国语言的显示有过什麽计画没有。

不知多国是指哪些国? ^_^
因为 Word 本身是支援 Unicode , 一些 Big5 缺字在 Word 中会转成 Unicode ,
而 Unicode 也缺字的, 则使用今昔文字镜向量字, 所以在中英文的环境中,
都可以看到中文, 要转成简体字 (GBK) 也是很简单的事了.

: 目前我手边有 acrobat PDF writer, dreamweaver,GoLive 等软体。
: 所以,你们如果需要一些与这些软体有关的工作我可以帮忙。
: -- Tein

CBETA 经文公开之後, 只要保留出处及版本, 让使用者能知道来源
并找到最新版本, 其它任何呈现的实作, 都是欢迎大家来试作的,
看看 Tein 兄能不能找出许多好的方式, 让大家有更好的电子经典可以用. :)

  heaven
--
◇   若言下相应   即共论佛义     若实不相应   合掌令欢喜   ◇
◇   此宗本无诤   诤即失道意     执逆诤法门   自性入生死   ◇
◇   南无 本师释迦牟尼佛          南无 护法韦驮尊天菩萨    ◇
□ 欢迎光临 [鹿苑] 五明学馆 : buddha.nsysu.edu.tw          □
□ 欢迎光临中华电子佛典协会 : http://ccbs.ntu.edultw/cbeta □
Ξ Origin: 狮子吼站 <cbs.ntu.edu.tw>         ◎ 慈悲没有敌人.智慧不起烦恼 ◎
阅读文章: 第 1540/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org