看板: BudaTech ◎ 佛典电子化讨论 板主: HeavenChow |
阅读文章: 第 1076/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
发信人: wiskey@Lion (大 师), 信区: BudaTech 标 题: Re: 答佛经电子化之问 发信站: 狮子吼站 (Fri Dec 19 02:08:18 1997) 转信站: Lion 答Heaven 之问: 以下为敝人去年放置此板之资料,就可能之问题,再次重置一次。 有关敝人读经器撰写没革,从84年03月始著手软体撰写相关事项。 1) 第一次以CCCII内码为主,该年主要在资料收集及内码问题解决,後以其认可者 狭隘故,始弃之! 此为第一阶段 2) 次以85年04月份,开始以尝试以JAVA语言撰写,但以显现速度过慢,及浏览器 中文无法正常显现故,亦中辍! 此为第二阶段 3) 再次以Pascal续撰写,时值生活变迁过钜,及为解决中文无法显现与中文输入 法之问题,旷日费时,虽已制定中文输法格式,但考量无法在各平台皆能显现 故,又因藏经「资料库系统」过於庞大,以致撰写日少,规格制定日增。且应 佛教单位所求,撰写软体以供使用,约至86年05月,又中辍。此为第三阶段。 此时内码系统已改为ISO 10646-1。 4) 由於过去已写就若干程式,若不续作实为可惜! 在86年06月以後仍续作读经器。 但已改为C++之语法重新撰写,目前资料库系统大致就绪。内码仍以ISO 10646-1 为主。但为早日面市,首版则以 Big-5内码为主。 此为目前第二阶段。 以下为去年一封覆信,在本版编号 229 可见及: ==> 於 大 师 (wiskey@Lion) 文中述及: : : : : >想必您正创作此一软体中....阿弥陀佛! : : >建议功能: : : >表列佛经选单 ( 并可自由新增佛经 ) : : >由作者(译者)、经书名称、分类(比方说:一般课诵、往生课诵、密宗心法、....) : : >都能查询经书名称及内容 : : >全文检索 (那一部或那几部经书提过 "某字串" 可由"某字串"查出 并立即原文显示 : : >最好有注音(方法请您规划)因为佛经很多读音较常用法不同 : : >如能结合语音或多媒体系统自动发音或课诵就更完美了! : : >阿弥陀佛! 谨代表我佛弟子先感谢您了! : : > : : > 释智信 (ASSEM) : : : : : : 信和尚道次: : : 向所建言已知悉! 兹回答如下,并於此同时周知有意众生: : : : : 一、书 目 处 理 :该软体收经时,是以”藏”为单位,所以该xx藏(例大正藏) : : 内之所有经典名称将一体通收入选单目录内,不论所收之经典 : : (表列佛经 是否已入藏(但会另行标示该经典是否已入藏)所以经名是可 : : 选单) 以检索而得。 : : 又,同时也有新增、删除、修改等之基本功能。 : : : : 二、绘 图 处 理 :在出文字时同时出注音之技术,可以实作出来。但,麻烦的是 : : (注 音) 目前之注音都是各别分开的,如ㄈㄣ ㄎㄞ ㄉ,要打出合在一 : : 起之上下形,须先作TTF 规格之规划,才能再将字形特徵load : : 上去(这涉及到字形之放大缩小功能),由於这部分是琐碎长 : : 时的工夫,所以二版以後才打算实作。不过,单一字注音之功 : : 能会较快出来。实作中凡有字之音念不出时,原则以康熙字典 : : 之切韵为准。 : : : : 三、语音与多媒体:语音的功能可以实作出来,其中关键处计分-- : : 1)纯语音档放出功能--这部分可以实作,可用在诵唱佛经之上 : : ,但须事前即已录好语音档才可。 : : 2)出字发音(Text To Speech)--这部份定义在「出字发音」上 : : ,其中有两种作法-- : : 1>方法同上,整部佛经事前即须以语音档方式存档,要听时 : : 再放出,这方法优点是语音连贯自然,缺点是非常占记忆 : : 体,以每秒4k的取样率,就可算出所耗的记忆体了。在实 : : 作上,可以MIDI的规格做出,配合语音,文字可依序出现 : : 在萤幕上,就如KTV 、卡拉OK之功能一般。 : : : : 2>先录基本单字语音档;在发音时随文字播放,但这不是轻 : : 易就能做的!其中涉及发音人之咬字问题,须有人发心出 : : 资请专业的广播人来发音录档才可。技术上则同上,可以 : : 实作出来。 : : : : 3)多媒体方面--则就须视是否尚有馀力而定!由於多媒体所涉 : : 及之技术较复杂,尤其是动画与音效的配合方 : : 面。如果只是单纯放影片而已,这功能也可以 : : 实作。 : : : : 四、索 引 部 分 :计规划有目录检索、内文检索及全文检索三种 : : 1)目录检索--即上述第一项功能;而作者...等之功能亦有,只是所提出事项 : : 仍不够详细,未来将随作随改。 : : 2)内文检索--搜寻一档内所给定之字串或所指定数档中之内文。 : : 3)全文检索--做这个功能是一个大学问!实在很难用三言两语说得清楚!但 : : 目前所规划之规格,已能做出所建议的功能! : : 不过,单只其中的一个「全文检索表」即已占1.2GM 左右,此 : : 中尚且未包括「目录检索表」等其他各种对照表格!这实在太 : : 伤记忆体! : : 之所以大吃记忆体之原因是:本软体预计要读的内码太多(内 : : 码预计可读Big5,JIS,KSC,CNS 11643,UNICode,ISO 10646, : : UNICode,差不多市面上所有的码都收了进来),以及欲迅速的 : : 检索字串,因此所导致的检索表内容过於庞大之故(主要原因 : : )!所以,也曾想过以市面套装之Database Server 来取代, : : 但考虑使用者所能负担之费用故,也放弃了这个想法!最後, : : 仍然还是决定老牛伏骥--还是自己来写。 : : : : 五、软 体 规 划 : : : : 因於检索而衍生的一些其他影响之故,目前为便利软体能真正地实际被使用, : : 於是再次修正并规划该软体之新方向,谨此顺缘大略介绍一下: : : : : 1)拟将软体分为单机版与Client/Server版。 : : : : 2)单机版之概况为-- : : 1>操 作 系 统 :初步建立在MS Windows95 之上,未来再视状况支援其他OS。 : : 2>内 码 系 统 -- : : □初 版 :收Big5内码与市面资料档案相容,收EUNI(expanded UNICode)交换码 : : (由笔者自行制定之四码规格,字集量目前规划可收约CCCII+ 128^3) : : , 以便与未来之各类内码交换。 : : □再 版 :视使用者之反应再作调整。但原则以收CCCII Code以与国家图书馆现 : : 用之内码相容;收UNICode 以与使用32位元系统之档案相容。 : : 3>网 路 系 统 :可作E-Mail 、语音之收发,视状况再决定是否做BBS之「终端 : : 模拟」功能。 : : 4>资料库系统 -- : : 1.全文检索功能:可找出所有大藏经内的所有字辞(辞句有长度限制!若不限 : : 制,以采内文检索方式,那可要找个一天一夜了!),设检 : : 索表之检索技术若无法有效突破,则预计要作压缩处理,以 : : 减少所占记忆体。 : : 2.机读编目功能:采用国家图书馆之规格,以用於图书管理,及与国家图书馆 : : 档案管理系统一致,以便未来与之网路沟通或读档相容用。 : : 3.档案格式与存取语法 -- : : a)存档格式:档案格式除档头有特殊标示外,馀皆以一般text档存档,使用 : : 者若为节省硬碟空间可利用系统所提供之工具先行作硬碟压缩 : : 工作。 : : b)存取方式:a.当档案自外读入记忆体时,一律以EUNI 码读入。 : : b.当档案传出电脑,或存入软碟时,档头若无标示时,内定以 : : big5传出。 : : c.当档案存入硬碟时,档头若无标示,内定以EUNI码存档。 : : c)网路支援:为支援网路之功能,档案经转档後可以HTML格式存档。 : : : : 所以,只有传出时是Big5,其他一律以EUNI码运作。虽然内部处理时较 : : 复杂,但为了与市面上所有码相容(如ASCII、Big5、CCCII、CNS 11643 、 : : UNICode及ISO 10646 码),亦不得不如此。 : : 另,为增快索引之速度,将不拟作任何语法制定索求,直接程式内部控制。 : : : : 4.资料库规模:初版建立在单机多工作业系统之下,不作Client/Server 功能 : : 。但,若Client/Server 版不作时,则会在再版时加入区域网 : : 路,广域网路之SQL 语法功能,以供一般图书馆管理用。 : : : : 5.特 殊 功 能 -- : : a)拟提供HTML之档案编辑功能。 : : b)转码功能:由於相容性之考虑之故,可能须常作读写之转码工作,此故, : : 提供转码功能。 : : c)外挂元件功能:拟提供类似windows之档案管理员功能表可外挂元件的方式 : : 。使用者未来可依该软体说明书指示设计所需功能元件,外 : : 挂入该软体。 : : d)其他功能细节:由於笔者无法预测检索时的微细需求,所以,其他的一些 : : 使用上之细节功能则须由使用者提示才知道。 : : : : 6.其 他 功 能 :初版时以检索与编辑功能为优先,其他一些基本功能也将具有 : : ,不过是何类及何时出来则将视其需求性而定,这些功能计有 : : 语音、影片、传输、列印、绘图、扫瞄(OCR)等。 : : : : 7.版 权 问 题 :相信此问题迟早将有人相问,在此一并告知! : : 若是软体果然完成,则须视此软体是否需要永续维修而定收费 : : 标准,笔者大事未了,大概是无法一直维护之!若有人维修, : : 则原则以收若干工本费+维修人员生活费=大约NT.400元左右 : : 吧! : : 若是无意永续之,则大约只收工本费 NT.100~200元左右 ( : : 含大藏经及一些光碟片),未来则不放在心上,本无来去,就 : : 随缘吧! : : : : 3)Client/Server版 -- : : Client/Server 版与单机版最大的差别是有较完整的资料库系统,所以所用之系统, : : 将不限制一定是笔者自己所设计之规格,也许用MS SQL Server 或 Informix等软体 : : 亦不一定,目前尚未定案。 : : 以上所述即是近年所规划从事的概况! 专此 : : 敬祝 法喜充满! : : 杨 毅(wiskey) 合十 10/08/'96 : : PS: 1)wiskey: wiskey isn't whiskey ! it means: : : almost half of buddha's wisdom but had got the key can in. : : and : : the way could make everyone drunk like a liquor whiskey ! : : 2)如果,有其他使用者想告知所欲之新功能,可将讯息寄来 : : wiskey@ms10.hinet.net( 较佳 ) : : 或在「台大椰林之"生活佛教板"」上发表 (telnet ->open bbs.ntu.edu.tw) : 一、前一篇所主题,所以於此篇补上。 : 二、自10/13/'96 以後,凡所有意见以「狮子吼之"佛经电子化板"」为主。 : (telnet => open cbs.ntu.edu.tw) : wiskey 10/13/'96 以上已更改之项目有二: 一为「再版」时以收ISO 10646-1 码为主,而不再是CCCII 内码。 一为本人信箱位址,已更改为wiskey@ms17.hinet.net 专此 并祝大众 深入经藏,智慧如海! 杨 毅 合十 12/19/'97 -- Ξ Origin: 狮子吼站 <cbs.ntu.edu.tw> [FROM: 168.95.104.222] |
阅读文章: 第 1076/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
□ 台大狮子吼佛学专站 http://buddhaspace.org |