您有新信

 
如何快速去除经文图档的圈点
#1
发信站: 国立中山大学网路组 Mailing List (tpts1.seed.net.tw>, 信区: BudaTech)
各位为中文资讯努力的朋友好:

请教一个问题:

当以丹青 OCR(中文印刷体文字辨识系统)处理佛教大藏经,将书面经
文扫瞄成 TIF图档後,若不先将图档里经文右侧的圈点(旧式标点)去
除,则会严重影响辨识效果。一般是可以用丹青 OCR里面的橡皮擦工具
去点,但一个一个去点实在太慢,手指头都快抽筋了。

所以有没有哪种图形软体,可以自动去除固定形状的杂点?我玩过
PaintShop Pro 及 PhotoImpact,还没发现这样的功能呢。

这问题很重要啊,因为我们已经扫瞄了一堆佛教经文图档,若能克服这
个步骤,佛经文字档的产生就大大容易了。各位若有所知,敬请通报一
声,或是帮忙请教一下熟悉图形处理的专家,谢谢!

                                                   maha 8/2/97
Sat Aug 2 15:28:40 1997
回覆 | 转寄 | 返回

Re: 如何快速去除经文图档的圈点
#2
发信站: 国立中山大学网路组 Mailing List (novell.zcom.com.tw>, 信区: BudaTech)
> 当以丹青 OCR(中文印刷体文字辨识系统)处理佛教大藏经,将书面经
> 文扫瞄成 TIF图档後,若不先将图档里经文右侧的圈点(旧式标点)去
> 除,则会严重影响辨识效果。一般是可以用丹青 OCR里面的橡皮擦工具
> 去点,但一个一个去点实在太慢,手指头都快抽筋了。

  後学有想写个程式来处理, 但如何判断尚未有头绪, 若有网友有方法, 能否
  指点一下.

  目前想到一个可能暂时可以克服抽筋的方法. 用可编辑的绘图程式
  来处理:

  1. 小圆点大多是在同一直排, 兄可先画一条长直线, 并复制起来.
  2. 然後分别贴上长直线, 再将其移动至小圆点上, 有如将它们串起来.
  3. 继续贴上长直线, 将所有的圆点串起来 (大概每一行都有吧!)
  4. 亦可画一横线, 跨过那些长串, 甚至连结外面的黑框.
  5. 原则就是将想去除的部份串在一起, 不要串到字.
  6. 用倒油漆的工具将白色倒在那些部份, 就全部去除了.

  这是想像, 我没有实务经验, 不过听起来应该会快一点.
  您可以试试. 等我有图档後, 再来一起玩.

  Heaven
Sun Aug 3 04:11:00 1997
回覆 | 转寄 | 返回

Re: 如何快速去除经文图档的圈点
#3
发信站: 国立中山大学网路组 Mailing List (tpts1.seed.net.tw>, 信区: BudaTech)
Heaven wrote:
> 
>   目前想到一个可能暂时可以克服抽筋的方法. 用可编辑的绘图程式
>   来处理:
> 
>   1. 小圆点大多是在同一直排, 兄可先画一条长直线, 并复制起来.

.....(略)

>   这是想像, 我没有实务经验, 不过听起来应该会快一点.
>   您可以试试. 等我有图档後, 再来一起玩.

这个方法,之前 roberhhh 跟我有试过。
我们碰到的问题是:

图档扫瞄多少都有些歪斜现象,
甚至原来书本的印刷就有少许不规则歪斜,
还有经文右侧的圈点也不是都很准确一致的排列下来。

那麽当使用图形处理软体拉线框时,
因为只能拉出上下垂直框,
所以常不容易一次就很准确的把只想去除的部份圈选起来。

於是我们就放弃这个方法。

                                         maha 8/3/97
Sun Aug 3 08:30:09 1997
回覆 | 转寄 | 返回

Re: 如何快速去除经文图档的圈点
#4
第二代电子宝宝
发信站: 狮子吼站 (Lion , 信区: BudaTech)
==> 於  (maha) 文中述及:
: Heaven wrote:
: >
: >   目前想到一个可能暂时可以克服抽筋的方法. 用可编辑的绘图程式
: >   来处理:
: >
: >   1. 小圆点大多是在同一直排, 兄可先画一条长直线, 并复制起来.
: .....(略)
: >   这是想像, 我没有实务经验, 不过听起来应该会快一点.
: >   您可以试试. 等我有图档後, 再来一起玩.
: 这个方法,之前 roberhhh 跟我有试过。
: 我们碰到的问题是:
: 图档扫瞄多少都有些歪斜现象,
: 甚至原来书本的印刷就有少许不规则歪斜,
: 还有经文右侧的圈点也不是都很准确一致的排列下来。
: 那麽当使用图形处理软体拉线框时,
: 因为只能拉出上下垂直框,
: 所以常不容易一次就很准确的把只想去除的部份圈选起来。
: 於是我们就放弃这个方法。
:                                          maha 8/3/97

    如果歪斜宝宝是用photo iExpress中自动校正和自动去除杂点, 自动去除印刷纹路

    来克服...

    如果想除去一排点也许photoshop就很好用罗....

    嗯~~~ 如果想直接清除.....先影印再用立可白会不会好些ㄌㄟ :P

    至少影印和立可白还蛮好操作的~~~~~

    这是宝宝愚拙的建议啦~~~ :)

    否则会很累的.....
--
伤心最怕伴明月, 何苦自残缺.
    却教孤松也把影摊碎.
        未憔悴, 先□斑斑泪.
闻钟梦醒找人陪, 奈何夜已沉睡.
    但见风醉把愁吹, 道一去不回, 徒叹伤悲!
       ~~~~~~~~ 1990中秋随笔
Ξ Origin: 狮子吼站 <cbs.ntu.edu.tw> [FROM: 140.114.44.131]
Mon Aug 4 10:39:49 1997
回覆 | 转寄 | 返回

Re: 如何快速去除经文图档的圈点
#5
wmc
发信站: 国立中山大学网路组 Mailing List (mozart.seed.net.tw , 信区: BudaTech)
第二代电子宝宝 wrote:
> 
> 伤心最怕伴明月, 何苦自残缺.
>     却教孤松也把影摊碎.
>         未憔悴, 先□斑斑泪.
> 闻钟梦醒找人陪, 奈何夜已沉睡.
>     但见风醉把愁吹, 道一去不回, 徒叹伤悲!
>        ~~~~~~~~ 1990中秋随笔
如梦幻泡影, 如露亦如电, 应作如是观.
如梦幻泡影, 如露亦如电, 应作如是观.
如梦幻泡影, 如露亦如电, 应作如是观.
如梦幻泡影, 如露亦如电, 应作如是观.
如梦幻泡影, 如露亦如电, 应作如是观.
如梦幻泡影, 如露亦如电, 应作如是观.
Mon Aug 4 13:10:26 1997
回覆 | 转寄 | 返回

Re: 如何快速去除经文图档的圈点
#6
噎鸡吐宝宝
发信站: 狮子吼站 (Lion , 信区: BudaTech)
==> 於 wmc (wmc@mozart.seed.net.tw) 文中述及:
: 第二代电子宝宝 wrote:
: >
: > 伤心最怕伴明月, 何苦自残缺.
: >     却教孤松也把影摊碎.
: >         未憔悴, 先□斑斑泪.
: > 闻钟梦醒找人陪, 奈何夜已沉睡.
: >     但见风醉把愁吹, 道一去不回, 徒叹伤悲!
: >        ~~~~~~~~ 1990中秋随笔
: 如梦幻泡影, 如露亦如电, 应作如是观.
: 如梦幻泡影, 如露亦如电, 应作如是观.
: 如梦幻泡影, 如露亦如电, 应作如是观.
: 如梦幻泡影, 如露亦如电, 应作如是观.
: 如梦幻泡影, 如露亦如电, 应作如是观.
: 如梦幻泡影, 如露亦如电, 应作如是观.

    也许这和清除杂点不太有关系, 但是呢~~~ 辨识软体可没这麽强喔!!!

    还是要谢谢您~~~ 只不过ㄌㄟ...都7年了~~~ 早过去了~~~ 生个小孩都上小学的说~~
--
伤心最怕伴明月, 何苦自残缺.
    却教孤松也把影摊碎.
        未憔悴, 先□斑斑泪.
闻钟梦醒找人陪, 奈何夜已沉睡.
    但见风醉把愁吹, 道一去不回, 徒叹伤悲!
       ~~~~~~~~ 1990中秋随笔
Ξ Origin: 狮子吼站 <cbs.ntu.edu.tw> [FROM: 140.114.44.132]
Mon Aug 4 16:25:03 1997
回覆 | 转寄 | 返回

Re: 如何快速去除经文图档的圈点
#7
噎鸡吐宝宝
发信站: 狮子吼站 (Lion , 信区: BudaTech)
==> 於 第二代电子宝宝 (ag2@Lion) 文中述及:
: ==> 於  (maha) 文中述及:
: : Heaven wrote:
: : >
: : >   目前想到一个可能暂时可以克服抽筋的方法. 用可编辑的绘图程式
: : >   来处理:
: : >
: : >   1. 小圆点大多是在同一直排, 兄可先画一条长直线, 并复制起来.
: : .....(略)
: : >   这是想像, 我没有实务经验, 不过听起来应该会快一点.
: : >   您可以试试. 等我有图档後, 再来一起玩.
: : 这个方法,之前 roberhhh 跟我有试过。
: : 我们碰到的问题是:
: : 图档扫瞄多少都有些歪斜现象,
: : 甚至原来书本的印刷就有少许不规则歪斜,
: : 还有经文右侧的圈点也不是都很准确一致的排列下来。
: : 那麽当使用图形处理软体拉线框时,
: : 因为只能拉出上下垂直框,
: : 所以常不容易一次就很准确的把只想去除的部份圈选起来。
: : 於是我们就放弃这个方法。
: :                                          maha 8/3/97
:     如果歪斜宝宝是用photo iExpress中自动校正和自动去除杂点, 自动去除印刷纹路
                         ^^更正...是iPhoto Express 友立的工具 ^_^

:     来克服...
:     如果想除去一排点也许photoshop就很好用罗....
:     嗯~~~ 如果想直接清除.....先影印再用立可白会不会好些ㄌㄟ :P
:     至少影印和立可白还蛮好操作的~~~~~
:     这是宝宝愚拙的建议啦~~~ :)
:     否则会很累的.....
--
伤心最怕伴明月, 何苦自残缺.
    却教孤松也把影摊碎.
        未憔悴, 先□斑斑泪.
闻钟梦醒找人陪, 奈何夜已沉睡.
    但见风醉把愁吹, 道一去不回, 徒叹伤悲!
       ~~~~~~~~ 1990中秋随笔
Ξ Origin: 狮子吼站 <cbs.ntu.edu.tw> [FROM: 203.70.181.35]
Mon Aug 4 18:41:14 1997
回覆 | 转寄 | 返回

Re: 如何快速去除经文图档的圈点
#8
发信站: 国立中山大学网路组 Mailing List (tpts1.seed.net.tw>, 信区: BudaTech)
第二代电子宝宝 wrote:
> 
> 如果歪斜宝宝是用photo iExpress中自动校正和自动去除杂点, 自动去除印刷纹路
> 来克服...
> 如果想除去一排点也许photoshop就很好用罗....

谢谢AG宝宝『拔刀相助』。我已经准备好了,是个 TIF黑白图档,只有70KB,
待会儿就私下e-mail给您。任何肯帮忙的朋友,请通报一声,我就把这个经文
图档送过去给您实验。我的硬碟快爆了,再吃大型软体会撑死的。所以就只好
借用各位现有的软体环境,当然更重要的是各位对该软体的操作经验。

> 嗯~~~ 如果想直接清除.....先影印再用立可白会不会好些ㄌㄟ :P
> 至少影印和立可白还蛮好操作的~~~~~
> 这是宝宝愚拙的建议啦~~~ :)
> 否则会很累的.....

『立可白法』是有想过,只是那套书是跟人家借的,不好直接涂下去。若要以
影印本来涂,单是影印费就差不多可以买一套全新的。其实也没多少钱啦,几
万块银两吧!

先不考虑土法炼钢的招式,先研究看看是否有适当软体可以处理得来;若不行
,再让 Heaven 来伤脑筋写个程式吧。

这个议题,不惟针对佛教大藏经来说,很多古书以及『尊崇古法』排版的书籍
,在文字辨识处理上都有类似的困难。这个障碍若能有效排除,想那 OCR软体
一秒钟十几二十来字的辨识速度,一套电子版大藏经很快就能产生了;即使是
没有圈点或进一步校对,但总算有个最基础的材料来让我们好好琢磨。

                                                         maha 8/5/97
Tue Aug 5 11:26:28 1997
回覆 | 转寄 | 返回

Re: 如何快速去除经文图档的圈点
#9
噎鸡吐宝宝
发信站: 狮子吼站 (Lion , 信区: BudaTech)
==> 於  (maha) 文中述及:
: 『立可白法』是有想过,只是那套书是跟人家借的,不好直接涂下去。若要以
: 影印本来涂,单是影印费就差不多可以买一套全新的。其实也没多少钱啦,几
: 万块银两吧!
: 先不考虑土法炼钢的招式,先研究看看是否有适当软体可以处理得来;若不行
: ,再让 Heaven 来伤脑筋写个程式吧。

    宝宝是习惯用小画家的橡皮擦啦~~~ :P 反正不会有公害说...又不用经影印说..

    等我试试在说... :P
--
伤心最怕伴明月, 何苦自残缺.
    却教孤松也把影摊碎.
        未憔悴, 先□斑斑泪.
闻钟梦醒找人陪, 奈何夜已沉睡.
    但见风醉把愁吹, 道一去不回, 徒叹伤悲!
       ~~~~~~~~ 1990中秋随笔
Ξ Origin: 狮子吼站 <cbs.ntu.edu.tw> [FROM: 140.114.44.131]
Tue Aug 5 13:01:24 1997
回覆 | 转寄 | 返回

Re: 如何快速去除经文图档的圈点
#10
发信站: 国立中山大学网路组 Mailing List (novell.zcom.com.tw>, 信区: BudaTech)
> 先不考虑土法炼钢的招式,先研究看看是否有适当软体可以处理得来;若不行
> ,再让 Heaven 来伤脑筋写个程式吧。

  後学写好了一支程式, 第一次测试时, 一页资料花了十分钟才处理完 :p
  (够夸张吧!) , 经过一些处理, 终於在 cpu pentium -100 + 32M ram
  的机器以 30 秒处理一页, 应该可以忍受了. 待做最後一些处理, 明天
  应可完成. 因这个程式适用性不广, 故不打算一一寄给各位, 除了原需
  求者 maha 及 徐言辉後学会强迫 mail 一份给他们外, 有需要的朋友请
  让後学知道, 後学再私下 mail 给各位. 各位觉得有用就任意散布无妨,
  只是不想浪费各位资源才不直接送上.

  这个程式适用性不高, 只会处理 :

  1. 黑白的 bmp 图档格式, 因小弟对图形没什麽研究, 故只会这种.
     我是用 win95B 所附的 Imaging 这个程式来将 tif 转成 bmp 的.
  2. 基本上, 我很难对杂点做定义, 故只处理
     "约长宽各 16 个点的实心黑圈 (即半径为 8) , 并该黑点上下皆为空白"
     这是我的判断方法. 而佛教大藏经的经文的圈点大概也是这样样子吧!

> 这个议题,不惟针对佛教大藏经来说,很多古书以及『尊崇古法』排版的书籍
> ,在文字辨识处理上都有类似的困难。这个障碍若能有效排除,想那 OCR软体
> 一秒钟十几二十来字的辨识速度,一套电子版大藏经很快就能产生了;即使是
> 没有圈点或进一步校对,但总算有个最基础的材料来让我们好好琢磨。

  再来的动作, 或许是找个能直接做 tif -> bmp 及 bmp -> tif 的转换工具.
  因为用 imaging 等要不断 opne , save as ... , 一样很花时间, 不能
  大量批次处理. 若这点做出来, 而丹青也可以一次处理数页文件, 这样来做
  电子化就快很多了.

  这方面的下个动作可能是将圈点移入文字中, 及大正藏图档处理, 但好像比
  较难, 後学先观望看看. 希望有这方面专长的朋友能支援.

  Heaven
Wed Aug 13 10:51:52 1997
回覆 | 转寄 | 返回

Re: 如何快速去除经文图档的圈点
#11
发信站: 国立中山大学网路组 Mailing List (novell.zcom.com.tw>, 信区: BudaTech)
> 对不起,插花一下,您的原始档案使用的扫描倍数为多少,
> 是否只使用(300dpi)同比例大小处理?如果可以,我也要
> 一份相关档案,作为档案处理的参考,至於转图格式工具
> 程式不少,我看看可不可以采用批次处理法进行转档。

  不清楚耶.. 不过好像是听说 300dpi , 我手中的档案都是
  电子佛典编辑小组所扫描的档案, 不知有没有其它人清楚?

  至於程式, 待後学处理完, 连程式 (用 c 写的) 给您参考.
  若看不懂 (我写程式习惯不好 :p) 或是有所建议, 欢迎
  指教并一起研究. :)

  Heaven
Wed Aug 13 11:58:36 1997
回覆 | 转寄 | 返回

Re: 如何快速去除经文图档的圈点
#12
David Lee
发信站: 国立中山大学网路组 Mailing List (iafrica.com , 信区: BudaTech)
On Wed, 13 Aug 1997 02:58:54 GMT, you wrote:

>> 先不考虑土法炼钢的招式,先研究看看是否有适当软体可以处理得来;若不行
>  应可完成. 因这个程式适用性不广, 故不打算一一寄给各位, 除了原需
>  求者 maha 及 徐言辉後学会强迫 mail 一份给他们外, 有需要的朋友请
>
>  1. 黑白的 bmp 图档格式, 因小弟对图形没什麽研究, 故只会这种.
>     我是用 win95B 所附的 Imaging 这个程式来将 tif 转成 bmp 的.
何不尝试Display 1.89, 这是一个台湾人写的软体,
可以做批次处理(转换档案格式, 转换解析度...)
(没记错的话, 好像还是Freeware.)
在档名应该是disp189?.zip, ?的部份是a 或b, 一个是主程式,
一个是显示卡的驱动程式.
Thu Aug 14 04:08:19 1997
回覆 | 转寄 | 返回

Re: 如何快速去除经文图档的圈点
#13
发信站: 国立中山大学网路组 Mailing List (tpts1.seed.net.tw>, 信区: BudaTech)
Heaven wrote:
> 
>   後学写好了一支程式, 第一次测试时, 一页资料花了十分钟才处理完 :p
>   (够夸张吧!) , 经过一些处理, 终於在 cpu pentium -100 + 32M ram
>   的机器以 30 秒处理一页, 应该可以忍受了. 待做最後一些处理, 明天
>   应可完成. 因这个程式适用性不广, 故不打算一一寄给各位, 除了原需
>   求者 maha 及 徐言辉後学会强迫 mail一份给他们外, 有需要的朋友请
>   让後学知道, 後学再私下 mail 给各位. 各位觉得有用就任意散布无妨,
>   只是不想浪费各位资源才不直接送上.

我的配备是 cpu Cyrix 6x86 P-150 + 24M ram,刚在 WIN95 MS-DOS模式
测试 Heaven mail过来的 mvdot.exe。我利用 PSP将一个TIF档转成BMP档
,执行 mvdot.exe,15秒钟就处理完,效果极佳,完美的将圈点去除,太
好了!

直接将这个去点後的 BMP档交给丹青OCR 进行自动辨识及词库校正【注】
,选择4342字集,加上学习字库,25秒钟完成一页含有 871个中文字的文
件。

所以,老毛病又犯了,我算了一下—— 871/(15+25)=21.775(字/秒)。

看来,我『欠』kftseng的《梵网经》(tif图档22个)可以早点交稿了。

【注】丹青OCR可以直接读取TIF、PCX、BMP档来进行文字辨识。所以,若
      PSP 程式的批次处理可以每秒钟转一个图(TIF→BMP),即可以让
      丹青直接读取 BMP档来进行辨识。

      OK,让我们把流程□清一下:
      1.将已经扫瞄好的 TIF档(徐言辉已完成的,详见信末【附函】)
        利用 PSP进行批次转档成 BMP档。
      2.以 mvdot将上述 BMP档去点。(当然要再修改成能够批次处理)
      3.再以丹青 OCR读取去点後的 BMP档来进行自动辨识程序。(丹青
        能够批次处理)。
      处理到这里,只要辨识过程中所采用的「学习字库」良好,那麽即
      使不再进行「线上校对」,我预估有 95%的正确度【再注】。

【再注】为了证明我的估计,我利用fgfc程式把a.txt(经过线上校对)、
        b.txt (未经线上校对,也就是上述步骤三的完成档)两相比对
        ,确实计算出 b.txt有47个错字。那麽 47/871=5.4%,也就是说
        每 100个字里面约有 5.4个错字。

                                                    maha 8/16/97

【附函】此函是徐言辉兄在今年元月八日给我的报告,在那之後,徐兄应
        当又扫瞄了不少经论。虽然前阵子徐兄因个人因缘而对扫瞄事务
        歇手,但仍表示愿意将过去所做成果提供给大家进一步利用。

Subject: 「鸠摩罗什全集」CD片
   Date: Wed, 08 Jan 1997 06:20:54 +0800
   From: 徐言辉 <roberhhh@ms9.hinet.net>
    To:  吴宝原 <maha@tpts1.seed.net.tw>

吴兄:

终於赶了出来,整整二片;因为烧录过程出了一些状况,致又耽搁了一些时间。
待会我就把它寄去给你。这二片接下去的工作,就麻烦你处理了。

以下是这二片的档案列表,亦即光碟片上的 files.lst。

====================================================================
【佛教大藏经处理注:】
        一。符号「●」,表示电脑缺字。如可以组字法(见後面附录)表示,
            当以组字法表示之,如此可知是何字。
        二。除经号下方之「大正藏」栏位,指该经文在大正藏的编号,其馀
            指「佛教大藏经」的相关记录。
        三。大正藏栏位为「****」,表示大正藏没有收录该经文。有可能是
            误判,待修正。像鸠摩罗什译的经,应该都有收录,只是详细待
            查。
        四。所采用的「佛教大藏经总目录、索引」,为六十八年十二月初版。
====================================================================
                   □ 佛教大藏经 目录 □

--- 经号 ---
佛教藏 大正藏 册 页码  经名(卷数)【朝代 译者或作者】
______ ______ _  ____  __________ _________________
====================================================================
【CD-1】

1021 1509 39 P0001 大智度论(100卷)          H391021A --> W
0010 0286 02 P0699 十住经(4卷)              H020010A --> B
0029 0310 03 P0737 (十七)富楼那会(菩萨藏经三卷)(卷77-79) H030029A
0126 0426 07 P0584 佛说千佛因缘经(1卷)】    H070126
0142 0456 07 P0852 佛说弥勒大成佛经(1卷)    H070142
0160 0475 08 P0271 维摩诘所说经(3卷)        H080160
0177 **** 08 P0767 佛说庄严菩提心经(1卷)    H080177
0182 0484 08 P0840 不思议光菩萨所说经(1卷)  H080182
0184 0586 09 P0001 思益梵天所问经(4卷)      H090184A --> B
0189 0650 09 P0193 诸法无行经(2卷)          H090189

【CD-2】

0397 0223 19 P0249 摩诃般若波罗蜜经(27卷) H190397A --> K
0400 **** 20 P0090 摩诃般若波罗蜜经(10卷) H200400A --> C
(此处之所以会****,因为在大正藏的目录是记录 1卷 ,致不能确定)
0966 1569 37 P0352 百论(2卷)              H370966
0982 0201 37 P0854 大庄严论经(15卷)       H370982A --> E
0994 0614 38 P0190 坐禅三昧经(2卷)        H380994
0995 0616 38 P0216 禅法要解(2卷)          H380995
0996 0617 38 P0235 思惟略要法(1卷)        H380996
0997 0615 38 P0241 菩萨诃色欲法经(1卷)    H380997
1003 0208 38 P0364 众经撰杂譬喻(2卷)      H381003
1008 1521 38 P0447 十住□婆沙论(17卷)     H381008A --> F
1072 1646 47 P0209 成实论(16卷)           H471072A --> H
1266 **** 53 P0211 佛说弥勒下生经(1卷)    H531266
0214 0625 10 P0485 大树紧那罗王所问经(4卷)H100214A --> B
0222 0482 10 P0651 持世经(4卷)            H100222A --> B
0253 0464 11 P0197 文殊师利问菩提经(1卷)  H110253
0476 0123 23 P0522 佛说放牛经(1卷)        H230476
0611 0389 26 P0790 佛垂般涅盘略说教诫经(1卷)H260611
0624 0613 27 P0811 禅□要法经(3卷)】      H270624A --> B
0692 0035 28 P0265 佛说海八德经(1卷)      H280692
0716 0703 28 P0373 灯指因缘经(1卷)        H280716
0948 1568 36 P0854 十二门论(1卷)          H360948
0951 1659 36 P0919 发菩提心经论(2卷)      H360951
0961 1564 37 P0044 中论(4卷)              H370961A --> c
0203 0657 09 P0711 佛说华手经(10卷)       H090203A --> E


【已完成】

0159 0642 08 P0245 佛说首楞严三昧经(2卷)【姚秦 鸠摩罗什译】
1170 2046 51 P0416 马鸣菩萨传(1卷)【後秦 鸠摩罗什译】
1171 2047 51 P0418 龙树菩萨传(1卷)【姚秦 鸠摩罗什译】
1172 2048 51 P0422 提婆菩萨传(1卷)【姚秦 鸠摩罗什译】

【已完成线上校对】★我就自行处理了。
                    另外配合何宗兄的还有《佛说地藏十轮经》,
                    也由我继续进行。

0029 0310 03 P0892 (二六)善臂菩萨会(善臂菩萨经二卷)(卷93-94)
0108 0420 06 P0604 自在王菩萨经(2卷)【姚秦 鸠摩罗什译】
0409 0235 20 P0542 金刚般若波罗蜜经(1卷)【姚秦 鸠摩罗什译】
0415 0245 20 P0595 佛说仁王般若波罗蜜经(2卷)【姚秦 鸠摩罗什译】

【尚未扫瞄】

0058 0335 04 P0725 佛说须摩提菩萨经(1卷)【姚秦 鸠摩罗什译】
0079 0366 04 P0985 佛说阿弥陀经(1卷)【姚秦 鸠摩罗什译】(已有)
0429 0262 21 P0011 妙法莲华经(7卷)【姚秦 鸠摩罗什译】
0433 0265 21 P0322 妙法莲华经观世音菩萨普门品经(1卷)
                  【姚秦 鸠摩罗什译长行,隋 □那崛多译重颂】
0452 0382 22 P1013 集一切福德三昧经(3卷)【姚秦 鸠摩罗什译】

【暂不处理】★凡属咒经,及戒律,暂不输入。

1569 0988 57 P0294 孔雀王咒经(1卷)【姚秦 鸠摩罗什译】
0806 1484 29 P0001 梵网经(2卷)【後秦 鸠摩罗什译】
0815 0653 29 P0199 佛藏经(3卷)【姚秦 鸠摩罗什译】
0818 1489 29 P0310 清净□尼方广经(1卷)【後秦 鸠摩罗什译】
0855 1436 32 P0233 十诵比丘波罗提木叉戒本(1卷)【姚秦 鸠摩罗什译】
1255 0250 53 P0132 摩诃般若波罗蜜大明咒经(1卷)(此为心经)


【注一】:延迟档档名依佛教大藏经(册码┼编号)命名,
          但存成TEXT档时,请依网路档命名方式,例如:
              H370966.DFR 为百论的延迟作业处理档,
              FG1569.TXT  为百论的TEXT档。

【注二】:图形档扫瞄因为大量制作,故如会产生辨识错误,造成程
          式中断;解决之道为:针对发生问题之图形档作修正,可
          能是擦掉一些不正确的图像。

【注三】:图形档扫瞄因为大量制作,如造成辨识不良,只要在相关
          文字档记录不良的状态即可,例如:缺某某页,缺二页,
          并请在前头加上显著标(如★),再通知我补上该文字页。

【注四】:图形档扫瞄因为大量制作,如造成辨识不良,例如因二行
          文字太靠近而造成误辨识,这时画面上只会显示一行的乱
          码。解决之道:可先移动游标到下一行,并按ENTER 键增
          加一行空行;尔後移动游标到乱码的那一行,先修正後面
          那一行的字(因为如果先修正前面那一行的字,第二行的
          字,将会看不到参考的影像档),接著再修正前面那一行
          的字即可。或者也可参照相关经本在线上校对,或离线校
          对时补上文字也可。或者在线上校对时只要记录缺二行,
          待离线校对时再补上就可。

【注五】:请将 T4342 目录下的 train.dbs,拷贝到丹青中文OCR的
           T4342 目录(可能为 C:\UMAXOCR\T4342),然後在辨识
          时,选择要学习字库。该档为依佛教大藏经做辨识时,慢
          慢增加的学习字库,可提高字的辨识率。不过,你也可以
          再给与修正。

【注六】:CD-1 的 H39TXT 目录,是我已经线上校对过的
         《大智度论》页 1 到 38,即 h391021a.txt 的前38页。

【注七】:有问题请连络
          徐言辉 roberhhh@ms9.hinet.net

最後,感谢各位的热情赞助。
Sat Aug 16 14:58:54 1997
回覆 | 转寄 | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org