看板: BudaTech ◎ 佛典电子化讨论    板主: HeavenChow
阅读文章: 第 1187/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回
发信人: maha <maha@tpts1.seed.net.tw>, 信区: BudaTech
标  题: 一个让OCR如虎添翼的程式——PlusOcr
发信站: (NEWS/INFO) National Sun Yat-San University (Wed Feb 25 11:02:26 1998)
转信站: Lion!ccnews.nsysu!news.nsysu!not-for-mail
来  源: buddha.nsysu.edu.tw

以下15封信件,是 Quiz(又名:天才的隔壁)与 maha 的对谈,让你一次
看个够!

若对 PlusOcr 有兴趣,可去函跟 Quiz 索取最新版本。

*****************************************************************

Subject: PlusOcr
   Date: Tue, 10 Feb 1998 00:54:14 +0800
   From: "Quiz" <ycc18@tcts.seed.net.tw>

您好:

末学写了一个用来加强丹青的校对功能的程式。
可以用来在文稿校对时进行预校的功能。
此外可将丹青的影像区的字显示到游标附近,以方便校对。
另外增加了两个HotKey
[+] 键等於 4 个 [Down] 按键
[/] 键等於 [End]按键加上17个 [Up] 按键

所附的档案中的参数适用於 800 * 600 下的丹青放到最大。
以及必须是直行的文件。

先寄给两位玩玩。详细的说明下次补上。

*****************************************************************

Subject: Re: PlusOcr
   Date: Tue, 10 Feb 1998 15:58:38 +0800
   From: maha <maha@tpts1.seed.net.tw>

Quiz wrote:
> 
> 您好:
> 
> 末学写了一个用来加强丹青的校对功能的程式。
> 可以用来在文稿校对时进行预校的功能。
> 此外可将丹青的影像区的字显示到游标附近,以方便校对。
> 另外增加了两个HotKey
> [+] 键等於 4 个 [Down] 按键
> [/] 键等於 [End]按键加上17个 [Up] 按键
> 
> 所附的档案中的参数适用於 800 * 600 下的丹青放到最大。
> 以及必须是直行的文件。
> 
> 先寄给两位玩玩。详细的说明下次补上。

玩了一下,不太好弄。暂且罢手,等你下回的详细说明。

*****************************************************************

Subject: Re: PlusOcr
   Date: Wed, 11 Feb 1998 09:38:24 +0800
   From: "Quiz" <ycc18@tcts.seed.net.tw>

您好:

>玩了一下,不太好弄。暂且罢手,等你下回的详细说明。

这个程式只适用於V3.2版。2.0版我还没测。
我的硬碟准备重新规划。敬请稍待。

*****************************************************************

Subject: Re: PlusOcr
   Date: Wed, 11 Feb 1998 11:00:28 +0800
   From: maha <maha@tpts1.seed.net.tw>

Quiz wrote:
> 
> 您好:
> 
> >玩了一下,不太好弄。暂且罢手,等你下回的详细说明。
> 
> 这个程式只适用於V3.2版。2.0版我还没测。
> 我的硬碟准备重新规划。敬请稍待。

我正是用2.0版测的,难怪....

*****************************************************************

Subject: Re: PlusOcr
   Date: Wed, 11 Feb 1998 15:03:56 +0800
   From: "Quiz" <ycc18@tcts.seed.net.tw>

Maha您好:

>我正是用2.0版测的,难怪....

适用丹青2.0版要等我装好硬碟了。自从装了IE4.0後。
我的丹青2.0版就失效了,重新安装也没用。

附上说明档 ReadMe.arj 解压後 ReadMe.doc 有将近9MB。
可在WordPad下观看。

此外〔开始预校〕的功能,有时候要多按一次才会作用。
这个Bug我已改好,等2.0版的测好在一起寄。

此外在第一次您给的影像光碟中025目录中的F430217.tif。
只扫描了一半。

关於这类的原始资料问题是要随时跟您说还是,批次处理?

Quiz...〔佳节愉快〕

*****************************************************************

Subject: Re: PlusOcr
   Date: Wed, 11 Feb 1998 17:01:53 +0800
   From: maha <maha@tpts1.seed.net.tw>

Quiz wrote:
> 
> Maha您好:
> 
> >我正是用2.0版测的,难怪....
> 
> 适用丹青2.0版要等我装好硬碟了。自从装了IE4.0後。
> 我的丹青2.0版就失效了,重新安装也没用。
> 
> 附上说明档 ReadMe.arj 解压後 ReadMe.doc 有将近9MB。
> 可在WordPad下观看。

哇!是什麽好康的,这麽大。

> 此外〔开始预校〕的功能,有时候要多按一次才会作用。
> 这个Bug我已改好,等2.0版的测好在一起寄。

*****************************************************************

Subject: Re: PlusOcr
   Date: Fri, 13 Feb 1998 06:03:29 +0800
   From: maha <maha@tpts1.seed.net.tw>

Quiz wrote:

>   此外您觉得PLUSOCR要支援丹青2.0版吗?

被您这麽一盯,赶快看过您精采的使用说明,再把丹青黄金
版安装上,完完整整的玩了一遍 PLUSOCR。

底下几个心得:

  1.你说有七个按钮,我只看到六个,没看到「存档钮」。

  2.在显现图形方面,我看在 2.0或黄金版都没问题。但在
    取代字串上,2.0 版会出一些状况,你在这里稍微改一
    下应该就可以了。也就是说,for 2.0 专业版最好是弄
    出来给大家用。2.0 版的好处是可以一次处理多页,这
    黄金版一次只能处理一页。

  3.你这是为直行辨识量身订做的,横列辨识不能玩,对吧?

  4.最後告诉你,PLUSOCR 是一个非常非常棒的设计。我要
    尽快推销给黄郁婷,她正在处理30册大正藏;如果 for
    2.0 版的出来,也要推销给「佛教藏OCR小组」使用。

*****************************************************************

Subject: Re: PlusOcr
   Date: Mon, 16 Feb 1998 20:00:53 +0800
   From: "天才的隔壁" <ycc18@tcts.seed.net.tw>

  ....

 此外,并附上刚改好的PLUSOCR.arj,可以支援丹青2.0版。
 并改正当丹青最小化时,PlusOcr没办法正确作动。

 记得要去设定丹青的版本,选〔不具有剪贴功能〕。

 也就是丹青2.0版时,设定要选〔不具有剪贴功能〕。
 丹青3.2版时,设定要选〔具有剪贴功能〕。

 不过支援丹青2.0版的文稿预校速度不若支援3.2版时好。
 这也是莫可奈何罗。

 当要支援2.0版时,PlusOcr的〔存档〕按钮,不会显示。
 所以只有六个按钮。

 因为这个按钮是为了丹青3.2版预设的存档格式不是我们
 所要的格式。所以用这个按钮来存档。

 丹青2.0版直接就用它原来的存档功能就行了。

 Quiz...〔我觉得还是3.2的好。如果有PlusOcr的话。:P〕

*****************************************************************

Subject: Re: PlusOcr
   Date: Tue, 17 Feb 1998 15:34:45 +0800
   From: maha <maha@tpts1.seed.net.tw>

天才的隔壁 wrote:
> 
>  此外,并附上刚改好的PLUSOCR.arj,可以支援丹青2.0版。
>  并改正当丹青最小化时,PlusOcr没办法正确作动。
> 
>  记得要去设定丹青的版本,选〔不具有剪贴功能〕。

刚刚在丹青2.0发现「字串取代」的一些问题:

  1.第一次没问题,但若再次设定新的替代字,再执行会出现问题。
  2.怎麽会自动存成文字档呢?照道理不应该这样。
  3.到最後,Plusocr 程式关不掉,得要强迫结束才行。

我觉得似乎是「键盘巨集」的设想有漏洞。

*****************************************************************

Subject: Re: PlusOcr
   Date: Tue, 17 Feb 1998 18:53:11 +0800
   From: "天才的隔壁" <ycc18@tcts.seed.net.tw>

您好:

>刚刚在丹青2.0发现「字串取代」的一些问题:
>  1.第一次没问题,但若再次设定新的替代字,再执行会出现问题。

可能要请您说明详细一点。最好举例一下。
因为末学在使用自己写的软体时,可能会〔不知不觉〕地避开一些软体
有Bug的地方。

>  2.怎麽会自动存成文字档呢?照道理不应该这样。

Sorry!这是在讲哪里ㄋㄟ??!!

>  3.到最後,Plusocr 程式关不掉,得要强迫结束才行。

呵...这就是多工作业的好处。

>我觉得似乎是「键盘巨集」的设想有漏洞。

基本上,「键盘巨集」只能拿来当〔工具〕。

此外末学只写了三个程式。各有其适用的特殊地方。
所以目前没想说要整合起来。

这些是〔工具程式〕。用完就可以都丢了。

*****************************************************************

Subject: Re: PlusOcr
   Date: Wed, 18 Feb 1998 08:20:28 +0800
   From: maha <maha@tpts1.seed.net.tw>

天才的隔壁 wrote:
> 
> 您好:
> 
> >刚刚在丹青2.0发现「字串取代」的一些问题:
> >  1.第一次没问题,但若再次设定新的替代字,再执行会出现问题。
> 
> 可能要请您说明详细一点。最好举例一下。
> 因为末学在使用自己写的软体时,可能会〔不知不觉〕地避开一些软体
> 有Bug的地方。
> 
> >  2.怎麽会自动存成文字档呢?照道理不应该这样。
> 
> Sorry!这是在讲哪里ㄋㄟ??!!

附件test.tif,你试试看。

我在「字串设定」,第一次只设:@一=QQQ,跑下来没问题;
第二次再多设:@二=WWW,它没有去做预定的取代动作,却问
我是否要取代原有的test.txt档。

我是觉得它的键盘巨集,不知道是在哪个时候执行了丹青 2.0
的[档案]/[储存文字档] ,所以才会产生一个test.txt档。

> >  3.到最後,Plusocr 程式关不掉,得要强迫结束才行。
> 
> 呵...这就是多工作业的好处。
>
> >我觉得似乎是「键盘巨集」的设想有漏洞。
> 
> 基本上,「键盘巨集」只能拿来当〔工具〕。
> 
> 此外末学只写了三个程式。各有其适用的特殊地方。
> 所以目前没想说要整合起来。
> 
> 这些是〔工具程式〕。用完就可以都丢了。

这些都是你的智慧结晶,我们会用好久好久。

*****************************************************************

Subject: Re: PlusOcr
   Date: Wed, 18 Feb 1998 20:37:37 +0800
   From: "天才的隔壁" <ycc18@tcts.seed.net.tw>

您好:

>附件test.tif,你试试看。
>
>我在「字串设定」,第一次只设:@一=QQQ,跑下来没问题;
>第二次再多设:@二=WWW,它没有去做预定的取代动作,却问
>我是否要取代原有的test.txt档。
>
>我是觉得它的键盘巨集,不知道是在哪个时候执行了丹青 2.0
>的[档案]/[储存文字档] ,所以才会产生一个test.txt档。

您的观察很正确。对於支援丹青2.0版时。PlusOcr必须透过存档案
的方式来取得丹青目前正在校对的文字资料。

不过它是存到PlusOcr所在目录,档名为PreCheck.txt。
而且载入档案後就马上删掉了。

由於末学实际跑了一下您说的状况,好像没问题。...^_^

开始预校的动作是这样的。
0.键盘巨集 Alt+O  I  O 将丹青切换成〔覆写〕的状态
1.拷贝 "PreCheck.txt" 的名称到剪贴簿(有另加上PlusOcr的路径名称)
2.键盘巨集 Alt+F   A  (另存新档)
3.键盘巨集 Shift+Ins (把"PreCheck.Txt"输入到对话盒中的档名)
4.键盘巨集 Enter (把"PreCheck.Txt"执行另存新档的动作)
5.把PreCheck.txt读进来。

看了以上这锅,您有没有发现是哪里会出问题。
(Sorry因为我这边模拟不出您那里的状况)
(在上述的 0 2 3 4 的动作中不可以有任何人为的按键或滑鼠的按钮动作。)

麻烦您想一下,假如没发现问题点的话,请再把
1.PlusOcr所在目录名称
2.丹青所读入的档案名称(含路径的完整名称)
3.丹青是2.0还是3.2
跟我说,我再模拟看看。

呵...这时候真希望有天眼通。

>这些都是你的智慧结晶,我们会用好久好久。

这样讲偶会不好意思啦。
不过您有没有想过,用好久好久是否代表电子大藏经的生日???
我倒是希望不用太久。

*****************************************************************

Subject: Re: PlusOcr
   Date: Thu, 19 Feb 1998 02:40:00 +0800
   From: maha <maha@tpts1.seed.net.tw>

天才的隔壁 wrote:
> 
> 麻烦您想一下,假如没发现问题点的话,请再把
> 1.PlusOcr所在目录名称
> 2.丹青所读入的档案名称(含路径的完整名称)
> 3.丹青是2.0还是3.2
> 跟我说,我再模拟看看。
> 
> 呵...这时候真希望有天眼通。

1.将PlusOcr目录置於 c:\windows\desktop 桌面上。
2.TEST.TIF 则放在 PlusOcr 目录里。
3.开启丹青2.0专业版,读入TEST.TIF,然後自动辨识,不使用学习字库。
4.进入文稿校对时,执行PlusOcr,设定丹青版本为「不具有剪贴功能」。
5.按「字串设定」,清除原有设定,新设取代字串 @一=QQQ,然後按「开
  始预校」。
6.我原先并没有按「连接」钮,但「开始预校」动作时,自动把「连接」
  钮按了下去。
7.取代动作完成,确实把 @一=QQQ 做好了。
8.这时查看PlusOcr目录,尚未产生TEST.TXT文字档。
9.再按「字串设定」,增加 @二=WWW,然後按「开始预校」,没反应。
10.这时查看PlusOcr目录,已经产生TEST.TXT文字档。
11.再按「开始预校」,系统问我是否取代既有之TEST.TXT文字档。
12.若按「继续预校」,系统也是问我是否取代既有之TEST.TXT档案。
13.无法以结束钮「X」关闭PlusOcr程式。

所以,问题是从第九步骤发生。这种情况,是不是说我们不能临时增减字
串设定?步骤六似乎没有必要,这样会产生萤幕残影。

再以3.2黄金版来试同样情况,发现TEST.TIF被读成黑底白字,转换一下
TIF格式就可以辨识了。

黄金版的问题也发生在步骤九,当增加 @二=WWW,然後按「开始预校」
,它挂住了,丹青「编辑」功能被拉了下来,挂在那里动也不动。
这时查看PlusOcr目录,并无产生任何新文字档。
倒是,可以以结束钮「X」关闭PlusOcr程式。

会不会是这样,你说键盘巨集有一步骤是:

  拷贝 "PreCheck.txt" 的名称到剪贴簿(有另加上PlusOcr的路径名称)

我在上述第五步骤有进行「复制、贴上」的动作,也就是说把「@一=QQQ」
复制贴到下行,然後再修改成「@二=WWW」,该不会是我这个动作干扰到
巨集的执行吧?

> >这些都是你的智慧结晶,我们会用好久好久。
> 
> 这样讲偶会不好意思啦。
> 不过您有没有想过,用好久好久是否代表电子大藏经的生日???
> 我倒是希望不用太久。

电子大藏经,也许三、五年可以小成,但要玩它个十年、二十年
也是极有可能的。弄完了大正藏,还有续藏,还有....,谁叫佛
陀的智慧如此广大深远呢:)

*****************************************************************

Subject: Re: PlusOcr
   Date: Thu, 19 Feb 1998 14:54:32 +0800
   From: "天才的隔壁" <ycc18@tcts.seed.net.tw>

您好:

>1.将PlusOcr目录置於 c:\windows\desktop 桌面上。
>2.TEST.TIF 则放在 PlusOcr 目录里。
>3.开启丹青2.0专业版,读入TEST.TIF,然後自动辨识,不使用学习字库。
>4.进入文稿校对时,执行PlusOcr,设定丹青版本为「不具有剪贴功能」。
>5.按「字串设定」,清除原有设定,新设取代字串 @一=QQQ,然後按「开
>  始预校」。
>6.我原先并没有按「连接」钮,但「开始预校」动作时,自动把「连接」
>  钮按了下去。
>7.取代动作完成,确实把 @一=QQQ 做好了。
>8.这时查看PlusOcr目录,尚未产生TEST.TXT文字档。
>9.再按「字串设定」,增加 @二=WWW,然後按「开始预校」,没反应。
>10.这时查看PlusOcr目录,已经产生TEST.TXT文字档。
>11.再按「开始预校」,系统问我是否取代既有之TEST.TXT文字档。
>12.若按「继续预校」,系统也是问我是否取代既有之TEST.TXT档案。

这的确很奇怪。有可能是 Alt+F  A  的键盘巨集,本来是要〔另存新档〕
结果第一次正常。
第二次变成〔储存文字档(Alt+F S)〕。---因此会储存成 TEST.TXT。
   这时候PlusOcr一直在等著要开PreCheck.Txt但是根本没有这档案。
第三次还是变成〔储存文字档(Alt+F S)〕。因为先前已经有 TEST.TXT。
   所以丹青会问要不要取代现有的 TEST.TXT。

不过我这边不会ㄚ。

>13.无法以结束钮「X」关闭PlusOcr程式。

PlusOcr 一直在等著要开PreCheck.txt档案。所以没法结束。

>所以,问题是从第九步骤发生。这种情况,是不是说我们不能临时增减字
>串设定?

设计上并没有这种限制。事实上我这边常常在〔临时增减字串〕。

>步骤六似乎没有必要,这样会产生萤幕残影。

残影是没办法完全避免的。...因为丹青和PlusOcr有些动作要靠
计时的方式彼此配合。但是计时没办法很精确。还好这不会影响实际的资料。

>再以3.2黄金版来试同样情况,发现TEST.TIF被读成黑底白字,转换一下
>TIF格式就可以辨识了。
>
>黄金版的问题也发生在步骤九,当增加 @二=WWW,然後按「开始预校」
>,它挂住了,丹青「编辑」功能被拉了下来,挂在那里动也不动。
>这时查看PlusOcr目录,并无产生任何新文字档。
>倒是,可以以结束钮「X」关闭PlusOcr程式。
>
>会不会是这样,你说键盘巨集有一步骤是:
>
>  拷贝 "PreCheck.txt" 的名称到剪贴簿(有另加上PlusOcr的路径名称)
>
>我在上述第五步骤有进行「复制、贴上」的动作,也就是说把「@一=QQQ」
>复制贴到下行,然後再修改成「@二=WWW」,该不会是我这个动作干扰到
>巨集的执行吧?

不会的。看来问题是出在WINDOWS作业系统上面。
可能您的WINDOWS有另外挂了一些其他驱动程式。
这些驱动程式也跟键盘Hook。

我会试著把这个地方改成尽量不用键盘巨集。

请再等一下。目前先克难只用游标影像的功能吧。

>电子大藏经,也许三、五年可以小成,但要玩它个十年、二十年
>也是极有可能的。弄完了大正藏,还有续藏,还有....,谁叫佛
>陀的智慧如此广大深远呢:)

呵...别玩过头了。

Quiz...〔我再改改看罗。有点像是在猜谜。〕

*****************************************************************

Subject: Re: PlusOcr
   Date: Sun, 22 Feb 1998 15:04:18 +0800
   From: "天才的隔壁" <ycc18@tcts.seed.net.tw>

您好:

>能否告诉我,你在使用Plusocr之後,对整个作业效率大约提升若干?


我没仔细评估,不过基本上我觉得在〔游标显示影像字〕方面,对於
校对是蛮方便的,尤其对於校对的正确性。

〔预校〕的功能则大概每页平均会帮我自动更正 7 个地方。

假如综合起来看,丹青3.2的正确辨识,学习字库,PlusOcr,扫描文件
的〔清洁度〕,去圈点程式。那麽目前的整体工作环境,我个人觉得
已经是很好很好了。

每页平均约只有十多个地方需要人工更正,而且随著预校的自动更正
字串设定增加,不久将来,对於大堆头的经文,每页需要人工更正的
地方会越来越少。

目前以我正在校对的大毗婆娑论来说,一卷(约7500字)平均大概要
一小时又20分钟。

*****************************************************************

阅读文章: 第 1187/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org