看板: BudaTech ◎ 佛典电子化讨论 板主: HeavenChow |
阅读文章: 第 1187/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
发信人: maha <maha@tpts1.seed.net.tw>, 信区: BudaTech 标 题: 一个让OCR如虎添翼的程式——PlusOcr 发信站: (NEWS/INFO) National Sun Yat-San University (Wed Feb 25 11:02:26 1998) 转信站: Lion!ccnews.nsysu!news.nsysu!not-for-mail 来 源: buddha.nsysu.edu.tw 以下15封信件,是 Quiz(又名:天才的隔壁)与 maha 的对谈,让你一次 看个够! 若对 PlusOcr 有兴趣,可去函跟 Quiz 索取最新版本。 ***************************************************************** Subject: PlusOcr Date: Tue, 10 Feb 1998 00:54:14 +0800 From: "Quiz" <ycc18@tcts.seed.net.tw> 您好: 末学写了一个用来加强丹青的校对功能的程式。 可以用来在文稿校对时进行预校的功能。 此外可将丹青的影像区的字显示到游标附近,以方便校对。 另外增加了两个HotKey [+] 键等於 4 个 [Down] 按键 [/] 键等於 [End]按键加上17个 [Up] 按键 所附的档案中的参数适用於 800 * 600 下的丹青放到最大。 以及必须是直行的文件。 先寄给两位玩玩。详细的说明下次补上。 ***************************************************************** Subject: Re: PlusOcr Date: Tue, 10 Feb 1998 15:58:38 +0800 From: maha <maha@tpts1.seed.net.tw> Quiz wrote: > > 您好: > > 末学写了一个用来加强丹青的校对功能的程式。 > 可以用来在文稿校对时进行预校的功能。 > 此外可将丹青的影像区的字显示到游标附近,以方便校对。 > 另外增加了两个HotKey > [+] 键等於 4 个 [Down] 按键 > [/] 键等於 [End]按键加上17个 [Up] 按键 > > 所附的档案中的参数适用於 800 * 600 下的丹青放到最大。 > 以及必须是直行的文件。 > > 先寄给两位玩玩。详细的说明下次补上。 玩了一下,不太好弄。暂且罢手,等你下回的详细说明。 ***************************************************************** Subject: Re: PlusOcr Date: Wed, 11 Feb 1998 09:38:24 +0800 From: "Quiz" <ycc18@tcts.seed.net.tw> 您好: >玩了一下,不太好弄。暂且罢手,等你下回的详细说明。 这个程式只适用於V3.2版。2.0版我还没测。 我的硬碟准备重新规划。敬请稍待。 ***************************************************************** Subject: Re: PlusOcr Date: Wed, 11 Feb 1998 11:00:28 +0800 From: maha <maha@tpts1.seed.net.tw> Quiz wrote: > > 您好: > > >玩了一下,不太好弄。暂且罢手,等你下回的详细说明。 > > 这个程式只适用於V3.2版。2.0版我还没测。 > 我的硬碟准备重新规划。敬请稍待。 我正是用2.0版测的,难怪.... ***************************************************************** Subject: Re: PlusOcr Date: Wed, 11 Feb 1998 15:03:56 +0800 From: "Quiz" <ycc18@tcts.seed.net.tw> Maha您好: >我正是用2.0版测的,难怪.... 适用丹青2.0版要等我装好硬碟了。自从装了IE4.0後。 我的丹青2.0版就失效了,重新安装也没用。 附上说明档 ReadMe.arj 解压後 ReadMe.doc 有将近9MB。 可在WordPad下观看。 此外〔开始预校〕的功能,有时候要多按一次才会作用。 这个Bug我已改好,等2.0版的测好在一起寄。 此外在第一次您给的影像光碟中025目录中的F430217.tif。 只扫描了一半。 关於这类的原始资料问题是要随时跟您说还是,批次处理? Quiz...〔佳节愉快〕 ***************************************************************** Subject: Re: PlusOcr Date: Wed, 11 Feb 1998 17:01:53 +0800 From: maha <maha@tpts1.seed.net.tw> Quiz wrote: > > Maha您好: > > >我正是用2.0版测的,难怪.... > > 适用丹青2.0版要等我装好硬碟了。自从装了IE4.0後。 > 我的丹青2.0版就失效了,重新安装也没用。 > > 附上说明档 ReadMe.arj 解压後 ReadMe.doc 有将近9MB。 > 可在WordPad下观看。 哇!是什麽好康的,这麽大。 > 此外〔开始预校〕的功能,有时候要多按一次才会作用。 > 这个Bug我已改好,等2.0版的测好在一起寄。 ***************************************************************** Subject: Re: PlusOcr Date: Fri, 13 Feb 1998 06:03:29 +0800 From: maha <maha@tpts1.seed.net.tw> Quiz wrote: > 此外您觉得PLUSOCR要支援丹青2.0版吗? 被您这麽一盯,赶快看过您精采的使用说明,再把丹青黄金 版安装上,完完整整的玩了一遍 PLUSOCR。 底下几个心得: 1.你说有七个按钮,我只看到六个,没看到「存档钮」。 2.在显现图形方面,我看在 2.0或黄金版都没问题。但在 取代字串上,2.0 版会出一些状况,你在这里稍微改一 下应该就可以了。也就是说,for 2.0 专业版最好是弄 出来给大家用。2.0 版的好处是可以一次处理多页,这 黄金版一次只能处理一页。 3.你这是为直行辨识量身订做的,横列辨识不能玩,对吧? 4.最後告诉你,PLUSOCR 是一个非常非常棒的设计。我要 尽快推销给黄郁婷,她正在处理30册大正藏;如果 for 2.0 版的出来,也要推销给「佛教藏OCR小组」使用。 ***************************************************************** Subject: Re: PlusOcr Date: Mon, 16 Feb 1998 20:00:53 +0800 From: "天才的隔壁" <ycc18@tcts.seed.net.tw> .... 此外,并附上刚改好的PLUSOCR.arj,可以支援丹青2.0版。 并改正当丹青最小化时,PlusOcr没办法正确作动。 记得要去设定丹青的版本,选〔不具有剪贴功能〕。 也就是丹青2.0版时,设定要选〔不具有剪贴功能〕。 丹青3.2版时,设定要选〔具有剪贴功能〕。 不过支援丹青2.0版的文稿预校速度不若支援3.2版时好。 这也是莫可奈何罗。 当要支援2.0版时,PlusOcr的〔存档〕按钮,不会显示。 所以只有六个按钮。 因为这个按钮是为了丹青3.2版预设的存档格式不是我们 所要的格式。所以用这个按钮来存档。 丹青2.0版直接就用它原来的存档功能就行了。 Quiz...〔我觉得还是3.2的好。如果有PlusOcr的话。:P〕 ***************************************************************** Subject: Re: PlusOcr Date: Tue, 17 Feb 1998 15:34:45 +0800 From: maha <maha@tpts1.seed.net.tw> 天才的隔壁 wrote: > > 此外,并附上刚改好的PLUSOCR.arj,可以支援丹青2.0版。 > 并改正当丹青最小化时,PlusOcr没办法正确作动。 > > 记得要去设定丹青的版本,选〔不具有剪贴功能〕。 刚刚在丹青2.0发现「字串取代」的一些问题: 1.第一次没问题,但若再次设定新的替代字,再执行会出现问题。 2.怎麽会自动存成文字档呢?照道理不应该这样。 3.到最後,Plusocr 程式关不掉,得要强迫结束才行。 我觉得似乎是「键盘巨集」的设想有漏洞。 ***************************************************************** Subject: Re: PlusOcr Date: Tue, 17 Feb 1998 18:53:11 +0800 From: "天才的隔壁" <ycc18@tcts.seed.net.tw> 您好: >刚刚在丹青2.0发现「字串取代」的一些问题: > 1.第一次没问题,但若再次设定新的替代字,再执行会出现问题。 可能要请您说明详细一点。最好举例一下。 因为末学在使用自己写的软体时,可能会〔不知不觉〕地避开一些软体 有Bug的地方。 > 2.怎麽会自动存成文字档呢?照道理不应该这样。 Sorry!这是在讲哪里ㄋㄟ??!! > 3.到最後,Plusocr 程式关不掉,得要强迫结束才行。 呵...这就是多工作业的好处。 >我觉得似乎是「键盘巨集」的设想有漏洞。 基本上,「键盘巨集」只能拿来当〔工具〕。 此外末学只写了三个程式。各有其适用的特殊地方。 所以目前没想说要整合起来。 这些是〔工具程式〕。用完就可以都丢了。 ***************************************************************** Subject: Re: PlusOcr Date: Wed, 18 Feb 1998 08:20:28 +0800 From: maha <maha@tpts1.seed.net.tw> 天才的隔壁 wrote: > > 您好: > > >刚刚在丹青2.0发现「字串取代」的一些问题: > > 1.第一次没问题,但若再次设定新的替代字,再执行会出现问题。 > > 可能要请您说明详细一点。最好举例一下。 > 因为末学在使用自己写的软体时,可能会〔不知不觉〕地避开一些软体 > 有Bug的地方。 > > > 2.怎麽会自动存成文字档呢?照道理不应该这样。 > > Sorry!这是在讲哪里ㄋㄟ??!! 附件test.tif,你试试看。 我在「字串设定」,第一次只设:@一=QQQ,跑下来没问题; 第二次再多设:@二=WWW,它没有去做预定的取代动作,却问 我是否要取代原有的test.txt档。 我是觉得它的键盘巨集,不知道是在哪个时候执行了丹青 2.0 的[档案]/[储存文字档] ,所以才会产生一个test.txt档。 > > 3.到最後,Plusocr 程式关不掉,得要强迫结束才行。 > > 呵...这就是多工作业的好处。 > > >我觉得似乎是「键盘巨集」的设想有漏洞。 > > 基本上,「键盘巨集」只能拿来当〔工具〕。 > > 此外末学只写了三个程式。各有其适用的特殊地方。 > 所以目前没想说要整合起来。 > > 这些是〔工具程式〕。用完就可以都丢了。 这些都是你的智慧结晶,我们会用好久好久。 ***************************************************************** Subject: Re: PlusOcr Date: Wed, 18 Feb 1998 20:37:37 +0800 From: "天才的隔壁" <ycc18@tcts.seed.net.tw> 您好: >附件test.tif,你试试看。 > >我在「字串设定」,第一次只设:@一=QQQ,跑下来没问题; >第二次再多设:@二=WWW,它没有去做预定的取代动作,却问 >我是否要取代原有的test.txt档。 > >我是觉得它的键盘巨集,不知道是在哪个时候执行了丹青 2.0 >的[档案]/[储存文字档] ,所以才会产生一个test.txt档。 您的观察很正确。对於支援丹青2.0版时。PlusOcr必须透过存档案 的方式来取得丹青目前正在校对的文字资料。 不过它是存到PlusOcr所在目录,档名为PreCheck.txt。 而且载入档案後就马上删掉了。 由於末学实际跑了一下您说的状况,好像没问题。...^_^ 开始预校的动作是这样的。 0.键盘巨集 Alt+O I O 将丹青切换成〔覆写〕的状态 1.拷贝 "PreCheck.txt" 的名称到剪贴簿(有另加上PlusOcr的路径名称) 2.键盘巨集 Alt+F A (另存新档) 3.键盘巨集 Shift+Ins (把"PreCheck.Txt"输入到对话盒中的档名) 4.键盘巨集 Enter (把"PreCheck.Txt"执行另存新档的动作) 5.把PreCheck.txt读进来。 看了以上这锅,您有没有发现是哪里会出问题。 (Sorry因为我这边模拟不出您那里的状况) (在上述的 0 2 3 4 的动作中不可以有任何人为的按键或滑鼠的按钮动作。) 麻烦您想一下,假如没发现问题点的话,请再把 1.PlusOcr所在目录名称 2.丹青所读入的档案名称(含路径的完整名称) 3.丹青是2.0还是3.2 跟我说,我再模拟看看。 呵...这时候真希望有天眼通。 >这些都是你的智慧结晶,我们会用好久好久。 这样讲偶会不好意思啦。 不过您有没有想过,用好久好久是否代表电子大藏经的生日??? 我倒是希望不用太久。 ***************************************************************** Subject: Re: PlusOcr Date: Thu, 19 Feb 1998 02:40:00 +0800 From: maha <maha@tpts1.seed.net.tw> 天才的隔壁 wrote: > > 麻烦您想一下,假如没发现问题点的话,请再把 > 1.PlusOcr所在目录名称 > 2.丹青所读入的档案名称(含路径的完整名称) > 3.丹青是2.0还是3.2 > 跟我说,我再模拟看看。 > > 呵...这时候真希望有天眼通。 1.将PlusOcr目录置於 c:\windows\desktop 桌面上。 2.TEST.TIF 则放在 PlusOcr 目录里。 3.开启丹青2.0专业版,读入TEST.TIF,然後自动辨识,不使用学习字库。 4.进入文稿校对时,执行PlusOcr,设定丹青版本为「不具有剪贴功能」。 5.按「字串设定」,清除原有设定,新设取代字串 @一=QQQ,然後按「开 始预校」。 6.我原先并没有按「连接」钮,但「开始预校」动作时,自动把「连接」 钮按了下去。 7.取代动作完成,确实把 @一=QQQ 做好了。 8.这时查看PlusOcr目录,尚未产生TEST.TXT文字档。 9.再按「字串设定」,增加 @二=WWW,然後按「开始预校」,没反应。 10.这时查看PlusOcr目录,已经产生TEST.TXT文字档。 11.再按「开始预校」,系统问我是否取代既有之TEST.TXT文字档。 12.若按「继续预校」,系统也是问我是否取代既有之TEST.TXT档案。 13.无法以结束钮「X」关闭PlusOcr程式。 所以,问题是从第九步骤发生。这种情况,是不是说我们不能临时增减字 串设定?步骤六似乎没有必要,这样会产生萤幕残影。 再以3.2黄金版来试同样情况,发现TEST.TIF被读成黑底白字,转换一下 TIF格式就可以辨识了。 黄金版的问题也发生在步骤九,当增加 @二=WWW,然後按「开始预校」 ,它挂住了,丹青「编辑」功能被拉了下来,挂在那里动也不动。 这时查看PlusOcr目录,并无产生任何新文字档。 倒是,可以以结束钮「X」关闭PlusOcr程式。 会不会是这样,你说键盘巨集有一步骤是: 拷贝 "PreCheck.txt" 的名称到剪贴簿(有另加上PlusOcr的路径名称) 我在上述第五步骤有进行「复制、贴上」的动作,也就是说把「@一=QQQ」 复制贴到下行,然後再修改成「@二=WWW」,该不会是我这个动作干扰到 巨集的执行吧? > >这些都是你的智慧结晶,我们会用好久好久。 > > 这样讲偶会不好意思啦。 > 不过您有没有想过,用好久好久是否代表电子大藏经的生日??? > 我倒是希望不用太久。 电子大藏经,也许三、五年可以小成,但要玩它个十年、二十年 也是极有可能的。弄完了大正藏,还有续藏,还有....,谁叫佛 陀的智慧如此广大深远呢:) ***************************************************************** Subject: Re: PlusOcr Date: Thu, 19 Feb 1998 14:54:32 +0800 From: "天才的隔壁" <ycc18@tcts.seed.net.tw> 您好: >1.将PlusOcr目录置於 c:\windows\desktop 桌面上。 >2.TEST.TIF 则放在 PlusOcr 目录里。 >3.开启丹青2.0专业版,读入TEST.TIF,然後自动辨识,不使用学习字库。 >4.进入文稿校对时,执行PlusOcr,设定丹青版本为「不具有剪贴功能」。 >5.按「字串设定」,清除原有设定,新设取代字串 @一=QQQ,然後按「开 > 始预校」。 >6.我原先并没有按「连接」钮,但「开始预校」动作时,自动把「连接」 > 钮按了下去。 >7.取代动作完成,确实把 @一=QQQ 做好了。 >8.这时查看PlusOcr目录,尚未产生TEST.TXT文字档。 >9.再按「字串设定」,增加 @二=WWW,然後按「开始预校」,没反应。 >10.这时查看PlusOcr目录,已经产生TEST.TXT文字档。 >11.再按「开始预校」,系统问我是否取代既有之TEST.TXT文字档。 >12.若按「继续预校」,系统也是问我是否取代既有之TEST.TXT档案。 这的确很奇怪。有可能是 Alt+F A 的键盘巨集,本来是要〔另存新档〕 结果第一次正常。 第二次变成〔储存文字档(Alt+F S)〕。---因此会储存成 TEST.TXT。 这时候PlusOcr一直在等著要开PreCheck.Txt但是根本没有这档案。 第三次还是变成〔储存文字档(Alt+F S)〕。因为先前已经有 TEST.TXT。 所以丹青会问要不要取代现有的 TEST.TXT。 不过我这边不会ㄚ。 >13.无法以结束钮「X」关闭PlusOcr程式。 PlusOcr 一直在等著要开PreCheck.txt档案。所以没法结束。 >所以,问题是从第九步骤发生。这种情况,是不是说我们不能临时增减字 >串设定? 设计上并没有这种限制。事实上我这边常常在〔临时增减字串〕。 >步骤六似乎没有必要,这样会产生萤幕残影。 残影是没办法完全避免的。...因为丹青和PlusOcr有些动作要靠 计时的方式彼此配合。但是计时没办法很精确。还好这不会影响实际的资料。 >再以3.2黄金版来试同样情况,发现TEST.TIF被读成黑底白字,转换一下 >TIF格式就可以辨识了。 > >黄金版的问题也发生在步骤九,当增加 @二=WWW,然後按「开始预校」 >,它挂住了,丹青「编辑」功能被拉了下来,挂在那里动也不动。 >这时查看PlusOcr目录,并无产生任何新文字档。 >倒是,可以以结束钮「X」关闭PlusOcr程式。 > >会不会是这样,你说键盘巨集有一步骤是: > > 拷贝 "PreCheck.txt" 的名称到剪贴簿(有另加上PlusOcr的路径名称) > >我在上述第五步骤有进行「复制、贴上」的动作,也就是说把「@一=QQQ」 >复制贴到下行,然後再修改成「@二=WWW」,该不会是我这个动作干扰到 >巨集的执行吧? 不会的。看来问题是出在WINDOWS作业系统上面。 可能您的WINDOWS有另外挂了一些其他驱动程式。 这些驱动程式也跟键盘Hook。 我会试著把这个地方改成尽量不用键盘巨集。 请再等一下。目前先克难只用游标影像的功能吧。 >电子大藏经,也许三、五年可以小成,但要玩它个十年、二十年 >也是极有可能的。弄完了大正藏,还有续藏,还有....,谁叫佛 >陀的智慧如此广大深远呢:) 呵...别玩过头了。 Quiz...〔我再改改看罗。有点像是在猜谜。〕 ***************************************************************** Subject: Re: PlusOcr Date: Sun, 22 Feb 1998 15:04:18 +0800 From: "天才的隔壁" <ycc18@tcts.seed.net.tw> 您好: >能否告诉我,你在使用Plusocr之後,对整个作业效率大约提升若干? 我没仔细评估,不过基本上我觉得在〔游标显示影像字〕方面,对於 校对是蛮方便的,尤其对於校对的正确性。 〔预校〕的功能则大概每页平均会帮我自动更正 7 个地方。 假如综合起来看,丹青3.2的正确辨识,学习字库,PlusOcr,扫描文件 的〔清洁度〕,去圈点程式。那麽目前的整体工作环境,我个人觉得 已经是很好很好了。 每页平均约只有十多个地方需要人工更正,而且随著预校的自动更正 字串设定增加,不久将来,对於大堆头的经文,每页需要人工更正的 地方会越来越少。 目前以我正在校对的大毗婆娑论来说,一卷(约7500字)平均大概要 一小时又20分钟。 ***************************************************************** |
阅读文章: 第 1187/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
□ 台大狮子吼佛学专站 http://buddhaspace.org |