看板: BudaTech ◎ 佛典电子化讨论 板主: HeavenChow |
阅读文章: 第 936/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
发信人: maha <maha@tpts1.seed.net.tw>, 信区: BudaTech 标 题: Re: 如何快速去除经文图档的圈点 发信站: 国立中山大学网路组 Mailing List (Sat Aug 16 14:58:54 1997) 转信站: Lion!ccnews.nsysu!news.nsysu!buda-tech@sccid.nsysu 来 源: sccid.nsysu.edu.tw Heaven wrote: > > 後学写好了一支程式, 第一次测试时, 一页资料花了十分钟才处理完 :p > (够夸张吧!) , 经过一些处理, 终於在 cpu pentium -100 + 32M ram > 的机器以 30 秒处理一页, 应该可以忍受了. 待做最後一些处理, 明天 > 应可完成. 因这个程式适用性不广, 故不打算一一寄给各位, 除了原需 > 求者 maha 及 徐言辉後学会强迫 mail一份给他们外, 有需要的朋友请 > 让後学知道, 後学再私下 mail 给各位. 各位觉得有用就任意散布无妨, > 只是不想浪费各位资源才不直接送上. 我的配备是 cpu Cyrix 6x86 P-150 + 24M ram,刚在 WIN95 MS-DOS模式 测试 Heaven mail过来的 mvdot.exe。我利用 PSP将一个TIF档转成BMP档 ,执行 mvdot.exe,15秒钟就处理完,效果极佳,完美的将圈点去除,太 好了! 直接将这个去点後的 BMP档交给丹青OCR 进行自动辨识及词库校正【注】 ,选择4342字集,加上学习字库,25秒钟完成一页含有 871个中文字的文 件。 所以,老毛病又犯了,我算了一下—— 871/(15+25)=21.775(字/秒)。 看来,我『欠』kftseng的《梵网经》(tif图档22个)可以早点交稿了。 【注】丹青OCR可以直接读取TIF、PCX、BMP档来进行文字辨识。所以,若 PSP 程式的批次处理可以每秒钟转一个图(TIF→BMP),即可以让 丹青直接读取 BMP档来进行辨识。 OK,让我们把流程□清一下: 1.将已经扫瞄好的 TIF档(徐言辉已完成的,详见信末【附函】) 利用 PSP进行批次转档成 BMP档。 2.以 mvdot将上述 BMP档去点。(当然要再修改成能够批次处理) 3.再以丹青 OCR读取去点後的 BMP档来进行自动辨识程序。(丹青 能够批次处理)。 处理到这里,只要辨识过程中所采用的「学习字库」良好,那麽即 使不再进行「线上校对」,我预估有 95%的正确度【再注】。 【再注】为了证明我的估计,我利用fgfc程式把a.txt(经过线上校对)、 b.txt (未经线上校对,也就是上述步骤三的完成档)两相比对 ,确实计算出 b.txt有47个错字。那麽 47/871=5.4%,也就是说 每 100个字里面约有 5.4个错字。 maha 8/16/97 【附函】此函是徐言辉兄在今年元月八日给我的报告,在那之後,徐兄应 当又扫瞄了不少经论。虽然前阵子徐兄因个人因缘而对扫瞄事务 歇手,但仍表示愿意将过去所做成果提供给大家进一步利用。 Subject: 「鸠摩罗什全集」CD片 Date: Wed, 08 Jan 1997 06:20:54 +0800 From: 徐言辉 <roberhhh@ms9.hinet.net> To: 吴宝原 <maha@tpts1.seed.net.tw> 吴兄: 终於赶了出来,整整二片;因为烧录过程出了一些状况,致又耽搁了一些时间。 待会我就把它寄去给你。这二片接下去的工作,就麻烦你处理了。 以下是这二片的档案列表,亦即光碟片上的 files.lst。 ==================================================================== 【佛教大藏经处理注:】 一。符号「●」,表示电脑缺字。如可以组字法(见後面附录)表示, 当以组字法表示之,如此可知是何字。 二。除经号下方之「大正藏」栏位,指该经文在大正藏的编号,其馀 指「佛教大藏经」的相关记录。 三。大正藏栏位为「****」,表示大正藏没有收录该经文。有可能是 误判,待修正。像鸠摩罗什译的经,应该都有收录,只是详细待 查。 四。所采用的「佛教大藏经总目录、索引」,为六十八年十二月初版。 ==================================================================== □ 佛教大藏经 目录 □ --- 经号 --- 佛教藏 大正藏 册 页码 经名(卷数)【朝代 译者或作者】 ______ ______ _ ____ __________ _________________ ==================================================================== 【CD-1】 1021 1509 39 P0001 大智度论(100卷) H391021A --> W 0010 0286 02 P0699 十住经(4卷) H020010A --> B 0029 0310 03 P0737 (十七)富楼那会(菩萨藏经三卷)(卷77-79) H030029A 0126 0426 07 P0584 佛说千佛因缘经(1卷)】 H070126 0142 0456 07 P0852 佛说弥勒大成佛经(1卷) H070142 0160 0475 08 P0271 维摩诘所说经(3卷) H080160 0177 **** 08 P0767 佛说庄严菩提心经(1卷) H080177 0182 0484 08 P0840 不思议光菩萨所说经(1卷) H080182 0184 0586 09 P0001 思益梵天所问经(4卷) H090184A --> B 0189 0650 09 P0193 诸法无行经(2卷) H090189 【CD-2】 0397 0223 19 P0249 摩诃般若波罗蜜经(27卷) H190397A --> K 0400 **** 20 P0090 摩诃般若波罗蜜经(10卷) H200400A --> C (此处之所以会****,因为在大正藏的目录是记录 1卷 ,致不能确定) 0966 1569 37 P0352 百论(2卷) H370966 0982 0201 37 P0854 大庄严论经(15卷) H370982A --> E 0994 0614 38 P0190 坐禅三昧经(2卷) H380994 0995 0616 38 P0216 禅法要解(2卷) H380995 0996 0617 38 P0235 思惟略要法(1卷) H380996 0997 0615 38 P0241 菩萨诃色欲法经(1卷) H380997 1003 0208 38 P0364 众经撰杂譬喻(2卷) H381003 1008 1521 38 P0447 十住□婆沙论(17卷) H381008A --> F 1072 1646 47 P0209 成实论(16卷) H471072A --> H 1266 **** 53 P0211 佛说弥勒下生经(1卷) H531266 0214 0625 10 P0485 大树紧那罗王所问经(4卷)H100214A --> B 0222 0482 10 P0651 持世经(4卷) H100222A --> B 0253 0464 11 P0197 文殊师利问菩提经(1卷) H110253 0476 0123 23 P0522 佛说放牛经(1卷) H230476 0611 0389 26 P0790 佛垂般涅盘略说教诫经(1卷)H260611 0624 0613 27 P0811 禅□要法经(3卷)】 H270624A --> B 0692 0035 28 P0265 佛说海八德经(1卷) H280692 0716 0703 28 P0373 灯指因缘经(1卷) H280716 0948 1568 36 P0854 十二门论(1卷) H360948 0951 1659 36 P0919 发菩提心经论(2卷) H360951 0961 1564 37 P0044 中论(4卷) H370961A --> c 0203 0657 09 P0711 佛说华手经(10卷) H090203A --> E 【已完成】 0159 0642 08 P0245 佛说首楞严三昧经(2卷)【姚秦 鸠摩罗什译】 1170 2046 51 P0416 马鸣菩萨传(1卷)【後秦 鸠摩罗什译】 1171 2047 51 P0418 龙树菩萨传(1卷)【姚秦 鸠摩罗什译】 1172 2048 51 P0422 提婆菩萨传(1卷)【姚秦 鸠摩罗什译】 【已完成线上校对】★我就自行处理了。 另外配合何宗兄的还有《佛说地藏十轮经》, 也由我继续进行。 0029 0310 03 P0892 (二六)善臂菩萨会(善臂菩萨经二卷)(卷93-94) 0108 0420 06 P0604 自在王菩萨经(2卷)【姚秦 鸠摩罗什译】 0409 0235 20 P0542 金刚般若波罗蜜经(1卷)【姚秦 鸠摩罗什译】 0415 0245 20 P0595 佛说仁王般若波罗蜜经(2卷)【姚秦 鸠摩罗什译】 【尚未扫瞄】 0058 0335 04 P0725 佛说须摩提菩萨经(1卷)【姚秦 鸠摩罗什译】 0079 0366 04 P0985 佛说阿弥陀经(1卷)【姚秦 鸠摩罗什译】(已有) 0429 0262 21 P0011 妙法莲华经(7卷)【姚秦 鸠摩罗什译】 0433 0265 21 P0322 妙法莲华经观世音菩萨普门品经(1卷) 【姚秦 鸠摩罗什译长行,隋 □那崛多译重颂】 0452 0382 22 P1013 集一切福德三昧经(3卷)【姚秦 鸠摩罗什译】 【暂不处理】★凡属咒经,及戒律,暂不输入。 1569 0988 57 P0294 孔雀王咒经(1卷)【姚秦 鸠摩罗什译】 0806 1484 29 P0001 梵网经(2卷)【後秦 鸠摩罗什译】 0815 0653 29 P0199 佛藏经(3卷)【姚秦 鸠摩罗什译】 0818 1489 29 P0310 清净□尼方广经(1卷)【後秦 鸠摩罗什译】 0855 1436 32 P0233 十诵比丘波罗提木叉戒本(1卷)【姚秦 鸠摩罗什译】 1255 0250 53 P0132 摩诃般若波罗蜜大明咒经(1卷)(此为心经) 【注一】:延迟档档名依佛教大藏经(册码┼编号)命名, 但存成TEXT档时,请依网路档命名方式,例如: H370966.DFR 为百论的延迟作业处理档, FG1569.TXT 为百论的TEXT档。 【注二】:图形档扫瞄因为大量制作,故如会产生辨识错误,造成程 式中断;解决之道为:针对发生问题之图形档作修正,可 能是擦掉一些不正确的图像。 【注三】:图形档扫瞄因为大量制作,如造成辨识不良,只要在相关 文字档记录不良的状态即可,例如:缺某某页,缺二页, 并请在前头加上显著标(如★),再通知我补上该文字页。 【注四】:图形档扫瞄因为大量制作,如造成辨识不良,例如因二行 文字太靠近而造成误辨识,这时画面上只会显示一行的乱 码。解决之道:可先移动游标到下一行,并按ENTER 键增 加一行空行;尔後移动游标到乱码的那一行,先修正後面 那一行的字(因为如果先修正前面那一行的字,第二行的 字,将会看不到参考的影像档),接著再修正前面那一行 的字即可。或者也可参照相关经本在线上校对,或离线校 对时补上文字也可。或者在线上校对时只要记录缺二行, 待离线校对时再补上就可。 【注五】:请将 T4342 目录下的 train.dbs,拷贝到丹青中文OCR的 T4342 目录(可能为 C:\UMAXOCR\T4342),然後在辨识 时,选择要学习字库。该档为依佛教大藏经做辨识时,慢 慢增加的学习字库,可提高字的辨识率。不过,你也可以 再给与修正。 【注六】:CD-1 的 H39TXT 目录,是我已经线上校对过的 《大智度论》页 1 到 38,即 h391021a.txt 的前38页。 【注七】:有问题请连络 徐言辉 roberhhh@ms9.hinet.net 最後,感谢各位的热情赞助。 |
阅读文章: 第 936/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
□ 台大狮子吼佛学专站 http://buddhaspace.org |