看板: BudaTech ◎ 佛典电子化讨论 板主: HeavenChow |
阅读文章: 第 997/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
发信人: buda-tech0@buddha.nsysu.edu.tw, 信区: BudaTech 标 题: Re: 去杂点程式--大正藏版 发信站: (NEWS/INFO) National Sun Yat-San University (Tue Sep 9 16:41:49 1997) 转信站: Lion!ccnews.nsysu!news.nsysu!not-for-mail 来 源: buddha.nsysu.edu.tw > > maha 当时所 mail 给我的是多少 dpi 的图档? > > 300dpi。 > > > 也由於大正藏中的杂点很多, 我的程式只能处 > > 理大部份的读音符号, 就是字下面的一, 二, v > > 等符号, > 以这新程式试了之前所提供的大正藏图档,「一」、「二」 > 、「□」去得满乾净;「上」、「中」、「下」以及 > [二*│] 似乎也有考虑到,但仍有少部份没有去除掉。 > 我会把上面所说的几个奇怪的日本读音符号送过去给heaven > 化验。建议朋友们能够的话,多送一些奇怪的给他,最好是 > 以300dpi局部扫瞄成小图档送过去。 等等.. 不要用图档炸我 :p 其实在程式中我并不是判断是一还是二, 而是用个条件, 如 下图 □ □■□ □ □ 代表约 16 x 10 的空白区域 ■ 代表约 16 x 10 的有黑点的区域, 黑点可能是一二v.... 若图档中有合於上面的条件, 就将■变成全白的, 如此而已 (却想了许久 :p) 有少部份失败的, 大多是■太大或是和 上下的字相连, 程式才不好判断, 这些数量不多, 我就不理它了. 我比较担心的是 maha 是 300 dpi 的图, 若有 400 dpi 或其它的, 上面的■可能就不是大约 16 x 10 , 那才是要改的部份. 故反倒是有非 300 dpi 的图档, 让我试试看. 另外, 或许可以试试那种 dpi 辨识比较好? > 另外,也要再详细评估一下:到底去或不去掉这些,对整体 > 作业的影响大不大?因为正如heaven先前说的,若不去掉这 > 些符号,丹青 OCR好像也只是把它们通通辨识成 「1」而已 > 。 虽然变成 1 , 若用程式可以很快去除, 但也会去除句点. 而这支程式的最大卖点就是可以去杂点但留下句点 :p > > 一些字上面的*及有圆圈的数字并没 > > 有处理, 由於那些比较麻烦, 因为不小心会去除 > > 句点, 而且那些数量不多, 所以我就先不管了. > 我想「*」及有圆圈的数字,这些不去掉也好,因为这些都 > 是非常重要的资讯,若一下子去掉了,以後很可能还是得花 > 时间在文字档再补上的。 我的想法和您一样, 先留下符号, 日後或有机会补上校勘资料. Heaven |
阅读文章: 第 997/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
□ 台大狮子吼佛学专站 http://buddhaspace.org |