看板: BudaTech ◎ 佛典电子化讨论 板主: HeavenChow |
阅读文章: 第 996/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
发信人: buda-tech1@buddha.nsysu.edu.tw, 信区: BudaTech 标 题: Re: 去杂点程式--大正藏版 发信站: (NEWS/INFO) National Sun Yat-San University (Tue Sep 9 13:01:28 1997) 转信站: Lion!ccnews.nsysu!news.nsysu!not-for-mail 来 源: buddha.nsysu.edu.tw Heaven wrote: > > 不过由於程式对杂点的大小有指定, 故若不同 > 的书或是不同的 dpi 所扫描的, 可能会有不 > 同的结果, 故请问 maha 当时所 mail 给我的 > 是多少 dpi 的图档? 300dpi。 > 也由於大正藏中的杂点很多, 我的程式只能处 > 理大部份的读音符号, 就是字下面的一, 二, v > 等符号, 除了「一」、「二」、「□」外,就我手上的大正藏第九册 p26、p27(好不容易找到这两页稍微复杂的),还有「三」 、「四」、「甲」、「乙」、「上」、「中」、「下」,以 及[二*│]和[三*│](组合字表示)。 以这新程式试了之前所提供的大正藏图档,「一」、「二」 、「□」去得满乾净;「上」、「中」、「下」以及 [二*│] 似乎也有考虑到,但仍有少部份没有去除掉。 我会把上面所说的几个奇怪的日本读音符号送过去给heaven 化验。建议朋友们能够的话,多送一些奇怪的给他,最好是 以300dpi局部扫瞄成小图档送过去。 另外,也要再详细评估一下:到底去或不去掉这些,对整体 作业的影响大不大?因为正如heaven先前说的,若不去掉这 些符号,丹青 OCR好像也只是把它们通通辨识成 「1」而已 。 > 一些字上面的*及有圆圈的数字并没 > 有处理, 由於那些比较麻烦, 因为不小心会去除 > 句点, 而且那些数量不多, 所以我就先不管了. 我想「*」及有圆圈的数字,这些不去掉也好,因为这些都 是非常重要的资讯,若一下子去掉了,以後很可能还是得花 时间在文字档再补上的。 maha 9/9/97 |
阅读文章: 第 996/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
□ 台大狮子吼佛学专站 http://buddhaspace.org |