看板: BudaTech ◎ 佛典电子化讨论    板主: HeavenChow
阅读文章: 第 996/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回
发信人: buda-tech1@buddha.nsysu.edu.tw, 信区: BudaTech
标  题: Re: 去杂点程式--大正藏版
发信站: (NEWS/INFO) National Sun Yat-San University (Tue Sep  9 13:01:28 1997)
转信站: Lion!ccnews.nsysu!news.nsysu!not-for-mail
来  源: buddha.nsysu.edu.tw

Heaven wrote:
> 
> 不过由於程式对杂点的大小有指定, 故若不同
> 的书或是不同的 dpi 所扫描的, 可能会有不
> 同的结果, 故请问 maha 当时所 mail 给我的
> 是多少 dpi 的图档?

300dpi。

> 也由於大正藏中的杂点很多, 我的程式只能处
> 理大部份的读音符号, 就是字下面的一, 二, v
> 等符号,

除了「一」、「二」、「□」外,就我手上的大正藏第九册
p26、p27(好不容易找到这两页稍微复杂的),还有「三」
、「四」、「甲」、「乙」、「上」、「中」、「下」,以
及[二*│]和[三*│](组合字表示)。

以这新程式试了之前所提供的大正藏图档,「一」、「二」
、「□」去得满乾净;「上」、「中」、「下」以及
[二*│] 似乎也有考虑到,但仍有少部份没有去除掉。

我会把上面所说的几个奇怪的日本读音符号送过去给heaven
化验。建议朋友们能够的话,多送一些奇怪的给他,最好是
以300dpi局部扫瞄成小图档送过去。

另外,也要再详细评估一下:到底去或不去掉这些,对整体
作业的影响大不大?因为正如heaven先前说的,若不去掉这
些符号,丹青 OCR好像也只是把它们通通辨识成 「1」而已
。

> 一些字上面的*及有圆圈的数字并没
> 有处理, 由於那些比较麻烦, 因为不小心会去除
> 句点, 而且那些数量不多, 所以我就先不管了.

我想「*」及有圆圈的数字,这些不去掉也好,因为这些都
是非常重要的资讯,若一下子去掉了,以後很可能还是得花
时间在文字档再补上的。

                                         maha 9/9/97


阅读文章: 第 996/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org