Re: 去杂点程式--大正藏版

看板: BudaTech ◎ 佛典电子化讨论 板主: HeavenChow

阅读文章：第 996/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回

发信人: buda-tech1@buddha.nsysu.edu.tw, 信区: BudaTech
标  题: Re: 去杂点程式--大正藏版
发信站: (NEWS/INFO) National Sun Yat-San University (Tue Sep  9 13:01:28 1997)
转信站: Lion!ccnews.nsysu!news.nsysu!not-for-mail
来  源: buddha.nsysu.edu.tw

Heaven wrote:
> 
> 不过由於程式对杂点的大小有指定, 故若不同
> 的书或是不同的 dpi 所扫描的, 可能会有不
> 同的结果, 故请问 maha 当时所 mail 给我的
> 是多少 dpi 的图档?

300dpi。

> 也由於大正藏中的杂点很多, 我的程式只能处
> 理大部份的读音符号, 就是字下面的一, 二, v
> 等符号,

除了「一」、「二」、「□」外，就我手上的大正藏第九册
p26、p27（好不容易找到这两页稍微复杂的），还有「三」
、「四」、「甲」、「乙」、「上」、「中」、「下」，以
及[二*│]和[三*│]（组合字表示）。

以这新程式试了之前所提供的大正藏图档，「一」、「二」
、「□」去得满乾净；「上」、「中」、「下」以及
[二*│] 似乎也有考虑到，但仍有少部份没有去除掉。

我会把上面所说的几个奇怪的日本读音符号送过去给heaven
化验。建议朋友们能够的话，多送一些奇怪的给他，最好是
以300dpi局部扫瞄成小图档送过去。

另外，也要再详细评估一下：到底去或不去掉这些，对整体
作业的影响大不大？因为正如heaven先前说的，若不去掉这
些符号，丹青 OCR好像也只是把它们通通辨识成 「1」而已
。

> 一些字上面的＊及有圆圈的数字并没
> 有处理, 由於那些比较麻烦, 因为不小心会去除
> 句点, 而且那些数量不多, 所以我就先不管了.

我想「＊」及有圆圈的数字，这些不去掉也好，因为这些都
是非常重要的资讯，若一下子去掉了，以後很可能还是得花
时间在文字档再补上的。

                                         maha 9/9/97

阅读文章：第 996/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回

□ 台大狮子吼佛学专站 http://buddhaspace.org