看板: BudaTech ◎ 佛典电子化讨论    板主: HeavenChow
阅读文章: 第 997/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回
发信人: buda-tech0@buddha.nsysu.edu.tw, 信区: BudaTech
标  题: Re: 去杂点程式--大正藏版
发信站: (NEWS/INFO) National Sun Yat-San University (Tue Sep  9 16:41:49 1997)
转信站: Lion!ccnews.nsysu!news.nsysu!not-for-mail
来  源: buddha.nsysu.edu.tw

> > maha 当时所 mail 给我的是多少 dpi 的图档?
> 
> 300dpi。
>  
> > 也由於大正藏中的杂点很多, 我的程式只能处
> > 理大部份的读音符号, 就是字下面的一, 二, v
> > 等符号,
> 以这新程式试了之前所提供的大正藏图档,「一」、「二」
> 、「□」去得满乾净;「上」、「中」、「下」以及
> [二*│] 似乎也有考虑到,但仍有少部份没有去除掉。
> 我会把上面所说的几个奇怪的日本读音符号送过去给heaven
> 化验。建议朋友们能够的话,多送一些奇怪的给他,最好是
> 以300dpi局部扫瞄成小图档送过去。

  等等.. 不要用图档炸我 :p
  其实在程式中我并不是判断是一还是二, 而是用个条件, 如
  下图

 □
  □■□
  □

 □ 代表约 16 x 10 的空白区域
  ■ 代表约 16 x 10 的有黑点的区域, 黑点可能是一二v....

  若图档中有合於上面的条件, 就将■变成全白的, 如此而已
  (却想了许久 :p) 有少部份失败的, 大多是■太大或是和
    上下的字相连, 程式才不好判断, 这些数量不多, 我就不理它了.

  我比较担心的是 maha  是 300 dpi 的图, 若有 400 dpi 或其它的,
  上面的■可能就不是大约 16 x 10 , 那才是要改的部份.
  故反倒是有非 300 dpi 的图档, 让我试试看.

  另外, 或许可以试试那种 dpi 辨识比较好?

> 另外,也要再详细评估一下:到底去或不去掉这些,对整体
> 作业的影响大不大?因为正如heaven先前说的,若不去掉这
> 些符号,丹青 OCR好像也只是把它们通通辨识成 「1」而已
> 。

  虽然变成 1 , 若用程式可以很快去除, 但也会去除句点.
  而这支程式的最大卖点就是可以去杂点但留下句点 :p

> > 一些字上面的*及有圆圈的数字并没
> > 有处理, 由於那些比较麻烦, 因为不小心会去除
> > 句点, 而且那些数量不多, 所以我就先不管了.
> 我想「*」及有圆圈的数字,这些不去掉也好,因为这些都
> 是非常重要的资讯,若一下子去掉了,以後很可能还是得花
> 时间在文字档再补上的。

  我的想法和您一样, 先留下符号, 日後或有机会补上校勘资料.

  Heaven


阅读文章: 第 997/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org