看板: BudaTech ◎ 佛典电子化讨论    板主: HeavenChow
阅读文章: 第 882/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回
发信人: "Heaven" <heaven@novell.zcom.com.tw>, 信区: BudaTech
标  题: Re: 如何快速去除经文图档的圈点
发信站: 国立中山大学网路组 Mailing List (Sun Aug  3 04:11:00 1997)
转信站: Lion!ccnews.nsysu!news.nsysu!buda-tech@sccid.nsysu
来  源: sccid.nsysu.edu.tw

> 当以丹青 OCR(中文印刷体文字辨识系统)处理佛教大藏经,将书面经
> 文扫瞄成 TIF图档後,若不先将图档里经文右侧的圈点(旧式标点)去
> 除,则会严重影响辨识效果。一般是可以用丹青 OCR里面的橡皮擦工具
> 去点,但一个一个去点实在太慢,手指头都快抽筋了。

  後学有想写个程式来处理, 但如何判断尚未有头绪, 若有网友有方法, 能否
  指点一下.

  目前想到一个可能暂时可以克服抽筋的方法. 用可编辑的绘图程式
  来处理:

  1. 小圆点大多是在同一直排, 兄可先画一条长直线, 并复制起来.
  2. 然後分别贴上长直线, 再将其移动至小圆点上, 有如将它们串起来.
  3. 继续贴上长直线, 将所有的圆点串起来 (大概每一行都有吧!)
  4. 亦可画一横线, 跨过那些长串, 甚至连结外面的黑框.
  5. 原则就是将想去除的部份串在一起, 不要串到字.
  6. 用倒油漆的工具将白色倒在那些部份, 就全部去除了.

  这是想像, 我没有实务经验, 不过听起来应该会快一点.
  您可以试试. 等我有图档後, 再来一起玩.

  Heaven

阅读文章: 第 882/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org