看板: BudaTech ◎ 佛典电子化讨论 板主: HeavenChow |
阅读文章: 第 882/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
发信人: "Heaven" <heaven@novell.zcom.com.tw>, 信区: BudaTech 标 题: Re: 如何快速去除经文图档的圈点 发信站: 国立中山大学网路组 Mailing List (Sun Aug 3 04:11:00 1997) 转信站: Lion!ccnews.nsysu!news.nsysu!buda-tech@sccid.nsysu 来 源: sccid.nsysu.edu.tw > 当以丹青 OCR(中文印刷体文字辨识系统)处理佛教大藏经,将书面经 > 文扫瞄成 TIF图档後,若不先将图档里经文右侧的圈点(旧式标点)去 > 除,则会严重影响辨识效果。一般是可以用丹青 OCR里面的橡皮擦工具 > 去点,但一个一个去点实在太慢,手指头都快抽筋了。 後学有想写个程式来处理, 但如何判断尚未有头绪, 若有网友有方法, 能否 指点一下. 目前想到一个可能暂时可以克服抽筋的方法. 用可编辑的绘图程式 来处理: 1. 小圆点大多是在同一直排, 兄可先画一条长直线, 并复制起来. 2. 然後分别贴上长直线, 再将其移动至小圆点上, 有如将它们串起来. 3. 继续贴上长直线, 将所有的圆点串起来 (大概每一行都有吧!) 4. 亦可画一横线, 跨过那些长串, 甚至连结外面的黑框. 5. 原则就是将想去除的部份串在一起, 不要串到字. 6. 用倒油漆的工具将白色倒在那些部份, 就全部去除了. 这是想像, 我没有实务经验, 不过听起来应该会快一点. 您可以试试. 等我有图档後, 再来一起玩. Heaven |
阅读文章: 第 882/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
□ 台大狮子吼佛学专站 http://buddhaspace.org |