看板: BudaTech ◎ 佛典电子化讨论    板主: HeavenChow
阅读文章: 第 926/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回
发信人: "Heaven" <heaven@novell.zcom.com.tw>, 信区: BudaTech
标  题: Re: 如何快速去除经文图档的圈点
发信站: 国立中山大学网路组 Mailing List (Wed Aug 13 10:51:52 1997)
转信站: Lion!ccnews.nsysu!news.nsysu!buda-tech@sccid.nsysu
来  源: sccid.nsysu.edu.tw

> 先不考虑土法炼钢的招式,先研究看看是否有适当软体可以处理得来;若不行
> ,再让 Heaven 来伤脑筋写个程式吧。

  後学写好了一支程式, 第一次测试时, 一页资料花了十分钟才处理完 :p
  (够夸张吧!) , 经过一些处理, 终於在 cpu pentium -100 + 32M ram
  的机器以 30 秒处理一页, 应该可以忍受了. 待做最後一些处理, 明天
  应可完成. 因这个程式适用性不广, 故不打算一一寄给各位, 除了原需
  求者 maha 及 徐言辉後学会强迫 mail 一份给他们外, 有需要的朋友请
  让後学知道, 後学再私下 mail 给各位. 各位觉得有用就任意散布无妨,
  只是不想浪费各位资源才不直接送上.

  这个程式适用性不高, 只会处理 :

  1. 黑白的 bmp 图档格式, 因小弟对图形没什麽研究, 故只会这种.
     我是用 win95B 所附的 Imaging 这个程式来将 tif 转成 bmp 的.
  2. 基本上, 我很难对杂点做定义, 故只处理
     "约长宽各 16 个点的实心黑圈 (即半径为 8) , 并该黑点上下皆为空白"
     这是我的判断方法. 而佛教大藏经的经文的圈点大概也是这样样子吧!

> 这个议题,不惟针对佛教大藏经来说,很多古书以及『尊崇古法』排版的书籍
> ,在文字辨识处理上都有类似的困难。这个障碍若能有效排除,想那 OCR软体
> 一秒钟十几二十来字的辨识速度,一套电子版大藏经很快就能产生了;即使是
> 没有圈点或进一步校对,但总算有个最基础的材料来让我们好好琢磨。

  再来的动作, 或许是找个能直接做 tif -> bmp 及 bmp -> tif 的转换工具.
  因为用 imaging 等要不断 opne , save as ... , 一样很花时间, 不能
  大量批次处理. 若这点做出来, 而丹青也可以一次处理数页文件, 这样来做
  电子化就快很多了.

  这方面的下个动作可能是将圈点移入文字中, 及大正藏图档处理, 但好像比
  较难, 後学先观望看看. 希望有这方面专长的朋友能支援.

  Heaven











阅读文章: 第 926/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org