看板: BudaTech ◎ 佛典电子化讨论 板主: HeavenChow |
阅读文章: 第 926/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
发信人: "Heaven" <heaven@novell.zcom.com.tw>, 信区: BudaTech 标 题: Re: 如何快速去除经文图档的圈点 发信站: 国立中山大学网路组 Mailing List (Wed Aug 13 10:51:52 1997) 转信站: Lion!ccnews.nsysu!news.nsysu!buda-tech@sccid.nsysu 来 源: sccid.nsysu.edu.tw > 先不考虑土法炼钢的招式,先研究看看是否有适当软体可以处理得来;若不行 > ,再让 Heaven 来伤脑筋写个程式吧。 後学写好了一支程式, 第一次测试时, 一页资料花了十分钟才处理完 :p (够夸张吧!) , 经过一些处理, 终於在 cpu pentium -100 + 32M ram 的机器以 30 秒处理一页, 应该可以忍受了. 待做最後一些处理, 明天 应可完成. 因这个程式适用性不广, 故不打算一一寄给各位, 除了原需 求者 maha 及 徐言辉後学会强迫 mail 一份给他们外, 有需要的朋友请 让後学知道, 後学再私下 mail 给各位. 各位觉得有用就任意散布无妨, 只是不想浪费各位资源才不直接送上. 这个程式适用性不高, 只会处理 : 1. 黑白的 bmp 图档格式, 因小弟对图形没什麽研究, 故只会这种. 我是用 win95B 所附的 Imaging 这个程式来将 tif 转成 bmp 的. 2. 基本上, 我很难对杂点做定义, 故只处理 "约长宽各 16 个点的实心黑圈 (即半径为 8) , 并该黑点上下皆为空白" 这是我的判断方法. 而佛教大藏经的经文的圈点大概也是这样样子吧! > 这个议题,不惟针对佛教大藏经来说,很多古书以及『尊崇古法』排版的书籍 > ,在文字辨识处理上都有类似的困难。这个障碍若能有效排除,想那 OCR软体 > 一秒钟十几二十来字的辨识速度,一套电子版大藏经很快就能产生了;即使是 > 没有圈点或进一步校对,但总算有个最基础的材料来让我们好好琢磨。 再来的动作, 或许是找个能直接做 tif -> bmp 及 bmp -> tif 的转换工具. 因为用 imaging 等要不断 opne , save as ... , 一样很花时间, 不能 大量批次处理. 若这点做出来, 而丹青也可以一次处理数页文件, 这样来做 电子化就快很多了. 这方面的下个动作可能是将圈点移入文字中, 及大正藏图档处理, 但好像比 较难, 後学先观望看看. 希望有这方面专长的朋友能支援. Heaven |
阅读文章: 第 926/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
□ 台大狮子吼佛学专站 http://buddhaspace.org |