看板: BudaTech ◎ 佛典电子化讨论 板主: HeavenChow |
阅读文章: 第 941/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
发信人: "Heaven" <heaven@novell.zcom.com.tw>, 信区: BudaTech 标 题: 有关藏经电子化流程 发信站: 国立中山大学网路组 Mailing List (Sun Aug 17 22:26:47 1997) 转信站: Lion!ccnews.nsysu!news.nsysu!buda-tech@sccid.nsysu 来 源: sccid.nsysu.edu.tw > 直接将这个去点後的 BMP档交给丹青OCR 进行自动辨识及词库校正【注】 > ,选择4342字集,加上学习字库,25秒钟完成一页含有 871个中文字的文 > 件。 这点我一直搞不太清楚, "学习字库" 我懂, 但辨识完成时有个 "词库校正" 是在做什麽? 是否有提高辨识率的空间. > OK,让我们把流程□清一下: > 1.将已经扫瞄好的 TIF档(徐言辉已完成的,详见信末【附函】) > 利用 PSP进行批次转档成 BMP档。 > 2.以 mvdot将上述 BMP档去点。(当然要再修改成能够批次处理) 以上二点, 後学尽量将程式改好, 让它可以直接批次处理 tif 档 (这就要靠 QUIZ 兄的大力协助了). 并我很希望将圈点利用电脑加入文字中, 使辨识後有标点产生. 我总是觉得, 只要一页能利用电脑少个一分钟, 一万页就一万分钟了耶... > 3.再以丹青 OCR读取去点後的 BMP档来进行自动辨识程序。(丹青 > 能够批次处理)。 > 处理到这里,只要辨识过程中所采用的「学习字库」良好,那麽即 > 使不再进行「线上校对」,我预估有 95%的正确度【再注】。 我看了一下大正藏的经文, 实在很难用程式来处理使其可以有好的辨识. 但不知其它版本如何? Jimmy 兄不是有白马精舍版的吗? 不知其格式是 否相同? 其它藏经的情况呢? 是否就是以佛教大藏经最好辨识? 另外, 以上流程不知其它朋友有何意见, 如何处可以用电脑来节省人力, 时间, 欢迎提出供大家参考! 让我们将这个工作做更快更好! Heaven |
阅读文章: 第 941/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
□ 台大狮子吼佛学专站 http://buddhaspace.org |