看板: BudaTech ◎ 佛典电子化讨论 板主: HeavenChow |
阅读文章: 第 1012/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
发信人: maha <maha@tpts1.seed.net.tw>, 信区: BudaTech 标 题: Re: [Fwd: 丹青OCR“学习字库功能”使用心得报告] 发信站: (NEWS/INFO) National Sun Yat-San University (Wed Oct 15 10:05:50 1997) 转信站: Lion!ccnews.nsysu!news.nsysu!not-for-mail 来 源: buddha.nsysu.edu.tw maha wrote: > > ★★到底可以建立多少学习字?待考。 这下子好像『考』出来了→最好不要超过 330个字。 今天一开机玩丹青 OCR,奇怪!只要有挂上 T6142学习字,系统每次都当得 死死的。本还搞不清楚怎麽回事,直到换另一台电脑再试,我才确定是学习 字档 train.dbs 长度过大所致。 我目前正在处理的《八十华严》有1430页,昨天辨识到 472页时,6142字集 的 train.dbs 长度为 76330 bytes。里头学习了多少字呢?让我们稍微实 验计算一下: 字数 长度(bytes) ------------------ 1 394 2 618 3 842 4 1066 ------------------ (76330-394)/224=339 有 339字,我怀疑这样多的学习字数会造成系统严重当机。所以建议有使用 丹青 OCR的各位,请随时留意您的 train.dbs 长度,大概超过 330字,也 就是长度超过 74314 bytes 时,就该适可而止了。若再增加下去,下场可 能很惨,整个学习字库得重零开始建立。还好,我在 22122 bytes(97字) 时做过一次备份,现在正可以利用这个备份档重新建立。 为了进一步确认,我将这个含有 339个学习字的T6142字集 train.dbs 私下 各寄一份给以下四人: tsungwu@email.gcn.net.tw benchu@mail.wicl.com.tw guby@cris.com wangtel@tpts5.seed.net.tw 希望他们拨空诊断一下。 PS. 不劳烦 heaven,他正忙著 CCCII→BIG5 转码程式。 maha 10/15/97 |
阅读文章: 第 1012/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回 |
□ 台大狮子吼佛学专站 http://buddhaspace.org |