看板: BudaTech ◎ 佛典电子化讨论    板主: HeavenChow
阅读文章: 第 1012/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回
发信人: maha <maha@tpts1.seed.net.tw>, 信区: BudaTech
标  题: Re: [Fwd: 丹青OCR“学习字库功能”使用心得报告]
发信站: (NEWS/INFO) National Sun Yat-San University (Wed Oct 15 10:05:50 1997)
转信站: Lion!ccnews.nsysu!news.nsysu!not-for-mail
来  源: buddha.nsysu.edu.tw

maha wrote:
> 
> ★★到底可以建立多少学习字?待考。

这下子好像『考』出来了→最好不要超过 330个字。

今天一开机玩丹青 OCR,奇怪!只要有挂上 T6142学习字,系统每次都当得
死死的。本还搞不清楚怎麽回事,直到换另一台电脑再试,我才确定是学习
字档 train.dbs 长度过大所致。

我目前正在处理的《八十华严》有1430页,昨天辨识到 472页时,6142字集
的  train.dbs 长度为 76330 bytes。里头学习了多少字呢?让我们稍微实
验计算一下:

  字数  长度(bytes)
  ------------------
   1     394
   2     618
   3     842
   4    1066
  ------------------

  (76330-394)/224=339

有 339字,我怀疑这样多的学习字数会造成系统严重当机。所以建议有使用
丹青 OCR的各位,请随时留意您的 train.dbs  长度,大概超过 330字,也
就是长度超过  74314 bytes 时,就该适可而止了。若再增加下去,下场可
能很惨,整个学习字库得重零开始建立。还好,我在 22122 bytes(97字)
时做过一次备份,现在正可以利用这个备份档重新建立。

为了进一步确认,我将这个含有 339个学习字的T6142字集 train.dbs 私下
各寄一份给以下四人:

  tsungwu@email.gcn.net.tw
  benchu@mail.wicl.com.tw
  guby@cris.com
  wangtel@tpts5.seed.net.tw

希望他们拨空诊断一下。

PS. 不劳烦 heaven,他正忙著 CCCII→BIG5 转码程式。

                                                     maha 10/15/97


阅读文章: 第 1012/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org