您有新信

 
有关经典电子化
#1
发信站: (ksts.seed.net.tw, 信区: BudaTech)
前一阵子诸位大德讨论有关经典电子化,
因在下不懂,所以也没有在意,
现想了解电子化中比较技术上的问题,
如
1. 扫描解析度
2. 辨认软体名称及正确率
3.记得有去点程式的种种
4. 标点符号问题
5.文字直式转横式的问题.
6.其他

如果诸位大德有保留那时讨论的 mail 可否forward
一份给我,或告诉我去那找.
thanks


--
---------------------------------------------------
http://cubic.mat.ncku.edu.tw/~cricket
mailto:cricket@ksts.seed.net.tw
---------------------------------------------------
NEWS/INFO National Sun Yat-San University Thu Oct 29 23:02:44 1998
回覆 | 转寄 | 返回

Re: 有关经典电子化
#2
Heaven
发信站: 狮子吼站 (Lion , 信区: BudaTech)
==> 於  (cricket@ksts.seed.net.tw,) 文中述及:
>前一阵子诸位大德讨论有关经典电子化,
>因在下不懂,所以也没有在意,
>现想了解电子化中比较技术上的问题,
>如 ... <略>
>如果诸位大德有保留那时讨论的 mail 可否forward
>一份给我,或告诉我去那找.

在狮子吼站的 buda-tech 讨论区, 有完整的保留,
telnet://cbs.ntu.edu.tw  [buda-tech 版]

>1. 扫描解析度

据说一般 300 dpi 就很不错了, 但若是古文或较不清楚
的资料, 则要较高的解析度, 例如我们处理大正藏,
就发觉 400 以上有更好的效果.

>2. 辨认软体名称及正确率

之前後学测试时, 觉得丹青效果不错.
我是用大正藏为样本, 试用丹青,
电信研究所那一套及大陆清华那一套. (名字都忘了)
好像还有个叫新文通或什麽的, 但以丹青最为理想.
(ps. 我只是粗略测试, 各软体或许有最佳化的调整, 我都没处理)

>3.记得有去点程式的种种

有人写过一支去点程式, 大概能粗略去除
大正藏, 佛教藏及续藏的杂点, 在东坡站上应该找得到.

>4. 标点符号问题

什麽问题? OCR 辨识问题吗?

>5.文字直式转横式的问题.

纯文字直式文字变横式吗?
之前後学有想过用汉书写些巨集来处理,
但需求度不高就一直没动手.
若有需要则欢迎来讨论.
但因为许多经文都有横式的了, 所以我都不管直式的那些.

>6.其他

其他就欢迎来讨论了.

其实这些问题在不同情况有不同的方法来处理,
很欢迎您以您目前要处理的现况与大家一起讨论.
或许您要的东西都有现成的成品了, 就不用那麽麻烦了.

  heaven
--
【北狮南鹿】
您在学佛路上有疑问吗?-----BudaHelp 版,帮助您!
您对佛教神□事件好奇吗?---BudaXfile版,满足您!
一片清凉的佛法讨论园地,需要您的爱护与灌溉,欢迎您的光临:
台大佛研中心狮子吼站:telnet://cbs.ntu.edu.tw       (IP:140.112.143.30)
[鹿苑]佛教暨慈青专站:telnet://buddha.nsysu.edu.tw  (IP:140.117.11.90)
Ξ Origin: 狮子吼站 <cbs.ntu.edu.tw> [FROM: 168.95.189.90]
Sun Nov 1 23:39:15 1998
回覆 | 转寄 | 返回

Re: 有关经典电子化
#3
省油的灯
发信站: 狮子吼站 (Lion , 信区: BudaTech)
    小弟最近想做OCR错字自动校正的研究,
不知道能不能请你提供一下资料。

    只要提供一份跑完OCR的原始资料,以及
人工校对过的资料就可以了。资料不必多,
只要几mega即可。

    类似的研究你应该做过吧!不知道成果怎
麽样呢?我是因为最近的研究工作好像可以应
用到资料校对上面,所以一时手□,想要试试
看,不见得会有显著的成果就是了。

Evan
--
      □□□□
    —        —
  ——  ..  ——
 ——□    □——
 ——│∵│∵│——
   —□—┴—□—  欢迎光临台大佛研中心狮子吼站:cbs.ntu.edu.tw[140.112.143.30]
Ξ Origin: 狮子吼站 <cbs.ntu.edu.tw> [FROM: 140.109.19.102]
Mon Nov 2 10:10:22 1998
回覆 | 转寄 | 返回

Re: 有关经典电子化
#4
Heaven
发信站: 狮子吼站 (Lion , 信区: BudaTech)
寄件者: 省油的灯 <evan.bbs@buddha.cbs.NTU.EDU.TW>
>    小弟最近想做OCR错字自动校正的研究,
>不知道能不能请你提供一下资料。
>
>    只要提供一份跑完OCR的原始资料,以及
>人工校对过的资料就可以了。资料不必多,
>只要几mega即可。

几 mega... 这还不多啊... ^_^
一册大正藏也不过二, 三 mega 吧!

>    类似的研究你应该做过吧!不知道成果怎
>麽样呢?我是因为最近的研究工作好像可以应
>用到资料校对上面,所以一时手□,想要试试
>看,不见得会有显著的成果就是了。


当然可以给您! :)

不过我手中可能拿不到 "最原始" 的资料 (除非有图档再自己处理)
OCR 处理後的原稿, 我们大概会有二种方式改进它的正确率.

一是利用丹青学习字库的功能, 可以改善不少同样的错字.

第二是利用 "常用错字字串" 表来进行取代,
利如 "菩" 与 "苦" 字, 因为很像, 用学习的功能不易改善,
但我们将 OCR 经文之 "苦萨" 全部取代成 "菩萨"
则对日後的校对工作大有提升.
相关的说明在 http://ccbs.ntu.edu.tw/cbeta 的技术篇有提到.

所以我手中的原始资料大概是经过这二种处理过的了.
不知这样是否还符合您所需求, 若合, 要怎麽给您?
mail ? ftp ?
或是直接丢到 buda-tech ? (开玩笑的 :p)

另外, 其实本版版主 maha 对此有更多的研究,
他好久没回版面照顾一下了, 看他有没有什麽心得可以提供的.

  heaven
--
【北狮南鹿】
您在学佛路上有疑问吗?-----BudaHelp 版,帮助您!
您对佛教神□事件好奇吗?---BudaXfile版,满足您!
一片清凉的佛法讨论园地,需要您的爱护与灌溉,欢迎您的光临:
台大佛研中心狮子吼站:telnet://cbs.ntu.edu.tw       (IP:140.112.143.30)
[鹿苑]佛教暨慈青专站:telnet://buddha.nsysu.edu.tw  (IP:140.117.11.90)
Ξ Origin: 狮子吼站 <cbs.ntu.edu.tw> [FROM: 168.95.189.17]
Mon Nov 2 13:45:42 1998
回覆 | 转寄 | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org