看板: BudaTech ◎ 佛典电子化讨论    板主: HeavenChow
阅读文章: 第 590/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回
发信人: "Heaven" <j120006632@mail.chinatrust.com.tw>, 信区: BudaTech
标  题: Re: fgfc 第三次改版, 请帮忙测试并提供意见.
发信站: 国立中山大学网路组 Mailing List (Mon May 19 13:06:42 1997)
转信站: Lion!ccnews.nsysu!buda-tech@sccid.nsysu
来  源: sccid.nsysu.edu.tw

各位好:

写一下前因後果, 也希望大家能一起帮忙.
若您能花点时间看这一篇, 或许可以省下不少时间参考旧信  :)

> 还有,很重要的一个题外话,不知道你看到公告没有,我们这   mailing 
> list 的信件已经自动转上 tw.bbs.soc.religion.buddhism。对於这fgfc
> 程式的讨论,我想 tw.bbs.soc.religion.buddhism 的参与者一定看得满
> 头雾水,因为他们看不到我们之前的一堆讨论。所以,您看怎麽办?

因有不少朋友在做佛典电子化的工作, 因□於有些文章已由不同的朋友重覆输入,
故有人想到一个好点子 (後学觉得想这个点子的人很天才耶) 将不同人输入的文章
拿来做比较, 找出其中的差异, 如此就很快能找出输入的错误或版本不同的地方.
由比较结果再来参照原始输入的版本, 如此就能很快校对出大部份的错误, 除非二
人都在同一个地方输入错误, 但这实在是太巧了吧  ...

後学不才, 略懂程式设计, 故动手写了一支小程式叫 FGFC ,
工作原理大概是将二篇文
章读入, 略去一切半形英文符号及部份全形中文符号 (中文符号以第一个 BYTE > 127

为判断方法) , 比较後产生三个档, 二个为依原输入格式, 一个为差异比较表.
举例如下:
(底下为执行 "FGFC A B AA BB XX 5 2" 的结果)

=======文章A===========
床前明月光, 疑是天上霜.
举头望月亮, 低头思故乡.

=======文章B===========
窗前明月光,
疑是地上霜。
举头望明月,
低头想故乡。

======比较结果 AA======
<<床||窗>>前明月光, 疑是<<天||地>>上霜.
举头望<<月亮||明月>>, 低头<<思||想>>故乡.

======比较结果 BB======
<<窗||床>>前明月光,
疑是<<地||天>>上霜。
举头望<<明月||月亮>>,
低头<<想||思>>故乡。

====== 比较结果差异表 XX======
******* A
     1: 床
******* B
     1: 窗
*******

******* A
     1: 天
******* B
     2: 地
*******

******* A
     2: 月亮
******* B
     3: 明月
*******

******* A
     2: 思
******* B
     4: 想
*******

====== 档案比对结束 ======

看了累吗? 希望您加油  :)

第一版的 FGFC 只产生了比较档, 後来因为有了比较档後, 修改的人还要看原稿,
看比较档, 再看电子档, 然後查行数, 找相异处, 後学只做了一次,
才知道前人的辛苦.
故在第二版之後又产生了二份结果档 (上例的档 AA 及档 BB) ,
可以看到下面这种符号.

<< (本篇文章所用的字) || (另一篇文章所用的字) >>

後学又写了一个非常简□的汉书巨集指令, 用来寻找 <<||>> 符号处,
并由使用者决定
要使用第一组或第二组. 以减少寻找某行某字的时间.

问题来罗! 因为一些程式上的缺陷, 有些功能尚未解决,
希望各种专长的网友能提供意见.

1.比较逻辑的问题, 题目如下 (假设连续两字相同则判断为相同) :

 色空空不异色色即是空空即是色
 色不异空空不异色色即是空空即是色

 程式会比较成(好的结果)

 色  空空不异色色即是空空即是色
 色不异空空不异色色即是空空即是色

 但反过来有时会比较成(这样就乱了)

 色  不异    空空...不异色色即是空空即是色
 色空空不异色色即是空空...即是色

 就是类似下列二组字串, OO 代表相同的,XX 代表不同的,我们要如何找出来
 而不误判.

 OOXXXOOOO
 OOXXXXXOOOO

2. 半形符号的影响:

罗侯罗
罗[目*侯]罗

上二段比较後产生:

罗<<||目>>侯罗
罗[<<目||>>*侯]罗

如果都要使用第一组 (自己的那组) 则没问题, 但若要用第二组, 就分别变成

阅读文章: 第 590/2032 篇 | 上篇 | 下篇 | 回覆 | 转寄 | 转贴 | m H d | 返回

□ 台大狮子吼佛学专站  http://buddhaspace.org