76-90楼_[转载]汉字拓扑码（兴趣组）【与输入法无关】

yywzw05 发表于 2011-5-9 12:58:06

三分法则

三（十丨丨）

三（丨十丨）

:cry:

CFit 发表于 2011-5-9 14:01:56

横落到三分的边界上怎么办，十的横并不要求在正中间啊。

客串客串 发表于 2011-5-9 14:57:39

还有“士，土”，“八，儿”，“用，甩”，“末，未”

yywzw05 发表于 2011-5-9 15:42:29

自相似多层次九宫嵌套结构分析仪

如果有必要，这有什么困难呀

咱送楼上二位一件法宝，
自相似多层次九宫嵌套结构分析仪：

jr0jr 发表于 2011-5-9 17:31:49

原帖由 CFit 于 2011-5-9 11:53 发表 http://pkucn.com/images/common/back.gif
但改字是要有依据的，至少历史上出现过这个字型，并且有一定的认可程度。汉字是人类文化的一部分，不依赖于任合工具和算法，计算机和各种算法是为汉字服务的，要服从汉字的历史和规律，而不是汉字服从计算机或某种算法。

汉字是人类文化的一部分，不依赖于任合工具和算法。您说的非常好！

本兴趣组的目的，是希望可以用工程分析的实验数据告诉大家，汉字在信息承载方面的能力。汉字的演变当然要我们使用者来主导，不过计算机是量化分析的一个重要工具。不是服从计算机和算法，而是借助计算机和算法。换句话说，“改不改字”跟我们这个兴趣组没有关系，那要全国老百姓说了算。但是，我希望可以通过本次研究，可以对汉字的演变起到量化分析的作用，在需要的时候，向大众提出建议和被选方案。

说清楚了么？:D

[ 本帖最后由 jr0jr 于 2011-5-9 17:56 编辑 ]

jr0jr 发表于 2011-5-9 17:39:59

原帖由 yywzw05 于 2011-5-9 15:42 发表 http://pkucn.com/images/common/back.gif
如果有必要，这有什么困难呀

咱送楼上二位一件法宝，
自相似多层次九宫嵌套结构分析仪：

有意思。所以，日和曰就可以分离开了。同理，士和土，末和未，是不是可以让那两横在不同的尺度下叠加？

不同尺度叠加，自然耗费更多的运算和迭代层次，也可以作为衡量形似度的一个参数。

[ 本帖最后由 jr0jr 于 2011-5-9 17:58 编辑 ]

yywzw05 发表于 2011-5-9 18:35:45

J君真是擅长分析:D

jr0jr 发表于 2011-5-9 19:09:18

闲话

早先的OCR软件是不太好分别日和曰、末和未的，尤其是手写体，每个人都不一样。所以，想要区分必须通过高一层的语义判定。

比如，套用《武林外传》的名言：子曾经曰过。计算机的实际操作描述如下：假设，用yy来代替这个有待识别的汉字（两个英文字母存贮大小等同于一个汉字）。计算机给定识别范围为{日，曰}。通过现代汉语语法分析，曾经yy过，显然yy应该是一个动词。

经过判断，发现曰和日都有动词的义项。那就要看“子”作为主语，是参与曰动作的频率高，还是参与日动作的频率高。通过统计分析发现，“子”参与曰动作的频度是0.8，参与日动作的频度是0.2，那么基于概率原则，上文应该是：子曾经曰过，并且给出置信概率为0.8。

看，如果汉文可以在“字”的这个级别就被高效的识别出来该多好～～

yywzw05 发表于 2011-5-10 01:12:05

蒙了

J君呀
我喝了点酒
感觉他们蒙了，呵呵
您说是不是我蒙了呢

jr0jr 发表于 2011-5-10 01:51:16

我就糊涂了，什么时候开始叫我 J君了。。。不是JJ么？。。。:o

谁不蒙啊，汉字长的这么复杂。:P

jr0jr 发表于 2011-5-10 03:39:31

冗余冗余

今天yy先生发贴说：
原帖由 yywzw05 于 2011-5-10 02:34 发表 http://www.pkucn.com/images/common/back.gif
冗余，必要的冗余，没必要的就不冗余。

前两天谢振斌先生也说过：
原帖由谢振斌于 2011-4-30 18:52 发表 http://www.pkucn.com/images/common/back.gif
此外，提一点，作为文字，一定的冗余是需要的，否则无法识认和学习，也不利于抗干扰性能。

看来冗余是个大问题。今天还跟鼠明先生聊，怎么去摸索一个合理的比率，在简化度和识别度中间找折衷。他建议我向金岷彬先生求教。金先生曾经撰文谈过这个问题，可惜时日久远，已经淹没于帖海之中。

金先生，如果您还在关注这一贴，烦请您再谈谈好么？

CFit 发表于 2011-5-10 10:02:29

原帖由 yywzw05 于 2011-5-9 15:42 发表 http://www.pkucn.com/images/common/back.gif
如果有必要，这有什么困难呀
咱送楼上二位一件法宝，
自相似多层次九宫嵌套结构分析仪：

任合两个字，只要有差别，都可以找到办法区分，这个不难。但是，哪种方法能在开始就把汉字的特性定义好了，之后不管出什么样的字，原来的表示方法都能清楚地表示这一个汉字，而没有歧义，这才是问题的难点。也就是说是否真正找到了汉字的本征特征，任你再出现什么字，只要人能看出区别的，原来的方法就能区别，而不是看到差别再增加一种特性，再细分一下就能区分了，这样的办法会的人很多。

比如，在日本的edanashi出现之前，十字是不是用一（十）就可以表示了，但edanashi出现以后，一（十）就分不清是十还是edanashi了，十就需要用三（丨十丨）表示。但是，之前数据库里的一（十）到底是十呢，还是edanashi呢？

现在用三（丨十丨）表示十，下面两个字是不是都是三（丨十丨）啊，不要告诉我你还有办法区分，我想知道的是以前的“三（丨十丨）”表示下面两个字是不是都对。

客串客串 发表于 2011-5-10 12:52:18

原帖由 jr0jr 于 2011-5-9 04:03 发表 http://www.pkucn.com/images/common/back.gif
我们是不是该选择去美化符合认知心理学的计算机字体呢。使国人看得快、看得准，是不是才是我们最终的目的呢？

什么字体才是你认为的“去美化符合认知心理学的计算机字体”？是YY先生的井田字体吗？

jr0jr 发表于 2011-5-10 18:05:06

原帖由客串客串于 2011-5-10 12:52 发表 http://www.pkucn.com/images/common/back.gif

什么字体才是你认为的“去美化符合认知心理学的计算机字体”？是YY先生的井田字体吗？

我不知道。。。所以才去探索。要请有条件并且有兴趣的认知心理学实验室一起来研究探讨。

如果什么都弄好了，我也就不用来论坛了。推销产品太累，我干不来。:cry:

jr0jr 发表于 2011-5-10 18:11:52

CFit先生好勤勉！

三（* * *）好像是有问题。它表示不连接的并联。= ∧ ⊥ X 是最主要的两两关系。

抛砖引玉一下：使用我的语法，使用YY先生的“字元”，我可以用王（O，#，#，O）来表示对称的十。用王（O，#，#，|）表示长腿十。不过，这也是权宜之计，还要集思广益才善！

CFit先生如果嫌一小时一帖的限制讨厌，可以用站内短消息发给我，我帮您贴出来。在下只是代劳，著作权还是在您。

有关语法，在这里。
原帖由 jr0jr 于 2011-5-8 05:26 发表 http://www.pkucn.com/images/common/back.gif
终结符用＃表示，空结构用O表示。两个的作用不同。

O是拓扑元集中的一个元素，任何引用O的操作返回一个空白。＃是为了终结某一个迭代操作，引用＃则使用元操作本身的线条。

比如二（o，o）我们会得到一篇空白 ...

[ 本帖最后由 jr0jr 于 2011-5-10 18:33 编辑 ]