阅读文章

[转载]汉字拓扑码(兴趣组)【与输入法无关】

76-90楼

[日期:2013-01-18] 来源:北大中文论坛  作者: [字体: ]

yywzw05 发表于 2011-5-9 12:58:06

三分法则

三分法则



三(十丨丨)



三(丨十丨)

:cry:

 

CFit 发表于 2011-5-9 14:01:56

横落到三分的边界上怎么办,十的横并不要求在正中间啊。

 

客串客串 发表于 2011-5-9 14:57:39

还有“士,土”,“八,儿”,“用,甩”,“末,未”

 

yywzw05 发表于 2011-5-9 15:42:29

自相似多层次九宫嵌套结构分析仪

如果有必要,这有什么困难呀

咱送楼上二位一件法宝,
自相似多层次九宫嵌套结构分析仪:

 

jr0jr 发表于 2011-5-9 17:31:49

原帖由 CFit 于 2011-5-9 11:53 发表 http://pkucn.com/images/common/back.gif
但改字是要有依据的,至少历史上出现过这个字型,并且有一定的认可程度。汉字是人类文化的一部分,不依赖于任合工具和算法,计算机和各种算法是为汉字服务的,要服从汉字的历史和规律,而不是汉字服从计算机或某种算法。


汉字是人类文化的一部分,不依赖于任合工具和算法。您说的非常好!

本兴趣组的目的,是希望可以用工程分析的实验数据告诉大家,汉字在信息承载方面的能力。汉字的演变当然要我们使用者来主导,不过计算机是量化分析的一个重要工具。不是服从计算机和算法,而是借助计算机和算法。换句话说,“改不改字”跟我们这个兴趣组没有关系,那要全国老百姓说了算。但是,我希望可以通过本次研究,可以对汉字的演变起到量化分析的作用,在需要的时候,向大众提出建议和被选方案。

说清楚了么?:D

[ 本帖最后由 jr0jr 于 2011-5-9 17:56 编辑 ]

 

jr0jr 发表于 2011-5-9 17:39:59

原帖由 yywzw05 于 2011-5-9 15:42 发表 http://pkucn.com/images/common/back.gif
如果有必要,这有什么困难呀

咱送楼上二位一件法宝,
自相似多层次九宫嵌套结构分析仪:

有意思。所以,日和曰就可以分离开了。同理,士和土,末和未,是不是可以让那两横在不同的尺度下叠加?

不同尺度叠加,自然耗费更多的运算和迭代层次,也可以作为衡量形似度的一个参数。

[ 本帖最后由 jr0jr 于 2011-5-9 17:58 编辑 ]

 

yywzw05 发表于 2011-5-9 18:35:45

J君真是擅长分析:D

 

jr0jr 发表于 2011-5-9 19:09:18

闲话

早先的OCR软件是不太好分别日和曰、末和未的,尤其是手写体,每个人都不一样。所以,想要区分必须通过高一层的语义判定。

比如,套用《武林外传》的名言:子曾经曰过。  计算机的实际操作描述如下:假设,用yy来代替这个有待识别的汉字(两个英文字母存贮大小等同于一个汉字)。计算机给定识别范围为{日,曰}。通过现代汉语语法分析,曾经yy过,显然yy应该是一个动词。

经过判断,发现曰和日都有动词的义项。那就要看“子”作为主语,是参与曰动作的频率高,还是参与日动作的频率高。通过统计分析发现,“子”参与曰动作的频度是0.8,参与日动作的频度是0.2,那么基于概率原则,上文应该是:子曾经曰过,并且给出置信概率为0.8。

看,如果汉文可以在“字”的这个级别就被高效的识别出来该多好~~

 

yywzw05 发表于 2011-5-10 01:12:05

蒙了

J君呀
我喝了点酒
感觉他们蒙了,呵呵
您说是不是我蒙了呢

 

jr0jr 发表于 2011-5-10 01:51:16

我就糊涂了,什么时候开始叫我 J君了。。。不是JJ么?。。。:o

谁不蒙啊,汉字长的这么复杂。:P

 

jr0jr 发表于 2011-5-10 03:39:31

冗余冗余

今天yy先生发贴说:
原帖由 yywzw05 于 2011-5-10 02:34 发表 http://www.pkucn.com/images/common/back.gif
冗余,必要的冗余,没必要的就不冗余。

前两天谢振斌先生也说过:
原帖由 谢振斌 于 2011-4-30 18:52 发表 http://www.pkucn.com/images/common/back.gif
此外,提一点,作为文字,一定的冗余是需要的,否则无法识认和学习,也不利于抗干扰性能。

看来冗余是个大问题。今天还跟鼠明先生聊,怎么去摸索一个合理的比率,在简化度和识别度中间找折衷。他建议我向金岷彬先生求教。金先生曾经撰文谈过这个问题,可惜时日久远,已经淹没于帖海之中。

金先生,如果您还在关注这一贴,烦请您再谈谈好么?

 

CFit 发表于 2011-5-10 10:02:29

原帖由 yywzw05 于 2011-5-9 15:42 发表 http://www.pkucn.com/images/common/back.gif
如果有必要,这有什么困难呀
咱送楼上二位一件法宝,
自相似多层次九宫嵌套结构分析仪:

任合两个字,只要有差别,都可以找到办法区分,这个不难。但是,哪种方法能在开始就把汉字的特性定义好了,之后不管出什么样的字,原来的表示方法都能清楚地表示这一个汉字,而没有歧义,这才是问题的难点。也就是说是否真正找到了汉字的本征特征,任你再出现什么字,只要人能看出区别的,原来的方法就能区别,而不是看到差别再增加一种特性,再细分一下就能区分了,这样的办法会的人很多。

比如,在日本的edanashi出现之前,十字是不是用一(十)就可以表示了,但edanashi出现以后,一(十)就分不清是十还是edanashi了,十就需要用三(丨十丨)表示。但是,之前数据库里的一(十)到底是十呢,还是edanashi呢?

现在用三(丨十丨)表示十,下面两个字是不是都是三(丨十丨)啊,不要告诉我你还有办法区分,我想知道的是以前的“三(丨十丨)”表示下面两个字是不是都对。

 

客串客串 发表于 2011-5-10 12:52:18

原帖由 jr0jr 于 2011-5-9 04:03 发表 http://www.pkucn.com/images/common/back.gif
我们是不是该选择去美化符合认知心理学的计算机字体呢。使国人看得快、看得准,是不是才是我们最终的目的呢?

什么字体才是你认为的“去美化符合认知心理学的计算机字体”?是YY先生的井田字体吗?

 

jr0jr 发表于 2011-5-10 18:05:06

原帖由 客串客串 于 2011-5-10 12:52 发表 http://www.pkucn.com/images/common/back.gif

什么字体才是你认为的“去美化符合认知心理学的计算机字体”?是YY先生的井田字体吗?

我不知道。。。所以才去探索。要请有条件并且有兴趣的认知心理学实验室一起来研究探讨。

如果什么都弄好了,我也就不用来论坛了。推销产品太累,我干不来。:cry:

 

jr0jr 发表于 2011-5-10 18:11:52

CFit先生好勤勉!

三(* * *)好像是有问题。它表示不连接的并联。= ∧ ⊥ X  是最主要的两两关系。

抛砖引玉一下:使用我的语法,使用YY先生的“字元”,我可以用王(O,#,#,O)来表示对称的十。用王(O,#,#,|)表示长腿十。不过,这也是权宜之计,还要集思广益才善!

CFit先生如果嫌一小时一帖的限制讨厌,可以用站内短消息发给我,我帮您贴出来。在下只是代劳,著作权还是在您。

有关语法,在这里。
原帖由 jr0jr 于 2011-5-8 05:26 发表 http://www.pkucn.com/images/common/back.gif
终结符用#表示,空结构用O表示。两个的作用不同。

O是拓扑元集中的一个元素,任何引用O的操作返回一个空白。#是为了终结某一个迭代操作,引用#则使用元操作本身的线条。

比如 二(o,o)我们会得到一篇空白 ...

[ 本帖最后由 jr0jr 于 2011-5-10 18:33 编辑 ]


上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9..] [14] 下一页   
【内容导航】
第1页:说明
第2页:1-15楼
第3页:16-30楼
第4页:31-45楼
第5页:46-60楼
第6页:61-75楼
第7页:76-90楼
第8页:91-105楼
第9页:106-120楼
第10页:121-135楼
第11页:136-150楼
第12页:151-165楼
第13页:166-190楼
第14页:191-205楼


阅读:
录入:湘里伢子

语网特别申明:各专栏专辑作者文责自负,对自己的作品享有完整版权,在语网的发布不影响其再版权,即作者还可另行投稿或出版。任何人均可在本站发布或转载文章,但这并不意味着本站赞同其观点或证实其内容的真实性,如涉及版权等问题,请作者来函联系。

评论 】 【 推荐 】 【 打印
上一篇:

下一篇:
相关文章      
发表评论


点评:
 
字数(限500字,建议200字以内):
姓名:

  • 尊重网上道德,遵守中华人民共和国的有关法律法规
  • 承担一切因您的行为而导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
站内查询



 
最新文章