阅读文章

[转载]汉字拓扑码(兴趣组)【与输入法无关】

1-15楼

[日期:2013-01-18] 来源:北大中文论坛  作者: [字体: ]

jr0jr 发表于 2011-5-5 05:32:48

汉字拓扑码(兴趣组)【与输入法无关】

最近受到张时钊先生、金岷彬先生、谢振斌先生、SDI先生和yywzw05先生的启发,遂产生一种新型构建汉字编码的想法,从纯粹的拓扑关系上分析汉字,小到笔划,大到字形。姑且叫它汉字拓扑码。如有雷同,烦请大家一定告之,小生则重新择名而命。

本帖不是为了推销某种输入法或者字库。请主要研究输入法的坛友一笑而过。提出这个想法,只是为了抛砖引玉、拓展思维,从汉字结构体上分析它的信息承载能力。因此,和现有汉字体形完全一致、无缝融合某种输入法和字库,并不是拓扑码的目的。通过这次研究,我们希望可以看到汉字在字形结构上的特点,尤其是在信息化的时代,发现旧汉字的一些桎梏。希望可以给不断演变的汉字字形体系,带来一点基于具体实验的参考资料。

以下分段展开一些初步的设想。拓扑码的设想是一个开放话题,希望大家多多参与和指正。

[ 本帖最后由 jr0jr 于 2011-5-9 07:25 编辑 ]

 

jr0jr 发表于 2011-5-5 05:57:12

(一)目的

汉字拓扑码是用纯拓扑结构来描述汉字字形的一种编码,旨在反映汉字笔划之间的相互关系。其中笔划被抽象成只有长度和方向的直线(点笔视作质点)

这种编码的作用是通过使用形式语言,动态地生成汉字的拓扑结构。它有两个形态,打比方的讲,一个是基因型,一个是表现型。基因型使用语法树的方式,描述了字形里迭代的拓扑关系;表现型是通过使用形式语法,把基因型在2D空间的展开。在表现型的基础上,可以对汉字字体进行美化渲染并显示,但此步骤不作本主题讨论重点。

每一个汉字对应一个唯一的表现型;但是,由于汉字拓扑结构的复杂性,同一个汉字可以有不同的基因型。反过来,这意味着,同一个汉字可以使用不同的方式拆分成不同等级的子块,子块还可以同理继续拆分,一直拆到预先设定的字元为止。基因型的多样性会带给我们若干工程上的优势,这些将在下文中具体解释。

[ 本帖最后由 jr0jr 于 2011-5-5 06:27 编辑 ]

 

jr0jr 发表于 2011-5-5 06:12:14

(二)方法总论

如上文所述,每一个汉字对应一个唯一的表现型和不确定数量的基因型。汉字拓扑码的生成方法可以总结为:

首先,把一个汉字转换成表现型的拓扑表达,但自动生成的拓扑表达,有可能不满足人体视觉的要求。因此,此步骤的结果有必要经过人眼的评估;

其次,把此表现型转换成若干有效的基因型。可以利用人工挑选的基础拓扑结构(拓扑元),同时也可以自动提取高频拓扑元。动态构字为此分解过程的逆过程;

再次,根据优化条件,找到满足要求的基因型,如未满足,则改变参数,重新生成一个新的拓扑表达,如此循环往复,直到满足终止条件(可以是循环次数,也可以是优化效果,等等)。

[ 本帖最后由 jr0jr 于 2011-5-5 19:05 编辑 ]

 

jr0jr 发表于 2011-5-5 06:17:46

(三)潜在应用

0,基于本框架的复杂汉字的动态生成。

1,基于整体或局部拓扑结构的汉字识别。

2,基于笔划、字形、字根的分类、检索。

3,基于拓扑元的汉字信息加密。充分利用基因型的多样性。

[ 本帖最后由 jr0jr 于 2011-5-5 19:06 编辑 ]

 

laoli0228 发表于 2011-5-5 09:57:24

回复 4楼 的帖子

前三种,已有更简便的实用技术;
最后一种应用,还可自由发挥。

 

yywzw05 发表于 2011-5-5 11:39:54

原帖由 laoli0228 于 2011-5-5 09:57 发表 http://www.pkucn.com/images/common/back.gif
前三种,已有更简便的实用技术;
最后一种应用,还可自由发挥。

很想听详细一些

 

jr0jr 发表于 2011-5-5 16:53:23

关于建立拓扑抽象的方法上,允许我借用楼上y先生的名言:分析之后提纯,提纯之后再分析。

这和我3楼说的是一个道理。

 

jr0jr 发表于 2011-5-5 19:23:28

(四)特点概括

有别与其它构字方案,拓扑码里面没有字根的概念,只有反映结构之间相互关系的拓扑元。拓扑元既是运算,也是运算对象。

拓扑码不是为了按照有义的偏旁或者亚偏旁进行拆字、构字。拓扑元完全没有直接对应的字体意义,完全的工程化,并且应该可以依据条件自动组织。

表现型的生成,基本脱离汉字原有形态美学的需要,因此,不是由字形专家来构造的。表现型的拓扑细节,由基因型的优化需要决定,并且自动生成。

[ 本帖最后由 jr0jr 于 2011-5-5 19:37 编辑 ]

 

希夷先生 发表于 2011-5-5 19:43:38

這麼囉里巴唆一大堆!先給個例子行不?

 

jr0jr 发表于 2011-5-5 20:02:42

原帖由 希夷先生 于 2011-5-5 19:43 发表 http://www.pkucn.com/images/common/back.gif
這麼囉里巴唆一大堆!先給個例子行不?


回您老的话,没例子。最多算是一个计划书(proposal)而已。放上来就是想听听初步的批评,看看这个东西值得不值得立项。

 

mm123 发表于 2011-5-5 20:56:49

最核心的内容是什么呢?

 

jr0jr 发表于 2011-5-5 21:29:57

原帖由 mm123 于 2011-5-5 20:56 发表 http://www.pkucn.com/images/common/back.gif
最核心的内容是什么呢?

1,根据字型自动生成拓扑图。核心技术是基于形态、频谱变换的图像处理。

2, 根据拓扑图(表现型)自动建立构字的形式语言表述(基因型),反过来再根据基因型不断自动优化改进表现型。核心技术是基于基因编程的、对于拓扑结构的多目标优化。

我考虑的主要用途是模式识别和信息加密。如果可以立项,我想培养两个硕士生。一个主攻图像处理,一个主攻演化计算。

[ 本帖最后由 jr0jr 于 2011-5-5 21:56 编辑 ]

 

Luxgum 发表于 2011-5-5 22:06:06

呵呵,搞汉字形 也能出硕士,我开眼了

 

mm123 发表于 2011-5-5 22:11:27

原帖由 jr0jr 于 2011-5-5 21:29 发表 http://www.pkucn.com/images/common/back.gif
1,根据字型自动生成拓扑图。核心技术是基于形态、频谱变换的图像处理。
2, 根据拓扑图(表现型)自动建立构字的形式语言表述(基因型),反过来再根据基因型不断自动优化改进表现型。核心技术是基于基因编程 ...

这个好像适合做汉字字库。
做输入法的话,可能会有很多问题……

 

jr0jr 发表于 2011-5-5 22:15:55

回复 14楼 的帖子

技术上,某些地方也许有互通之处,但是完全没有要做输入法的意思。


上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9..] [14] 下一页   
【内容导航】
第1页:说明
第2页:1-15楼
第3页:16-30楼
第4页:31-45楼
第5页:46-60楼
第6页:61-75楼
第7页:76-90楼
第8页:91-105楼
第9页:106-120楼
第10页:121-135楼
第11页:136-150楼
第12页:151-165楼
第13页:166-190楼
第14页:191-205楼


阅读:
录入:湘里伢子

语网特别申明:各专栏专辑作者文责自负,对自己的作品享有完整版权,在语网的发布不影响其再版权,即作者还可另行投稿或出版。任何人均可在本站发布或转载文章,但这并不意味着本站赞同其观点或证实其内容的真实性,如涉及版权等问题,请作者来函联系。

评论 】 【 推荐 】 【 打印
上一篇:[转载]井田汉字,汉字形体结构演变的终点站(下)

下一篇:“井田汉字”走的是“拼形”路线
相关文章      
发表评论


点评:
 
字数(限500字,建议200字以内):
姓名:

  • 尊重网上道德,遵守中华人民共和国的有关法律法规
  • 承担一切因您的行为而导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
站内查询



 
最新文章