汉字拓扑码(兴趣组)【与输入法无关】
最近受到张时钊先生、金岷彬先生、谢振斌先生、SDI先生和yywzw05先生的启发,遂产生一种新型构建汉字编码的想法,从纯粹的拓扑关系上分析汉字,小到笔划,大到字形。姑且叫它汉字拓扑码。如有雷同,烦请大家一定告之,小生则重新择名而命。本帖不是为了推销某种输入法或者字库。请主要研究输入法的坛友一笑而过。提出这个想法,只是为了抛砖引玉、拓展思维,从汉字结构体上分析它的信息承载能力。因此,和现有汉字体形完全一致、无缝融合某种输入法和字库,并不是拓扑码的目的。通过这次研究,我们希望可以看到汉字在字形结构上的特点,尤其是在信息化的时代,发现旧汉字的一些桎梏。希望可以给不断演变的汉字字形体系,带来一点基于具体实验的参考资料。
以下分段展开一些初步的设想。拓扑码的设想是一个开放话题,希望大家多多参与和指正。
[ 本帖最后由 jr0jr 于 2011-5-9 07:25 编辑 ]
(一)目的
汉字拓扑码是用纯拓扑结构来描述汉字字形的一种编码,旨在反映汉字笔划之间的相互关系。其中笔划被抽象成只有长度和方向的直线(点笔视作质点)这种编码的作用是通过使用形式语言,动态地生成汉字的拓扑结构。它有两个形态,打比方的讲,一个是基因型,一个是表现型。基因型使用语法树的方式,描述了字形里迭代的拓扑关系;表现型是通过使用形式语法,把基因型在2D空间的展开。在表现型的基础上,可以对汉字字体进行美化渲染并显示,但此步骤不作本主题讨论重点。
每一个汉字对应一个唯一的表现型;但是,由于汉字拓扑结构的复杂性,同一个汉字可以有不同的基因型。反过来,这意味着,同一个汉字可以使用不同的方式拆分成不同等级的子块,子块还可以同理继续拆分,一直拆到预先设定的字元为止。基因型的多样性会带给我们若干工程上的优势,这些将在下文中具体解释。
[ 本帖最后由 jr0jr 于 2011-5-5 06:27 编辑 ]
(二)方法总论
如上文所述,每一个汉字对应一个唯一的表现型和不确定数量的基因型。汉字拓扑码的生成方法可以总结为:首先,把一个汉字转换成表现型的拓扑表达,但自动生成的拓扑表达,有可能不满足人体视觉的要求。因此,此步骤的结果有必要经过人眼的评估;
其次,把此表现型转换成若干有效的基因型。可以利用人工挑选的基础拓扑结构(拓扑元),同时也可以自动提取高频拓扑元。动态构字为此分解过程的逆过程;
再次,根据优化条件,找到满足要求的基因型,如未满足,则改变参数,重新生成一个新的拓扑表达,如此循环往复,直到满足终止条件(可以是循环次数,也可以是优化效果,等等)。
[ 本帖最后由 jr0jr 于 2011-5-5 19:05 编辑 ]
(三)潜在应用
0,基于本框架的复杂汉字的动态生成。1,基于整体或局部拓扑结构的汉字识别。
2,基于笔划、字形、字根的分类、检索。
3,基于拓扑元的汉字信息加密。充分利用基因型的多样性。
[ 本帖最后由 jr0jr 于 2011-5-5 19:06 编辑 ]
回复 4楼 的帖子
前三种,已有更简便的实用技术;最后一种应用,还可自由发挥。 原帖由 laoli0228 于 2011-5-5 09:57 发表 http://www.pkucn.com/images/common/back.gif
前三种,已有更简便的实用技术;
最后一种应用,还可自由发挥。
很想听详细一些 关于建立拓扑抽象的方法上,允许我借用楼上y先生的名言:分析之后提纯,提纯之后再分析。
这和我3楼说的是一个道理。
(四)特点概括
有别与其它构字方案,拓扑码里面没有字根的概念,只有反映结构之间相互关系的拓扑元。拓扑元既是运算,也是运算对象。拓扑码不是为了按照有义的偏旁或者亚偏旁进行拆字、构字。拓扑元完全没有直接对应的字体意义,完全的工程化,并且应该可以依据条件自动组织。
表现型的生成,基本脱离汉字原有形态美学的需要,因此,不是由字形专家来构造的。表现型的拓扑细节,由基因型的优化需要决定,并且自动生成。
[ 本帖最后由 jr0jr 于 2011-5-5 19:37 编辑 ] 這麼囉里巴唆一大堆!先給個例子行不? 原帖由 希夷先生 于 2011-5-5 19:43 发表 http://www.pkucn.com/images/common/back.gif
這麼囉里巴唆一大堆!先給個例子行不?
回您老的话,没例子。最多算是一个计划书(proposal)而已。放上来就是想听听初步的批评,看看这个东西值得不值得立项。 最核心的内容是什么呢? 原帖由 mm123 于 2011-5-5 20:56 发表 http://www.pkucn.com/images/common/back.gif
最核心的内容是什么呢?
1,根据字型自动生成拓扑图。核心技术是基于形态、频谱变换的图像处理。
2, 根据拓扑图(表现型)自动建立构字的形式语言表述(基因型),反过来再根据基因型不断自动优化改进表现型。核心技术是基于基因编程的、对于拓扑结构的多目标优化。
我考虑的主要用途是模式识别和信息加密。如果可以立项,我想培养两个硕士生。一个主攻图像处理,一个主攻演化计算。
[ 本帖最后由 jr0jr 于 2011-5-5 21:56 编辑 ] 呵呵,搞汉字形 也能出硕士,我开眼了
原帖由 jr0jr 于 2011-5-5 21:29 发表 http://www.pkucn.com/images/common/back.gif
1,根据字型自动生成拓扑图。核心技术是基于形态、频谱变换的图像处理。
2, 根据拓扑图(表现型)自动建立构字的形式语言表述(基因型),反过来再根据基因型不断自动优化改进表现型。核心技术是基于基因编程 ...
这个好像适合做汉字字库。
做输入法的话,可能会有很多问题……