61-75楼_[转载]汉字拓扑码（兴趣组）【与输入法无关】

jr0jr 发表于 2011-5-8 04:21:57

点评时间

本来以为看完这两篇博士学位论文要2天呢，结果就用了2个小时。:D

《基于拓扑学和统计学的无字库汉字智能造字研究》，所谓的拓扑就是字根之间的关系，所谓的统计就是众多字根的分布。这篇学位论文基本上就是再次提出了那种妇孺皆知的输入法方案——IDS，增加了一点点扩充。看这篇论文，感觉很熟悉、很亲切。:cry: 这篇论文其实并没有什么学术独创性，但看在辛苦的折腾了GB18030－2005 七千多个汉字的份上，也算有点成果。对搞字根输入法的坛友，也许还有点参考价值。

《认知模式识别理论及无字库智能造字研究》，像是2篇独立的硕士学问论文粘到了一起。一部分讲了如何利用图像处理的仿射技术提取字根，一部分讲了怎么做可以带有预测功能的输入法。两者之间没有联系。给人的感觉有点凌乱。:( 这篇论文不仅没有研究独创性，而且所做的工作也没有深度，怎么看都像是10几年前的东西。坦率的说，水分太大。

再次感谢客串先生友情提供这两篇论文！向我们展示了国内学界对于汉字字形编码的一些实际工作。发现了不足，才好继续提高！

jr0jr 发表于 2011-5-8 05:26:13

终结符和空结构

终结符用＃表示，空结构用O表示。两个的作用不同。

O是拓扑元集中的一个元素，任何引用O的操作返回一个空白。＃是为了终结某一个迭代操作，引用＃则使用元操作本身的线条。

比如二（o，o）我们会得到一篇空白。二（o，＃）我们会得到一横，二（＃，＃）我们会得到两横，在这种情况下，也可以省略括号和括号内的输入。

jr0jr 发表于 2011-5-8 06:43:26

（七）一点图像处理

一直都在说拓扑元集的构想，现在想简单谈谈图像处理。

首先，不要搞混图形（graph）和图像（image）：从汉字结构生成适量字库并动态显示，或者根据拓扑员和基因型生成表现型，这些是图形处理。图像处理谈的是如何提取字根，做模式识别，以及进行基于图像的加密，等等。

提取字根是个费时间的事情。因为涉及到很复杂、也很费时的数学计算。但是，核心概念却很简单，就是比较，做遍历搜索。用数学语言说，就是计算两个对象的卷积。一般会做频谱变换，借以得到图像的某些特性。学生学习这些变换，wavelet是一个不错开始，然后再通过学习curvelet启发多尺度、多属性变换的思想。最终，根据不同的应用，建立自己独特的卷积核（kernel），或者独创某种分析卷积的方法。

在汉字图像处理上，一定要紧密结合汉字独有的字形结构特点。这个是所有分析的基准。把汉字作为一个普通图像泛泛的分析，得到的也只能是泛泛的结果。

[ 本帖最后由 jr0jr 于 2011-5-8 07:06 编辑 ]

jr0jr 发表于 2011-5-8 07:51:39

我对《认知模式识别理论及无字库智能造字研究》这篇文章颇有微辞，可能和我自己的专业背景有关。作者使用了pso去优化sift，使用了dag去预测。如果我是答辩考官，我会直接问他为什么用sift，为什么用pso，为什么用dag？和其它哪些方法做对比了？实验证实了预测没有？……完全没有在论文中体现出来。

我可以理解，研究汉字很不容易，很费时间和精力，所以我不想评论作者本人。但是一个博士生的课题研究做成这样，指导老师有不可推卸的责任啊，唉:z: :z: :z:

[ 本帖最后由 jr0jr 于 2011-5-8 08:20 编辑 ]

jr0jr 发表于 2011-5-8 08:05:38

遐思

说道核方法（kernel methods），我早就有一种感觉，纯拓扑析构的拓扑元，其实可以看作是一些核。

基于核方法的空间频谱变换是使用各种核，从各个尺度上来搜索特征信息；而拓扑码在析构汉字的时候，是使用拓扑元，从各个尺度上寻找相似度，大到字形，小到笔划。两者有异曲同工的妙处。结合63楼最后一句话，基于拓扑元的频谱分析，应该是发掘汉字特征的一条有别于其它图像处理的路。

[ 本帖最后由 jr0jr 于 2011-5-8 08:25 编辑 ]

客串客串 发表于 2011-5-8 10:44:59

感觉你的研究希望不大。
汉字库体系庞大，字体繁多，不同字体其拓扑特征差异很大，用你那二十个字母，能生成各种字体？
就算是只以宋体或者楷体为唯一处理对象，那八万汉字都够呛。
何必要析构七八千汉字呢？山人全息输入法的300字根或者部颁560部件集能弄下来就不错了。字根集或者部件集能搞定，再大数目的汉字集也不在话下了。

谢振斌 发表于 2011-5-8 15:27:09

汉字的拓扑构型信息用于OCR，我是支持的，因为目前的OCR几乎不利用这方面的信息，而这种信息往往具备较大的汉字特征区别信息，且冗余度较低。

[ 本帖最后由谢振斌于 2011-5-8 15:29 编辑 ]

jr0jr 发表于 2011-5-8 16:48:10

原帖由客串客串于 2011-5-8 10:44 发表 http://www.pkucn.com/images/common/back.gif
感觉你的研究希望不大。
汉字库体系庞大，字体繁多，不同字体其拓扑特征差异很大，用你那二十个字母，能生成各种字体？
就算是只以宋体或者楷体为唯一处理对象，那八万汉字都够呛。
何必要析构七八千汉字呢？山人 ...

谢谢客串先生的担心啦～～:loveliness:

不过我们不会做输入法，不去生成各种字体。这些事情都和我无关，那是别人家的事情。

这个主题贴里，我用了1楼，15楼，18楼，42楼，44楼，48楼一直不断得再重复这个主旨：

提出拓扑码这个想法，是为了从汉字结构体上分析它的信息承载能力，绝不是为了做成某种构字的输入法，和IDS，CDL的宗旨完全无关。通过这次研究，我们希望可以看到汉字在字形结构上的特点，尤其是在信息化的时代，发现旧汉字的一些桎梏。希望可以给不断演变的汉字字形体系，带来一点基于具体实验的参考资料。

jr0jr 发表于 2011-5-8 16:55:19

原帖由谢振斌于 2011-5-8 15:27 发表 http://www.pkucn.com/images/common/back.gif
汉字的拓扑构型信息用于OCR，我是支持的，因为目前的OCR几乎不利用这方面的信息，而这种信息往往具备较大的汉字特征区别信息，且冗余度较低。

是的，OCR应该是潜在应用之一。再配之以一个语义推断系统，让大部分识别工作在大尺度下完成，提高速度。

jr0jr 发表于 2011-5-8 17:09:22

（八）原始动机

这个论坛上一直有人在比较汉字在信息承载方面的优劣势。大家拿出社会科学范畴内的资料进行论证，但是几乎没有人拿出工学实验结果。

泛泛地说，一个二维图像，点线少了，无法在有限的空间内把诸多不同的个体区分开，点线太多了，又不利于识别。点线的密度和排列决定了汉字信息是否被合理承载（这个和那些讨论编码长度的信息绝无相关）。

50年的简化字进程中，似乎并未有人真正定量的分析过汉字字形拓扑对信息承载的影响。这才是本主题所关心的话题。不管是文改也好，文守也好，希望展开对话的时候不要想当然，要凭着真实的数据说话！

yywzw05 发表于 2011-5-8 20:30:54

楼主倡导汉字结构拓扑研究，从感性的认识到理性的思维，玩的可不是“形而上”，比我高明得多。:)

jr0jr 发表于 2011-5-8 21:17:41

原帖由 yywzw05 于 2011-5-8 20:30 发表 http://pkucn.com/images/common/back.gif
楼主倡导汉字结构拓扑研究，从感性的认识到理性的思维，玩的可不是“形而上”，比我高明得多。:)

别装谦虚:loveliness:
没有“串”字那一竖的启发，哪有这些劳什子。

jr0jr 发表于 2011-5-9 04:03:58

一点反思

当老大帝国的酸儒们穷尽半生苦练书法的时候，不列颠的坚船利炮就来了，砸碎了夜郎的酣梦。:( 萌醒过来的酸儒们产生了全面拉丁化的冲动。可人们需要的是全盘拉丁化么？还是对汉字的认知的转变呢？从繁体字到简体字究竟有没有体现酸儒的觉醒程度呢？

第一，粗鲁地归并是科学的么？这个已经被无数次证实，是不计后果、盲目愚蠢的。

第二，有保存毛笔书写习惯必要么？书写是为了记录语言思维，只要能被辨识，书写的目的就达到了。美观是第二层，美观还会被新时代赋予新的含义。毛笔字的时代早就过去了，钢笔字的时代也许都即将要结束了。与其苦练手书，我们是不是该选择去美化符合认知心理学的计算机字体呢。使国人看得快、看得准，是不是才是我们最终的目的呢？

对现有汉字字形的评价，还是应该由数据说了算。从工程技术角度研究汉字，不是这个意思么？

[ 本帖最后由 jr0jr 于 2011-5-9 04:48 编辑 ]

yywzw05 发表于 2011-5-9 09:09:00

也许我们低估了老祖宗的智慧

三分法则井田理念要重新认识

CFit 发表于 2011-5-9 11:53:59

原帖由 jr0jr 于 2011-5-7 20:32 发表 http://www.pkucn.com/images/common/back.gif
wangs先生，如果发现拓扑码的表现型不能区分某些汉字的时候，那就反映了，某些汉字需要进行修改。比如，曰就最好进行一点形体变化。
您提到和汉语拼音类似，那您想类比的点在哪里？我没有理解。我需要您再说的 ...

本来是不能区分，后来标准中就把曰字改了（中间一横不到头）。但改字是要有依据的，至少历史上出现过这个字型，并且有一定的认可程度。汉字是人类文化的一部分，不依赖于任合工具和算法，计算机和各种算法是为汉字服务的，要服从汉字的历史和规律，而不是汉字服从计算机或某种算法。

看看日本的这个字，拓扑上与十怎么区分？