阅读文章

[转载]井田汉字,汉字形体结构演变的终点站(上)

16-30楼

[日期:2013-01-05] 来源:北大中文论坛  作者: [字体: ]

yywzw05 发表于 2011-4-30 01:16:44

自动文字生成器

原帖由 jr0jr 于 2011-4-29 07:55 发表 http://www.pkucn.com/images/common/back.gif
我突然有一个想法,也许可以使用genetic programming的方法,训练一个自动文字生成器,大小应该远远小于现有的字库!而且会具有自适应调节的功能。
有意思 :D ,还要再好好琢磨琢磨。。。


名字都想好了呀,佩服~~~
自动文字生成器

能给您一个启迪我很满足了。
别找我要一个亿,其他的我都答应你

 

jr0jr 发表于 2011-4-30 04:57:50

我先在想知道张时钊先生的汉字生成程序是怎么一个算法。是不是也是类似的语法树结构呢?还有金先生的?

 

jr0jr 发表于 2011-4-30 05:24:04

yy先生,一层层的括号应该是反映了一种迭代的函数,映射的是拓扑逻辑关系。有点分形(fractal)的意思。

----------------------------------------------------------
看自己的帖子,实在是错别字太多,连fractal都打错了。自我批评一下!

[ 本帖最后由 jr0jr 于 2011-5-1 16:40 编辑 ]

 

莫蓝sarah 发表于 2011-4-30 06:02:06

战战兢兢冒个头。学理工的大脑好复杂,你说的那个字元,偶怎么都觉得是汉子拆分出的零部件。你要开井田汉字学习班的话,偶来旁听

 

jr0jr 发表于 2011-4-30 06:28:26

原帖由 yywzw05 于 2011-4-30 00:32 发表 http://www.pkucn.com/images/common/back.gif
这里讨论所提及:
“井田字元”简称“字元”
“拉丁字母”简称“字母”
如非他指不再做特别说明。

首先看一张与井田字元有关的图片
110362
一个横向的八卦和一个竖向的八卦叠加可以得到64个重卦

汉字形体 ...

就建议你一句,不要提和八卦的关系,不要提和拉丁字母的对比。扯这些,会让人揪住旁枝末节问题而展开文章。多说排列组合,多说平面空间的组合结构,可以扯点分形。而这些都是客观事实。

想要糊弄工信部,就说语法树,函数式编程,说基因编程。想出点小名气,就做几个小实验,写一篇文章,投到中国人工智能有关的期刊里头。我还可以给你几个名字,文章写完了,给他们看看,数便把这他们的名字也放到作者里。

按我说的做,18个月以内,我保证你在人工智能学界中汉字信息处理这一块立起一个小山头来。混学术圈,就这么简单。

[ 本帖最后由 jr0jr 于 2011-4-30 08:15 编辑 ]

 

jr0jr 发表于 2011-4-30 07:17:38

这个汉字拆分的树形方法应该老早就有人提出来了吧?不过可能当时的计算机平台还比较差,提出方案未必就能得到有效的研究和发展。可能是因为这样,最早的先行者们被打击了,也没有培养几个有用的接班人。再加上往后这些先行者本人的年事已大,信息处理技术的提高也没能紧跟时代的发展(这话呢恐怕是不太好听)。所以早先的理论现在一直没有得到应有的实践。

现在应该再次提出来了。也许会是个很不错的机会。对于汉字发展的作用我估计不出来,但是对于实践者个人的发展,也许会有不错的提升。

[ 本帖最后由 jr0jr 于 2011-4-30 07:58 编辑 ]

 

jr0jr 发表于 2011-4-30 07:32:54

同样都是基于树形结构,yy先生的独特点在于,他从拓扑结构的角度提出了构字的方案。

老一辈看到的是字根和字根的关系,而他看到的是一个递归的拓扑关系。

“串”不应改只是“十(二(口口))”,其实应该是“十(二(口(#,#),口(#,#)),#)” 其中的符号#代表递归的终结。“口”在这里,不是字根,而是函数。没有字根的概念,只有反映拓扑关系的函数!

==============================================================================
自己再看一遍,发现方程里有一个小错误,现已改正完毕!

[ 本帖最后由 jr0jr 于 2011-5-1 16:45 编辑 ]

 

wolfgange 发表于 2011-4-30 09:35:46

提示: 作者被禁止或删除 内容自动屏蔽

 

金岷彬 发表于 2011-4-30 13:22:56

回应 胡敬禹先生

回应胡敬禹先生
胡敬禹先生贴出了对汉字的构形法讨论的 论剑帖子和【战书】。

http://www.pkucn.com/viewthread.php?tid=268301&extra=page%3D1&page=1    第6楼,发表于 2011-4-28 23:06  
从同一个角度来统一对汉字“构形法”和“造字法”的认识
汉字构形遵循的是几何法则
几何是什么,小学生都清楚

汉字造字遵循的是所谓“六书”原理
“六书”是什么,鬼清楚

什么时候“构形”和“造字”的认识统一了,就什么争议都没了。

我把话撂在这里,希望无碍于网友们继续自己的研究。我说过了,“井田汉字”不过我自己玩玩,在这个坛子里我也从未刻意提起,个别人对“井田汉字”无端蔑视,请到这个帖子下面来说,坛子服务器的资源有限,我就不随意乱开新帖。有胆论剑的请放马过来,胡某随时应对。没几分真知灼见的,敬请不要在贩卖老掉牙的东西时对“井田汉字”说三道四。
汉字认知要改革,要走世界文字共同的字母方向

        一位年轻的博士对于汉字的字形结构表达方式很感兴趣,连续发了许多与汉字字形结构有关的 讨论帖子。

http://www.pkucn.com/viewthread.php?tid=268301
jr0jr    10楼:或者你也学更熟悉语法树(syntax tree)的概念?有没有觉得这些是秉承着相似的概念?

这是我进入论坛以来,看到的第二个让人激动的好帖子!

Jr0jr 11楼:我突然有一个想法,也许可以使用genetic programming的方法,训练一个自动文字生成器,大小应该远远小于现有的字库!而且会具有自适应调节的功能。

有意思  ,还要再好好琢磨琢磨。。。


        金岷氏愿意参与对汉字字形结构运算的表达方式讨论。特对胡敬禹先生的【战书】初步回答如下:

1,在“井田汉字”的具体论述方面,金岷氏没有知识本钱与胡先生 论剑。因为 井田汉字 是胡先生研究了多年的一个课题,会有自己的系统见解和论述;而金岷氏对此则是一个“门外汉”,仓促之间要回应具备优势的内行胡先生“放马过来”的叫板,没那个本事。

2,金岷氏既然对胡先生的井田汉字不熟悉,为什么此前要发 微词?
多年前,金岷氏就从自己的电子信箱里接到过署名胡敬禹的信件,介绍一种只用横竖两种线条来构组汉字字形的设想。当时就觉得,如果要取消汉字字形里的全部斜向笔画,那么整个汉字系统的字形将会面目全非,等于是要彻底改造汉字的字形体系,金岷氏认为这是一条充满了荆棘的,不可取的学问道路。具体的认识如下:

第一,取消汉字斜向笔画的办法,直接与《印刷通用字形表》和计算机汉字标准字形 发生冲突,金岷氏出于自己的机械工程知识基础认定,违反了标准的技术设想,在社会上寸步难行。确实,只能是胡先生“自己玩玩”。

第二,取消了汉字的斜向笔画,从字形美学的角度看,是会严重地损害汉字的字形美。所以,不会得到书法界和平面设计界的赞同。对于机器汉字的设计家来说,他们或许有人可能会设计出一部分只用横竖两个方向线条来表示的某些汉字的艺术字形,作为汉字机器字形里的一种字体;但是,可能设计不出全部只有横竖线条的,足够社会应用的“足额数量”的字形(这就是金岷氏最近曾喊叫过的,最好能有一张“标题字表”,供字体设计师们掌握;搞一副新字体设计,要优先设计哪些字头,就能基本满足社会的需求。)更何况那种字形没有特出的美学风格。即使有设计师设计出来,社会应用前景怎么样,是一个未知数。        一个对比的例子就是,房屋建筑如果只有直立的、直角拐角的平面墙,和水平的屋顶,那么都会认为那是“火柴盒子”;建筑物的千姿百态,缺少不了斜向构图元素和弯曲的线条,以及错落有至的呼应与搭配。

第三,究竟怎么定位“井田汉字”
如果想把“井田汉字”作为将来取代现行汉字的新文字,那么,就更不用去说它了。因为新文字的方略林林总总,多了去了。没见哪个民间学者的新文字方略能成气候。

胡先生的签名铭里有“要走世界文字共同的字母方向”,如果这不是文改人士的标语口号,那么对着明明没有字母的汉字,想把汉字“共同”到什么“字母方向”去。这就是金岷氏曾在转录的胡帖里,加上下横线的用意。

3,金岷氏邀约彭泽润的哲学论剑,是怎么一回事情。
        胡敬禹先生对金岷氏下【战书】,是仿照金岷氏对彭泽润的论剑帖子,专门用来对付金岷氏的,亦即“以子之矛攻子之盾”。这是论争过程里的一种很好的方式方法,金岷氏就曾屡屡采用。

彭泽润教授前几个月在本漫谈版上发表了大量的文章和帖子,引起了众多网友与其争论。彭在争论里抬出了教授的牌子,要对论者好好去学习他的思想体系,并且在帖子里贴上唬人的哲学标签:“哲学最讲共性”、“从 语言 共性 中 看 汉语 个性,破除 封建 思想,使 汉语 充满 现代化 活力。”并且公开宣称“汉字是一种文字制度落后的文字”。

金岷氏感到彭的“哲学最讲共性”云云,明显与毛泽东的《矛盾论》论述不一致,于是提出了在哲学问题上与彭专门讨论。这里的叫板和论剑,是出发于彭自己主张的哲学命题,论剑的内容也是哲学里的共性与个性关系,这是论剑双方都具有的知识基础。至今,彭不敢回应金岷氏在哲学论剑方面的叫板。当然更没有勇气像金岷氏在本帖子的第1项里那样,直爽的承认自己没那个本事。

而胡敬禹先生要找金岷氏论剑的,却用胡自己单方面掌握的优势,来叫板并未读懂“井田汉字”的对手。当然,胡先生可以斥责,此人并不懂井田汉字,随便乱说什么,该掌嘴。您,可以这样说;但是,您的井田汉字并未解决诸如金岷氏提出的取消了字形的斜线笔画之后,究竟有什么样的优越性。这包括:文字学理论方面的优越性、计算机应用方面的优越性、社会大众在认、读、写方面的优越性、在字形美感方面的优越性。胡先生是不是要对其他不了解井田汉字的网友都断喝一下——不了解井田汉字情况的,一律不许有任何疑问和微词。

胡先生记不记得,您曾对金岷氏的签名铭也有过微词——从工程技术研究汉字,可以;要从工程技术研究汉字文化,怕是要闹笑话(不是原文,大意)。对这份微词,金岷氏未予理睬;现在可以说,就像金岷氏不完全了解井田汉字而说了井田汉字一样,您并不了解金岷氏究竟如何从工程技术去研究汉字文化。倒是,如果真的闹出了笑话,那么请您批评指正。因为金岷氏多次说过,一种学说观点的成立,要经受社会的证伪考验;除了从正面方向阐述自己的观点外,还要能从反面方向妥善地回答质疑。如果有网友的批评,指出金岷氏学问里的瑕疵以利改正,是一件好事。笔者在此先行谢过,指正金岷氏文章帖子里学问上的瑕疵的网友们,包括胡敬禹先生。

4,关于利用形式文法的格式来表述汉字字形的构字算法
        1979年冬天,笔者在写长春中文信息研究班的字形切分课题结业论文时,曾阅读过一本书《形式语言与自动机》,接触了“形式语言”、“形式文法”这样一些概念。从这本书里初步了解到,有四种不同结构的形式语言,对应着不同类型的自动机模式(或计算机模式)。比如 (好像是)“0型文法”的形式语言,对应着“图灵计算机”,“1型文法”,对应着“1型自动机”(金岷氏按:二十多年前的阅读,记不确切了)。而且还读到,如果能把某种 概念或者知识陈述,采用形式语言来表述,那么这种表述就能方便地在 以这种形式文法对应的计算机上实现。正是这次的阅读,懂得了可以采用成型的形式语言来表述一些东西(这属于人的表达),就能方便地与计算机的表达(这属于机器的表达)结合起来。这让金岷氏萌发了,利用形式语言的文法来描述汉字的字形切分与部件组形的尝试。后来,金岷氏在写书稿《工程汉字学初论》时,依据形式文法,提出了具体的“汉字拓扑结构的形式文法”,采用规定的“四元组”格式来表述对字形拓扑结构描述的 文法内容。那只是一种初步的设想和初步描述,至于是否正确,需要在初稿写完后再推敲;具体如何在计算机上对应实现,已经超出了汉字研究的范围,暂时搁下了。书稿的这一章写出,有近二十年了。由于未能出版,其中一些依据当时计算机技术水平而写的内容,现在来看肯定落后了,包括笔者当年设想的 用形式语言来表示汉字的字形切分过程和构字算法过程。但是,金岷氏自信,计算机与汉字处理之间的基本原理不会改变,用形式语言来描述的概念或知识陈述,能方便地在计算机上实现,这种关系不会改变——如果这个基本关系也过时了,落后了,那么乔姆斯基创立的 形式语言学 就真的成了老古董。

用一些构字部件来组成 计算机字表之外的字形,获得对具体字形的简洁描述,是笔者用计算机写文章时想到的另外一种字形算法。这与用形式文法的四元组格式来表述汉字的构字算法,是应用目的不同的两码事情。

胡敬禹先生斥责金岷氏贩卖老掉牙了的过时东西。那么,金岷氏请教一下胡先生,您的新长出牙来的汉字构字先进算法,如何考虑——把人的表示法与机器的表示能力结合起来的——金岷氏认为,这是研究字形算法的基本目的。不妨介绍一下,促使金岷氏的知识更新。
而且,网友 jr0jr 明白地表现出了“我突然有一个想法,也许可以使用genetic programming的方法,训练一个自动文字生成器”的意向。金岷氏读到 jr0jr 的这段话,更感到,有人正在沿着形式语言与自动机的关系这条路,努力解决汉字字形的机器表示。
希望胡敬禹先生能介绍一下,您的汉字构形算法(或别种设想)及与机器表达联系起来的设想。把此前一些枝节争吵,变换成平和冷静的学问讨论,好吧。

[ 本帖最后由 金岷彬 于 2011-4-30 13:24 编辑 ]

 

谢振斌 发表于 2011-4-30 18:52:48

胡先生的字元有一定的特点。
不过构字式,和IDS构字式实际上大同小异。值得一提的是,结构描述符可以和字元信息本身合为一体。不像Unicode定义的IDS描述符,单纯表达结构运算,不包含字元信息的。

此外,提一点,作为文字,一定的冗余是需要的,否则无法识认和学习,也不利于抗干扰性能。
曾见过agufa网友的设计方案,指望把简单字形的排列组合全利用,就不太合适。
不过,看到你对字形组合,也是有所取舍,这个应该会好一些。但总体上信息冗余还是太小。
注意,字形信息的冗余,是给人眼阅读用途的,不是信息储存用途的。信息储存依然可以压缩编码,比如使用内码或者其他压缩编码方式。

 

林昕凯 发表于 2011-4-30 19:24:51

景甜汉字…:cry:

 

客串客串 发表于 2011-4-30 19:25:03

谢大师说得对哦。
长时间凝视井田汉字,很容易患飞蚊症或晕眩症。
井田井田,看着可怜。。。。。。

 

jr0jr 发表于 2011-4-30 20:32:14

在不违碍版权的前提下,请金先生把您关于形式语言和自动机的理解,讲给我听听好么?我想我可以从yy先生的研究里得到启发,一定也能从您的阐述中得到提高的。先谢谢您了!:D

真高兴,最近长学问了。所以还要感谢把这个话题引出来的wangs先生。在坛子上认识您很荣幸!

[ 本帖最后由 jr0jr 于 2011-4-30 21:05 编辑 ]

 

agufana 发表于 2011-4-30 20:51:21

许多人认为笔划冗余很重要....
可是你们见不到楼主的头像井田字比周边的汉字清晰可观瞻吗,
其实,我猜想过外国人学习汉字,这么多的复杂图片的线条字,如何区分记住啊?所以结论是这样考虑吧:不要先入为主了,真正第一印象可能才是可靠的
知集语介绍中有其它更多相关冗余正反方的辨析
我也确信,终极文字拼音化是必然理想的,但是我现在对汉字是否拼音化兴趣不大

 

jr0jr 发表于 2011-4-30 21:04:15

请大家不要聚焦在井田字这些线条本身,那就模糊了重点了。

y先生的研究里,最启发我的是那个迭代的函数式构字表达法,至于到底有哪些“线条”和拓扑,这个都可以再讨论的,从工程技术研究汉字嘛。:D

[ 本帖最后由 jr0jr 于 2011-4-30 21:07 编辑 ]


上一页 [1] [2] [3] [4] [5] [6] [7] [8] [9..] [18] 下一页   
【内容导航】
第1页:说明
第2页:1-15楼
第3页:16-30楼
第4页:31-45楼
第5页:46-60楼
第6页:61-75楼
第7页:76-90楼
第8页:91-105楼
第9页:106-120楼
第10页:121-135楼
第11页:136-150楼
第12页:151-165楼
第13页:166-180楼
第14页:181-195楼
第15页:196-210楼
第16页:211-225楼
第17页:226-240楼
第18页:241-255楼


阅读:
录入:湘里伢子

语网特别申明:各专栏专辑作者文责自负,对自己的作品享有完整版权,在语网的发布不影响其再版权,即作者还可另行投稿或出版。任何人均可在本站发布或转载文章,但这并不意味着本站赞同其观点或证实其内容的真实性,如涉及版权等问题,请作者来函联系。

评论 】 【 推荐 】 【 打印
上一篇:

下一篇:
相关文章      
发表评论


点评:
 
字数(限500字,建议200字以内):
姓名:

  • 尊重网上道德,遵守中华人民共和国的有关法律法规
  • 承担一切因您的行为而导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
站内查询



 
最新文章