基于中文信息处理的现代汉语三音词研究(共1篇)
1.基于中文信息处理的现代汉语三音词研究 篇一
一、汉语拼音输入法
目前比较普遍使用的是字形输入法和拼音输入法。字形输入法的速度比较快, 专业输入员一分钟可以输入二百多个汉字, 而且这种输入法只从字形着手, 与汉字的读音无关, 因而不认识的汉字也可以输入。但是, 这种输入法有大量的规则, 如要掌握五笔字型输入法, 就必须记住130多个字根及其分布的区和位, 同时还要掌握拆分汉字的方法。这些对专业的输入员来说没有什么, 可是对一般的广大用户来说, 记那些规则是一个负担, 即使下功夫记下了, 但由于不常用随时会忘记, 因而使用起来不方便。而拼音输入法 (包括全拼、双拼、简拼等) 或者以拼音为主的音形输入法 (如智能ABC输入法、自然码输入法等) , 比字形输入法 (如五笔字型输入法等) 易学易记, 用双拼, 尽量按词组输入, 速度也很快, 更适合边想边打 (边想边打字) , 也适合一般用户 (非专业打字员) 使用。所以拼音输入法或以拼音为主的音形输入法很值得推广, 也深受广大用户的青睐。
1. 利于推广普通话和语音规范化
宪法规定:国家推广全国通用的普通话, 即学习和使用普通话是每个公民的责任和义务。但是, 目前普通话的推广工作成效不大, 很多人的普通话水平不高, 原因当然很多。但其中最主要的原因是方言影响太大, 一般人使用普通话的机会少, 或者由于传统观念的影响, 有些人不会说或不愿说。但可能迫于工作的需要, 这些人不得不使用计算机, 那么在使用拼音输入汉字时, 就不得不与拼音打交道了。所以说, 掌握拼音输入法的过程, 实际上也就是熟悉拼音的过程。汉语拼音是推广普通话的工具, 因而从这个意义上讲, 拼音输入法利于推广普通话。另外, 很多方言区的人们由于受方言的影响, 说不好普通话, 主要表现为两种情况:一是不知道一些字词的普通话读音, 二是知道这些字词的普通话读音, 但发不准。如武汉、四川等地人, 很难区分z-zh、c-ch、s-sh、n-l、in-ing、en-eng等音。如果这些地方的人用拼音输入法输入“语音”一词, 输成“yǔyīng”, 那么就显示不出来, 这时就提醒用户看拼音是否正确。对这些人来说, 输入汉字的过程又是学习、纠正、规范拼音的过程。
2. 有助于纠正错别字
有些拼音输入法 (如智能拼音输入法) 可以输入词语, 如输入拼音“fěnsuì”、“bùshǔ”时, 会分别显示出“粉碎”、“部署”等词语。按拼音输入词语的过程, 除了能掌握正确的拼音外, 还可以学习词, 同时还可以纠正错别字。如果有人把“粉碎”、“部署”往往写成“粉粹”、“布置”, 那么, 这时用拼音词语输入法会帮助用户纠正错别字。
当然, 拼音输入法也有缺点:一是方言区普通话不标准的人不便于掌握;二是同音字多, 还得至少掌握一种其他的输入法, 以补救拼音输入法的不足。
二、汉语拼音教学
从中文信息处理的角度来看, 汉语拼音教学的任务主要有两点:一是实行标准化拼音教学;二是实行正词法教学。
1. 实行标准化拼音教学
传统的拼音教学一般都采用声、韵、调教学法, 即要求教师要有一定的普通话水平和相应的语音学知识, 在教学过程中进行标准化拼音教学。我们国家由于方言分歧大, 再加上比较偏僻的地区师资力量及教师水平有限, 那么教出来的学生的普通话就很难标准。作为教师必须要认识到拼音教学的重要性, 可采用各种方式:举办培训班强化练习;坚持长期听广播;举办各种与普通话有关的比赛;总结该方言区和普通话语音间的对应规律或直接借助该方言区的方言研究词典, 反复练习等, 以便提高自己的普通话水平, 然后在教学中进行标准化拼音教学。
2. 实行正词法教学
作为给汉字注音的汉语拼音方案中规定:同一个词的音节要连写, 词和词之间要有空隙。按照这种拼写规则来教学, 叫正词法教学。这种教学方式会给我们判断词、理解词义, 特别是为计算机信息处理提供很大便利。到目前为止, 计算机对汉语的“认知”是一个字一个字地进行。最明显的标志就是计算机键盘输入是一个字一个字地敲, 一个字一个字地显示。即使应用软件准备了“联想”功能, 但是其原理仍是把词 (多音词) 、短语当成“字”来处理。而实际上, 我们分析、理解句子的意思, 不是以字为单位, 而是以词为单位的。由于汉字不实行分词连写, 这给计算机进行中文信息处理带来很大不便。因而, 中文信息处理面临的困难之一是解决词的自动切分问题。由于汉字一个字挨一个字的书写特点, 造成人们判断词极为不便, 长期以来, 导致词的概念在人们心目中很模糊。现代汉语教科书中认为:语素是语言中最小的音义结合体, 词是句中最小的能够独立运用的语言单位, 短语是词和词的语法组合, 它也表示一定的意义, 也是造句成分, 可以单说或单用, 但它不是‘最小的’能够独立运用的单位。语素和词的区别主要在能否“独立运用”, 简单说, 可以单独做句子成分, 或单独起语法作用, 即是词, 否则为语素。短语和词的主要区别在是否为“最小的”语言单位。有时二者还不好区分, 这时可用扩展法去判断:可以分割的, 中间能插入别的造句成分而意思不变的即为能扩展, 是短语;而不能分割的, 也就是说中间不能插入别的造句成分的或插入后意思改变了的, 是词, 这种区别词和短语的方法叫扩展法。如“骨肉”不能扩展, 是词, “血肉”能扩展 (血和肉) , 是短语。但是像“理发”、“请假”、“出差”等这些语言单位按上述方法判断, 既可以作为整体用 (他理发去了) , 也可以分开用 (他刚理了个发) , 因而对于这一类词, 语法书上叫做“离合词”, 即当整体用时是词, 分开用时是短语, 但这种扩展法有一定的局限性。
只有把语素、词、短语这些语法单位的概念及其区别与联系搞清楚了, 才能准确地判断出词, 用汉语拼音拼写时才能准确地实行分词连写, 才不会出错。由于我们传统的拼音教学中常常忽视了这一点, 没有按正词法去教, 而只是把拼音作为单个汉字来教, 从而也就没有培养学生词的概念, 这是极为不利的。正如刘涌泉所说的:因此, 汉语拼音教学有必要加以改革, 增加汉语拼音正词法的内容。但要分清这些不同的概念, 而且要会判断, 不要说一般人, 就连专业的人也会遇到不少问题。可见, 词的判断、切分的确是一个大难题。人工分析尚且如此, 何况在中文信息处理中, 要把对词的切分作出形式化的描述, 让计算机去自动切分词, 这些是中文信息处理中遇到的难题之一, 且是必须攻克的课题。只有词的切分问题解决了, 才能使计算机由“字处理”进入“词处理”和“句处理”阶段。这个课题不仅是科学工作者的任务, 也是我们从事汉语拼音教学者的任务。我们只有从现在起重视拼音教学中的正词法教学, 让学生从小就树立词的概念, 这样才会给以后的信息处理带来便利。汉语拼音作为推广普通话的工具, 从学前班就开始给孩子教, 到小学就实行“注音识字, 提前读写”的教学, 要求学生用拼音写话。那么, 就应该按规则分词连写, 但是小学生对词的概念很模糊, 拼写时问题一定不少。实际上, 不要说学生, 就是教师也并非对词的内涵及判断十分清楚。为了适应信息时代的需要, 这就要求教师提高自身的文化水平, 教师至少应明白词及其判断的一般方法, 并能准确地辨别词, 然后在教学中, 从小学就给学生严格按正词法教学。当然, 没必要给小学生讲理性知识, 但可以把理性的知识变成活生生的感性知识去形象地传授, 培养学生的感性知识。时间长了, 便会形成“语感”, 等到以后学了理性知识, 就会便利地运用计算机进行中文信息处理和研究。
21世纪是信息化的社会, 有人分析信息化社会的基本构成为:集成电路是信息社会的细胞;通信网络是信息社会的神经;计算机是信息社会的大脑;信息资源建设是信息社会的血浆;人工智能技术是信息社会的营养;安全技术是信息社会的免疫系统。可见, 计算机在信息社会中的地位和作用。要把计算机广泛、深入地运用于中文信息处理方面, 汉语拼音教学的任务和面临的问题很严重, 这要求我们从现在做起, 从我做起, 共同去克服一切困难。
参考文献
[1]黄伯荣, 廖序东.现代汉语:增订三版上册.北京:高等教育出版社, 1997.
[2]刘涌泉.普通话、汉语拼音和中文信息处理.北京:语文建设, 2000 (4) .
【基于中文信息处理的现代汉语三音词研究】推荐阅读:
基于用户需求的ISEI网站信息构建研究10-05
基于教育生态学的农村教师信息技术与课程整合能力提升策略研究09-18
基于信息传播系统的人员疏散模型探讨09-10
基于预报产品的四川暴雨预警指数研究08-08
基于遥感技术的北京市热岛研究10-27
基于信息技术的小学英语教学设计10-10
基于课堂观察的校本教研实效性研究09-03
一种基于不同语言标度的语言信息评价方法07-20