人机交互

2024-08-16

人机交互（精选8篇）

1.人机交互篇一

一、人机界面设计初探

界面的说法以往常见的是在人机工程学中，“人机界面”是指人机间相互施加影响的区域，凡参与人机信息交流的一切领域都属于人机界面。“而设计艺术是研究人一物关系的学科，对象物所代表的不是简单的机器与设备，而是有广度与深度的物;这里的人也不是“生物人”，不能单纯地以人的生理特征进行分析。“人的尺度，既应有作为自然人的尺度，还应有作为社会人的尺度;既研究生理、心理、环境等对人的影响和效能，也研究人的文化、审美、价值观念等方面的要求和变化”。

设计的界面存在于人一物信息交流，甚至可以说，存在人物信息交流的一切领域都属于设计界面，它的内涵要素是极为广泛的。可将设计界面定义为设计中所面对、所分析的一切信息交互的总和，它反映着人一物之间的关系。

二、设计界面的存在

美国学者赫伯特.A.西蒙提出：设计是人工物的内部环境(人工物自身的物质和组织)和外部环境(人工物的工作或使用环境)的接合。所以设计是把握人工物内部环境与外部环境接合的学科，这种接合是围绕人来进行的。“人”是设计界面的一个方面，是认识的主体和设计服务的对象，而作为对象的“物”则是设计界面的另一个方面。它是包含着对象实体、环境及信息的综合体，就如我们看见一件产品、一栋建筑，它带给人的不仅有使用的功能、材料的质地，也包含着对传统思考、文化理喻、科学观念等的认知。“任何一件作品的内容，都必须超出作品中所包含的那些个别物体的表象。”分析“物”也就分析了设计界面存在的多样性。

为了便于认识和分析设计界面，可将设计界面分类为：

1)功能性设计界面接受物的功能信息，操纵与控制物，同时也包括与生产的接口，即材料运用、科学技术的应用等等。这一界面反映着设计与人造物的协调作用。

2)情感性设计界面即物要传递感受给人，取得与人的感情共鸣。这种感受的信息传达存在着确定性与不确定性的统一。情感把握在于深入目标对象的使用者的感情，而不是个人的情感抒发。设计师“投入热情，不投入感情”，避免个人的任何主观臆断与个性的自由发挥。这—界面反映着设计与人的关系。

3)环境性设计界面外部环境因素对人的信息传递。任何一件或一个产品或平面视觉传达作品或室内外环境作品都不能脱离环境而存在，环境的物理条件与精神氛围是不可忽缺的界面因素。

应该说，设计界面是以功能性界面为基础，以环境性界面为前提，以情感性界面为重心而构成的，它们之间形成有机和系统的联系。

三、设计界面存在的方法论意义

当机械大工业发展起来的时候，如何有效操纵和控制产品或机械的问题导致了人机工程学。二战后，随着体力的简单劳动转向脑力的复杂劳动，人体工学也进一步地扩大到人的思维能力的设计方面，“使设计能够支持、解放、扩展人的脑力劳动”。在目前的知识经济时代，在满足了物质需求的情况下，人们追求自身个性的发展和情感诉求，设计必须要着重对人的情感需求进行考虑。设计因素复杂化导致设计评价标准困难化。一个个性化的设计作品能否被消费者所认同新产品开发能不能被市场所接受在目前，我国大部分企业实力还并不强大，设计开发失利承受力还不很强的情况下，如何系统地、有根据地认识、评价设计，使其符合市场，就需要对设计因素再认识。利用界面分析法，正是使设计因素条理化，避免将人作为“生物人”的片面和走出笼统地说“设计=科学十艺术”的简单误区。

现代的人机工程学和消费心理学为设计提供了科学的依据，它们的成功就在于实验、调查和数理表述，是较为可系的。同样对设计艺术而言，进行设计界面的分析，也要有生理学、心理学、文化学、生物学、技术学学科基础。从理论上来说，它要直接建立在信息论和控制论的基础之上。相对于机械、电子设计和人机设计，以往人机界面设计把握了技术科学的认识和手段，忽视了人文科学观念与思想。它的界面设计只能存在于局部的思考范围内，只成为一个设计的阶段。

有人以功能论来评判设计。“功能决定形态”曾是20世纪上半叶的设计格言，它的提法是片面的。这是因为：第一，功能不是单一的，它包括使用功能、审美功能、社会功能、环境功能等。“过分追求单一的功能会导致将许多重要内容(装饰性、民族性、中间性)被排斥掉”。而且“有些内容并不是‘功能’的概念所能包括了的，更何况物质和精神的内容也并不是时时处处等质等量的融洽在一个统一体中，随产品的不同、时期的不同，它们各自的主次地位也随之变化”。在现今信息技术高度发展的时代，情感因素越来越成为设计的主要方面。物质意义上的功能在保持其基础地位的情况下，却日益不能代表情感诉求的表述;第二，按“形态服从功能”而设计的产品，对于不熟悉它的使用者来说是难以理解的，产品要为人们所理解，必须要借助公认的信码，即符号系统;第三，满足同一功能的产品形态本来就不是唯一的，象汽车等成熟的产品，年度换型计划等措施成为商品经济中日益不可避免的现象。社会经济发展到一定程度，才能出现设计的专业需求，而这时人们的基本物质需求已能满足，简单地以物质性功能来决定设计是不恰当的。

相反，设计界面体现了人一物交流信息的本质，也是设计艺术的内涵，它包括了设计的方方面面，明确了设计的目标与程序。

四、设计界面的分析

按照设计界面的三类划分，有助于考察设计界面的多种因素。当然，应该说设计界面的划分是不可能完全绝对的，三类界面之间有涵义上也可能交互与重叠，如宗教文化是一种环境性因素，但它带给信仰者的往往更多的却是宗教的情感因素。在这里环境性和情感性是不好区分的，但这并不妨碍不同分类之间所存在的实质性的差异，

1 功能性界面

对功能性界面来说，它实现的是使用性内容，任何‘件产品或内外环境或平面视觉传达作品，其存在的价值首要的是在于使用性，由使用性牵涉到多种功能因素的分析及实现功能的技术方法与材料运用。在这一方面，分析思维作为一种理性思维而存在。如果作为一种处理方式来设计产品，则这种产品会使多种特征性(如民族性、纯粹性)因素中性化，如果去除产品商标，就很难认出是哪国的或哪个公司的产品。当然，这方面也说明了产品中存在着共同性因素，它使全人类能做出同样的反应。人的感觉和判断能力有着国际性的、客观性的特征。

功能性界面设计要建立在符号学的基础上。国际符号学会对符号学所下定义是：符号是关于信号标志系统(即通过某种渠道传递信息的系统)的理论，它研究自然符号系统和人造符号系统的特征。广义的说，能够代表其他事物的东西都是符号，如字母、数字、仪式、意识、动作等，最复杂的一种符号系统可能就是语言。设计功能界面，不可避免地要让使用者明白功能操作。每一操作对人来说应是符合思维逻辑的，是人性的，而对机械、电子来说则应是准确的、确定无疑的，这双方的信息传递是功能界面的核心内涵。

2 情感性界面

一个家庭装饰要赋予人家居的温馨，一副平面作品要以情动人，一件宗教器具要体现信仰者的虔诚。其实任何一件产品或作品只有与人的情感产生共鸣才能为人所接受，“敝帚自珍”正体现着人的感情寄托，也体现着设计作品的魅力所在。

现代符号学的发展也日益这一领域开拓，以努力使这种不确定性得到压缩，部分加强理性化成分。符号学逐渐应用于民俗学、神话学、宗教学、广告学等领域，如日本符号学界把符号学用于认识论研究，考察认识知觉、认识过程的符号学问题。同时，符号学还用于分析利用人体感官进行的交际，并将音乐、舞蹈、服装、装饰等都作为符号系统加以分析研究，这都为设计艺术提供了宝贵与有借鉴价值的情感界面设计方法与技术手段。

3 环境性界面

任何的设计都要与环境因素相联系，它包括社会、政治和文化等综合领域。处于外界环境之中，“是以社会群体而不是以个体为基础的”，所以环境性因素一般处于非受控与难以预见的变化状态。

联系到设计的历史，我们可以利用艺术社会学的观点去认识各时期的设计潮流。18世纪起，西方一批美学家已注意到艺术创造与审美趣味深受地理、气候、民族、历史条件等环境因素的影响。法国实证主义哲学家孔德指出：“文学艺术是人的创造物，原则上是由创造它的人所处的环境条件决定。”法国文艺理论家丹纳认为“物质文明与精神文明的性质面貌都取决于种族、环境、时代三大因素”。无论是工艺美术运动、包豪斯现代主义或20世纪80年代的反设计，现代的多元化，“游牧主义”(Nemadism)都反映着环境因素的影响。

环境性界面设计所涵盖的因素是极为广泛的，它包括有政治、历史、经济、文化、科技、民族等，这方面的界面设计正体现了设计艺术的社会性。

以上说明了设计艺术界面存在的特征因素，说明在理性与非理性上都存在明确、合理、有规则、有根据的认识方法与手段。

成功的作品都是完善地处理了这三个界面的结晶。如贝聿铭设计的卢浮宫扩建工程，功能性处理得很好，没有屈从于形式而损害功能;但同时又通过新材料及形式反映新的时代性特征及美学倾向，这是环境性界面处理的典范;人们观看卢浮宫，不是回到古代，而是以新的价值观去重新审视、欣赏，它的三角形外观符合了人们的心理期望，这是情感性界面处理的极致。

五、设计界面的运用原则

1)合理性原则，即保证在系统设计基础上的合理与明确。

任何的设计都既要有定性也要有定量的分析，是理性与感性思维相结合。努力减少非理性因素，而以定量优化、提高为基础。设计不应人云亦云，一定要在正确、系统的事实和数据的基础上，进行严密地理论分析，能以理服人、以情感人。 2)动态性原则，即要有四维空间或五维空间的运作观念。一件作品不仅是二维的平面或三绝的立体，也要有时间与空间的变换，情感与思维认识的演变等多维因素。

3)多样化原则，即设计因素多样化考虑。当前越来越多的专业调查人员与公司出现，为设计带来丰富的资料和依据。但是，如何获取有效信息，如何分析设计信息实际上是一个要有创造性思维与方法的过程体系。

4)交互性原则，即界面设计强调交互过程。一方面是物的信息传达，另一方面是人的接受与反馈，对任何物的信息都能动地认识与把握。

5)共通性原则，即把握三类界面的协调统一，功能、情感、环境不能孤立而存在。

六、设计界面的应用方法

设计界面所包含的因素是极为广泛的，但在运用中却只能有侧重、有强调的把握。设计因素虽多，但它仍是一个不可分割的整体。它的结果是物化的形，但这个形却是代表了时代、民族等方面的意识，并最终反映出人的“美”的心理活动。

设计界面的运用，核心是设计分析。在一些国际性的大公司，如索尼、松下、柯尼卡等，都有许多的成功案例可为借鉴。如柯尼卡公司设计其相机时，首先不是去绘制“美”的形和考虑技术的进步，而是进行对象人的日常行为分析，作出故事版(STORY)。它先假定对象人的年龄为35岁，名：Xxxx，从而分析他的家庭、喜好与憎恶，分析他的日常行为，进而考察其人在什么场合需要僚机，从而为设计提供概念(CONCEPT)与目标(TARGET)，进行设计。经过分析，设计师有了明确的概念与目标，并随信息的交互产生了创造力。

另一方面，设计师自身对社会环境也要进行深入的认识与考察，对设计的作品取向有明晰的认识：是否符合人们的消费预期?是否能感受到人们的审美知觉?日本设计师佐野邦雄先生曾作一图——生活的变迁与设计师的课题，将日本及世界上某些非常有影响性的事件，如技术的进步、企业的发展等等都进行了归纳，进而对设计有了深入的认识与感悟。所以，要运用好设计的界面，理性的认识是首要的，其次就是创造性的，而且是有实效性的分析、处理信息。设计不是一成不变的，分析方法也不是一成不变的，设计的界面同样是在人一物的信息交流中变化发展的。

2.人机交互篇二

关键词：人机交互,认知结构,流形,复杂网络,脑成像

21世纪初美国提出“NBIC”聚合科技(Nanotechnology,Biotechoiogy,Information technology and Cognitive science,纳米技术、生物技术、信息技术和认知科学,Converging Technology)概念,并把认知科学放在优先位置[1]。我们认为对脑认知活动的多元观测,多维分析,了解认知功能、结构、动力过程、演化规律,建立脑多元信息融合模型是本世纪认知科学、信息科学的重要目标。和广袤宇宙,微小的量子比较,人类对脑认知的研究还处在初级阶段,是什么阻碍我们对脑内宇宙的研究呢?我们认为是研究范式、方法、工具,尤其,需创新类似望远镜、显微镜、粒子加速器这样的脑研究工具。

在当前脑研究范式中,通常认为:人脑信息加工心理机制既不能从外部对内隐心理机制进行直接检测,也不能利用解剖方法对人脑组织所发生的心理过程进行微观水平直接观测,因而,只能用计算机模拟方法,或称“黑箱”方法借助于理论思维作用对脑认知的内部活动和机理做出间接性推断。以上是当代认知科学脑研究的隐含假设,我们称为“人机分离的功能模拟”研究范式。由于,功能模拟没有采集脑认知活动的数据,难以获得认知结构模型,而认知结构是人类学习、智慧的基础[2],是脑高级功能研究的基础。

人脑是物质、能量和信息耗散结构,一定角度,脑研究是用仪器去探测、扫描大脑的物质、能量、信息过程,并拍摄、采集数据,基于数据重构大脑。生物、医学、解剖学领域重点研究脑物质结构;神经信息学、脑电(electroencephalogram,EEG)、事件相关电位(event-related-potential,ERP)、脑功能成像[3]等是从能量角度研究大脑,是当前脑研究热门领域,MIT甚至在“点亮”大脑[4]。在物质、能量深入研究同时,我们不能忘记,大脑核心功能是符号、信息处理,是个体数年,生物体系上亿年信息耗散之结果,应开拓信息、内容层研究思路。基于人机耦合态的在线认识数据采集如图1所示,我们希望在人机交互中借助Agent等技术采集认知数据,构建认知动力方程。

脑认知信息、内容是认知心理学研究对象,但是当前认知心理学还未建立比较纯粹的认知数理模型。皮亚杰把很多数理概念引入心理学,做开创性工作,比如,在认知逻辑形式化方面引入数学中范畴、态射、群、格等概念理论[5]。从数理角度,构建脑认知数理模型的基础是背景空间、流形,或认知流形。我们不仅在思想层面建立认知流形,还需创新方法、技术、工具观测它。当前,计算机已广泛应用在认知心理学研究中,但只是

在信息技术广泛渗入时代,人机交互为基础的信息世界成为人类生存基础环境。数字世界和认知世界充分融合意味我们能通过塑造、设计数字世界而影响、改变认知世界。构建符合认知逻辑的数字环境、数字系统和大脑认知同构、态射,产生认知同化、顺应及平衡;采集认知过程信息实现认知逻辑更加精细研究,在数字系统中寻找到范畴、态射之表现,探索认知动力系统的秘密。把传统认知心理学家认知实验转移到虚拟的人机交互空间中,实现认知心理的连续、直接观测是趋势。脑认知流形如图2所示,假如人认知行为发生在流形中,通过信息观测映射到数字流形,实现认知结构成像。

基于人机系统的认知、思维研究也是钱学森教授所推崇的。1991年4月18日与他指导的科研集体中的部分成员有过如下谈话:“智能系统是非常重要的,是国家大事,关系到下一个世纪我们国家的地位。如果在这个问题上有所突破,将有深远的影响。我们要研究的问题不是智能机,而是人与机器相结合的智能系统。不能把人排除在外,应该是一个人—机智能系统”[6]。

当前,人机交互一般关注:(1)情境界面中承载知识、内容本身;(2)比如,让界面更加真实,而我们更加关注;(3)认知内容蕴含的认知逻辑;(4)基于认知流形的动力过程。和物质、能量脑研究范式不同,人机交互观测信息数据,缺少直观的“物质”性,即人机交互的认知观测需解决脑内、外认知对象是统一的,也即人机交互状态观测到的认知对象、规律和脑内认知对象、规律是统一、协变的问题,称人机交互认知观测数据客观性、统一性问题。

1 耦合认知

基于“人机分离的功能模拟”脑研究范式,从哲学互补原理可洞察到还有“人机融合的结构观测”研究模式,即用观测工具对脑认知过程、结构进行在线、直接的数据采集。此模式存在和可能吗?因为我们无法进入脑内,大胆想法是,把脑内认知诱导到脑外观测,但认知会发生在脑外吗?我们去认知哲学前沿审视人机交互,寻找可能。

1.1 脑外认知观

认知哲学是认知科学的重要组成部分,新认知哲学观点会影响到具体认知研究,当前,情景、具身、分布、延展认知观[7]是认知哲学热点。

誗情境认知:认知、知识和智能的发展是根源于智能体-环境的相互作用、相互调节和适应。认知是一个发生于智能体-环境相互作用和相互关系的整体中的事件。环境不是一个认识论上的单纯的认知对象,它同时支撑着智能体的生存;认知是面向生存的,它是活动指向的,是指向环境的活动,是可存在于脑外环境的。

誗具身认知:有机体和环境在基本循环中彼此包进(enfold)又彼此展开(unfold),这循环就是生命本身。认知和知识发生在耦合于环境的生命系统中,被誉为第二代认知科学观,是对之前认知就是计算的发展。

誗分布认知:哈钦斯1995年出版了代表性著作《荒野中的认知》(《Cognition in the wild》)主张:认知活动发生于并分布于他人、技术人工物、外部表征和环境共同构成认知环境,认知是分布现象。

誗延展认知:延展认知及延展心灵是在国际上引发重要震动和争议的认知哲学假说。本假说在1998年由克拉克提出,主张:心智可以向外延展,进入系列认知客体,比如工具、媒介及其他人,认知代理(Agent)可以延伸到脑外工具。

我国有关学者认为思维以语言、场等外化,语言是思维的工具,人类必须通过语言进行思维,但思维又必须通过语言、文字和手语外化,并产生社会作用,如果思维不外化,那么人的大脑将永远是思维的黑夹子,思维将变得毫无意义[8]。分布认知等已成为人机设计[9]重要思想。

综合当代认知前沿哲学观念,我们认为:脑内认知可超越颅骨界限在脑外活动。在技术上,脑内认知以Agent方式,被情境耦合或者诱导到脑外环境中是可行的。脑外认知观为我们在人机交互环境中观测脑内认知提供哲学基础,即在人机交互状态观测到的认知对象和脑内的认知对象是会一致、统一的,基于人机交互而采集的认知数据是有价值的,是可反映认知规律的。

1.2 人机耦合

基于探索脑信息、符号层面运动规律的强烈目的,我们需要在大脑信息处理活动状态研究大脑,选择一种仪器和大脑信息加工态在线关联、耦合,采集大脑信息活动过程、认知结构的信息,而不是物质或者能量,称这样的脑状态为信息脑(i Brain),区别于物质和能量层面的研究范式,这样,记录的数据将反映大脑信息加工、认知结构的秘密,而暂时不去研究脑信息加工时的物质和能量状态,仅专注于脑信息加工本身,无疑计算机是最好的选择。

当个体操作计算机时,计算机软件系统对个体的相关操作做出反应,比如,记录认知操作过程、依据相关逻辑确定下步认知操作,在大脑和电脑之间构成相互的输出、输入,达到信息耦合状态。

定义1人机认知耦合态:在人机交互中,(1)研究者对认知内容、逻辑、规则、流程、轨道的设计;(2)也包含个体大脑对研究者设计的认知情景的理解;(3)以及理解之后大脑对情景的反应;(4)计算机根据大脑反应过程决定下个操作节点,实现认知调制;(5)如果大脑行为按照预定轨道活动,意味着设计者的认知设计和个体认知是匹配的,相关认知规律得到一次验证;(6)否则,要么是认知规律有待修正,要么就是认知调制需要改进,或者,其它原因[10]。

把大脑认知操作的对象、内容、规则、流程、轨道等的总和称为认知信息空间。引入认知信息空间目的是用计算机软件“物化”脑信息活动,用Agent代替被研究对象的大脑行为,信息耦合抽象为认知信息空间中Agent行为,就像电磁场场中粒子。

1.3 BSM耦合认知系统

在脑外认知视角,人机交互是“脑认知体-耦合情境-信息流形”(brain cognitive body-coupling situation-information manifolds,简称“BSM”)组成的数字化认知观测平台。

定义2脑认知体:脑认知体以头颅为生理边界,是脑认知的生理载体,也是当前个体智能存在的物质基础。

定义3耦合情境:耦合情境包括人机情境界面、智能设备互动情境和本地客观环境,以能被大脑感知、认知到的对象为边界,比如,人机可视屏幕及界面的扩展。情境包括交互情境、认知数据采集、控制面板等部分。

定义4信息流形:Agent体外载体,包括认知调制器,调制情境和脑认知到耦合态;认知数据处理系统;认知可视化仪。信息流形主要功能是对学习过程、认知结构进行成像。

1.4 耦合认知数字流形

我们希望构建可视化认知数字动力系统,类似宇宙学研究中的云雾室。它里面充满了干净空气和酒精(或乙醚)的饱和汽,如果闯进去一个肉眼看不见的带电微粒,它就成了“云雾”凝结的核心,形成雾点,这些雾点便显示出微粒运动的“足迹”。

定义5认知耦合数字流形:基于脑外认知观,耦合认知的人机交互环境,Agent技术,把认知投影到信息流形中,认知过程在此信息流形中成像,称此流形为“认知耦合数字流形,认知数字流形”。我们希望“认知数字流形”能成为认知观测的“云雾室”。

和认知数字流形类似,在认知行为层有脑空间概念(Brain Space)[11],物质层有脑流形(Brain Manifold)[12]。

脑认知体是高维认知流形,需要把其投影到低维流形中。脑认知流形降维涉及低维流形结构、情境空间矢量化、认知活动符号化、认知动力结构等问题。BSM是实现认知数字流形的工具平台。

假设有研究者采集认知过程信息,一般有如下方式:(1)拍照:获取认知情境活动视觉信息;(2)录音:录制认知情境活动声音信息;(3)摄像:录制认知情境现场视频信息。这些数据以紧耦合方式存在,难分解、归并、检索、处理,须另辟蹊径,创新认知情境矢量技术。

BSM信息观测面临以下问题:

(1)诱导情境设计:如何设计有效耦合情境,把脑内认知诱导到脑外流形。

(2)部署情境感知器:部署多样情境认知感知器,对BSM进行多维观测。

(3)认知信息采样方法:认知情境空间和过程存在大量信息,需要对高维信息进行科学采集,便于信息处理,防止数据“灾难”。

(4)认知流形表征方法:如何表征复杂BSM认知流形,保证认知信息流形的完备性。

(5)认知情境重构技术:涉及低维流形和认知逻辑架构选择。

(6)认知流形动力系统:认知信息流形的动力学公理、规律、数学描述,实现认知行为的预测和调控。

2 基于范畴的人机交互数学结构

基于BSM脑认知观测平台,还要理清BSM数理模型,为BSM研究提供基本的数理支撑。从一定角度,BSM目标是把B认知映射、镜像、同构到M中,通过S。我们将在范畴论角度分析BSM之间的关系。

态射、范畴与范畴论可视为人类认知工具发生的重要的想象方式,它提供新视角,让人们更清晰地看到认识过程中从具体至形式之间通路的动态变化。著名心理学家皮亚杰在20世纪60年代就开始基于范畴的认知研究[5]。

2.1 BSM认知范畴

定义6认知范畴:在近代数学中,“范畴”(categories)是一个最为基本的概念。一个范畴C,是由以下要素组成:

C1一个类ob(C),其元素称为「对象」;

C2一个类hom(C),其元素称为「态射」(也简称“射”)(morphism)或「箭号」。每个态射f都只有一个「源对象」A及一个「目标对象」B(其中A和B都在ob(C)内),称之为「从A至B的态射」,标记为f:A→B。所有从A至B的态射所组成的类称之为「态射类」,标记为hom(A,B)、hom C(A,B)、mor(A,B)或C(A,B)。

C3一个二元运算,称为「态射复合」,使得对任意三个对象A、B及C,都会有hom(B,C)×hom(A,B)→hom(A,C)。两个态射f:A→B及g:b→c的复合写做g°f或gf,并会符合下列三个公理:

A1不相交性:除非A=A'且B=B',态射集C(A,B)与C(A',B')不能相交;

A2结合律:若f:A→B、g:B→C及h:C→D,则h°(g°f)=(h°g)°f;

A3单位元:对任意对象Y,hom(Y,Y),总存在一个态射1Y,使对任意态射f∈hom(X,Y),g∈hom(Y,Z),都会有:

1Y有唯一性也称为对象Y的恒等射。若f∈hom(X,Y),g∈hom(Y,X),有g°f=1X,那么,射g就称为f的左逆,而f称为g的右逆。既为f的左逆又为f的右逆的射称为f的双边逆。

范畴中的态射有时又称为“箭号”,这种叫法来自于交换图。交互图也可以理解为对象之间的逻辑关系、数理约束。人机交互中的认知态射交换图如图3所示。

认知范畴定义了我们研究认知的视角,在此视角,我们把大脑机体、情境空间、信息系统都是认知范畴。

定义7认知态射:在认知范畴C中,(1)能够被认知到的客体、现象组成认知类及对象ob(C),A,B∈ob(C);(2)认知操作建立A和B之间的联系,不管是基于知识关联、认知逻辑还是经验想象,就是认知态射f:A→B,hom(A,B),无疑,A,B,C∈ob(C)形成hom(B,C)×hom(A,B)→hom(A,C)认知态射链,满足传递性等;(3)恒等认知态射是对认知对象自身的确定操作。态射和认知操作、认知算子等都类似,就是认知对象之间的关联,也可以用箭头表示。

定义8 BSM认知范畴:在人机互动系统中,我们假定脑认知体是B范畴,耦合情景是S范畴,信息流形是M范畴,总称BSM范畴或人机耦合范畴。BSM范畴中,存在如下态射:

(1)认知态射:脑认知体中存在的客观认知对象之间的态射称为认知态射,即脑内认知对象之间存在的关系、态射。认知态射以大脑思维为基础。

(2)符号态射:脑外信息流形对象之间的态射,符号态射以计算符号为基础,在符号、逻辑、操作体系中存在。

(3)耦合态射:耦合情境在认知和符号态射之间建立态射,通过人机交互实现它们之间的双向链路,用η表示。

定义9认知对象等价:态射f∈hom(X,Y)称为等价的(f:X≈Y),如果存在f的双边逆f-1hom(Y,X),即认知范畴之间存在等价认知态射则认知范畴对象是等价的。

在BSM范畴中,通过认知等价态射,保持脑内认知对象、耦合情境和认知数字流形之间的认知对象等价,这个是我们研究脑内认知的客观性基础,也是脑内认知诱导、耦合到人机系统中的数理基础。

2.2 认知函子

定义10认知函子:函子是认知范畴之间保持结构的映射。它们可以被看成以所有(小)范畴为成员的范畴中的态射。

一个从范畴C到范畴D的(协变)函子F被定义为:

对C中任意对象X,都有一个D中相应的对象F(X)与其对应;

对C中任意态射f:X→Y,都有一个D中相应的态射F(f):F(X)→F(Y)与其对应;

并使下列性质成立:

对C中任意的对象X,都有F(idg)=idF(g)。

对C中任意两个态射f:X→Y和g:Y→Z,都有F(g°f)=F(g)°F(f)。

一个从范畴C到范畴D的反变函子F不同于函子的地方仅在于将D中的映射箭头倒过来。比如说f:X→Y是C中任一态射,则有F(f):F(Y)→F(X)。

B是脑内函字,M是信息流形函子,f是脑内认知态射,通过人机耦合态射η建立变换,如图4所示:

在BSM中,认知函子是不同认知范畴之间保持结构统一的操作,也是不同智能体之间保持同构的描述。BSM自然变换的分解如图5所示:

图是定义范畴的基础,函子是范畴之间的图同态,图表和函子是一个概念的不同方面,自然变换是函子间的映射,也是一种结构到另一种结构的变换。

脑认知体、耦合情境、信息流形的之间存在自然变换,保持脑内认知对象、结构、体系和信息流形之间的对象、结构、体系保持统一同构是BSM研究的基础。

定理1脑认知体和认知数字流形之间存在自然变换,简称“自然耦合变换”原理:在BSM范畴中,以耦合情境界面为纽带,信息流形和脑认知体之间存在双向认知态射通道,基于认知等价我们把脑内认知对象映射到脑外信息流形中:

以上说明,脑内认知对象通过耦合方式能被映射到脑外,称为认知对象等价或认知耦合观测可行性定理。

2.3 认知素描

数理逻辑中的形式理论是基于符号串作为形式结构的规范方法,范畴论中,态射用箭号等图表示,图是定义范畴的基础。范畴是图加上满足某种条件的图中箭头的合成规则。范畴中基于图更加直接的概念是素描。素描是数学结构的另一类抽象的形式规范,它基于图而不是形式语言或元组,其语义通常是函子。

定义11认知素描(finite product sketch):一个素描S=(G,D,L,C)是四元组,其中G是一个有向图,D是G中具有相同源和目标的路径对集合(称为可交换图表),L(C)是G中的锥(余锥)的集合。素描可以把认知图式、认知操作等可视化,也是基于人机系统能够成为脑探索新工具的基础。

范畴、态射、图、函子、素描这些为脑内认知可视化提供理论依据,尤其在BSM系统中,信息系统强大的可视化功能可以应用在脑内认知描述中。我们通过以下步骤可以实现认知可视化。

(1)矢量耦合情景:通过认知对象标注等方法,在认知情境中部署认知感觉器。

(2)认知符号序列:认知感觉器感知认知操作,把认知操作转为认知态射。

(3)认知素描:基于认知态射、函子等获得认知素描。

(4)复杂认知网络:在图基础上,把认知逻辑和态射结合,形成可视化复杂认知网络。

定理2脑认知结构和认知数字流形自然同构,简称“认知自然同构”原理:基于BSM之间的态射链路,脑内认知过程投影、成像到认知信息流形中,实现脑内认知脑外流形成像。

“自然耦合变换”和“认知自然同构”为认知耦合观测数据中存在的认知对象、过程、结构等的科学性、有效性提供基础,是我们开展认知耦合观测的保证。

3 可视复杂认知网络

3.1 高维认知流形和复杂网络同态

在数学上流形可以用图来逼近,或者,在一定角度的同构,图G=(V,E)包含有两个集合:V为顶点集合,E为边的集合。对于取样自d维流形上的样本数据集x,首先在数据点和图G的顶点之间建立一一对应,并定义成对数据点的相似度为图中的边,这样就根据数据点建立了一个与之对应的图。图和流形有很多相近的性质,最重要的一点就是都可以嵌入到Euclid空间。对于流形来说,一个与之对应的图就是一个拓扑对象,其拓扑性质通过边的权值表现。我们使用复杂认知网络[13]来描述认知流形,网络节点代表认知对象,边代表认知点之间的逻辑关系。

当前,复杂网络已经是研究热点,不仅成为描述从技术到生物直至社会各类开放复杂系统的骨架,还是研究它们拓扑结构和动力学性质的有力工具。在认知领域,皮亚杰为代表的认知心理学体系中图式,知识工程中的知识图、概念图、思维导航图等都和复杂网络概念关联。

流形的坐标映射,坐标图,或简称图是在流形的子集和简单空间之间的双射,使得该映射及其逆都保持所要的结构。在认知流形中,图册是认知可视化表达之形式,比如,知识可用树、网、线等来表达,认知流形的图形如图6所示。

因此,基于脑内认知耦合观测和脑内认知成像定理,我们可以用复杂网络去同构脑内认知结构,对高维认知流形进行降维,实现脑内认知的可视化。

3.2 认知符号序列

在研究科学研究中精细的测量必定带来大量的数据,而用以刻划事物根本性质的特征量通常为数不多,为了得到这少数特征量,未必要从大量精细的原始数据出发。其实,整个自然科学体系都是在对事物进行“粗粒化”或“约化”的描述。这一纲领在动力学系统的研究中可以较好地实现。符号动力学就是在有限精度下对动力学过程实行严格描述的一套方法[14]。

我们建立认知操作描述符号集合,对BSM情境中的认知过程进行“约化”描述,解决情境数据采集中的“数据爆炸”问题。

BSM是复杂系统,需要多维度观测和采集其活动信息,认知符号序列在符号和逻辑层面描绘认知过程也符合当前复杂系统数理体系的趋势,即数值和符号运算的综合、泛化、自修复,构建并行处理及Agent计算模型,比如,CAS模型中适应性基本机制“刺激—反应”模型就以“IF—THEN”规则表达。

在BSM耦合情境中需要对认知互动过程进行科学“粗粒化、约化”处理,比如,学生听写BOOK单词,先敲击B再敲击U再敲击K,发现不对就移动光标删除“U”后再敲击两个0,可用以下三种序列表达:B-BU-BUK-BOK-BOOK、B-U-K-O-O、1(1代表正确0表示错误),显然第一种最能反映学生认知过程,第三种只是简单结果认知信息最少;用Q表示提问S代表选择题等都是符号化的体现。

定义12认知符号集合:称能表达认知的符号S={a∈S|S为计算机能存储、传输、处理的有认知意义的字符}为认知符号;认知符号能够表达认知时间、空间、流程、逻辑等认知元素。

定义13认知操作:设S是认知符合结合,认知操作φ:S⊗S→S称为S上的一个二元认知操作,简称认知操作⊗等符号表示“认知算符”。认知操作φ和态射、映射、函数都有相似的含义,认知耦合是两个认知系统之间的双射。

认知操作是核心概念,除了用代数中的加、减、矩阵等数理算符表达外,还可用数理逻辑、形式语言描述的认知操作,比如,IF-THEN语句、计算机编程语言代码等。

定义14认知符号序列:有认知操作内涵能反映认知操作过程的数字、符号序列称为认知符号序列,即认知过程P用S中的元素S1,S2,...,Sx-1,Sx进行表达,组成认知符号序列。(Cognitive Symbol Sequence,简称:CSS)。

定义15认知逻辑:基于CSS面向认知过程的逻辑系统。逻辑规律通过包括计算机语言在内的各种语言来表达。从表现形式角度,分形领域的L-系统、IFS系统和认知符号序列有很多相似之处,以及信息流理论架构[15]。

4 认知数字流形体系架构

在BSM中,认知是高维流形,难以构建全局和整体的流形坐标系,只能对流形局部进行观测。和情境信息流理论“一个情境是世界的一个有限部分或片断”[16]一致,我们认为人机情境是认知流形的局部测量。我们(1)利用耦合情境对认知流形的观测;(2)采集数据;(3)把认知流形同构到复杂认知网络中;(4)实现认知流形符号化、数理化。

4.1 认知数字流形数理层次结构

在采集大量认知符号序列,能对脑认知进行持续比较精细的观测后,需要象宇宙学一样,对这些数据进行数理分析,建立脑内认知结构及认知动力模型。基于数理思维模式,我们将从认知对象开始建立BSM的数理层次体系,为其研究提供架构。以上结构大致层次如图7所示。

(1)认知对象:人机交互设备中,部署有传感器能够被感知的对象。

(2)认知集合:在某个情境或者过程中,根据一定目的、流程、功能等组成的认知对象元素的总和。

(3)认知拓扑:在认知集合的基础上,基于拓扑公理构建认知拓扑。

(4)认知流形:基于认知拓扑,加上附加的度量结构,形成认知流形,这些结构包括数理、权重、距离、流、逻辑等。

(5)认知度量:用认知情境耦合脑内认知,对认知进行度量。

(6)认知逻辑:在认知逻辑层面建立情境之间的制约关系,构建认知逻辑体。

(7)认知耦合:情境和大脑认知发生互动,采集脑内认知活动的信息。

以上结构大体上是层层叠进的,当然,也是我们的研究线路图。在数理角度,关键层是拓扑、流形层;在应用角度,关键层是逻辑、耦合层。在此体系结构中,认知拓扑流形层是整个体系的核心;当前,认知心理学重点在逻辑和耦合层。基于BSM将能够基于高精度、大数据的角度建立认知拓扑流形体系。

可视化复杂认知网络涵盖以上所有描述,是以上结构的表达和实现。

4.2 BSM系统功能结构

在认知流形观测视角,BSM分为以下系统层次:

(1)情境物理层:BSM物理层,和认知、信息世界相对,情境物理层包括触屏等物质、视觉层面。

(2)情境矢量层:基于物理层部署感知器,采集认知活动信息。

(3)认知符号层:把采集的情境信息矢量化、符号化。

(4)拓扑聚集层:构建情境承载数字空间,投影认知情境,尤其在拓扑视角,或者,拓扑空间中。

(5)认知动力层:构建认知动力数理体系,实现认知情境模拟、预测与控制。

(6)认知耦合层:通过BSM耦合情境,计算机和大脑进行互动。

BSM系统层次视图如图8所示,BSM系统层次中情境矢量层是一个关键层,因为,首先,构建认知情境矢量目标是采集到科学的认知符号序列数据,数据采集方法、策略将关系到认知数字流形中的认知重构;其次,拓扑聚合是承上启下层。

5 基于认知数字流形的应用

5.1 认知耦合成像

BSM是信息-认知融合系统,认知过程通过认知耦合态、认知符号序列映射到复杂认知网络中,也是对脑内认知拓扑成像的过程。脑认知拓扑成像能够实现脑内认知的观测,形成新的脑认知结构观测范式。

对中国学生英语听力的学习拓扑成像过程[16]。通过2万多条记录我们获得中国学生A-Z字母混淆表,如图9所示,比如A最容易混淆为O、其次为E,再次为H;还发现对偶性,如O最容易混淆为A。和国外研究比较,我们能够获得认知过程更加精细的内容[17]。

采集24点计算游戏的认知符号序列5.3万条记录,比如计算机给出“1-3-4-9”学生进行计算,获得如下的认知符号序列,如图10所示:

把以上四个数字替换为ABCD,运算符号不变将获得类似如下的代数式,类似,生物学的基因,我们也称其为24点的认知基因,我们总共获得205种的认知基因,如图11所示。

我们希望通过BSM系统,采集到认知符号序列,在认知拓扑空间进行抽象,获得更多认知、思维、知识基因。基于认知基因,我们将能开始进行认知结构的建构,理解认知结构的成长、发展、演化规律。

根据这些认知基因,我们对实际的记录进行分类,成像,获得24点认知过程的拓扑规律,比如,不同认知拓扑基因平均时间等参数,列举部分拓扑图如图12所示:

基于学习过程的认知结构成像技术将为教学提供有效支持,比如,教师将根据认知基因进行个性分析,或者,根据认知基因的规律进行有效训练,也能够为传统的认知心理学提供支持。

5.2 认知耦合调制器

类似粒子加速器,探索认知数字流形需工具,我们构建认知耦合调制器平台进行认知流形实验,脑认知耦合调制器的架构如图13所示:

认知耦合调制器是群体协作认知研究平台,多元信息融合环境。基于经验的认知设计和基于数理方程的认知轨道在人机耦合情境采集的数据中获得验证,实现认知可视化、矢量化、数理化、动力学研究。

6 结论

(1)基于前沿认知观,人机系统是脑内认知外延、扩展的数字环境,是思维和物质之融合体。“脑认知体-耦合情境-信息流形”组成的BSM认知观测平台实现高维认知流形耦合观测。

(2)基于范畴论,在BSM中脑认知体和脑外数字流形之间存在自然耦合变换、认知自然同构,保证耦合观测数据的科学性、有效性,认知对象、规律协变性。

(3)BSM平台是脑认知结构观测平台。基于认知耦合态、认知符号序列等概念,脑内认知态射到低维的可视化复杂认知网络中。

3.人机交互新革命篇三

“以前我们说鼠标加水泥等于新经济加传统经济，现在鼠标已经不是新经济，手机的输入方式已经是手势、语音甚至图像。”百度CEO李彦宏说，去年一年语音识别的准确率提升比此前15年提升的总和还要多。智能手机的普及也使得这方面的需求大大激发。

2011年10月4日，iPhone4S对外发布，让用户感到新奇的是，智能语音助手Siri被成功植入iPhone4S之中。Siri的横空出世，在全球引发了语音热潮，各类语音助手几乎成为智能手机的必备应用。

相比早期的语音控制系统，Siri将iPhone变成了一个智能机器人，用户对着手机说话，不仅可以让手机读短信和拨号，甚至能够查询天气、餐厅位置、航班等以往不可想象的功能。在Siri身上，人们看到了语音成为手机实用交互方式的可能，而不像以前只能通过键盘或手写输入文字来传递信息。

除了手机内自带的语音助手，不少第三方语音助手应用也如雨后春笋般涌现，譬如讯飞语点、百度语音助手、搜狗语音助手、虫洞语音助手、智能360语音助手等。这些语音助手的功能也越来越强，不仅可以通过语音搜索内容、查询信息，还可以聊天解闷、讲故事、唱歌。

最近中关村在线手机事业部针对手机语音功能现状进行了一项调查，结果显示，67.68%的受访者表示使用过语音助手软件，这足以证明手机语音助手类应用的市场热度。

不单单是手机，语音技术也逐步应用于PC、平板电脑、家电、车载、玩具、手表、眼镜等智能终端，以及教育、电信、金融、保险、客服等领域。在2013年英特尔信息技术峰会（IDF）上，英特尔“感知计算”概念的提出，意在建立起一个新的人机交互框架，掀起“重塑PC”的革命，而语音识别就是感知计算的一部分。

实际上，“听话”的浏览器离我们并不遥远。Google Chrome浏览器已经开始尝试支持声控命令，或许要不了多久，我们就能通过声控浏览器完成浏览网页、发送邮件等。比如，你可以通过“暗一点”“亮一点”“字体大一号”等语音命令来控制浏览器。

结合地图系统和智能语音识别的打车软件一经面世便得到消费者的广泛关注。曾在北上广风靡的打车叫车软件“嘀嘀打车”，前不久正式进入武汉运营。据了解，“嘀嘀打车”软件在武汉市场试运行的14天时间里，召车成功率达88%，远远超过武汉官方叫车平台“电召”的48.5%。

4月10日～12日，第一届中国电子信息博览会在深圳举行。由工业和信息化部指导，19家单位联合发起成立的中国语音产业联盟组团参展，将神奇的智能语音体验带到了现场，全面展示了智能语音技术在移动互联网、教育、智能电视、车载终端、玩具等方面的新产品、新应用。

清华大学吴及副教授表示，通过技术上的不断优化和完善，快则一两年，慢则三五年，语音识别技术会成为人机交互的重要组成部分。未来最可能还是混合的交互方式，语音成为主流交互方式之一，因为不同的场景、用户需要和用户习惯，都会造成选择交互方式的多元化。

智能语音爆发

世界银行去年发布报告称，全球手机数量已经从2000年不到10亿部，增长到现在的60亿部，其中近50亿部都在发展中国家。世界银行估计，到2015年，世界上将有人口75亿，而手机将达到近90亿部。

市场调查机构策略分析公司Strategy Analytics公布的调查结果显示，自智能手机1996年面世以来，截至2012年第三季度，全球智能手机用户数量突破10亿部。也就是说，现在全球七分之一的人拥有某种智能手机。Strategy Analytics预测，全球智能手机用户数量最迟将于2015年突破20亿大关，2013年，仅仅Android用户就将超过10亿人。这是因为智能手机市场还存在着巨大的增长潜力，尤其是在中国、印度和非洲国家市场。

艾媒咨询（iiMedia Research）分析认为，随着智能手机价格平民化以及运营商、渠道商、手机厂商对智能手机市场不遗余力地推广，使得使用智能手机开始成为一种大众潮流，大批非智能手机用户转化为智能手机用户。预计到2013年年底，中国市场智能手机用户规模将突破5亿。

在智能手机市场，以智能语音技术软件应用平均收入为5元/台计算，2013年中国智能语音市场应用规模可达25亿元，2015年全球智能语音市场应用规模可达100亿元。

中国互联网络信息中心CNNIC调查显示，截至 2012 年 12 月底，我国手机网民达到 4.2 亿户，占网民比例由上年的 69.3% 升至 74.5%。目前中国已经成为继美国之后全球第二大移动应用市场，拥有 50 多家应用商店，最大的应用平台中应用数量已经达到 70 多万，下载量超过 90 亿次。

借助开放平台和应用商店模式的助推，移动互联网分布在音乐、电商、游戏、搜索等领域的产业价值趋于明显。2012年，iOS 平台上共有超过73万款应用上线，中国移动MM平台上应用接近15万。

另外，2012年微信用户数突破2亿，对传统的话音、短信业务形成强烈冲击。据估计，到2015年我国移动互联网市场规模将达到4296亿元，活跃用户将超过8亿。

近几年，移动互联网的大规模爆发，作为主要载体的智能手机在键盘输入和手写输入方面非常不方便，这为语音识别技术的应用提供了巨大空间。

一款由云知声研发的微信语音输入插件，只需对着手机说话就可以快速发短信了，每分钟可以输入100字。自今年2月推出后，以精准的识别性能和全新的交互体验，受到广大用户的追捧，发布一周即登顶App Store首位，使用该应用软件的用户接近100万，开启三十次以上的每天有几万人。

云知声创始人兼CEO梁家恩表示，语言是人类交流中最重要、最自然的方式，所以语音技术的普及将引起人机交互方面最深刻的革命。这是一种更高效的人机交互方式，极大地提高了效率，同时降低了用户信息获取的难度和门槛。最直接的例子是，我想跟朋友说今晚约会地点。传统的手机交互方式是，需要点击手机菜单，选择新建信息，输入联系人，手指输入文字内容，发送……而通过语音助手，我们只需按下Home键或者线控上的按键，然后直接说“发短信给xx，今晚我们在xxx见面”即可。

在车载环境下，用户的注意力主要集中在于驾驶，人与车的交互必须在不影响驾驶的前提条件下进行，而语音识别技术提供了安全便捷的交互方式，用户只需动口，就可以满足在行车过程中的相关需求。说出“想回家”，汽车会根据你家的位置设定好最佳路线，并开始导航。说出“加油站”，几公里范围内的加油站将逐一由车载语音系统播报出来。

2013年配备语音交互的汽车出货量将达到300万辆，技术授权30～50元/辆，技术授权年度市场容量将超过1亿，预计到2016年配备语音交互的汽车出货量将达到1500万辆，存量接近3000万辆；车载增值服务渗透率逐步提高到30%～35%，年度市场容量将达到10亿。

无论是Google已推广上市的“Google Glass”，还是百度正在研制的“Baidu Eye”，都将语音操控作为人机沟通的重要手段，拍照、打电话、录像，你只需说出你的需求，它就在你眼前展现出想要的结果。智能眼镜、智能手环、智能手表、智能项链，这些物联网时代的智能化设备，最大限度地利用了语音控制技术，它将让未来的生活变得如梦如幻。

很多小朋友想拥有一个会说话的玩具，就像喜剧电影《泰迪熊》里面的TED一样。如今，市场上已经出现了智能语音玩具，按照预定程序执行人的语音指令，如背诗、唱歌、翻跟头、跳舞等。

发端于上世纪50年代的语音技术，经历了多次潮起潮落，这次是真正的变革，还是又一轮泡沫？吴及告诉记者，“这次的兴起与过去不太一样，超过以往任何一次的高度，商业化应用的规模，普通民众的接受和认可程度，都远远超过了以往。”

对于语音产业爆发的原因，吴及有着自己的思考：一是移动互联网的发展，使手机成为重要的客户端，现在手机数量已经远远超过PC和笔记本，导致越来越多的交互行为通过手机来完成。苹果ios、安卓等智能手机操作系统推出后，手机应用和手机交互逐渐增多，但在手机上靠传统的键盘输入很不方便，手写又太慢，而使用语音输入很方便，这样用户的需求就被激发了。

二是随着移动互联网和云计算的发展，语音识别不需要在本机做了，可以在云端做。这样资源条件大为放松，对语音识别引擎不需要非常严格地限制了。此外，用户的语音数据可以存放在云端，就能有大量的真实数据用于模型训练，语音识别性能得到了迅速地提高，识别率可以达到85%～90%以上，这就达到了用户使用的最低门槛。

三是语音识别技术一直在进步，最近十年也不断有新的突破，例如声学模型的鉴别力训练和近年来非常热的深度神经网络。

争抢语音电视

引入语音识别和语音合成技术的智能语音电视不仅能听懂用户说话并作出反应，而且还能说话。用户凭借语音指令可以轻松完成音量调节、换台操作、电视节目查询、网络浏览搜索、文字输入等服务，还可以提供天气、股票、航班、热点新闻等信息，让用户“所说即所得”。

5月7日，乐视超级电视在五棵松万事达中心全球首发，吸引了众多与会者参与。与之前其他的电视类产品不同，乐视超级电视集硬件、软件和内容完美结合，是一款真正意义上的互联网电视，同时具有超高的性价比。

在电视、上网功能完美结合的同时，乐视还集成了目前最先进的智能语音交互技术，用户通过带有麦克风的遥控器，就可以轻松自然地实现操控、输入、搜索等功能。而该项技术由云知声提供。从现场的演示效果来看，语音识别准确度和识别效率方面都具有很高的水准。

在乐视网董事长兼CEO贾跃亭看来，“‘超级电视’是这个星球上有史以来最强大的硬件怪兽。”贾跃亭的底气来自于其合作伙伴，联合全球最顶尖面板供应商夏普、全球最顶尖的智能芯片商美国高通公司、全球最顶尖硬件制造商富士康和播控平台合作方CNTV；而更大的底气则是“超级电视”的高性价比，60英寸X60是超级电视的旗舰型产品，售价仅6999元，要比市场上的价格便宜一半多，同时推出的普及型产品S40售价1999元。

乐视推出的超级电视是否能如其所言“颠覆”传统电视呢？业内都在拭目以待。作为互联网企业敢于杀入目前似乎固若金汤的电视行业，这也说明智能电视已成为互联网企业觊觎的猎物。不只是乐视，阿里巴巴、PPTV、小米等也推出了机顶盒产品，而在此布局更早的谷歌、苹果早已“袭击”了电视。

为了适应智能交互方式的发展潮流，早在去年，国内六大电视厂商长虹、海信、康佳、海尔、TCL、创维等企业纷纷推出可以语音控制的智能电视。为了在智能电视市场先人一步，2012年2月16日，就在大家都还沉寂在新年余味的时候，长虹联合语音技术公司科大讯飞率先发布30多款Ciri语音智能电视新品，最高售价近7000元。随后，其他彩电企业也迅速跟进，推出具有语音识别功能的智能电视或云电视。

需要注意的是，国内彩电企业在半导体、智能语音等方面都缺乏技术储备，只能拉入第三方语音企业作为外援提供技术支持。业内人士认为，进行语音技术和人员储备是彩电企业的当务之急。

而科大讯飞的盈利模式也有许多尴尬。众彩电厂商和科大讯飞均是“一锤子买卖”，即一次性购买语音软件或芯片，前者推出的所有应用皆为免费，只是智能产品本身的售价有一定幅度提高。

据预测，2013年智能电视出货量将达到1500万台，2016年智能电视出货总量将超过4000万台，智能电视存量将超过1亿，年度市场规模将超过13亿。未来，在每个家庭网络上的电器设备，都可以被人们的语音控制。

语音数据金矿

智能语音技术应用非常广泛，不单单是前面提到的手机、电视、玩具、汽车等领域，也包括即将兴起的智能客服、智能订单、智能营销等智能语音服务。

随着互联网的发展，许多企业客服放到互联网上了，比如QQ、微信、旺旺，现在都是键盘交互，以后可以通过语音交互，减少人工客服成本。这些与语音工具进行实时对话的应用，属于在线应用（B2C）。

另一个非常重要的应用领域是离线应用（B2B）。离线应用是通过与大数据技术的结合，对海量语音数据进行处理、挖掘和分析，开发和利用其中的价值。

语音数据也是大数据，比如呼叫中心，每天的电话数据非常惊人，随着中国人口红利的消失，呼叫中心的智能化日益迫切。据 Ascent Group 2010年IVR研究报告，2016年电信、金融、电力等重点行业呼叫中心市场规模预计达到30万线以上。此外，中国移动的一个省级呼叫中心，一天的数据就有上万小时；还有电视、广播、互联网等媒体上大量的语音数据。

“这些数据如果不能被有效处理，就无法被应用，只能被闲置，实际上可以利用语音识别技术将这些数据转化成文字等符号性表示，然后再被挖掘、检索和利用。”吴及说。

他进一步指出，离线应用比在线应用确定性更强，由于面向海量数据，只能选择语音识别技术，使用人工转写，时间和人力成本太高了。

据了解，清华大学电子工程系多媒体信号与智能信息处理实验室已经在与科大讯飞合作，研究、开发、应用离线技术，语音识别准确率达到了80%以上。今年将在中国移动的一些分公司进行推广。

离线应用有两方面价值，一是监控客服质量，提高企业服务水平。二是语音分析，通过语音识别和数据挖掘技术，可以更全面地了解实际情况，从而帮助决策层和管理层进行科学研判和趋势预测。

此外，公共安全和政府等行业客户对信息资源的深入开发利用也有着迫切的需要，并对基于文本及语音分析处理、数据挖掘等技术的海量信息智能分析与处理软件平台的开发有着明确需求。具体应用是，从大量录音数据中自动快速找出指定关键字的语音，从而得到公安或其他政府部门需要的信息，用于做出及时正确判断和决策。据不完全统计，此项应用在政府部门的市场总量将在6亿元以上，但此项业务的门槛和公关成本很高。

谁主沉浮？

几年前，语音行业不景气，从事语音技术研究的多以学术界为主，这使得国内的语音核心技术一直掌握在清华大学、中科院声学所、中科院自动化所、中国科技大学等几家单位，同时也导致语音行业的人才很稀缺。

从2008年开始，伴随移动互联网的大发展，语音识别产业才真正兴起。谷歌于2008年在美国发布了英文语音搜索服务Voice Search，应用于Android、诺基亚S60、黑莓、iPhone等多个系列的手机。2009年，Google在全球范围正式发布了谷歌中文语音搜索。

2009年苹果收购Siri，并于2012年推出中文版Siri，大受用户欢迎，掀起智能语音热潮。

在中国，最早从事语音识别产业化应用的企业是科大讯飞（1999年成立）、捷通华声（2000年成立），这两家企业刚开始都专注于语音合成技术的研发（把文字转化成声音，比如机场、火车站听到的播报）。2008年科大讯飞成为上市公司后，开始研发语音识别技术。2010年发布了语音云平台，宣告移动互联网语音听写时代到来。

作为语音行业的龙头企业，短短几年时间，科大讯飞的市值从2008年刚上市的34亿，已经增长到超过200亿，让人瞠目结舌。目前，科大讯飞是中国最大的智能语音技术提供商，也是我国惟一以语音技术为产业化方向的“国家863计划成果产业化基地”。

依托于中科院声学所的捷通华声，成立时间基本和科大讯飞相当，在之前相当长一段时间内，也和科大讯飞旗鼓相当，但最终的结果是科大讯飞发展起来并成功上市，而它则相对平淡。

近年来，科大讯飞攻城略地，继牵手中移动、中联通后，5月27日发布公告称，已与中国电信签订三年期的战略协议，共同推进智能语音产业。科大讯飞官网显示，其智能语音技术占有中文语音技术市场70%以上份额。

有观点认为，尽管牵手三大运营商，但科大讯飞仍前景难料。在与中移动合作后，双方至今未推出“杀手级”业务。双方合作的“灵犀”语音助手将被融合到飞信中，但在微信的冲击下，飞信的前景渺茫。电信分析师付亮称，牵手科大讯飞，不会解决微信对运营商的冲击，因为科大讯飞的模式跟微信相似。

Google语音搜索和苹果Siri的成功，也让国内语音市场迅速升温，国内互联网企业纷纷涉足。例如百度、腾讯、搜狗、阿里，还涌现了许多创业公司：云知声、灵声科技、智能360、虫洞、苏州思必驰、普强信息等。

国内语音产业分为两类，一类是独立的语音公司，以科大讯飞、云知声、灵声科技为代表；一类是互联网巨头公司，以百度、腾讯、搜狗为代表。

“智能语音已经进入到产业化层面，最近5年的产业发展速度超过了过去50年，并且跟以往主要靠技术推动有很大差异。”吴及说。

众所周知，智能语音行业的技术门槛非常高，特别是语音识别技术，被成为“皇冠”。衡量一家语音公司的技术水平如何，首先要看它是否能提供高性能的语音识别产品，其次要看是否发布了语音云平台。

国内互联网公司里，百度做得最早也最好，2010年就成立了语音部门，并招兵买马引进国内外人才，专注于互联网模式下的语音识别技术，并号称是国内首个把深度神经网络技术（DNN）运用到语音识别产品的公司。李彦宏今年三月接受采访时说，现在语音识别的准确率能做到92%，两三年内可以做到98%。

腾讯和阿里的语音技术虽然还欠火候，但这两个公司有微信、QQ和淘宝旺旺，拥有相当大的用户群，这些用户群对语音技术需求旺盛，市场潜力很大。

独立的语音公司中，科大讯飞目前是“龙头老大”，但也面临几家新锐公司的围追堵截。特别是云知声，冲击力和竞争力极强，刚成立一年，语音技术已经可以和讯飞相媲美，语音识别准确率达到94%以上，仅用九个月就对外发布了语音云，并且向所有开发者提供完全开放、永久免费的语音识别服务，让业界直呼“黑马”来了，但发展平台与讯飞差距较大，商用上也不及讯飞多年的积累。

吴及表示，从国际上看，智能语音产业表现为一专多大，即一个专业公司Nuance和几个大的IT公司，Google、微软、IBM、苹果等。目前，国内的产业格局也基本相似，一个专业公司科大讯飞，其他几个互联网公司，如百度、腾讯、搜狗等。

占领制高点

随着国内手机和平板销量的爆炸式增长，国外企业开始觊觎这片市场，纷纷进驻国内。海通证券研报指出，尽管目前智能语音产业规模较小，但在未来5年内行业年复合增长率有望超过25%。

背后支撑苹果Siri语音识别技术、占据全球2/3市场份额的国际语音服务巨头Nuance，正在拓展中国语音市场。据媒体报道，日前，Nuance与开心网正在就未来的“战略级产品”进行深入探讨。作为全球语音识别技术的领军企业，Nuance触角由医疗、电信广泛延伸至汽车、手机以及互联网领域。此前，该公司在中国的合作对象为比亚迪和中兴通讯。

另一家语音识别技术公司Audience也看到了中国语音市场的机会，与国内十几家品牌手机厂商展开语音方面的合作，并且和中国移动公司建立相关的语音研究实验室。此外，谷歌、苹果、微软、IBM等巨头也开始积极布局，先后推出了各自的智能语音服务。

为了迎战国外巨头，推动民族智能语音产业发展，2012年8月1日，由科大讯飞、联想、华为、中国移动、中国联通、中国电信、清华大学等19家单位联合发起的中国语音产业联盟正式成立。

工信部副部长杨学山在会议上说，“语音产业再过若干年，一定是千亿元、万亿元的产业链。我们必须加快发展，否则很可能在五年以后，我们再一次被动追随。”

2000年之前，智能语音市场被国外厂商垄断。之后，国内厂商迎头赶上，经过10多年的发展，在技术上已经可以和国外厂商分庭抗礼。但国外厂商在产业链整合、市场推广等方面，均优于国内企业，在竞争中占有一定优势。

科大讯飞董事长刘庆峰表示，“苹果拥有结合紧密的软硬件和成熟的产业链，谷歌拥有开放的安卓系统，微软拥有几乎是垄断的操作系统。这些优势国内厂商都不具备，因此在与这些巨头竞争时，就需要国内企业联合起来，整合产业链上下游资源。”

微软把人机界面从跳动指令转变成图形界面，维持了20年的IT霸主地位。苹果和Google把键盘变成了触摸界面，称雄当今IT世界。如果有声控技术的话，我们还会用触控界面吗？

杨学山指出，再过五年，声控将可能是最主要的人机交互方式。未来产业的发展，从终端到生态环境、商业模式，都将发生重大的变化。从技术、产业和国家竞争力等各个方面来讲，语音产业的发展都是当务之急，只有努力发展，我们在下一代信息技术产业应用发展中才能拥有主导权。语音产业发展基于宽带网络，要和终端、应用和用户相结合。

“只有加快智能语音产业发展，才能避免受制于人。”吴及同样认为，国家要支持企业建立语音生态系统，但要把握好力度和分寸。如果国内企业不能建立起自己有生命力的语音生态系统，国外企业迟早会喧宾夺主抢占地盘。诺基亚的衰落就是典型案例。

吴及进一步指出，如果有越来越多的企业去做语音应用和进行二次开发，用户就会享有更多更好的语音产品和体验，这样平台企业也会做大做强，整个语音生态系统就形成了，国内语音产业抵御风险的能力就提高了。

4.汽车人机工程论文篇四

目前汽车尤其是乘用车设计强调以人为中心，舒适性一直是汽车设计的主体和追求目标。商用车是汽车工业产品型谱中的重要组成部分,在我国国民经济建设和社会发展中发挥着巨大的作用。近年来随着我国国民经济的快速发展、高等级公路的大量修建以及物流业的迅速发展,我国商用车发展迅速。国内商用车企业虽然具有一定的自主研发和科技创新能力,但在商用车人机工程设计开发方面与国外相比还有一定的差距。运用人机工程学原理对商用车驾驶室进行科学合理的设计,改善驾驶员工作环境,对于提高商用车主动安全性,保证驾驶员行车安全和身体健康具有重要意义。

本文结合所承担的“十一五”国家高技术发展计划(863计划)项目“重型汽车集成开发先进技术(2006从110105)”,对重型商用车人机工程设计与评价方法和关键技术进行了深入、系统研究,论文完成的主要研究工作如下:对重型商用车驾驶室人机工程学设计的主要内容和过程,以及采用的统计学方法进行了研究总结,建立了重型商用车人机工程设计方法。

研究了根据人体测量学数据建立用于商用车人机工程设计和分析数字人体模型的关键技术,包括人体测量学参数描述、运动学和动力学建模、人体肢体运动驱动和姿势求解的正向和反向运动学问题、几何建模和外观可视化、性能建模等,建立了三维数字化人体模型,开发了具有自主知识产权的重型商用车人机工程设计评价系统(SHOVED)。

利用该系统对某商用车驾驶室座椅H点位置、前后方视野、A柱盲区、仪表视野和平均观测距离、手伸及性,踏板舒适性,操纵方便性、风窗刮扫面积和上下车方便性等人机性能进行了设计、分析与评价。结果表明,该车型的人机性能满足国内外标准要求,并给出了进一步改善驾驶室人机性能的建议。提出了一种改进的人体姿势舒适度评价方法,即采用人体肌肉负荷作为姿势舒适性的客观量度,而肌肉负荷从宏观上根据关节载荷计算;通过仿真分析获得姿势空间内姿势舒适性的分布;对姿势舒适性分布数据进行统计分析,建立姿势舒适性评价模型。

本文将商务车驾驶室作为一个特殊、复杂的人机系统，运用人机工程学理论，借助计算机仿真技术，实现了装载机驾驶室人机系统设计的计算机化。该方法为缩短装载机新机型的开发周期，降低开发成本，也为进行驾驶室设计和性能检验提供了一种有效手段。

关键字：人体测量学，驾驶室，人机工程学，数字人体模型

ABSTRACT Nowadays，the modem vehicle especially the car emphasis on that men is the center，and the designing of Vehicle is the main content and target to Heavy-duty commercial vehicle is important part in automobile product catalog, and plays an important role in our national economical construction and social development.In recent years, with rapid development of the Chinese national economy, extensive construction of highway, and development of logistics industry, Heavy-duty truck industry develops rapidly in China.Although domestic commercial vehicle enterprises have the abilities of self-R&D and science and technology innovation, but domestic commercial vehicle enterprises lag behind oversea automobile companies in ergonomic design.From the Point of view of vehicle design, the most direct way to improve the active safety of vehicle and Working environment of drivers’ safety and health, is to design the cab scientifically by using the ergonomic theories.Based on national’863’high-tech development Project” Advanced Technology of Integration and development for Heavy-duty Truck”(No.2206AAll0105), The profound and systematic research works are carried out in this dissertation focusing mainly on the key techniques of Heavy-duty commercial vehicle cab ergonomic design and evaluation method.The major research contents are finished as follows: A summation is conducted for the ergonomic design contents, Processes and Statistical method of commercial vehicle cab.A ergonomic design method for Heavy-duty truck is established.In this dissertation, key techniques of modeling of digital human used for Heavy-duty commercial vehicle ergonomic design and analysis are studied, including anthropometry Parameters description, kinematics and dynamics modeling, direct and reverse kinematics for limbs driving and Posture calculation, geometric modeling and visualization, Performance modeling, etc.A 3D digital human model is built up.By integrating these functions, together with vehicle modeling and ergonomic analysis features, a Heavy-duty commercial vehicle ergonomic design and evaluation system SHOVED(System for Heavy-duty Commercial Vehicle Ergonomic Design)is developed.By using SHOVED, cab concept can be constructed based on the cab parameters inputted, test samples of target population for ergonomic analysis can be generated, comfort of upper and lower extremities can be evaluated considering steering, shift and pedal operations, front and back vision field, A-Pillar dead ground, dashboard vision field and mean observation distance, windshield sweep area, and convenience for up-and down truck can be analyzed and evaluated.Results show that ergonomic Performance of target vehicle satisfied domestic and SAE standard requirements.A few suggestions are proposed for improving ergonomic performance of the cab further.In this study, loader cab Was taken as a special and complex man machine．By the aid of the theory of man·machine engineering and computerized simulation the CAD method of loader cab Was realized．With the new design method。The development cycle and cost were decreased．And it provides an effective way for loader cab design and performance tests．

Keywords：Anthropometry Heavy-duty Commercial Vehicle Cab

第一部分前言

1.1论文研究背景

商用车发展的潮流是行驶安全性越来越好,技术含量越来越高,驾驶越来越舒适和人性化。在人们生活水平大幅提高的我国,随着汽车工业技术水平的不断提升和消费者的不断成熟,会对商用车的舒适性和安全性有着越来越高的要求,使得进一步研究和改善商用车的人机性能十分必要。在驾驶室布置设计中,人机工程学的研究及应用是提高舒适性、安全性最直接的措施,特别是对驾驶和乘坐环境的改进尤为显著。良好的人机工程设计会充分考虑操作者的生理、心理等因素与人一车一环境系统的状态,是实现汽车人性化设计的重要方面。人机工程布置还会影响整车内外造型的尺寸,进一步影响整车的总体性能和市场竞争力。从某种意义上讲,人机工程设计的好坏直接决定了汽车设计水平的高低。

近几年,汽车安全性也成为人机工程学研究热点之一。国外汽车工业重视“以人为本”的同时,加大了汽车安全驾驶的研究力度,强调通过合理设计和车身结构的改进来减少汽车碰撞损失和加强行人保护（1）。目前仍然有许多问题要借助人机工程学手段做传统的汽车设计过程是从概念设计到初步设计、详细设计和分析反复进行的过程,其中概念设计和初步设计中都包含了车身布置设计的内容,它是进行造型和详细设计的基础。随着并行工程、计算机集成制造系统技术和计算机技术在汽车设计中的不断应用和发展,现代汽车设计流程已将造型设计、布置设计、结构分析等内容同步进行。但为减少协调的时间和保证设计效率,在设计初期就以布置设计的要求为依据下达造型等工作的任务书,并不断在布置和其它设计内容之间进行协调,最后完成设计。因此,布置设计是概念设计过程中很重要的内容进一步研究解决。

1.2人体模型

驾驶室设计需要利用人体模型来尽可能的模拟现实中的人，从而缩短与人体有关的零部件的设计与评价周期。以人体参数为基础建立的人体模型是描述人体形态特征和力学特征的有效工具，是研究、分析、评价、试验人机系统不可缺少的重要辅助手段。科学、合理的建立人体模型是人机工程设计的基础。对于像装载机这样比较复杂的设计对象，应用人体模型是一种重要的辅助手段，它既可以表现设计结果，也可以用来调整设计，以确定最终设计尺寸。

人体模型按构造方法可以分为物理仿真模型和数学仿真模型两类。我们在人机工程设计领域常用的人体模型有二维人体模板、三维人体模型、人体数学模型和数字人体模型，最后一类人体模型以计算机技术为基础，能够与设计对象的数字模型进行交互，使人机系统三维显示在设计师的面前。其特点是反映的信息量大，便于解决相关的复杂计算，是产品的设计更加直观、快速和可靠。

人体模型在装载机驾驶室设计中作为一种辅助手段，它既可以表现设计结果，也可以用来轻松调整设计方案，从而确定最终设计尺寸。将人体模型引入到通过CAD技术建造虚拟的三维作业空间模型中（2），可以对比、分析、评价作业空间的多种设计方案。计算机中产生的三维图形可以使设计师更加方便、快捷的调整人—机—环境之间的相互关系。通过多个设计方案的对比、分析、评价，最终能够优选出最合理的作业空间。1.3商用车人机设计方法

人机工程设计通常始于概念设计初期。此前,先要明确产品开发的目标；并通过对标分析，确定人机工程设计的基本概念、目标和约束条件(如:驾驶室长、宽、高，座椅高度,前方地面盲区长度等)。此外,还要了解目标驾驶员群体特点（男女比例、地区、年龄特点等)和人体尺寸,作为人机工程设计的依据，商用货车具有底盘高，驾驶室为平头,驾驶室内部高度方向空间大、长度方向空间紧凑等特点。此外，重型商用货车的驾驶员群体多数为男性。对于全新开发车型,重型商用货车人机工程设计主要内容和流程。最终的布置结果必须满足如下要求：（1）乘员坐姿符合乘员群体舒适乘坐要求；

（2）保证必须的空间,以保证驾驶员操作灵活准确,增强舒适性和安全性；（3）操纵装置的布置位置和作用力大小符合人体操纵范围和操纵力特点；（4）驾驶员视觉信息系统适合人眼视觉特性和驾驶员视野要求,且能及时获得正确的驾驶信息。

从总体上讲，汽车人机工程学设计分为初步设计和后期校核两个阶段。初步设计的任务是建立乘员和室内主要部件的布置方案。传统的人机工程初步设计或者对于全新开发所进行的初步设计,参考的资料和数据相对较少，通常可以按照一定的设计流程来建立一个初步的设计方案。由于设计内容是从驾驶员乘坐和驾驶环境设计参数定义开始,然后过渡到驾驶室、乃至整车的设计参数定义,因此,这种设计过程又称为从内到外的设计，从内到外的设计过程中,为了方便进行乘员布置、表达设计意图、进行视野校核、以及工程制图等,通常借助一些设计工具辅助完成。初步设计是整个设计过程中至关重要的阶段。初步设计的结果为后续的详细设计确定了基本的基调。本节对重型商用车驾驶室人机工程学初步设计方法进行了研究总结，并应用于本公司的某款车型的开发中，取得了良好的效果（3）。

装载机驾驶座椅主要参数的人机工程要求。

1.4驾驶座椅主要参数的人机工程要求

驾驶座椅属于工作用座椅，通过以往的设计经验和相关实验，对工作用座椅的主要参数有相应的人机工程设计要求，见表1-1。

表 1-1 座椅主要设计部位及设计要求

1.5 人机工程设计原则

人机系统中，操纵装置是将人的信息输送给机器，用以调整、改变机器状态的装置。操纵装置将操作者的信号转换成机器的输入信号，是人机信息交互的重要组成部分，其设计是否合理，直接关系到整个人机系统能否正常安全运转。遵循人机工程设计原则，这就要求保证操纵装置的操纵有效性，同时要考虑到以下几个方面：(1)操纵器的形状适应人的生理特点；(2)操纵器的形状便于触觉对他进行识别；(3)尺寸应符合人体尺度的需要。根据人与物接触部位不同，操纵器可以分为手控操纵器和脚控操纵器，这两种操纵装置在装载机驾驶室中都存在。

装载机工况和作业要求复杂，因此其操纵装置除了常规的踏板和操纵杆，还有不同于普通车辆的动臂操纵杆和铲斗操纵杆，这就要求在操纵装置的人机工程设计中，要充分考虑驾驶员的生理特点，也要考虑操纵装置的使用功能和使用情况。而且装载机的操纵装置使用频繁，其在驾驶室内的布置及操作顺序要符合人的生理、心理特点和运动习惯。

第二部分工作原理

2.1 汽车人机工程设计国外对汽车人机工程学的研究起始于上世纪五十年代,主要集中在北美地区, 尤其是推出了很多标准，有的已被国际标准组织所采用,如:三维H点装置、眼椭圆等。这些研究为科学地从事汽车人机工程设计奠定了良好的理论基础和方法条件。

在国内,温吾凡、刘金秋等人都曾对人机工程学应用于汽车驾驶室设计中的关键问题进行过研究。葛如海专门研究了重型商用牵引车驾驶室设计的人机工程问题。经过对人机工程学在汽车内部布置方面应用和相关国内外标准进行消化吸收的基础上,一些人研究如何将领域知识凝练到软件中,以快速地完成人机工程设计和分析。例如:宋宝玉、李维斗等人研究开发了驾驶室人机工程设计软件。

在人机设计方案评价方面,许多企业和高校也在不断研究。有的研究了一种主观评价内部布置的方法,选择一定数量的有经验的驾驶员,根据驾驶经验、舒适性感受等主观判断,对驾驶室各部分进行主观打分,从而实现主观评价。有的系统研究了汽车驾驶室设计的人机界面评价过程,包括从厂商的项目提出到最终的综合人机评价等个步骤，研究了汽车坐姿不舒适性主观评价方法,并研究了通过易读性、量表信度和表面效度的显著性水平来简化问卷指标的方法。

2.2 踏板布置

加速踏板的安装位置和驾驶员座椅高度决定了驾驶员的基本乘坐姿态,对驾驶员坐姿舒适性和各项功能操作具有重要影响(4)。此外,加速踏板位置还决定了驾驶室其它部件（其它踏板、转向盘等）的布置位置,是车内布置的重要参考元素。加速踏板布置分析主要关注以下问题:（1）踏板中心高度。会影响驾驶员踩关节舒适性。由于加速踏板踩踏频繁,其布置必须考虑长时间操作的舒适性。加速踏板未踩下时,应保证跺关节角度A46不小于870,踩到底后A46不大于105“,以保证驾驶员踩关节舒适；

（2）踏板表面倾斜角度要合适,否则会影响踏板表面和脚底面的贴合；（3）要保证驾驶员脚底施力位置始终处于踏板中心附近；

（4）踏板转动中心位置要合适。不合适的转动中心位置,不能保证在踩踏行程范围内脚底施力点位置始终位于踏板中心附近,或者踏板表面与脚底面的贴合；（5）制动和离合踏板的位置可参照加速踏板位置进行布置。为保证紧急制动时,驾驶员不会误踩到加速踏板,通常制动和加速踏板表面错开一定距离；

（6）确定所有踏板高度和前后位置之后,还要确定侧向的位置和间距,包括离合踏板与驾驶员中心线、制动踏板与驾驶员中心线、以及制动踏板与加速踏板之间的间隙。

根据上述原则,可以对踏板的布置方案进行分析和评价,乃至给出合理的布置建议。踏板布置相关尺寸参见图2-1。

图 2-1 SAE定义的踏板布置尺寸

2.3 H点方案设计

2.3.1人体设计样板法

人体设计样板法是采SAEJ826中定义的H点二维人体设计样板[58]来布置定位 H点位置,如图2-2所示。

图2-2 H点二维人体模板

在踏板位置方案确定之后,将第95百分位的男子人体模板按要求摆放在驾驶室内。将其加速踏板踵点AHP与踏板附近指定的地面上的一点重合,整个脚掌绕AHP旋转至脚掌与踏板面贴合;调节背部角到要求的角度然后锁定,从而定位躯干;再调整模板小腿和大腿的角度,则这时的设计H点为最后H点。按同样步骤将第5百分位的女子人体模板摆放在驾驶室,所得到的设计H点为最一前H点。根据第5百分位女子和第95百分位男子H点来确定H点的上下、前后调节行程。这种确定H点的方法简单可行,在内部正向设计初期是一种很重要的方法。但是人体模板虽然是用统计意义上的人体数据所创建的,但是并不具有实际代表意义,因为它只是两个人体模板,只是两个个体,并且这种统计意义上的人体模板在现实生活中是很少会存在的。所以利用这种人体模板设计出来的H点适应度是不够的。虽然应用的是95百分位的男性人体模板和5百分位的女性人体模板,但是实际上设计出的H点并不一定能够保证良好的适应性。2.3.2 SAE适意H点位置曲线法(5)

1985年,SAE推出了SAEJ1517标准,用来辅助进行驾驶员H点布置。SAEJ1517中推荐了不同百分位的一组适意驾驶位置时H点的位置线哗],其中每一条曲线都表征了H点位置与定位参考点之间的水平XH和垂直方向ZH的位置关系。对于B类车,zH与xH呈线性关系,参见表2-1。图2-3给出了B类车的一SAE适意H点位置线。给定不同百分位的H点高度就能够得到最后、最前以及其它百分位的设计H点,座椅的行程和升程可根据最后和最前H点来确定。

表2-1 SAEJ1517中推荐不同百分位的一组适意驾驶位置的H点位置线

图2-3 B类车SAE适意H点位置曲线

SAE适意线是根据早先的美国人体数据,经统计分析之后得出的,对于不同时代、不同国家的人体统计数据不一定适用。计算对应某一百分位的H点时只能得到一个点,灵活性较差。同时,SAE适意线法没有将目标驾驶员群体的统计特性,尤其是国别、身材、男女比例、百分位等作为参数,因此,不能针对任意给的驾驶员目标人群都适用。SAE适意线比较适合于在从内到外的车身布置方法中使用。因此,很多人也研究了其它的H点布置方法。2.3.3 面向指定驾驶员群体的H点布置方法

驾驶员座椅的布置通过确定不同身材驾驶员乘坐位置(H点位置)来实现,这些H点分布呈现一个范围。对于重型商用货车,用一个矩形表示驾驶员群体中一定比例个体H点位置的分布范围,称为H点调节窗口160],其位置和尺寸反映了设计方案对于目标群体的适应程度,通常要求适合90%的驾驶员;此外,在保证驾驶员下肢舒适的前提下,将座椅位置布置得适当靠前一些,以保证良好的驾驶员前方下视野。H点的布置是驾驶室内其它布置设计的基础,并且关系舒适、安全等多方面性能,因此,在最基本的驾驶员乘坐方案中,必须科学、准确地设计H点调节窗口。

已知条件为地板和加速踏板参考点PRP位置,参见图2-4。在布置坐标系尤02下,某一个体驾驶员的H点位置坐标,驾驶员上半身越倾向直立。硬点尺寸H30为座椅高度，是乘坐参考点到加速踏板踩点的垂直距离,反映了群体命分布的状况。对于带有高度方向调节功能的座椅，应位于H点调节窗口的右边界中点处。设计中通常根据对标分析或设计目标给出刀30,再据此确定H点在水平和垂直方向的分布范围,即硬点尺寸TL23、升217和L53。上述硬点尺寸和术语的定义参见文献,这里的刀30、L53指的是汽车设计参数。

图2-4 重型商用车H点布置

商用车主要考虑男子群体。根据我国成年男子身高、坐高的均值和标准差,计算覆盖群体范围90%的群体身高Hs和坐高从的分布边界,见图2-5;在边界上生成分布均匀的8个样本点,其人体尺寸参见表2-1。在布置坐标系口刃Z中，大腿长度L3、小腿长度L4、以及跺关节到踩点的距离Lg有关。通过分析得知，与乘坐位置有关的变量L3、L4和Lg的分布只存在一个很显著的主成份,可根据它的单调性来设计H点调节窗口。鉴于下肢长度的单调性与该主成份是一致的,有理由选取样本点中下肢长度最长和最短的两个作为设计样本。通过对比可知,下肢最长的样本点是P5,最短的样本点是P6。

图2-5覆盖群体分布的样本点

表2-2样本人体尺寸

根据已知条件(PRP、地板和万30),以及商用车驾驶员肢体活动范围,计算H 点分布范围,计算公式如下2-1：

分别计算两个样本点的H点分布区域,如图2-6所示。

图 2-6 H点调节窗口

在图中画出了不同舒适程度的区域,以不同的颜色表示。在这两个区域中分别选取一点作为最前最低H点(图中Pl)和最后最高H点(图中P2),由这两个点形成H点调节窗口。所选的H点应尽可能具有较好的舒适性。如前所述,sgRP位于H点调节窗口的右边界上,所以,选取这两个H点的时候,还要使H30尽可能与设计目标值一致;并在保证H点调节窗口左下角和右上角落入相应H点分布范围的同时尽可能减小TL23和Z日17,以减小座椅调节机构设计难度。

2.4 布置工具图形定位

布置工具图形是进一步进行仪表板、操纵件布置,保证目标驾驶员群体中的大多数人具有良好的驾乘舒适性有力工具(7)。2.4.1 SAE眼椭圆

B类车椭圆标准的内容自1987年以来一直没变。尺寸参见表2-3。B类车定位时以ATRP，驾驶室布置工具图形定位基准点作为基准点。由于操作B类车的驾驶员中，具体车型的不同,驾驶员群体中男女比例可能会有较大的差异,因此,眼椭圆定位时需要考虑驾驶员群体中男女比例。此外,在侧视图上,眼椭圆关于其中心有向前下方11.6度的转角；在俯视图上，左右眼椭圆关于其中心有向右侧5.4度的转角。

表2-3 B类车椭圆尺寸

图2-7 B类车眼椭圆

表2-4 定位公式

眼椭圆中心相对于Al,RP点的定位公式列于表2一4。表中,万为椭圆中心相对于ATRP的水平距离;玖、殊分别为左、右眼椭圆中心相对于ATRP的侧向距离;z为圆中心相对于ATRP的垂直距离。眼椭球绕其中心旋转:在俯视图中向内侧偏5.4度,侧视图中向前下偏转0.6度。ArRP是驾驶室布置工具图形定位基准点,是SAEJ1516标准中定义的、用于定位布置工具图形的基准点(8)。对于A类车,根据95th百分位H点位置曲线和H点高度计算ATRP。对于B类车,根据50th百分位驾驶员H点位置曲线、H点高度和驾驶员男女比例来计算户a,RP。ATRP位置根据下式计算:

2.5转向盘布置

转向盘布置，包括确定中心位置、倾角和轮缘直径。合理地布置转向盘, 对于改善驾驶员操纵姿势、减小操舵力,从而降低驾驶疲劳程度具有重要意义。确定转向盘的位置要考虑与仪表板和驾驶员之间的距离合适。转向盘轮缘到驾驶员躯干的距离不宜小于250mm,这个间隙是安全的重要保证。转向盘前后位置还要保证驾驶员打转向时的伸及性。转向盘的高度的确定应考虑驾驶员上肢的舒适性,太高会造成“端胳膊”的感觉,容易加快疲劳。由于不同身材驾驶员乘坐位置和肢体尺寸的离散性,上述要求不容易对于大多数人都满足,因此,转向盘的位置一般设计成可调节的,使得大多数人都能够通过调节获得舒适的转向盘操作位置。

转向盘倾角的选定应该使转向盘轮缘所在平面尽量与驾驶员观察仪表时的接近视线垂直,以获得最佳的仪表视野;同时,还要与手部抓握轴线的方向相适应。商用车转向盘直径通常大于450mm。太小则操纵不稳定,且影响仪表视野。转向盘直径太大会浪费布置空间。很多商用货车都装有转向助力装置,不必采用加大直径的办法来减小操舵力(9)。

最终所确定的转向盘中心位置、倾角和转向盘直径,是通过反复进行驾驶员人体、座椅、转向盘布置和位置校核后得到的。现代转向盘上还集成了许多操纵钮键,如雨刮器开关,风挡玻璃洗涤器喷水开关,大灯、转向灯、小灯开关,喇叭按钮,巡航按钮等。布置这些的时候要考虑手指操作的伸及性。适当选择这些钮件的形式和操作顺序,保证操作方便性。

2.6仪表板布置

2.6.1仪表板主断面设计

仪表板主断面位于驾驶员中心对称面处。仪表板主断面的设计是驾驶员坐环境概念设计的重要内容。参见图2-8。

图2-8仪表板断面设计原理

根据驾驶员前方地面盲区要求作前方下视野线切,与眼椭圆下方相切,则切与水平面所成的角度即为驾驶员前方下视野角a。为保证前方下视野的要求,应该使仪表板上方最高点、前风窗玻璃下边缘和转向盘轮缘都低于下视野线切。作转向盘轮缘最高处截面下方和眼椭圆上方的公切线L1,作转向盘轮毅上方和眼椭圆下方的公切线L2,则仪表盘应该布置在Ll和L2之间。连接仪表盘中心和眼椭圆中心的直线L3,它应平分L1、L2之间的空间;直线U与水平面的夹角应该在30“范围内。仪表盘平面到眼椭圆中心的距离R最大为75Omm,推荐距离为710~。仪表盘平面与直线L3的夹角一般控制在80度到100度范围内。2.6.2仪表布置

仪表盘和仪表在宽度方向的位置应布置在可视区域内。为此,应该作出不受方向盘阻挡的可视区域。在可视区中心附近应该布置最常用、最主要的仪表,如: 车速里程表(10)。在最重要的仪表周围布置一般性仪表,如:发动机转速表、燃油表、发动机水温表等。有些汽车仪表盘上还集成了发电机状态、灯光、变速档位、环境温度、路面倾斜度等仪表。这些仪表排列顺序应与其认读顺序相一致,同时考虑它们彼此之间逻辑上的联系。相互联系越多的仪表应布置得越靠近。当仪表很多时,应按照它们的功能区分排列,区与区之间颜色搭配应有明显的区别。性质重要的仪表区,在仪表板上要有引人注目的背景。2.6.3仪表罩布置

仪表罩要有足够的深度,以遮住射向仪表玻璃的光线。设计时应进行眩目检查。

如果入射光经过仪表面反射后不会与眼椭圆相交,就不会产生眩目现象。仪表罩的布置不能影响前方下视野,其断面应该布置在前方下视野线Ld以下、公切线Ll的上方。仪表罩最前端与转向盘要保持一定的距离，免发生干涉。

第三部分结论

本文是对商务汽车驾驶室设计方法构架及其相关参数评价方法的有益探索，以人机工程学为基本原理，借助计算机辅助技术，对装载机驾驶室进行人机工程设计，能够提供给驾驶员舒适的驾驶姿势，良好的视野和合理的操纵装置布局，以实现安全、舒适、健康、高效的人机系统设计目标。研究过程中借鉴了其它工程车辆和汽车设计中较为先进、成熟的技术，并取得了良好的效果。本课题的主要研究工作和成果如下：

（1）在驾驶室人机工程设计方法研究中,根据重型商用车和驾驶员群体的特点, 研究了人机设计的前期条件、设计要求、设计流程、具体设计原理和基于统计学的设计工具,建立了适用于重型商用车任意目标驾驶员群体的通用人机工程设计方法。

（2）数字人体模型在汽车人机工程方案设计和工效分析中发挥着越来越重要的作用。在数字人体建模方面,本文研究了根据人体测量学数据进行数字人体参数化建模的关键问题,研究并筛选了合适的人体测量学参数,建立了人体运动学和动力学模型,研究并实现了人体肢体运动驱动和姿势求解的正向和反向运动学功能,研究了人体几何建模和外观可视化问题,以及常见人体性能,建立了三维数字化人体模型。将上述功能和汽车建模、工效分析等功能集成,开发了专用于重型商用车人机工程设计评价系统SHOVED,能够根据输入的汽车参数建立驾驶室的概念描述,生成人机工程分析的人体模型样本,对转向、变速、踩踏板等操作的上肢和下肢舒适性进行分析,进行视野分析和伸及性分析等(11)。

（3）深入研究了驾驶员驾驶和乘坐姿势的舒适性。提出了采用人体肌肉负荷作为姿势舒适性的客观量度,而肌肉负荷从宏观上根据关节载荷计算来评价舒适度的方法。进行了驾驶员姿势舒适度仿真分析,获得了姿势空间内舒适性的分布;对姿势舒适性分布数据进行统计分析,建立了姿势舒适性评价模型。克服了以往所建的模型主观因素准确性低,模型粗糙的不足。并将所建姿势舒适度模型,用于某重型商用车H点布置方案的优化设计中,收到了良好的效果。

（4）某重型商用车样车的人机性能进行了客观评价,分析了该车型手操纵件伸及性和舒适性、仪表视野、前方视野、后视野、前风挡玻璃刮扫区域、驾驶室进出方便性和乘坐空间等方面的人机工程性能。

（5）提出了一种重型商用车人机性能的主观评价方法,对所开发的重型商用车的手操纵件伸及性和舒适性、A立柱盲区、仪表视野、前方视野、后视野、前风挡玻璃刮扫区域、驾驶室进出方便性和乘坐空间等人机工程性能进行了主观评价(12)。

结果表明,所研究车型的人机工程设计方案比较合理,但仍存在一定的人机性能方面的提升空间。

第四部分参考文献

(1)中国商用汽车网

http://(2)郭竹亭,汽车车身设计[M],吉林科学技术出版社,1992年10月,36-83页；(3)中城,中国商用车之路[J],世界汽车,2005年6月,64一65页；

(4)胡晓娟、胡毅夫,国内道路交通安全现状、原因及防治对策[l],工业安全与环保,2009年第10期,49-52；

(5)陈盛、王炜等,道路交通安全与交通行为关系研究[Cl,2003中国(南京)首届城市与一L业安全国际会议论文集；

(6)顾群、顾尚华,高速公路交通事故分析与防止措施[J],江苏交通,2002年第6期；(7)李增勇、王成煮,驾驶疲劳与汽车人机工程学初探[J],机械设计与制造工程, 第5期；

5.人机工学感想篇五

人机工程学是一个不断创新不断发展的学科，人的研究不断完善，新的事物不断涌现，工作环境复杂多变。人机工程学的显著特点是，在认真研究人、机、环境三个要素本身特性的基础上，不单纯着眼于个别要素的优良与否，而是将使用“物”的人和所设计的“物”以及人与“物”所共处的环境作为一个系统来研究。在人机工程学中将这个系统称为“人——机——环境”系统。

学习课程之前，对于人机工程学我只有一个模糊的概念，认为人机工程学学习的只是如何将人与机械有机的结合在一起，现在看来这样的理解是相当肤浅的。人机工程学研究人、机械及其工作环境之间相互作用的学科，涉及的领域十分广泛，我们利用所学的知识去发明去创造，但如果偏离了人机工程的原则，再好的东西也会显得黯淡无光。换句话说，我们的生活，我们的社会是离不开人机工程学的。可见能学习这门课程对我们来说真的是很幸运。

人机工程学起源于欧洲，形成于美国，经历了经验人机工程学、科学人机工程学及现代人机工程学三个发展阶段涉及了人体科学、环境科学以及其他各个领域的学科，构成了一套相对完备的科学体系，从而确保人-机-环境系统总体性能的最优化。

人机工程学的人体科学部分涉及人的躯体、心理，这些要素是人机工程学的基础，也是必不可少的一部分。躯体方面涉及到了人体测量学，用科学的方法测量人的身高体重等人体主要尺寸以及人体尺寸极为广泛的应用，作业姿势与动作的设计与这些数据密不可分。还涉及到人在系统中的功能，感觉系统、神经系统、运动系统的功能限制和技能特点等等；心理方面则介绍了人的心理与行为构成、感觉与知觉、注意与记忆、想象与思维、创造性的心理特征等等，都与人机工程密不可分。

人机工程学中物的部分主要从操纵界面、工作台椅与工具、作业姿势与动作、作业岗位与空间等几个方面的设计。操纵界面要考虑视觉方面和听觉方面，也要考虑操纵与显示的相合性，保证界面的人机工程学要求；工作台椅设计依靠人体尺寸的测量数据，结合不同的环境应用，主要有控制台、办公台、工作座椅的设计等，工具设计主要是手握式工具设计，与人的手掌的尺寸密切相关。作业空间则需要根据不同的工作岗位来衡量，根据是坐姿作业、立姿作业还是坐立姿联合作业进行不同的设计，也需要考虑人体的尺度，对空间的布置也有要求。

人机工程学中环境及安全方面涉及了不同环境下人机工程学设计以及安全装置、防护装置的设计等。研究人体对热、光、声、振动及毒物环境的适应程度，以及在发生事故时分析原因、建立模型、避免以后再发生的策略方法等。

人机工程学还向着绿色化、虚拟化、智能化、信息化、数字化的方向发展，具有很好的发展前景。

这门课程让我认识到人机工程学是研究人在某种工作中的解剖学、生理学和心理学等方面的各种因素、研究人和机器与家具及环境的相互作用、研究在工作中和生活中怎样统一考虑工作效率、人的健康、安全和舒适等问题的一门学科。它从人的生理和心理特征为依据，以创造宜人的人机环境系统中各因素的相互关系，把人的因素作为设计的主要条件和原则。这样为设计操作安全舒适的产品提供了依据和方法。在没上人机工程学这门课程之前，在查阅我们专业的相关书籍的的过程中，我始终不明白为什么为什么要测量如此精细的尺寸。在学习了之后，明白了些许其中的道理。其实人机工学的宗旨是研究人与人造产品之间的协调关系，为设计提供依据。人机工程学是设计的基础课程，通过学习，让我们能够根据人的生理和心理特点，发现并利用人的行为方式，达到对产品、环境的合理设计。使人们的生活更加安全、方便，从而提高人民的生活质量，改变人的生活方式。

此外人机工程学对于我们的车辆专业学习有很大的帮助，在汽车驾驶室、车身及其他内部结构的设计中应用极为广泛，为我们今后设计汽车打下了一定的基础。

社会的发展、技术的进步、产品的更新及生活节奏的加快，一系列的社会与物质的因素，使人们在享受物质生活的同时，更加注重产品在方便、舒适、可靠、价值和效率等方面的评价，这也就是在产品设计中常提到的人性化设计问题。一般情况下，在设计教育中常以是否防止了使用人在操作过程中的意外伤害和错用时产生的危险较为强调突出，而消费者则从产品的视觉效果、商场气氛及产品价值来决定购买行为是否成立。因此，要想成为一个优秀的设计师应先为产品长期使用的效果及舒适度负责，避免伤害与危险更是不可忽视的考虑因素。举个简单的例子，宜家的产品就充分应用了人机工学的知识，尤其是它对空间布置的认识更是别具一格，一个五十平米不到的空间竟然布置得如此合理与温馨。由此看来，一个好的产品可以涵盖形态和人机因素。宜家还通过模型构思方案、规划尺度、合理分配空间营造了良好的设计氛围，有效地提高了设计成功率。我想，宜家的成功与良好地运用人机工学的知识是分不开的。

人机工学的学习，给我们提供了人体各部分的尺寸、重量、体表面积、重心、以及各部分在活动中的相互关系等人体结构的特征参数，了解人的视觉、听觉、触觉等感觉器官的机能特征特征，分析人在劳动时的生理变化、能量消耗、疲劳机理及人对各种劳动负荷的适应能力，探讨人在工作中影响心理状态的因素以及心理因素对工作效率的影响等。在通过仔细测量和认真分析后，我们完全体会到了人机工学应用之后的产品所具有的功能性和魅力。

人机工程学还涉及了大到宇航系统、城市规划、建筑设施、自动化工厂、机械设备、交通工具，小至家具服装、文具及盆、杯、碗、筷之类得各种生产与生活产品。在设计和制造时当然也必须把“人”的因素作为重要因素，要充分体现人性化，就是“以人为本”的观念。在这个物欲横流的社会，物质的极大膨胀必然导致人性的更多追求。因此，要想使自己的设计之路长远，就必须设计出好的产品，那么人机工学的知识必定会越来越重要。

6.无人机作文篇六

“这是我特意为你买的。”老妈跟我说到，那无人机非常小，只有半个拳头那么大，金色的外壳写着几个英文字母，金壳的四角有这四个钢铁一般的螺旋桨。金壳的下面就是放电池的地方了，电池由白壳包装，直接把电池塞到无人机地面再把电源联接起来就可以用了。

老妈告诉我，她另外买了二个电池和一个bsy充电线呢，总计刚好到三百元。我惊了，这么一个遥控器和比遥控器小的无人机和一些其它小东西居然要三百块。

不过遥控器的设计，我感觉特别奇葩，其它都好好的，就偏偏中间有一个圆的塑料盖子，我那时还以为这圆盖还有其它用处呢，没想到是用来装无人机的。失算啊。

不过我看了一遍说明书，感觉更加的神奇，就两个操作杆和左右个一个上下按扭，感觉有上千种玩法。右边按钮是上下左右微调，左边的上键是紧急升降，下键是调零，左键是专门为摔飞打造的，只要你往下扔，你爱咋扔就咋扔，一按左键立即起飞，我感觉都已经开挂了。

不过，还有让我感觉更开挂的，那就是空翻!右杆往哪个方向一按，就会向哪个方向上下翻转360度!当然，只有前后左右四个方向。

7.动作捕捉带来的人机交互设计分析篇七

通常的人机交互方式 (如键盘、鼠标) 是一种限于二维平面内的操作, 然而先进的设备产品操作会使手产生束缚感, 而且价格昂贵, 所以采用非接触方式进行人机交互, 开发了一种基于人体动作捕捉式的人机交互方式。可以应用在立体视觉、虚拟现实、增强现实和民用级产品的开发中。采用单个摄像头去获取操作部位运动的一系列图像, 将两个特定的符号标记分别贴在操作者手背和指端。通过模型分析处理图像, 获取标记在空间坐标系中的坐标变化, 去实现鼠标光标移动和按键控制的功能。使这种动作捕捉人机交互方式结构简单、成本低, 其的先进化给我们生活带来不一样的精彩。

人机交互, 就是人与计算机相互交流。通过人机接口技术, 使人与计算机之间发生联系, 计算机就可以从一个直观的反应, 让人直接的感受到其中的效果。而动作捕捉起源很早, 最初都是由一些医疗方面展现出来的, 例如:从一些伤残病人、精神病人的动作等进行研究与分析。再者, 人机交互在当今计算机行业中占据着重要位置, 其也是计算机系统的重要组成部分, 它直接影响计算机的可用性和效率。计算机cpu处理速度和性能的迅猛提高并没有提高用户使用计算机人机交互的能力, 而一个重要原因是缺少一个与之相适应的自然、高效的人机互交界面。目前, 随着计算机在人们生活中逐渐占据着重要的位置, 人机交互技术也越来越重要了。如果在教学中能充分的应用者向先进且科学的技术, 将会给教育界带来不一样的成果, 及将不断促进教育事业的发展

2 动作捕捉带来的人机交互设计分析与研究

动作捕捉与人机交互研究的内容主要包括下面几个方面:单一模式的识别技术研究;多模式人机交互技术研究;多感知信息的融合机理研究等。

2.1 多模式动作捕捉人机交互。

多模式是人与人之间的模拟。目标是将人与人之间的自然交互方式移植到人与计算机的交互中, 即让人的各种行为动作捕捉来通过键盘、鼠标、麦克风及摄像机等转换成计算机能感知到信息。人机交互的基础就是感知过程, 这点是比较难实现的。特别是视觉感知的部分, 因为现在尚未很好地得到解决。多模式捕捉与人机交互的研究主要包括以下几点:

(1) 手势识别技术。在人与人之间的交流过程当中, 手势一般的是伴着语音同时进行的。而在语言交流存在困难时, 手势的理解却是非常重要的。在大部分场合中, 他是对语言交互不足的补充。例如, 我们在给别人介绍一样东西或者事物出现不清楚的时候, 常常需要利用手势。目前而言三维手势, 计算机容易产生视觉技术困难, 目前他的实用化系统还不多。有些系统虽然采用了三维手势技术, 但大多却利用数据手套完成的。然而对这一方面来说系统成本较高, 另一方面, 交互起来也不是很自然。比较常用的是基于笔输入的手势, 是因为这种手势的识别处理相对而言要稍容易一些。所以一般的采用笔输入的手势。要是教师把这一先进技术运用到教学实践中不仅可以促进师生之间的关系, 还能大大提高课堂效率。

(2) 动作识别技术。动作识别技术正处与发展阶段, 还没有得到更广泛的普及, 如隐身技术等。对于过去而言大部分动作识别系统重点在于分析脸部和手部的动作, 而现在研发人员也开始将关注点转移到身体步态、姿势等行为举止上来。这一研究方向对三维人体的重建及虚拟现实的研究有着重要的意义。然而体感技术的突破, 看到离开键盘、鼠标的希望。比如玩网球、钓鱼这些游戏, 游戏者只需像真打网球那样挥舞手柄就可以了。动作识别系统也开始进入教育行业, 老师无需通过键盘鼠标就能播放上课时的备课PPT。

2.2 动作捕捉式人机交互多感知信息的融合

多感知信息的融合是指让各种感知通道所产生的输出信息用一定的方式联合和组合, 来产生高层的决策行为。多功能感知是对用户的智能感知, 所以需要对各个识别结果进行总的融合。认知研究表明, 人类的信息加工是在多个层次上来进行的, 并且在每个层次上都有多个信息源。多功能感知过程的融合是综合各个不同的信息, 用来提高所有通道的输入准确程度, 最终形成相对完整的用户信息, 来形成用户输入的智能感知。因此就融合的方式看, 可以分两方面。第一、在融合过程与识别过程中, 来形成一个可信度高的目标识别信息。第二、对每个识别结果需经过判断, 再比较, 并且需应用相应的知识、规则来进行推理, 最后形成一个合理的感知结果。因为多功能感知又是多通道信息输入过程, 他的主要功能是如何正确识别各个感知通道的输入, 经过高层模块处理后, 形成相对输入的相对理解。

3 动作捕捉带来人机交互的未来发

俗话说:“21世纪会是情感电脑大行其道的时代”。电脑毫无表情的时代即将结束, 虽然现在的电脑还没有七情六欲, 但是让电脑也有是人机交互的一个发展趋势。所以研究者们也正在努力让未来的计算机能做到无所不能。过去, 一直都是人类去适应计算机, 学习计算机语言。未来, 人类只要通过语言、手势、表情等输入, 机器就知道该做什么, 这就是动作捕捉技术人机交互的理想状态。然而未来即将移动化、平板化、智能化、3D化。

总之, 动作捕捉人机交互技术也越来越受到关注, 也给我生活带来很多好处。随着动作捕捉人机交互的发展, 各个领域也应该将其引用到自身的发展中, 例如:教学领域, 只有将其充分的运用到教学事业中, 那么教学事业将有一片美好的前景。

摘要：目前, 一些新型的高科技技术逐渐踊跃在社会发展的实践中, 同时也不断被被普及开来并广泛的被各个领域所重用, 比如:教学领域、办公领域等。本文先阐述了动作捕捉和人机交互的概念和地位, 然后对动作捕捉带来的人机交互设计进行分析与探讨, 最后对动作捕捉人机交互设计的未来进行展望。

关键词：动作捕捉,人机交互,技术

参考文献

[1]张雨.基于动作捕捉的虚拟运动与用户身体自然性表达[D].哈尔滨工业大学, 2010.

[2]贡国栋.基于人脸识别的人机交互探索与研究[D].太原理工大学, 2010.

[3]黄超.自然人机交互相关技术研究与系统实现[D].上海交通大学, 2010.

8.人机交互篇八

打响新年头一炮的是来自瑞典的Tobii公司，上个月结束的CES上，Tobii发布了一款名为REX的眼控外设，在显示器底部装上它后，使用者看到哪，屏幕上的箭头就会自动跟到哪，大大提升了用户的操作效率。Tobii表示今年秋季就会将REX推向市场；无独有偶，本土厂商海尔此次亦展示了一款视控电视，用户只要动动眼睛就可以切换频道并调节音量。

其实，就在过去一年多时间业界将目光聚焦在声控技术的时候，视控领域同样暗潮汹涌。

Siri发布后不到半年，Tobii就拿到了来自Intel Capital的2100万美元投资，这让它的估值达到2亿美元；而几乎就在同时，来自武汉大学的学生团队xight开发的视控技术也拿到了2012年微软创新杯中国区决赛的软件设计特等奖。

去年10月，丹麦视控技术创业公司The Eye Tribe获得了丹麦国家高科技基金2500万丹麦克朗（约合440万美元）的投资；而在国内，一家叫做七鑫易维的公司也得到了来自安迪大洋公司的投资。

经过2012年的酝酿，2013年，视控技术将会带给我们怎样的惊喜？

蓄势待发

百度CEO李彦宏在1月的极客公园创新大会上谈到了这样一个观点：许多现在看似新奇的技术其实学界已经研究了四五十年，但过去的研究并不能把这些技术推到实用阶段，因为“学术界的研究和实际的产品一直是分离的”。

不过，市场需求和商业力量的介入彻底改变了这一切。以语音识别技术为例，李彦宏表示，过去的1年里语音识别准确率提升的速度比过去15年提升速度的总和还要多。而引爆它的正是iPhone 4S和Siri的发布。

视控技术同样正在经历这样一个过程。

在民用市场上，目前视控技术的应用主要针对无法自由活动的残障人士，在他们所面临的应用场景下，视控几乎是最好的交互方式。尤其是对以英国科学家霍金为代表的“渐冻人”群体来说，由于连语言能力也已丧失，通过视控操作的电脑已经成为了他们与外界沟通的唯一工具。霍金所使用的视控设备就是IBM为他量身打造的，而前面提到的Tobii和七鑫易维都是做这方面业务起家的。

除此之外，最近几年一些市场调研机构也开始运用眼动仪追踪用户的页面浏览习惯，从而帮助客户改进网页页面的UI设计。

不过，Tobii和七鑫易维目前所处的毕竟是一个非常小众的市场，据七鑫易维创始人黄通兵介绍，他的公司目前的销售额在百万元人民币的规模，而且直到去年才实现收支平衡，去年拿到投资的Tobii显然也有更大的野心。总之，想要进一步释放视控技术的商业价值，那么将它推向消费级市场是自然而然的事。

从另一个角度来看，在各大厂商的推动下，我们日常生活中愈来愈多的东西正在变成显示屏，从手表、镜子到桌子、汽车，屏幕数目的增加带来的必然是多屏间的融合与打通。而现有的交互方式已经不足以满足人们的需求。

举个简单的例子，目前微信的摇一摇传图功能，使用户能够相对便捷地将PC上浏览网页中的图片传到手机，不过用过的人都知道，它的用户体验还有很大提升的空间。试想一下，未来当视控技术成熟后，这样的过程完全可以优化为只需要先看一眼电脑上的图片，再看一眼手机，照片的传输就能完成。

所以，无论是从公司发展还是从市场需求的角度，视控技术的转折点正在来临。而最有可能成为视控领域中的iPhone 4S引爆行业的硬件产品无疑是谷歌公司那吊足了业界胃口的Google Glass。

1月28日和2月1日在洛杉矶和纽约举行的开发者大会上，谷歌将会揭开Google Glass的神秘面纱，让开发者们近距离体验这款产品。虽然从目前的消息来看，第一代的Google Glass上还并不具备视控功能，但是在它所带来的全新应用场景之下，视觉交互一定会成为一个重要的方向，或许视控未必能够像触控一样成为独当一面的交互手段，但它一定能够作为现有交互方式的重要补充。

商业化路径

诱人的蛋糕已经摆到了桌面上，但到底怎么推广这项技术，已经入局的几家公司思路并不完全一致。

目前来看，大致可以分为两类：寻求合作或者自己单干。国外的Tobii和The Eye Tribe选择的是前者，而本土的七鑫易维和海尔选择的都是后者。

具体来说，Tobii目前的方式是开发自己的小型硬件外设，为PC提供附加的视控功能，这次CES上所发布的REX专门针对的就是使用Windows 8系统的PC；而The Eye Tribe的思路略有不同，它们目前的构想是通过技术授权的方式将视控技术需要的红外传感器整合到大厂商的平板电脑和智能手机上，使其像摄像头和陀螺仪一样成为智能终端的标配。

本土的海尔和七鑫易维则选择自己开发完全独立的设备。海尔的视控电视已经明白无误地表明了这一点。而黄通兵对记者表示，未来半年内，七鑫易维会推出一款针对消费级市场的终端设备，不过这究竟是怎样的一款设备，黄通兵卖了个关子，只是称其将是“革命性的产品。”

几家公司已经摩拳擦掌，一场人机交互的新变局似乎就要拉开序幕。然而有人却给这项酷感十足的技术泼了一盆凉水，有业内人士告诉《商业价值》，即便现在从事视控技术的公司都宣称技术安全可靠，但红外线对人眼的潜在威胁依旧不能小觑，这也为这项技术的前景增添了一些变数。

总之，视控技术能否最终成就一门大生意，大家还是先静观其变吧，因为答案或许很快就会揭晓。

【人机交互】推荐阅读：

人机交互技术实验报告01-27

网站交互设计:网站交互设计的几个原则02-07

人机工程学06-11

人机大战作文200字12-17

一种带社会化帮助的用户手册交互设计交互设计12-31

无人机心得体会08-24

民用无人机法规管理09-18

人机工程学设计论文11-02