数据库设计与E-R模型知识点(精选7篇)
1.数据库设计与E-R模型知识点 篇一
火车站网上售票系统__详细设计说明书
开始登录框登录,确定访问权限开始登录框登录,确定访问权限主界面主界面选择订票窗口N选择查询窗口选择订票窗口N选择查询窗口NNY订票界面查询车次信息Y查询界面选择退票窗口YN订票界面查询车次信息Y查询界面Y查询订票信息退票界面Y订票订票退票Y退票Y订票订票NN退出退出NY结束Y结束图4.1 系统用户权限的系统主程序流程图图4.2 新用户权限的系统主程序流程图
开始查询界面N查询车次信息Y用户输入要查询条件NY查询返回主页读数据文件输出查询结果Y继续查询车次信息关闭窗口NN订票NYY订票界面订票结束图4.3 车次信息查询流程图 火车站网上售票系统__详细设计说明书
开始订票界面NY订票输入订票信息N提交Y返回主页信息有效性N错误提示Y继续订票修改数据文件YN关闭窗口NY结束图4.4 售票程序流程图开始开始查询界面退票界面N查询订票信息YNY退票读数据文件返回主页输入退票信息输出查询结果主界面N提交Y返回主页信息有效性N错误提示Y关闭窗口继续查询订票信息N退票YN继续退票修改数据文件NYY退票界面YN关闭窗口N退票Y结束结束图4.5 售票信息查询模块程序流程图图4.6 退票模块程序流程图
2.数据库设计与E-R模型知识点 篇二
1993年, 数据仓库之父W.H.lnmon将数据仓库定义为:“一个面向主题的、集成的、随时间变化的、非易失性的数据集合, 用以支持管理层的决策”。数据仓库的概念, 决定了数据仓库特有的数据组织模式和广泛的应用前景。
数据模型是开发和构建数据仓库 (集市) 的基础;是联机分析处理和数据挖掘的重要条件。星型模型和雪花模型是基于关系数据库的数据仓库的两种典型的数据模型。目前, 数据仓库星型模型已被广泛应用。而雪花模型的实用价值还处在进一步认识和开发阶段。
一、连锁超市数据仓库星型数据模型
“星型模型”是数据仓库广泛采用的数据模型。它能准确、简洁地描述出实体之间的逻辑关系。建立数据仓库的数据模型, 一般都是在对应用主题分析的基础上, 首先建立星型模型。现以超市数据仓库为例, 认识和理解数据仓库星型模型。
一个典型的星型模式包括一个大型的事实表和一组逻辑上围绕这个事实表的维度表。
事实表是星型模型的核心, 事实表由主键和度量数据两部分组成。星型模型中各维度表主键的组合构成事实表的主键。事实表中存放的大量数据, 是同主题密切相关的、用户最关心的度量数据。“销售”是超市的主题, 因此, 在事实表中, 要准确记载各超市所有商品的销售数量、营业额、利润等度量数据。
维度是观察事实、分析主题的角度。维度表的集合是构建数据仓库数据模式的关键。维度表通过主键与事实表相连。用户依赖维表中的维度属性, 从事实表中获取支持决策的数据。围绕销售主题, 连锁超市数据仓库有以下典型的维度及其属性:
客户维:在客户维中, 建立了客户的基本信息、是否为会员客户、客户居住地域等属性。
商品维:商品不仅决定了超市的经营范围, 商品的结构、品牌、质量直接影响营业额。在商品维中, 设计了商品代码、商品名称、商品类别、品牌名称、包装类别以及商品的基本信息等维度属性。
时间维:在数据仓库的多维数据结构中, 时间维往往是不可少的一个维度。因为每项“销售事实”都是在一定的时间或者时间段内发生。针对需求, 时间维采用日、月、季、年四个属性。
连锁店维:各连锁店承担了全部商品的销售业务。连锁店的服务质量直接影响企业的竞争力、销售业绩和企业利润。连锁店维中建立了连锁店名、所在地域等维度属性。
根据分析主题和需求, 建立连锁超市数据仓库 (集市) 星型数据模型, 如图1所示。
二、星型模型的优势和不足
1. 星型模型的优势
星型模型在数据仓库中具有很大优势:
(1) 星型模型围绕一个确定的主题, 体现了数据仓库对数据结构和组织的要求;
(2) 星型模型简单、清晰的结构准确反映了用户的需求, 使用户易于理解;
(3) 星型模型维度表包含了用户经常查询和分析的属性, 优化了对数据库的浏览, 在维度表和事实表之间没有任何“迷宫”。使查询的过程变得简单而直接。
(4) 星型模型为OLAP提供了良好的工作条件, 使OLAP能通过星型连接和星型索引, 显著提高查询性能。
2. 星型模型的不足
星型模型也有明显的不足:
(1) 星型模型是非规范化的, 星型模型以增加存储空间为代价来提高多维数据的查询速度, 造成很大的数据冗余;非规范化的、含有大量冗余的维度表, 会使数据切片变得更加复杂。
(2) 由于星型模型中各维度表主键的组合构成事实表的主键。当星型模型的维不能满足要求时, 维的变化是非常复杂、耗时的。
(3) 维度属性的复杂形成的大维度问题。大维度中的长文本字段占用存储空间, 维度数据不易更新和维护;向大维度表填充数据难度增大;对事实表的查询涉及大维度表时, 会影响效率。
(4) 当维的属性复杂时, 处理维的层次关系比较困难。
(5) 对“多对多”关系, 星型模型无能为力。
三、连锁超市数据集市的“雪花模型”设计
“雪花模型”是针对星型模型存在的不足和数据分析处理的需要, 在星型模型的基础上拓展而来的。将“星型模型”中的维表规范化, 对维度表、特别是大维度表的属性按层次和类别进行分解, 形成一些局部的层次区域, 就得到一个以事实表为中心的“雪花模型”。
在连锁超市数据仓库的星型模型中, 客户维和商品维都是典型的大维度。这是因为:大的连锁超市, 客户维和商品维很深, 累计可能有数以万计的客户和上万种商品;客户维和商品维很宽, 根据需要, 这两种维可以有多个维度属性。
将大维度表“雪花化”方法是:
1. 按维属性的层次分解
维度的层次性体现在用户观察数据的粒度不同。例如:在数据集市中, 商品、商品品牌、分类是商品的三个不同层次。客户维中, 客户、会员客户、分地域的客户是客户的三个不同层次。
2. 按维的属性类别分解
维属性之间有一些是互不关联的属性, 例如:商品的品牌和包装, 是否为会员客户, 他们之间无层次关系。把维的属性类别分解形成维的局部星型关系。
3. 将非分析数据进行分离
维度表中的有些属性与事实表中的度量数据无直接关系。例如:商品的详细信息, 大小、规格;会员客户的基本信息等。将这些信息分离成一片“雪花”, 使维表和事实表尽量“精练”。提高了多维查询的速度。当我们需要这些信息时, 才到这片雪花中查找。
总之, 雪花模型要在星型模型的基础上, 描述出属性间清晰的层次和分类关系。把图1所示的连锁超市数据仓库 (集市) 星型模型“雪花”化, 就得到该集市的雪花模型。如图2所示。
四、数据仓库的“雪花模型”的应用
从形式上看, 雪花模型比星型模型结构复杂, 但设计好的雪花模型却有星型模型难以替代的应用价值。
雪花模型是星型模型的衍生。在研究雪花模型的应用时, 要用雪花模型的优势弥补星型模型的不足;还要充分继承星型模型的优势, 扬长避短, 使数据模型能在构建数据仓库和开发应用中更好地发挥作用。
1. 雪花模型在处理大维度方面的应用
数据仓库的大维度问题虽然可以通过事实表来体现, 但这种方法导致事实表极为庞大且难于管理, 当层次定义发生改变时, 事实表需要重新设计和构建。
雪花模型解决了星型模型中复杂的大维度问题。通过对维度表的属性按层次和类别进行分解;将非分析数据进行分离, 使大维度表得到有效的规范化处理, 较好地消除了数据的冗余, 从而使事实表的字段数和总长度减小, 以节省存储空间。
2. 雪花模型在建立聚集事实表方面的应用
事实表中数据的细节程度或综合程度的级别称为数据“粒度”。粒度是数据仓库事实表的重要的特征。不同的需求, 对粒度要求不同。
数据集市需要保留最低层次的细节数据。以满足数据抽取、信息查询和数据挖掘的需要;另一方面, 为提供决策支持, 需要多方面的高粒度的汇总数据。因此, 需要把使用频率高的汇总数据存放在聚集事实表中。雪花模型维度表清晰的层次关系为建立聚集事实表创造了条件。
根据聚集的概念, 在有m维的雪花模型或星型模型中, 可以建立多个n度聚集事实表 (n<=m) 。所谓n度聚集, 就是把m维事实表中的n个维度提升到一定的层次, 其余的 (m-n) 维保持最低层次。这样生成的事实表同相应衍生出的维表形成一个简明的星型模型。例如:
为了分析会员客户对各种品牌商品的购买情况, 在雪花模型中对客户维和商品维进行二路聚集即可。如图3所示。
为了分析会员客户一年中对各类商品的需求情况, 在雪花模型中对客户维、商品维和时间维进行的三路聚集即可。如图4所示。
通过各种聚集, 不仅满足了联机分析处理和数据挖掘对各种数据粒度的要求, 更可喜的是, 由于聚集产生的是结构简单的星型模型, 使星型模型的各种优势在这里得到发挥。
3. 雪花模型在联机分析处理 (OLAP) 中的应用
联机分析处理 (OLAP) 是基于数据仓库的一种多维数据分析技术, 是数据仓库的重要应用。O L A P从数据仓库中的某个特定主题的集成数据出发, 使用多维分析方法, 对客户端的请求, 对数据进行切片、切块、聚合、钻取、旋转等操作, 并通过直观的方式从多个角度、多个侧面、多个层次及多种数据综合程度对多维数据进行分析、比较, 并把结果用表格或图形方式显示给用户, 使用户了解数据背后蕴含的规律, 以达到获取相关决策信息的目的。
雪花模型及以雪花模型为依托生成的各层次的聚集事实表, 为OLAP提供了良好的工作条件。例如, 在对数据进行上钻或下钻时, 只需要向OLAP工具提供相应的不同粒度的聚集事实表即可。
为了改善数据汇总查询的性能, 可以建立一个汇总表, 将常用的全部聚集事实表的表名、粒度、相应的维度属性存放在汇总表中, 并通过数据仓库元数据进行管理。这样, O L A P就能根据汇总表的指示, 选用不同粒度的聚集事实表进行切片、切块、聚合、钻取、旋转等操作, 提高了分析速度, 弥补了雪花模型在查询速度方面的不足。
4. 雪花模型在多对多关系处理中的应用
在实际的问题中, 数据仓库的数据会出现“多对多”的关系。多对多关联不可能在星型模式中实现。但可通过雪花模型将“多对多”的关系转化成多个“一对多”关系来处理。
总之, 雪花模型提高了数据仓库应用的灵活性。使系统进一步专业化和实用化。
五、结束语
星型模型和雪花模型是基于关系数据库的数据仓库的两种典型的数据模型。星型模型是雪花模型的原型, 雪花模型是星型模型的衍生。各有所长, 各有特色。在实际应用中, 要对具体问题作出具体分析, 还要针对OLAP和挖掘工具的需要, 在两种模式之间作出权衡和选择。使数据模型在数据仓库的构建和应用中发挥出更好的作用。
参考文献
[1]W.H.Inmon著王志海等译:数据仓库[M].机械工业出版社, 2003
[2]Paulraj Ponniah著段云峰等译:数据仓库基础[M].电子工业出版社, 2004
[3]Jiawei Han Micheline Kamber著, 范明, 等译.数据挖掘概念与技术[M].机械工业出版社, 2004
[4]平静林平瑞:元数据管理及其在数据仓库中的应用[J].平原大学学报, 2006 (8) :130~132
3.数据库设计与E-R模型知识点 篇三
引言:
作为多媒体信息的一种,视频信息具有蕴涵信息丰富、数据量大等特点。相对于文本、音频、图片,视频信息由于具有时间和空间的两维结构,具有明显的优势,但对其进行编目、存储、传输、表达的难度也更大。本文将以电视新闻视频为例,来论述电视视频数据库模型的建模设计。
一、结构选定
新闻事件、现场主持人、现场同期音、时间、地点、人物、播音员、节目配音、新闻类别、播出等信息构成了电视新闻的一般属性。数据库建立的目的是:使人们可以根据数据对象的特征、属性等标识体来实现对数据库内容的处理和操作。
二、引入模型
某地广电集团新闻中制作的新闻栏目有7档,尽管各栏目涉及的新闻类别都不一样,但不可避免地会出现一些重叠的地方,所以如何实现节目信息资源的合理分配与共享是制作新闻栏目时最常见的问题。为了尽快实现摄录数字化、制播网络化的发展目标,结合了当前新闻节目制作的流程和播出管理现状,设计了电视新闻视频数据库模型。为了确定模型中对象与新闻的对应关系,要把以下新闻引入到前述的数据框架模型中:
(1)新闻序列:指某一项新闻;
(2)新闻场景:由一个或多个镜头组成,是在同一个地点、同一时间录制的视频帧序列;
(3)复合单元:一个非递归的复合单元组成一个完整的新闻;
(4)视频文档:用于表达一档播出新闻或一条新闻,和复合单元是对应的关系;
(5)地点注释:指新闻帧序列中的地点的信息,如机场、体育场、会议地点;
(6)人物注释:指新闻帧序列中的人物的性别、姓名、年龄、职业等信息;
(7)事件注释:指新闻帧序列中的事件的对象、情况、描述等信息。
而为视频建立独有的查询代数,并以模型对象与新闻的对应关系为纽带,能保证对数据库查询操作的顺利进行。视频查询代数的基本运算公式有正则集合运算(Set Operation)、时态集合运算(Temporal Set operation)、过滤运算(Filter Operation)、合成运算(Compositional Operation)、浏览运算(Browsing Operation)。在正则集合运算(Set Operation)法则下:A AND B,即返回同时出现在A和B中的所有元素;A OR B,即返回出现在A或B中的所有元素;A MINUS B,即返回出现在A中但减去了同时出现在B中的所有元素。在时态集合运算(Temporal Set operation)法则下:A tAND B,即从A与B相交的元素中返回其代表区间;A tOR B,即从A与B并集中返回其代表的区间;A tMINUS B,即从A与B不想交的元素中返回其代表的区间。在过滤运算(Filter Operation)下,只有A tREDUCE(temo-rel)B,即返回与B中至少一个元素具有给定时态关系的A中元素。在合成运算(Compositional Operation)法则下,Decompose A,将A中元素映射到基本上下文;Map to composition A,即将A中元素映射到初级上下文;Map to stream(stream)A,将A中元素映射到给定视频流的初级上下文。在浏览运算(Browsing Operation)法则下,A NNOT(type)A,即返回所有与A中元素具有相交的流区间的指定类型的注解;STRUCT(type)A,即返回所有与A中元素具有相交的流区间的指定类型结构。
将视频查询代数应用在建立的数据模型上,极大地方便了对电视新闻以下列类别的查询:内容查询、内容报告生成、复杂内容查询、剪辑表生成、结构浏览。
三、模型实现
按照此前所建立的模型,并结合电视新闻视频的特点,可建立起一个新闻视频数据库。在此数据库体系中实现视频查询的代数操作,并引入上下文概念。
为了保证数据管理系统实用,易于操作,各个新闻栏目模板的建立应以栏目板块为主线,各个数据表索引分类的建立应以相应的栏目为主,新闻数据内容检索应与各个数据表相匹配,以视频段注释描述、关键词、镜头场景为索引实现对数据的操作。
在数据索引采用方面,要以注释描述项、检索项、关键词项、特征镜头场景取代地点、现场主持、人、新闻类别、人物、记者、播出日期、新闻事件、发生时间、播音员等,加强对数据库的使用,更好地在实际的工作中应用新闻视频数据。尽管视频数据的复杂性某种程度上会影响到数据的使用,不过可以建立多个检索项目,单个或多个地采用关键词、场景镜头、注释描述来进行检索,使得数据库的检索定位更加的准确、方便、快捷,方便对某条合成好的节目或素材进行浏览、添加、删除、修改等操作建立新的节目数据库和节目迁移库为新节目的合成和播出做准备。
若需要查找《新闻半小时》栏目在2014年8月1日播出的内容。只需登录《新闻半小时》栏目,打开检索浏览界面,输入有关的关键项,然后点击“检索”按钮,系统就会显示出要找的新闻内容,弹出具有该视频首帧画面播放器窗口。
四、实验结果
结合现有的基于千兆以太网的非编制作工作组,在此次电视视频数据库模型的建模设计中,除了采用一台系统管理服务器,还采用了一台节目数据存储服务器,这是一台基于PowerEdge 2900的戴尔存储服务器。经过对《新闻半小时》栏目两个月的试验测试,基本满足了的设计要求。
五、结束语
上述电视视频数据库具有特征清晰、结构简单明了特点,数据库管理系统的建立也相对简单一点。在实际的工作中,电视视频数据库更加复杂、多变,其建立也更加困难,但本文所论述基本思路和原则应保持不变。
参考文献
[1]潘丽娜,陆伟,周国飞,等.广西气象影视视频数据库建模分析[J].气象研究与应用,2009,30(z1):226-227.
[2]杨颖.非结构化数据库在视频检索中的应用研究[J].科技信息,2013(9):73-74.
[3]刘劲松,闫剑锋,徐军,等.红外图象数据库的建立[J].电子科技,1999(16):9-11.
[4]张秋余,王鹏辉.基于对象及空间关系语义检索的图像数据库建模[J].电子科技,2008(4):56-60.
(作者单位:中国人民解放军92124部队)
作者简介
4.数据库设计与E-R模型知识点 篇四
关键词:扶贫开发,Geodatabase模型,空间数据库,多维
0 引言
随着自然资源、生态环境、气候变化对影响的不断加大,致贫原因越来越复杂,中国的贫困目前已从因政策与制度缺失等带有普遍性因素造成的贫困转变为因区域自然环境、生产生活条件等差异导致的贫困,扶贫工作面临着生态环境脆弱、自然灾害威胁严重、防灾抗灾能力不足等新的挑战,资源、环境、生态等空间数据愈发成为致贫与扶贫中的关键因素。
针对贫困地区特点、致贫原因及扶贫开发中面临的新挑战[1,2],结合贫困识别、贫困监测、扶贫成效评估、资源优化配置等扶贫业务,可以发现贫困地区与贫困相关的数据主要包括基础空间数据、资源环境数据以及各种社会经济数据,覆盖面广、数据类型复杂、时空尺度跨度大、调查方法与需求多样化[3]。为了能够满足不同的扶贫业务需求,为不同的用户提供服务,建立集成资源、环境和社会经济的多源空间信息数据库的需求越来越迫切。
建立完善、多源多维度的空间数据库可以对扶贫开发过程中涉及到的空间数据和属性数据进行有效的存储、管理与联合应用[4]。Geodatabase是Arc GIS 8引入的一个全新的空间数据模型,采用面向对象技术将现实空间世界抽象为由若干对象类组成的数据模型,每个对象类有其属性、行为和规则,对象类间又有一定的联系,允许用户定义它们之间的关系,并且能够保持它们之间的整体性规则[5]。Geodatabase定义了简单对象、地理要素、几何网络、注记要素等多种对象类型,提供了对地理信息建模的有力支持,能够满足各种不同用户和应用需要,可以为扶贫业务提供数据支撑。利用地理空间数据库技术,实现多源多维数据的有机集成和统一的访问,对于扶贫方式的选择、贫困人口和贫困户的精准识别、贫困现状的动态监测、扶贫效果的评估以及资源的优化配置都有重大意义。
1 基于Geodatabase模型的空间数据库设计
建立Geodatabase数据库主要考虑如何将逻辑数据模型转换到Geodatabase特殊的数据模型中。大致要经过数据组织、划分实体、确定关联、映射转换、数据库建立、元数据管理等过程[7~11]。
1.1 扶贫开发空间数据库的数据组织
在建立扶贫开发空间数据库前,必须结合贫困地区特点及扶贫开发中面临的新挑战,对贫困识别、贫困监测、扶贫成效评估、资源优化配置等扶贫业务与致贫原因进行充分的分析和调查了解。只有明确扶贫开发过程中所涉及数据的特点、数据构成、数据间关系,才能够建立完整、适用的数据库,为扶贫工作提供强有力的支持。
通过综合分析自然和社会致贫因素,并结合扶贫开发过程中涉及到的具体业务工作,扶贫开发空间数据库主要包括空间数据和属性数据(见图1),其中空间数据又分为矢量数据和栅格数据两种。矢量数据主要包括基础地理数据、各种专题数据(自然资源数据、生态环境数据、社会资源数据等)。栅格数据主要包括贫困区的DEM数据、正射影像数据、生态安全与价值数据、灾害数据、NDVI数据等。
属性数据主要是与空间数据和扶贫业务相关的贫困基础信息数据、扶贫成果数据以及与扶贫相关的社会经济、教育卫生、社会保障、基础设施、生活条件等统计调查资料。
1.2 扶贫开发空间数据库的逻辑设计
(1)分层方案
随着自然资源、生态环境、气候变化对贫困影响的不断加大,扶贫工作面临着新的挑战,资源、环境、生态等空间数据愈发成为致贫与扶贫中的关键因素。为了提高扶贫开发过程中对空间数据的管理、查询和分析,便于与属性数据的关联,充分发挥空间数据在扶贫中的重要作用,数据库设计按照要素主题和相关业务内容将空间数据进行分层存储和管理,表1列出了每层组织简要情况。
(2)属性数据结构设计
扶贫工作中的贫困识别、贫困监测、扶贫效果评估等业务涉及更多的是社会经济这样的属性数据,因此属性数据设计的好坏影响着扶贫工作的效率和准确性。属性数据的设计要遵循一定的准则,各维度之间以及维度中各指标之间的相关性应该最小,同时要考虑到不同年份、不同地区、不同类别数据之间的差异与联系,遵循数据库设计范式的要求,优化数据结构,避免数据冗余与操作异常。
因此数据库设计以2011年公布的《中国农村扶贫开发纲要(2011-2020年)》规划的“两不愁、三保障”(不愁吃、不愁穿,保障基本教育、医疗、住房条件)基本任务为依据,针对我国扶贫开发策略的主要工作举措,以全球性多维贫困维度与指标体系[12]作为框架、国家统计局和中国21世纪议程管理中心提出的发展指标体系,以及其他学者提出的指标体系,设计了属性数据组织结构框架,分为基础信息、社会经济、教育卫生、社会保障、基础设施、扶贫成效等6个维度,用于贫困识别、贫困监测等扶贫业务当中。属性数据表结构如表2所示。
(3)空间数据与属性数据的关联
为了实现扶贫业务中空间数据和属性数据的高效管理,满足扶贫工作中对空间数据与属性数据的双向检索要求,必须将空间数据表和属性数据表建立有效的关联关系[10]。针对这一问题,数据库设计过程中,特别制定了一套统一高效的编码规范,并对每个行政单元进行唯一编码,在空间数据和属性数据表中同时添加一个编码字段,通过唯一编码将空间数据和属性数据进行关联。每个行政单元的编码由所属贫困片区的编码(全国共有13个贫困片区,按照片区汉字首字母从1到13的顺序进行编码)和2012年公布的《中华人民共和国行政区代码》共同组成。
1.3 面向扶贫开发业务的Geodatabase模型的建立
根据扶贫空间数据的数据组织结构,结合Geodatabase模型,将空间数据分成基础地理要素集、自然资源要素集、生态环境要素集、社会资源要素集、栅格数据集五大要素集。同时扶贫业务人员和数据库管理人员可以根据扶贫区域和数据特点,有针对性地对数据进行添加修改。具体的设计结构如图2所示。
属性数据是扶贫开发过程中的关键数据。属性数据组织的好坏直接关系到扶贫工作的进展和成果。为此将扶贫开发过程中设计的属性数据按照业务需求和维度分为贫困基本信息数据、扶贫成效数据、社会经济数据、教育卫生数据、社会保障数据、基础设施数据、生活条件数据几个部分,同时扶贫业务人员和数据库管理人员可以根据扶贫区域和数据特点,有针对性地对数据进行添修改。具体结构如图3所示。
1.4 扶贫开发空间数据库命名规范
为了方便数据的管理和应用,数据库设计中要素数据集、矢量和栅格数据、属性表的命名要遵循一定的规则。因此,在数据库建立之前,首先要制定一套符合扶贫业务需求的命名规范。
空间数据中要素数据集的名称采用数据集类型与汉语拼音首字母组合来命名。要素类的名称由所属数据集名称、要素类所对应实体的汉语拼音首字母组合来命名。属性数据表的名称由属性数据维度的汉语拼音首字母来命名。属性数据字段的名称由所属维度的汉语拼音首字母、数据实体名称组合来命名,见表3。
1.5 扶贫开发空间数据库的建立
数据库建立的方法主要是依据现有数据情况来决定[5]。在本文中采用新建Geodatabase数据库并移植已经存在的数据到Geodatabase中。
现有空间数据全国行政区划图、交通道路图等基础地理数据、全国土地利用类型分布图、全国年气象数据、全国90米DEM数据等空间数据来源于地球系统数据科学共享平台;全国灾害数据来源于民政部国家减灾中心;遥感影像数据主要来源于Landcover、USGS等网站下载。空间数据经过处理,赋予相同的空间参考和投影标准。属性数据主要来源于国务院扶贫办2010年全国13个片区基本情况、发展状况、文教卫和社会保障、扶贫成效等统计资料。
根据设定好的数据结构、命名规范和已有的空间数据和属性数据,扶贫开发空间数据库建立的情况如图4所示。
2 基于Geodatabase模型的扶贫开发空间数据库的应用
根据设计好的扶贫开发空间数据库模型,结合国家扶贫业务需求,以.NET Framework为开发平台,在SQL Server和Geodatabase数据库的支持下,运用Arc GIS Engine技术和Arc SDE技术,设计了国家级扶贫开发空间信息系统。利用建立好的扶贫开发空间数据库,可以完成贫困识别、贫困监测、效果评估等业务功能,效果如图5~图8所示。
贫困识别主要是基于单维度贫困识别和多维度贫困识别。单维度贫困识别主要基于贫困强度、贫困线指数、贫困发生率、贫困等级数据对贫困地区进行精准别,进而比较地区差异。
贫困监测主要是基于空间维度和时间维度。空间维度主要基于社会经济、教育卫生、资源环境、基础设施等反映贫困的数据对各地区的贫困现状进行动态监测。时间维度主要分为对同一地区不同年际的贫困状况进行对比监测和同一时间不同地区的贫困状况进行对比监测。
扶贫成效评估主要利用社会经济、基础设施、资源环境、教育卫生等指标数据,基于评估模型和各指标的相对权重计算出评估结果,并对结果进行分级展示和输出。
注:本文中所使用的地图来源于国务院扶贫开发领导小组办公室提供的《中华人民共和国地图》和《全国连片特困区地图》,符合有关公开刊载规定的要求。
3 结论
Geodatabase模型不同于传统的文件式存储模式,不但可以支持海量数据的有序存储,而且还可以实现多用户并发访问、事务管理、数据库恢复和空间数据无缝管理等,将其应用到扶贫开发空间数据库的建设当中可以充分发挥其在数据管理中的优势,提高扶贫工作的效率和安全性。
本文通过对扶贫特点和扶贫业务的分析,建立了基于Geodatabase模型的扶贫开发空间数据库,并以国家扶贫开发信息系统中具体业务功能为例测试了数据库的可行性和安全性。实践表明,基于Geodatabase模型的扶贫开发空间数据库,实现了基础空间数据、资源环境数据以及各种社会经济数据等空间数据与属性数据的统一管理与维护,有效地解决了扶贫过程中数据类型多样、数据量大、数据关系复杂等问题,保证了数据的完整性和共享性,提高了数据检索和更新的速度,为贫困动态监测、效果评估等扶贫业务和贫困地区资源的优化配置、生态保护工作提供了强有力的支持。
5.数据库设计与E-R模型知识点 篇五
对于海量遥感数据快速处理以达到实现快速响应机制,传统的遥感数据处理平台已经不能满足当前的生产需求[3]。因此,如何快速、高效地处理这些遥感数据,以及如何迅速的从遥感数据中获取用户所需的基本信息(如概貌、土地的分类、土地利用情况、植被分布、水系的分布和变化,灾害区的范围等)是一个值得研究并且急需解决的问题,也是建立遥感快速响应机制领域的一个重要的应用和发展方向。
本文将云计算模型处理的技术引入遥感数据处理中,设计了基于云计算的海量遥感数据的云处理模型。
1 云计算模型构架
云计算的关键是如何实现大规模地连接到更加广泛的服务器甚至个人计算机,使这些计算机并行运行,各自的资源结合起来形成足可比拟超级计算机的计算能力。我们可以通过个人电脑或便携设备,经由因特网连接到云中。对用户端来说,云是一个独立的应用、设备或文件,云中的硬件是不可见的[4],如图1所示。
它的过程是这样的:首先,用户的请求被发送给系统管理,系统管理找出正确的资源并调用合适的系统服务。这些服务从云中划分必要的资源,加载相应的Web应用程序,创建或打开所要求的文件。Web应用启动后,系统的监测和计量功能会跟踪云资源的使用,确保资源分配和归属于合适的用户。
2 云计算处理模型的运行机制
基于云计算模型的遥感数据处理模型是在传统的遥感数据处理流程的基础上,突破了传统的计算模式,使用了云计算强大的计算资源来完成整个数据处理中的大量的数字运算。其中包括任务的分发、云端处理以及处理完数据的集中和影像的镶嵌等操作。
2.1 云处理模型的体系结构
图2为基于云计算模型的遥感数据处理系统的体系结构。云工作站负责管理和分发任务,云端处理服务器依据分发的任务,从云存储中取出影像进行相应的处理,通过TCP/IP通信协议与服务器建立通讯。当对应的云端处理服务器(可以是大型的计算机业可以使微型的个人机)接收到任务时,通过调用系统的计算资源进行相应的处理服务,同时通过云端系统之间的相互通信可以实现一些软件资源的共享等。
2.2 云处理模型的工作流程
图3为基于云计算模型的遥感数据处理系统的一般的工作流程,主要包括任务表的创建与分发,云端系统的具体的处理过程以及数据成品的集中和影像的镶嵌。利用云计算强大的计算资源来完成其中涉及到的巨大的运算要求。
3 基于云计算的遥感影像处理模型
在这个模型系统中,主要包括数据的预处理和专题信息的提取。在后期的制图过程中主要包括地图信息的符号化和综合。
3.1 预处理
遥感图像的预处理主要包括几何校正和辐射校正,还包括其他的预处理手段,如图4所示。遥感图像成图时,由于各种因素的影响,图像本身的几何形状与其对应的地物形状往往是不一致的。遥感图像的几何变形是指图像上各地物的几何位置、形状、尺寸、方位等特征与在参考系统中的表达要求不一致时产生的变形。遥感图像的变形误差可以分为静态误差和动态误差两大类。静态误差是在成像的过程中,传感器相对于地球表面呈精致状态时所产生的各种变形误差。动态误差主要是成像过程中由于地球的旋转等因素所造成的图像变形误差。遥感图像的几何处理主要包括图像的粗加工、精纠正,还包括重采样以及共线方程的纠正的[5]。
由于遥感图像成像过程的复杂性,传感器接收到的电磁波能量与目标本身辐射的能量是不一致的。传感器输出的能量包含了太阳位置和角度条件、大气条件、地形影响和传感器本身的性能所引起的各种失真,这些失真不是地面目标本身的辐射,因此对图像的使用和理解会造成影响,必须加以校正或消除。辐射校正就是指消除或改正遥感图像成像过程中附加在传感器输出的辐射能量中的各种噪声的过程。
在遥感数据制图中,数据的收集一般包括遥感影像数据的收集和其他非空间数据的收集,在充分收集历史和当前数据的基础上要对于资料进行初步的整理。
数据的预处理主要包括影像数据的几何处理和辐射校正。预处理的云处理模型已经在之前介绍过了。
3.2 中期操作
在传统的遥感影像专题信息提取中,主要包括影像数据的格式转化,图像的增强和均衡化、波段的融合、纠正等,文本资料的分类,地图信息的分析,同时在信息的提取中有监督法分类和非监督法分类,以及分类后处理等操作[6]。在基于云计算模型的遥感影像处理系统中,上述的操作方法不变,变化的是计算的模式。传统的处理模式是串行的处理,基于云计算的遥感影像处理模式主要是利用云端系统强大的计算资源实现影像的实时处理。
在完成任务的分发后,相应的云端通过直接的相互通信,能够下载相应的处理模块所需的软件和模块,同时按照当前服务器的计算资源状况完成相应的处理和任务的分发等。
3.3 后期操作
后期的专题地图的制作中主要包括地图信息的综合,按照专题的信息决定地图信息的取舍,突出重点的专题,省略其他无关的要素,符号化的过程主要依据可视化和视觉美学等知识进行取舍,其中涉及到大量的计算任务仍然放到云端来完成。
遥感数据的处理一般包括格式转换、图像的增强、均衡化、波段的融合等,在遥感数据的应用上主要有信息的提取、分类、专题图的制作等,如图5所示。
4 模拟实验数据类比
在这个基于云计算模型的遥感数据处理系统中我们设计使用的是云端强大的计算能力,突破传统的计算模式。
由于云计算模型从理论走向实验还有一个过程,这个实验现阶段没办法完成。武汉大学研制并开发的“数字摄影测量网格系统一DPGrid”突破了传统的计算模式,其发展思路是新一代计算模式的体现,其实验的数据对于我们本次的实验有很大的重要的意义,能够对多组数据进行了生产实验和效率对比。
表1为DPGrid系统(8台刀片服务器)与传统数字摄影测量工作站生产效率对比表。从实验5可以看出,一个中等城市(3000km2),6000幅DMC航空数码影像,8台刀片服务器,仅需要15天即可生成影像镶嵌图。而相同的数据,按照传统作业方式制作正射影像图,需要10个以上的工作人员一年以上的时问。同时由表1可以看出,镶嵌图耗时最短,因而可满足快速响应的需求。同时并行计算的效率比传统串行计算的效率提高了3—10倍,并且影像数越多,效率提高的越多。云计算平台具有更加庞大的服务器群,计算能力更加强大,相比DPGrid系统有更大的运行效率,这将使得海量的遥感数据处理得更加准确、及时。
5 结论
云计算是一种颠覆性的技术具有深刻意义,不仅对互联网服务,而且对这个IT业都是一次革命。将它应用在遥感领域更是一种大胆的尝试,作为遥感处理专业领域,如何进行海量数据存储与处理、系统的扩展与开放等是该领域长期的瓶颈,云计算的出现给解决这些问题带来了希望。本文详细探讨了遥感云计算的系统构成和实现方法,并以一个具体的原型系统展现了遥感云计算模式的用户界面、技术手段和运行流程。
摘要:云计算模型能够利用整个云网络中的计算资源,形成强大的计算能力来满足遥感数据的实时处理。于是提出一种基于云计算模型的海量遥感数据处理模型,在这个处理系统中使用控制器来实现遥感数据处理任务的分发,NDVI(Normal Differential Vegetation Index,归一化植被指数,标准差异植被指数)的提取,使得能够应用与快速的监测洪涝灾害以及实现对于沙尘暴天气以及森林火灾的实时监测,能够在极地考察中使用来监测冰川的流速,确定考察方案,提出可行的解决方案等。
关键词:云计算,遥感,分布式计算,海量数据,存储
参考文献
[1]刘异,呙维,江万寿,等.一种基于云计算模型的遥感处理服务模式研究与实现[J].计算机应用研究,2009,26(9):3428-3431.
[2]测绘发展研究动态,2009(4).
[3]张剑清,柯涛,孙明伟.基于集群计算机的海量航空数码影像并行处理——并行计算在航空数字摄影测量中的应用[J].计算机工程与应用,2008,44(13):12-15.
[4]王鹏.走进云计算[M].北京:人民邮电出版社,2009.
[5]张剑清,潘励,王树根.摄影测量学[M].武汉:武汉大学出版社,2002.
6.数据库设计与E-R模型知识点 篇六
1 WebGIS中的数据组织与管理机制
WebGIS中的数据有多种形式,根据数据格式与显示时表现形式的不同,WebGIS中的地理信息数据可分为控制点数据、遥感影像、矢量地图、栅格地图、DTM。其中控制点数据是为专业人员使用的,按精度可分为一级、二级等。遥感影像按平台高度可分为航空影像和航天影像:按照图像的性质,可分为画幅式影像、扫描仪影像和雷达影像等;按照影像所记录的电磁波段不同,又可分为全色、热红外和多光谱影像。矢量地图按照数据来源,可分为纸质地图数字化矢量图和正射影像采集的矢量图;按照数据格式,可分为军标、国标等格式。栅格地图一般由纸质地图扫描得来。DTM按数据格式可分为文本和二进制两种,多为现有等高线内插计算生成,日后将更多地由立体像对直接计算生成。另外,每种数据按获取时间的先后与现势性的优劣形成了时间上的数据不一致性;遥感影像的地面分辨率、矢量与栅格地图的比例尺、DTM的格网间距又是高低大小不一,形成了空间上的数据不一致性。可见,WebGIS中的地理信息数据种类繁多,要使用户能在如此浩繁的数据海洋中准确、高效地提取出所需数据,必须要有科学的数据组织与管理机制。
1.1 WebGIS数据的组织
WebGIS中的数据是海量数据,且是分散分布,不可能统一维护与管理,必须实行分布式存储与管理。而国家测绘部门的分布是分区域、分级别的。因此让各地区、各级测绘部门各保存一部分数据,是最自然的分布式解决方案。在一个具体的WebGIS站点上,可利用较成熟的分区域(Tile)、分类别、分图层(Layer)、面向对象的数据组织方法组织与管理数据。区域是一定地理范围内所有地理信息数据的集合,类别是数据的类型,按照数据来源与表现形式,地理信息数据库中的数据可大致分为5类:控制点数据、遥感影像、矢量地图、栅格地图、DTM。图层是一定地理范围内具有相同性质的空间实体的集合,用在矢量图的分层管理中。分区域、分类别、分图层管理的首要问题是区域的划分。矢量与栅格地图基本都是由纸质地图数字化而来,DTM中也有一些是由从纸质地图上采集的等高线数字化而来。纸质地图的分幅编号,早已将整个地球进行了严格的区域划分,可以沿袭旧制,按照分幅的方法来划分区域。具体做法是,首先将无比例尺之说的控制点数据单列为一个库,然后再按照比例尺,先将数据分成几个库,再按照现有基本比例尺地形图的分幅规则,将每个库分成几个工作区,每个工作区再按照数据的来源与表现形式分为几类,矢量地图又按照要素的属性类别分为几层(如水系层、居民地层),每层按照要素的空间类别分为点要素、线要素和面要素。需要说明的是,遥感影像的比例尺和覆盖范围不一定与按照传统的分幅原则划分的基本比例尺和区域完全吻合。解决办法是,将其归入与其比例尺最接近的基本比例尺库中和其覆盖范围最接近的区域中。
1.2 GIS数据的存储方式与体系结构
GIS发展到目前阶段有几种存储方式可以选择,大致分为四代,第一代是基于直接建立在文件上的系统。例如:MapInfoa、ArcView等等,这样的系统功能有限,一般不能处理海量数据,只能作为一些小型的GIS系统。第二代体系结构用数据库系统来管理GIS的非空间数据部分,用文件方式管理空间数据部分,两者通过系统关键字来联系。例如早期的ARCINFO,这种系统结构具有两种数据模型,两种数据操作语言,两套数据完整性机制,从而必须要有一个结合层来处理同时关联某些对象的空间和非空间数据的请求,当然两种模型各自的运行效率可能高效的,例如ARCINFO在进行空间数据的拓扑分析和空间数据质量控制有很强的功能,但是系统的整体效率却因为结合层大打折扣,因为数据的完整性只能在结合层得到保证,要通过这种模型建立以GIS为核心的测绘生产体系是很困难的。随着国际上推出OpenGIS的概念以及数据共享需求的加强,在一个数据库系统中管理空间和非空间的数据形成了第三代体系结构。第三代体系结构通过关系数据库管理系统的管理机制保证了数据的一致性、安全性、并发控制和事务管理。例如依托ACCESS、SQLServer很容易完成数据的安全存储和共享,这对测绘生产体系来说有很强的实用性。当然在这种体系中空间数据只是作为一个二进制数据字符串,不知道它们的空间语义,一些空间查询分析只能在高层应用系统上实现,这主要会影响空间数据的查询速度。第四代体系结构把空间数据作为一个对象来处理,围绕这些对象在数据库中定义了一系列的空间操作符,这样就可以借助于标准的SQL语句进行空间数据查询,这无论在数据共享还是数据的质量控制方面都有着无比的优势。虽然面向对象数据库管理系统还没有成熟的产品,但作为过渡阶段的ORACLE9i以上版本通过对象-关系模型在一定程度上实现了部分功能。ORACLE定义的SDO_GEOMETORY对象可以存储各种类型的图形数据,围绕这一对象又定义了许多空间算法嵌入到SQL语句中去,以此为基础基本实现了以GIS为核心的空间数据采集、更新、管理模式。
1.3 WEB GIS数据发布方式与安全需求
要在网上发布GIS数据,需要考虑网络的传输速度和数据的安全性两大方面。一般来说要发布的GIS数据不能直接从数据里拿出来用,网络用户有两种方式使用GIS数据,一是在屏幕上浏览GIS数据,做一些查询分析操作,二是下载GIS数据。对于第一种方式,由于受到目前计算机屏幕的显示精度,数据库里高精度的数据无法通过屏幕分辨出来,所以把要上网的数据进行简化是减小数据传输量的一种方式。对于需要的发布数据可以采用加拿大MRFGeosystemsCorporation的MRClean在Geomeida环境下进行数据简化处理。对于第二种方式,从数据安全的角度考虑,可以生成可供下载的数据集。所以对于在网络上发布的GIS数据必须通过一定的制作,当然由于全部采用了数据库管理,这种制作完全可以通过程序批处理完成。对于WEBGIS由于受到网速限制,数据安全管理方面等原因的影响,可以建立自己的客户端插件,针对自己的数据特点,开发自己的地形图浏览控件,定会取得良好效果。
2 WebGIS体系结构模型设计
与传统的GIS相比,WebGIS体系结构发生了根本性的转变,它基于浏览器/服务器体系(浏览器、中间件服务器、数据库服务器),三层客户机/服务器模型(用户界面层、中间件服务器、GIS数据层)。如
图1所示。WebGlS不但具有大部分乃至全部传统GIS软件具有的功能,而且还具有利用Internet优势的特有功能,即用户不必在自己的本地计算机上安装GIS软件就可以在Internet上访问远程的GIS数据和应用程序,进行GIS分析,WebGIS的关键特征是面向对象、分布式和互操作。
2.1 WebGIS实现技术的比较
随着网络的迅速发展,实现WebGIS出现了多种技术方法,如CGI,WebAPI,Java等。CGI缺陷是其浏览器的请求与生成的进程一一对应,它的进程通常都不在常驻系统内,只要有客户需求送置,服务器就要建立一个新的进程,致使多个用户同时访问时,系统资源占用过多,执行效率低。基于API的WebGIS与服务器联系较紧,用户发出的所有请求都在服务器端完成,客户端仅起了一个图形终端的作用,对服务器性能要求较高,程序移植难度大,也容易使服务器瘫痪并且没有统一标准,通用性很差。Java语言是针对Internet应用而开发的编程语言,它具有“一次编译,处处运行”的效果,能实现Web的数据分布和操作分布。Java的特殊性质使它成为开发Web-GIS的主流技术。但在实现大型GIS任务时能力也受到限制。
2.2 基于J2EE的WebGIS系统设计模型
首先,根据J2EE的规范,从总体上部署三层网络应用,如图2所示。
其中,客户端是Java的Applet类,根据HTTP协议,它发请求传给Web服务器,再由Web服务器通过JDBC取得企业资源信息即EIS,EIS具体表示为分布在网络的多数据库服务器。接收的数据经Web容器处理后,结果写入应答,返回客户端浏览器。所有的部件均由Java实现,如客户端的浏览器件,中间层的专题制图部件,统计分析部件,显示部件数据管理部件和JDBC数据组织部件等。部件化结构必须满足下列条件:所有的方法对用户而言是透明的,同样的信息送给不同的对象会产生不同的结果。基于现有Class的新的Class可以重用所继承的Class的所有开放方法和功能。在运行时可以连接来自不同地点的对象。
中间层Web容器服务器主要包括Servlet、数据存储部件等,具体见图3所示。
其中的Servlet类接收来自客户端的请求,并且通过数据存取部件通过JDBC取得EIS数据,查询的结果经数据存取部件处理,将结果返回Servlet/JSP,再由HTML/XML协议将应答返回客户端。
2.3 基于J2EE的WebGIS系统设计模型特征
基于J2EE的WebGIS系统设计模型具有显著的特征。首先,Web服务器、客户端、多JDBC数据获取服务器和多数据库服务器的任务是完全分离的。Web服务器提供Web服务以及系统运转所需的类。多数据库服务器的任务则是数据服务,例如数据计算和数据操作。多JDBC数据获取服务器提供了数据库服务器和客户机之间的接口。此外,包括显示、查询、专题图的生成分析等在内的基本操作任务是在客户机上完成的。其次,计算是分布在网络上的,有一些计算是在客户机上完成的,而有关数据库管理的计算、复杂的空间分析则是在多数据库服务器上完成的。再次,多JDBC数据获取服务器和多数据库服务器均是分布在网络上的。这种模型还提供了多数据源的互操作性,以同时操作多种GIS数据源格式的数据。
3 结束语
基于J2EE的WebGIS具有其他方法无可比拟的优点,首先,服务器传送给用户的是空间矢量数据,而不是由服务器处理好的静态图像,所以不仅可以查询地图数据,还可以分析和更新数据。其次,由于在网上传输的是各类矢量图形数据和属性数据,较之图像数据流量大大降低,加快了对用户请求的响应速度。再次,随Web页传入客户端的Java程序可以直接在用户机器上执行,无须安装,也不会产生复杂的软硬件兼容性问题,简便可靠;在服务器端采用Java构件技术,平台移植性好。最后,也是最重要的一点,由于客户端成为强大的智能型客户端,常规的操作无须通过网络传输给服务器处理,因此降低了服务器的处理负载,使之可以响应更多的请求,这符合当今的负载均衡的网络发展要求。WebGIS极大地改善了传统GIS系统的结构、性能以及开发使用方式,虽然实现其方法有多种,但是其基本体系结构依然是C/S结构。实践表明,基于J2EE的WebGIS的技术实现有许多优点,JavaApplet的安全性较高;Servlet是与平台无关的,并且效率非常高;利用JDBC访问数据库移植性好,与数据库无关,而且与平台无关。
摘要:WebGIS是Internet发展及信息共享要求下的产物。但是,目前许多InternetGIS软件大都是基于文件的数据组织,只适合小数据量的数据发布,系统的移植性和扩展性都很差。对于海量的矢量数据、影像数据的网上发布方面发展还不成熟,这使得海量空间数据的共享受到了很大的限制。该文首先论述了WebGIS的数据存储模式、组织方式与数据发布,进而对基于Java语言的WebGIS设计模型和实现途径进行研究和探讨,分析它们各自的工作原理和优缺点,在此基础上,提出一个利用Java相关技术进行服务器端应用开发和客户端浏览器功能拓展开发相结合的WebGIS构建方案。实践表明,该结构可以实现GIS的远程服务功能,加快对用户请求的响应速度,并且客户端成为强大的智能型,降低了服务器的处理负载,具有使负载均衡的特点,实现Web服务与GIS服务的无缝连接。
关键词:WebGIS,数据存储,设计模型
参考文献
[1]InderjeetSingh,BethStearns,MarkJohnson,and the Enterprise Team.Designing Enterprise Applications with the J2EE Plat-form,Sec-ondEdition[M].U.S.A:Addison-Wesley,March2002.16-18.
[2]An ESRI White Paper,ESRI Shape file Technical Description[M].U.S.A:Environmental Systems Research Institute,inc,July1998.2-5.
[3]Ed Roman.Mastering Enterprise Java Beans,Second Edition[M].U.S.A:John Wiley&Sons,Inc,2002.22-27.
[4]何建辉.JSP设计[M].北京:中国电力出版社:2002:35-40,48-54.
7.基于知识树的知识表示模型设计 篇七
通过对现有各种智能化教学系统进行分析,不难发现要实现系统的智能化关键要解决两个难题:一是网络课程的知识表示模型设计二是获取用户兴趣的用户模型设计,典型的智能化教学系统模型如图1所示。
用户模型:描述用户的个性特征,包括用户基本信息、学习风格、学生兴趣、认知水平(背景知识、知识熟练程度、认知能力);学习行为记录了用户的学习历史过程(如访问哪些资源、学习时间、访问次数等),系统可根据用户的学习历史过程更新用户模型。
课程知识库:智能化教学系统的核心,是实现个性化知识推荐的关键。知识表示模型决定了知识库的架构。知识表示模型能够有效地控制教学过程,与科学的教学策略相结合,能够满足个性化知识推荐的需求,实现因材施教的教育思想。知识表示是学科知识与教学策略的整合,它的实质是知识的符号化,主要是为了便于计算机对知识进行存储和处理。目前,使用较多的知识表示技术有一阶谓词逻辑表示法、语义网表示法、产生式表示法、框架表示法等。课程知识库[3]包含与知识点对应的教学素材、试题、辅助学习资料等,它包含知识点属性和知识点链接两个部分,是知识表示的基础,反映了知识库的层次结构和知识点之间的相互关系。
知识点过滤推荐算法:在用户模型、课程知识库基础之上,根据不同类型的学习风格及个性差异,选择相应的教学内容和教学策略,适应性地向用户推荐最佳学习活动序列和学习资源。
呈现模型:该模型的主要工作是将个性化推荐结果返还给用户,个性化推荐结果可以以各种方式返还给用户,如信函、电子邮件、网络电子公告栏等。
1 知识表示模型设计
网络课程的知识结构可以看做是一棵倒立的知识树,课程相当于根,每一章和每一节构成树的茎,知识点是树的叶。课程的章节之间存在着一定联系,课程的知识点也存在着内在联系,通过前驱、后继关系描述这种联系,并通过关联度反映知识点之间关联的紧密程度。每一个课件或者每一个专题讲解资料都对应一个或者若干个知识点。基于此种思路,该文设计的知识表示模型如图3所示,它也是下文进行个性化知识推荐的基础和依据。
1.1 知识与知识点
知识点:是指不能再分的完整、独立的基本知识单位,如数学中的基本概念、定义等。
单元知识:由内容相关度较高的知识点整合而成,如教材中的每一节知识,就是由若干相关的知识点整合而成。
章知识:由若干相关的单元知识整合而成,是比较完整的教学知识的表达。
课程知识:由若干篇章知识整合而成,其特点是知识体系相对系统、完整、独立,通过课程的学习,学员能够深入掌握某种专门的技能,或为进一步学习打下良好的基础,如高等数学课程、网络设计课程等。
为了方便用户学习,知识点划分的基本作法是教科书的一章可以化为一个大的知识点,其中一节的内容又可细划为较小的知识点,一节中的定义、定理等还可以划分为更小的知识点。从这种知识组织的角度来讲,将知识点分为基本知识点和整合知识点两种基本类型。其中基本知识点为领域知识中最基本的知识单元,对教学而言基本知识点在内容上具有不可划分性。而整合知识点由两个或两个以上的知识点组成,组成整合知识点的知识点可以是基本知识点,也可以是若干整合知识点的整合[3]。
知识点是教学组织的知识单位,就计算机专业的《操作系统》课程而言,见下图,知识点可以是一个概念、一个实例、某个操作,某个实现模式等,也可以是几个知识点的整合或一个知识点的分解。
1.2 知识表示模型的设计[4]
该文的知识表示模型特点是通过层次关系描述知识点之间的相互关系结构,为此定义了两种关系:前驱关系和后继关系。
(1)前驱关系:例如,知识点“进程”与“线程”之间的关系。知识点“线程”的学习依赖于知识点“进程”的学习,则知识点“进程”是知识点“线程”的前驱。前驱关系具有传递性,如果A是B的前驱,B是C的前驱,则A是C的前驱。
(2)后继关系:例如,“线程”与“处理器调度”之间的关系。学习完知识点“线程”后学习的知识点为“处理器调度”,则“线程”与“处理器调度”构成后继关系。“处理器调度”是“线程”的后继。后继关系与前驱关系是互逆的。后继关系也具有传递性。
课程的知识表示模型可通过知识之间的层次关系图描述。下图是《操作系统》课程的教学知识层次关系图,图中由若干结点与知识点组成,每一个结点表示一个知识点,结点之间的连线表示它们之间具有关联关系,连线上的值代表关联程度。关联程度是反映知识点之间相互关系的基本参数,整个课程的知识结构由这种层次关系图描述,不过,如何科学的确定知识点之间的关联程度,直接影响对课程知识体系的表述与构建,显然不可以随心所欲地主观确定。我们的作法是:由若干有丰富教学经验的老师先提出各自的预案,对知识点间的关联度先给出参考值,然后通过求取平均值来确定。
知识点之间的关系可能有一个前驱知识点多个后继知识点,例如:对于知识点“进程”,它有一个前驱知识点“进程管理”和多个后继知识点“进程的基本特征”、“进程状态及转换”、“进程描述”和“进程控制”。此外,知识点还会有如下几种情况:一个前驱知识点一个后继知识点;多个前驱知识点一个后继知识点;一个前驱知识点多个后继知识点;以及没有前驱知识点或者没有后继知识点等情况。
图3的分析思路相应的表格设计如下:
知识点描述表(编号,名称,描述,所属章节),编号为此表的主键。
知识点关系表(编号,前驱知识点编号,知识点间的关联度),编号和前驱知识点编号共同作为此表的主键,知识点编号是相对于知识点表的外键。对应的表关系如下:
表1中知识点“进程”有一个前驱知识点“进程管理”和多个后继知识点“进程的基本特征”、“进程状态及转换”、“进程描述”和“进程控制”,它们的关联度分别为0.8,0.7,0.7,0.60
2 个性化知识推荐[5]
在完成了基于网络课程的知识表示设计的基础上,实施课程知识点的个性化推荐。侧重通过知识点之间的关联关系(如表1所示)来进行知识点的推荐,考察用户过去的学习行为也即浏览访问的知识点,从而可以获取用户感兴趣的学习内容,并向用户推荐同类的教学资源。知识树过滤推荐算法的具体步骤如下:
1)通过对课程的基本知识点的测试,获得用户的基础水平,根据专家经验,向用户推荐符合其基础水平的章节知识点进行学习。具体思路如下:
若用户是新生,则用户基础水平的知识点范围涉及本课程的基本知识点内容,根据专家经验向学生推荐章节进行学习,如:
If认知水平值<=0.3 then学习第四章知识点
Else if认知水平值>=0.7 then学习第六章知识点
Else学习第五章知识点
若用户是老生,测试其基础水平,分析其对此章节的学习掌握程度,以决定推荐下一章节的学习或前一章节的学习,如:
If认知水平值>0.5 then学习下一章节知识点
Else学习上一章节知识点
2)获得用户可能感兴趣的知识点集合。通过上步测试,确定向学员推荐当前适合的知识点,并得到这些知识点的后继知识点根据知识点关联度属性,去掉关联度小于0.5的相邻知识点。表1表示了知识点间的关联度,知识点“进程”有一个前驱知识点“进程管理”和多个后继知识点“进程的基本特征”、“进程状态及转换”、“进程描述”和“进程控制”,它们的关联度分别为0.8,0.7,0.70.60,表明这些知识点的关联度都超过0.5,即它们与知识点“进程”关系密切,是用户必须学习掌握的内容。如果当前访问的知识点是“进程”,则用户感兴趣的知识点集合包含这些后继知识点。
3)然后选择当前知识点相关度最高的前若干项(Top-N)作为推荐结果给当前用户。
3 实验评估设计[6]
为验证知识树过滤推荐算法的准确性和有效性,按以下方法进行实验评估设计:由多名专家通过讨论提出操作系统课程到底包含哪些基础知识点,我们的设计方案中应有30个基础知识点,并组织专家提供两套操作系统试题,每套30个选择题,每个选择题都是对一个基础知识的考核,并且考核的难度相,只是考核的角度有所不同。
第一步,抽取15名用户对第一套试题进行自测,该套试题共涉及到30个知识点。测试后,根据知识点掌握熟练情况及知识点间的关联程度按知识树过滤推荐算法获取推荐集合。
第二步,组织用户按照推荐结果进行复习,用户复习完全部推荐内容后,组织用户对第二套试题进行自测,并对自测成绩和第一次自测成绩进行对比。通过统计,15名学员推荐前的平均学习成绩为38,通过知识树过滤推荐算法进行学习后的平均学习成绩则达到84,算法的有效性值得肯定。
4 结论
该文研究网络教学平台下如何实施因材施教,为学员提供个性化知识推荐问题,通过知识库、教学方法、教学手段、学员认知水平等方面的协同整合,实现目标知识的发现、定位及访问,是对传统的填鸭式教学的变革,使网络教学平台智能化。为此基于网络课程进行了知识表示模型的设计,在此基础上提出了一种知识点过滤推荐算法,能够避免“冷启动”造成的对新学员无法进行知识点推荐的问题,也能够针对个体特征引导学生学习,从而改善用户学习效率低、学习过程盲目混乱的状况,能够激发学生求知的欲望,引导学生主动探求知识,让学生与教学平台“互动”起来。但该文的研究局限于网络课程,而不是网络教学平台的个性化知识推荐研究,需要今后进一步扩展和完善。
参考文献
[1]杨德华.个性化远程教学模型的研究与实现[J].现代远距离教育,2008(2).
[2]李高敏.基于协同过滤的教学资源个性化推荐技术的研究及应用[D].北京交通大学,2010.
[3]曹伟.自适应网络教学系统中知识表示模型的设计[J],计算机仿真,2010(3).
[4]胡晓楠.基于知识点的学习内容个性化推荐研究[D].重庆大学计算机学院,2010.
[5]Jonathan L.Herlocker,Joseph A.Konstan,Loren G.Terveen,Johh T.Riedl,Evaluatingcollaborative iltering recommender systems.ACMTransaction on Information Systems,2004,22(1),20-21.
【数据库设计与E-R模型知识点】推荐阅读:
《数据库设计与实践》课程报告09-20
方志传记资料索引数据库的设计与实现10-26
数据与信息教学设计10-15
国土资源数据中心的设计与研究10-27
数据库每章知识点总结10-21
基于USB总线通信数据采集器的设计与实现08-11
access数据库知识09-17
数据库技术课程设计08-10
实验一数据库设计08-31