数据仓库毕业论文(精选15篇)
1.数据仓库毕业论文 篇一
广西财经学院2007——2008学年2005级《数据仓库与数据挖掘》卷
2、请列举您使用过的各种数据仓库工具软件(包括建模工具,ETL工具,前端展现工具,OLAP Server、数据库、数据挖掘工具)和熟悉程度。
ETL工具:Ascential DataStage,IBM warehouse MANAGER、Informatica公司的PowerCenter、Cognos 公司的DecisionStream
市场上的主流数据仓库存储层软件有:SQL SERVER、SYBASE、ORACLE、DB2、TERADATA 但是使用过的只有SQL SERVER和数据挖掘工具Analysis Services,而且不大熟悉。
3、请谈一下你对元数据管理在数据仓库中的运用的理解。
元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:(1)描述哪些数据在数据仓库中;(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;(4)记录并检测系统数据一致性的要求和执行情况;(5)衡量数据质量。
4、数据挖掘对聚类的数据要求是什么?
(1)可伸缩性(2)处理不同类型属性的能力(3)发现任意形状的聚类(4)使输入参数的领域知识最小化(5)处理噪声数据的能力(6)对于输入顺序不敏感
(7)高维性(8)基于约束的聚类(9)可解释性和可利用性
5、简述Apriori算法的思想,谈谈该算法的应用领域并举例。
思想:其发现关联规则分两步,第一是通过迭代,检索出数据源中所有烦琐项集,即支持度不低于用户设定的阀值的项即集,第二是利用第一步中检索出的烦琐项集构造出满足用户最小信任度的规则,其中,第一步即挖掘出所有频繁项集是该算法的核心,也占整个算法工作量的大部分。
在商务、金融、保险等领域皆有应用。
在建筑陶瓷行业中的交叉销售应用,主要采用了Apriori 算法
三、翻译分析题(30分)
1、附件有一名为“Data Mining in Electronic Commerce”的电子文档,请同学们翻译其中的一段。每位同学翻译的段号以大家学号的最后两位为准,如10号同学只需翻译正文的第10段,以此类推。
分类则是一个标准的问题,在数据挖掘和在电子商贸的应用-原则下,适当的方法[随机森林,支持向量机(支持向量机),后勤拉索等]有赖于敏锐地在该网
站上,该类型的广告都是可以收集到的资料。在亚马逊商务网站中,该推荐系统已进入先前购买和书籍进行视察。
这是一个更丰富的信息来源,通过dictionary.com可以接入(他们只
知道这个词,有人期待在这次会议上,除非他们有库克-网页)。一些企业获得更多的信息,从数据仓库中,如作为choicepoint公司,这使得他们的专家来建立高度个性化的分类规则。
2、通过阅读该文挡,请同学们分析一下数据挖掘在电子商务领域的应用情况(请深入分析并给出实例,切忌泛泛而谈)。
随着网络技术和数据库技术的成熟,全球传统商务正经历一次重大变革,向电子商务全速挺进。这种商业电子化的趋势不仅为客户提供了便利的交易方式和广泛的选择,同时也为商家提供了更加深入地了解客户需求信息和购物行为特征的可能性。数据挖掘技术作为电子商务的重要应用技术之一,将为正确的商业决策提供强有力的支持和可靠的保证,是电子商务不可缺少的重要工具。
电子商务的发展促使公司内部收集了大量的数据,并且迫切需要将这些数据转换成有用的信息和知识,为公司创造更多潜在的利润,数据挖掘概念就是从这样的商业角度开发出来的。
由于数据挖掘能带来显著的效益,它在电子商务中(特别是业、零售业和电信业)应用也越来越广泛。
在金融领域,管理者可以通过对客户偿还能力以及信用的分析,进行分类,评出等级。从而可减少放贷的麻木性,提高资金的使用效率。同时还可发现在偿还中起决定作用的主导因素,从而制定相应的金融政策。更值得一提的是通过对数据的分析还可发现洗黑钱以及其它的犯罪活动。
在零售业,数据挖掘可有助于识别顾客购买行为,发现顾客购买模式和趋势,改进服务质量,取得更好的顾客保持力和满意程度,提高货品销量比率,设计更好的货品运输与分销策略,减少商业成本。
电信业已经迅速地从单纯的提供市话和长话服务演变为综合电信服务,如语音、传真、寻呼、移动电话、图像、电子邮件、机和WEB数据传输以及其它的数据通信服务。电信、计算机网络、因特网和各种其它方式的通信和计算的融合是的大势所趋。而且随着许多国家对电信业的开放和新型计算与通信技术的发展,电信市场正在迅速扩张并越发竞争激烈。因此,利用数据挖掘技术来帮助理解商业行为、确定电信模式、捕捉盗用行为、更好的利用资源和提高服务质量是非常有必要的。分析人员可以对呼叫源、呼叫目标、呼叫量和每天使用模式等信息进行分析,还可以通过挖掘进行盗用模式分析和异常模式识别,从而可尽早发现盗用,为公司减少损失。
四、编程题(20分)
请大家用所学过的java语言改写p192-p194的vb核心源程序
2.数据仓库毕业论文 篇二
一、数据集成原理概述
由于保险业务性质决定保险业务系统处理逻辑复杂, 数据量大, 再加上种种原因还保留许多历史遗留系统, 开发平台和技术规范也不统一, 给数据仓库的数据集成带来了不小的难度。因此, 在数据集成设计时, 既要考虑满足数据仓库之初管理需求的实现, 又要考虑实现数据规范的统一、避免对OLTP (联机事务处理) 数据库性能的影响、减少对OLTP库结构的修改等约束, 在保证数据抽取质量和效率的前提下, 我们提出的保险数据仓库数据集成解决方案, 如图1所示。
(一) 各数据抽取层概述
1. OLTP数据源
即所有保险联机事务处理数据库, 以及其他非结构化数据。为减少对OLTP的性能影响, 对各生产库要抽取的源数据表增加了插入、删除、修改触发器, 由触发器调用数据库内核捕获OLTP数据源的表记录变化, 并按事务处理前后将这种变化保存在轨迹库中。
2. 轨迹库
即保存反映OLTP数据变化的轨迹数据库, 与OLTP数据源是一对一关系, 且尽量选择相同数据库, 这样确保对OLTP性能影响小。它与OLTP数据库表结构的不同之处在于, 轨迹库表除比OLTP数据库表多3个字段外, 其他字段结构相同, 多的3个字段分别为:变化类型标志 (I:插入, D:删除, U:修改) 、更新时间戳、标志型字段。如一条记录在生产库中先被插入, 而后修改再删除, 这样在轨迹库中将保存三条记录。
3. 同构库
选择与后续数据仓库、ODS相同的数据库平台, 实现各异构的OLTP数据库平台的统一, 其库结构与OLTP轨迹库相同, 而记录信息除要保存删除记录外, 其他与OLTP数据源表一致。它是通过ETL工具获取OLTP轨迹库中最后记录状态信息, 仅反映生产库的当前状态。
4. 操作数据存储 (ODS)
是对多个OLTP库经过ETL (即数据抽取、转换、装载) 过程按照主题进行有效地集成, 定期刷新, 包含当前有效数据, 是数据进入数据仓库前的缓冲区。其具备4个特点:面向主题、集成性、近实时数据发布、当前数据。
5. 数据仓库 (DW) 和数据集市 (DM)
包含大量从ODS层传送来的历史数据, 传入数据一般不再修改。它是面向分析型数据处理, 支持分析决策, 不同于操作型数据库, 具备4个特点:面向主题、集成的、相对稳定的、反映历史变化。数据仓库是满足企业级管理决策需要, 而数据集市是满足部门级管理决策需要而设置, 可看成数据仓库的子集。
(二) 数据抽取层间关系
OLTP数据源到轨迹库是通过触发器方式减少数据抽取对OLTP生产库的性能影响, 而轨迹库到同构库是解决数据库平台统一问题, 将不同数据库统一到同构库中, 形成与生产库同构的数据, 同构库到ODS库是分主题的数据集成, 用于数据进入DW前的数据缓存, ODS到DW是生成代理键及映射表的过程, 由于数据进入DW生成了代理键, 不便根据业务键进行回溯关联更新, 同时从同构库到ODS中有多对一表的抽取, 情况更为复杂, 不便查错。因此设计ODS非常必要, 这样也保证ODS到DW的抽取基本上是一对一的抽取。
二、关键抽取技术设计
数据抽取主要有全量抽取和增量抽取。全量抽取比较简单, 在此不再累述;增量抽取主要有触发器、时间戳、全表比对、日志比对等方式。下文就触发器和时间戳增量抽取方式中的一些关键技术与大家进行分享。
(一) 抽取控制表的设计
本控制表存在除生产库外的所有源数据抽取端的库中, 用于增量抽取控制。其中endid和curid是自增长型的标志型字段, 如数据从生产库进入轨迹库时会产生系统时间戳和标志字段, 而通过抽取控制表可以确定本次数据抽取范围, 实现增量抽取。另外, 此处endtime和curtime的设计是增加系统的可靠性。
(二) 抽取频率及精度设计
数据增量抽取是在各抽取层间从前至后顺序流动, 为保证数据抽取的有效性和准备性, 后面抽取频率应低于或等于前面的抽取频率, 后面抽取时间戳精度应低于或等于前面抽取层的时间戳精度。同时, 只要不是最后一级数据层, 即使是到DW层, 若还有后续抽取, 则都应在各级数据层中设计时间戳 (捕获更新数据行) 和增删标志 (有效确保删除目标数据层中的删除或被修改前的数据) 字段, 以便数据正确流转。
从同构库开始后的一表对一表的数据流转方式:根据源数据层Etl Ctl控制表中的时间戳起点及源数据表中的最大时间戳确定被更新的数据范围, 抽取数据到临时表, 根据主键关联删除目标正式表中的数据, 将临时表中的数据插入正式表, 若此时正式表为最后一层数据层, 此时将临时表中增删标志不为‘D’的插入即可。另外, 因为同构库中数据与OLTP数据源中数据是同构的, 所以即使后续数据的抽取频率变低, 数据流转方式与上面的相同。
(三) 防主键修改的触发器设计
针对有主键表的增量抽取方式, 若在OLTP生产库中修改了主键值, 通常做法是通过更新触发器插入轨迹库一条更新的数据记录, 但由于有主键的后续抽取是通过主键进行判重删除的, 这样将导致同构层数据原主键记录形成垃圾, 无法删除。鉴于此种情况, 我们对OLTP生产库的更新触发器改为两条插入触发, 插入一条主键修改前原记录, 同时标志为D, 再插入一条主键修改后的新记录, 同时标志为I。这样, 在抽取包中按主键查重后, 不会因修改了主键而产生冗余垃圾记录。如对表agent_post_mclerk的更新触发器修改为:
(四) 多表对一表的数据抽取设计
多表对一表的数据抽取过程中, 往往由于源数据层的多表数据准备不同步, 有的表数据先准备好, 有的表数据后准备好, 导致进行多表数据关联抽取时数据遗漏, 从而影响后续数据抽取的正确性, 为此须采取措施保证多表数据到目标层后数据的同步性和正确性。通常做法是:先通过在Etl Ctl控制表采取左关联, 确保控制表数据不会掉, 然后用另一个表关联更新目的表所有字段。这种抽取方式虽然可以保证数据的准确性, 但不能保证数据的一致性和同步性 (同步更新) , 同时关联更新此表时必须用另一个表的全表数据更新, 查询数据量大, 效率低, 因此这种方式不可取。为了保证数据的正确性、同步性, 采取的设计原则是:只有多表的关联记录数据全部准备齐了才一同到达目标层。
考虑到生成的目标表是否要对关联的源数据多表进行聚合运算, 在此分两种情况进行分别讨论。现假设要从源数据层的A表:psn_customer (cust_id, …, upd_flag) 和B表:customer (cust_id, …, upd_flag) 中, 抽取数据到目标层的C表:c02 (cust_id, …) 中, 前面带下划线的字段为表中的主键 (此处源表的关联条件是否构成目标表的主键均没有任何影响, 将其设置为目标表主键是为了更方便理解) 。
1. 多表对一表时不进行sum, average, count等聚合运算, 但可进行distinct运算的情况
根据表间关联条件抽取数据, 并根据upd_flag值决定, 只要有一个为‘D’, 则值为‘D’, 同时不为‘D’时, 才为‘I’, 然后生成的临时表数据根据目标表主键对目标表进行先删除后插入操作。
(1) 更新抽取控制Etl Ctl表:update Etl Ctl set
2. 多表对一表抽取时进行了 (不含distinct) sum, average, count等聚合运算的情况
此时应分两步:第一步先根据有效或无效 (删除) 数据生成2个临时表 (字段为目标层表的主键) , 2个临时表的数据为第二步回溯抽取数据的条件;第二步以临时表字段为条件关联回溯抽取源多表数据 (当然原多表的关联仍然保存) , 生成对应2个新的明细临时表, 进行distinct临时表数据, 而后取合生成正式表数据, 再对正式表进行先删后插操作。
(1) 更新Etl Ctl表:update Etl Ctl set
三、结束语
3.基于数字校园数据平台的数据仓库 篇三
[关键词]数字校园 数据平台 数据仓库工程
数字化校园建设中数据仓库的架构
数字化校园的构成可以用图1表示,计算机网络是数字化校园的基础设施;网络基本服务是数字信息流动的基础,包括电子邮件、文件传输、域名服务、身份认证、目录服务等;在此基础上要建立各类基于网络的数据仓库,包括职能信息库、课程资源库、数字化图书资源等;应用支撑系统包括办公自动化系统、各类管理信息系统、网络教学系统以及数字图书馆管理系统等等;在此之上的信息服务系统是校内用户的主要使用界面,为师生提供各种服务,如信息交流、信息查询、决策支持、电子商务等。五个区域分别表示数字化学习环境的功能领域:组织管理、教学活动、学术研究、公共服务和学校社区服务等,各个功能领域之间是密切相关、相互促进的。
图1
以选课系统为例解析数据仓库的构建与应用
数据挖掘,又称为数据库中的知识发现(Knowledge Discovery in Database,簡称KDD),是指从大型数据库中提取人们感兴趣的信息,提取的知识表示为概念(Concepts)、规则(Rules)、规律(Regularities)、模式(Pattems)等形式。数据挖掘可以应用于各个领域,包括商务管理、生产控制、市场分析、工程设计和科学探索等。利用数据挖掘技术,挖掘选课系统中积累的有用信息,可以使学校的相关部门有弹性地调节所开的课程,调整热门课程和冷门课程的人数,调节相关课程的学分,通过选课率及相关信息做出正确决策,鼓励和引导学生选择互补的课程,这有利于学生整体素质的提高,也有利于教师、教室等资源的合理分配。
1.确定数据仓库和OLAP模型
OLAP(Online Analytical Mining或OLAP Mining)是基于数据仓库的信息分析处理过程,其基本特点是能够从多种角度对从原始数据中转化出来的信息进行快速、一致、交互地处理,从中获得对数据更深入地了解。OLAM将二者结合起来,发展一种建立在OLAP和数据仓库基础上的新的挖掘技术,它兼有OLAP多维分析的在线性、灵活性和数据挖掘对数据处理的深入性,是数据库应用工具未来发展的方向之一。
通常要先分析原有业务数据库,确定待建的数据仓库主题。再根据用户的需求来确定各个级别数据仓库的存储主题。这里选取学生选课管理这一典型业务为主题。为了保证数据的正确性和一致性,还要确保这些数据是按同样的方法记录的同一件事情,需要对选课的原始数据进行预处理,转换成适合数据挖掘的数据。数据预处理(Data preprocessing)包括三个步骤:数据清理(Data cleaning)、数据集成(Data integration)和数据变换(Data transformation)。完成数据的预处理之后,便可确定待建的数据仓库模型,实现OLAP建模,生成多维数据集(CUBE)。可以建立以ROLAP方式存储的选课数目分析多维数据集(以时间维、学号维、院系专业维为维度,选课数目为度量值)、选课学分分析多维数据集(以课程类别维、课程开课部门维、学号学历维为维度,学分为度量值)等许多个不同的多维数据立方体。
2.数据挖掘关联算法的实现
关于关联规则的挖掘算法主要有循环式扫描算法、增量式更新算法、并行挖掘算法、元模式制导、基于约束挖掘等等。目前大多数研究集中在频繁数据项的挖掘方法上。其中比较典型的关联规则挖掘算法有Apriori算法和FP-growth算法。
Apriori算法可以产生相对较小的候选项目集,扫描数据库的次数由最大频繁项目集的项目数决定。因此,该算法适合于最大频繁项目集相对较小的数据集中的关联规则挖掘问题。针对Apriori算法框架的缺陷,Han.JW(韩家炜)等人提出了FP-tree结构和相应的P-growth算法。FP-growth算法采用的是分而治之的策略,即在经过了第一次扫描之后,把数据库中的频繁集压缩进一棵频繁模式树(FP-tree),同时依然保留其中的关联信息。随后再将FP-tree分化成一些条件库,每个库和一个长度为1的频集相关;然后再对这些条件库分别进行挖掘。当原始数据量很大时,也可以结合划分的方法,使得一个FP-tree可以放入主存中。实验表明,FP-growth对不同长度的规则都有很好的适应性,同时在效率上较之Apriori算法有巨大的提高。由于高校多年来存储的选课数据量较大,故选用FP-growth方法实现高校选课系统的关联规则挖掘较合适。
4.仓库管理毕业生求职简历 篇四
目前所在: 天河区
年 龄: 22
户口所在: 湖南
国 籍: 中国
婚姻状况: 未婚
民 族: 汉族
身 高: 155 cm
体 重: 53 kg
◆ 求职意向
人才类型: 应届毕业生
应聘职位: 人事专员/助理,行政专员/助理,仓库管理人员
工作年限: 1 职 称: 无职称
求职类型: 全职 可到职日期: 随时
月薪要求: 2000~2499元 希望工作地区: 广州,,
◆ 工作经历
长沙迅彩电子产品有限公司 起止年月:-07 ~ 2013-09
公司性质: 民营企业 所属行业:计算机/互联网/通信/电子
担任职位: 行政文员
工作描述: ①利用搜索引擎进行推广
②利用博客进行推广
③利用论坛进行手工推广
④利用网络软文推广
离职原因: 个人原因
祁阳县四季青中药材种植专业合作社 起止年月:-10 ~ 2013-03
公司性质: 其它 所属行业:农林牧渔
担任职位: 会计
工作描述: ①根据审核签章的记账凭证办理现金、银行存款的收付结算业务。
②登记现金、银行日记账,日记账做到日清月结,账实相符。
③负责收据、发票购买、保管工作。
离职原因: 毕业实习
湖南凯盛鞋业有限公司 起止年月:2012-06 ~ 2012-08
公司性质: 民营企业 所属行业:服装/纺织/皮革/鞋业
担任职位: 统计
工作描述: ①人员考勤,对新进员工资料整理,汇总基本信息录入公司人力资源管理软件等。
②利用公司管理软件,对所有员工的基本信息进行全面的更新或补充。
③办理新进员工入职事宜、签订劳动合同等。
离职原因: 暑假实习
毕业院校: 湖南涉外经济学院
最高学历: 本科 获得学位: 管理学学士学位 毕业日期: 2013-06
专 业 一: 人力资源管理 专 业 二:
起始年月 终止年月 学校(机构) 所学专业 获得证书 证书编号
◆ 语言能力
外语: 英语 良好 粤语水平: 较差
其它外语能力:
国语水平: 良好
◆ 工作能力及其他专长
1、2010年12月,取得全国大学生英语四级证书。
2、6月,取得全国大学生英语六级证书。
3、209月,取得全国计算机等级考试二级证书,并能熟练使用office 系列办公软件。
4、9月,取得“会计从业资格证”证书
5、203月,取得“三级企业人力资源管理师”证书
5.IBM数据仓库解决方案 篇五
IBM 2000-09-23
数据仓库是汇总商用信息后,进而支持数据挖掘、多维数据分析等当今尖端技术和传统的查询及报表功能,这些对于企业在当今激烈的商业竞争中保持领先是至关重要的。那么怎样把这样大量的数据转换成可靠的、商用信息以便于决策支持呢?建立数据仓库正被广泛地公认为最好的转换手段。
根据IDC的调查,使用数据仓库的投资回报率平均超过400%,尤其是从小型数据仓库开始实施的平均超过500%。
IBM早在90年代初期,就投入大量优秀技术人员和资金开始了数据仓库的研究,并启动了Star-Brust大型科研项目。该项目主要就是为了攻克数据仓库领域的一些技术难题,例如优化星型连接(Star-join),实现多维分析。因此,IBM现在发布的数据仓库产品都是经过反复推敲和久经考验的,真正做到让用户买起来放心,用起来舒心。基于对数据仓库结构的深刻理解和多年积累的经验,IBM设计了自己的数据仓库结构。它作为一种开发式结构,方便了用户的产品选择、实施和今后的扩展。
在数据抽取阶段完成对各种数据源的访问,数据转换阶段完成对数据的清洗、汇总和整合等,数据分布阶段完成对结果数据存储的分配。这三个阶段通常紧密结合在一起,集成在一个产品中实现。例如,VisualWarehouse、DataJoiner、DataPropagator都跨越了这三个阶段。其中,DataJoiner和VisualWarehouse可以访问各种关系型和非关系型的数据,关系型数据库主要包括DB2数据库家族、Oracle、Sybase和Informix,非关系型数据有VSAM。VisualWarehouse还可以进行数据映射的定义,以定期地抽取、转换分布数据。DataPropagator采用数据复制的方式可避免对日常业务系统事物处理性能的影响。当用户有特殊需求时,可以通过编程接口编程实现或选择第三方厂商(如ETI和ValityTechnology)的产品。
数据仓库的存储由DB2家族产品来完成,以保证数据仓库始终高性能地运转,提供完整、准确的数据,以便于将来的升级和扩展。若希望使用多维数据库,则可选用第三方的产品,例如:Arbor软件公司、Pilot软件公司、PlanningSciences软件公司。如果既想拥有多维数据库的独特功能,又要把数据存放在关系型数据库中以便管理,则DB2OLAPServer是用户的最佳选择。
DataGuide通过描述性数据帮助用户查找和理解数据仓库中的数据。
其中数据的呈现由不同产品完成不同层次的分析要求。其中,Approach可进行查询和统计分析,IntelligentDecisionServ С侄辔治觯琁ntelligentMiner用于数据挖掘。用户也可选择自己喜爱的第三方产品,这些第三方厂商包括:Andyne、Brio、BusinessObjects、Cognus、InformationAdvantage。
整个数据仓库的管理工作可交给VisualWarehouse,ADSM是大型磁盘阵列管理的得力助手,DB2ECCforTME10可从一点集中管理各种关系型数据(DB2、Oracle、Sybase、Informix)。
以上各个阶段的结构都是按照IBMInformationWarehouse和IBMOpen-Blueprint的架构统一设计的,因此相互之间结合得既紧密又非常开放,只要符合标准的软件就可结合在一起。
最后,为了帮助用户快速实施,IBM可由IBMGlobalServices或IBMGlobal-Solution提供可靠的咨询服务。这些服务也可从广泛的第三方获得。因此,在此架构下,IBM提供给用户的是一个完整的、灵活的、开放的解决方案。
IBMVisualWarehouse是IBM数据仓库解决方案的重要组成部分,它主要由以下几部分功能组成:数据访问;数据转换;数据分布;数据存储;靠元数据查找和理解数据;显示、分析和发掘数据;数据转换过程的自动化及其管理。它缩短了复杂的海量数据与有洞察力的商务决策之间的差距,有助于公司更进一步了解其业务、市场、竞争对手和客户。
IBM的VisualWarehouse的数据源可以是DB2家庭中的任一数据库,也可以是Oracle、Sybase、Informix、SQLServer数据库和IMS、VSAM文件系统;存放数据仓库的数据库可以是DB2UDBforWindowsNT,OS/2,AIX/600,HP?UX,SunSolaris,SCO,SINIX和DB2/400,DB2forOS/390;VisualWarehouse的管理平台为WindowsNT和OS/2;而且以上适用的平台仍在不断地扩展。下面,我们将从几个用户关心的方面来分析一下VisualWarehouse。
(1)元数据的存储(MetaData)
VisualWarehouse建立在集成的元数据的仓库之上,该元数据的仓库提供了一个所有管理和操作功能的中心。数据仓库的模型以元数据的形式存储于该仓库中,它定义了数据仓库的结构和内容,用于对数据源进行抽取、过滤、转换、映射后放入数据仓库。这种元数据是以商业视图被定义的,而且商业视图可以在多个数据仓库间输入和输出,大大方便了具有相同结构数据仓库的建造。
(2)数据仓库的规模化扩展
VisualWarehouse很易于扩展,单个数据仓库可支持非常大量的数据,也可靠简单地增加内存、处理器升级和存储设备扩容来支持更多的升级和用户,访问更多数据源。另外,我们还可以不同的主题同时实施多个部门级数据仓库,最后再把它们整合到一起形成企业级的数据仓库。
(3)开放的系统环境
VisualWarehouse提供了一个真正开往的系统环境,它不仅提供了数据仓库的所有功能和组件,而且可以“即插即用”的方式与用户喜欢的第三方软件组合,以最少的费用快速开发出用户所需的数据仓库。
(4)规模化的体系结构
VisualWarehouse提供了完整的分布式客户机/服务器环境,它使得用户可充分享受到“网络计算”带来的便利,而且适用于多种平台。它包括四个组件:管理员、控制数据库、客户端管理员、代理。这些组件既可分布于几个不同的服务器,也可都安装在同一服务器上。
(5)VisualWarehouse的管理
VisualWarehouse的管理是由其客户端管理员实现的,它的管理得以集中于 isualWarehouse中的触发器、用户自定义程序,元数据等。
(6)高效装入
除了WindowsNT,VisualWarehouse的代理(Agent)现在可以运行于AIX和OS/2,这就带来了针对位于这些平台上数据中心的装入性能的改善,因为数据无需再通过WindowsNT上的代理。另外,除了现有的基于SQL的目标装载,VisualWarehouse现在还提供用于文件传输和装载过程管理的程序。
(7)处理OLAP
VisualWarehouse支持DB2OLAPServer上一种或多种星型图表的全部映射或装载。另外VisualWarehouse现在也支持指定和创建DB2OLAPServer以外生成的星型图表初始化或引入关键码。
(8)高端可升级性选项
现在,VisualWarehouse对抽取和转变程序具有更完善的支持。VisualWarehouse利用这种支持给IBM的战略基础伙伴提供数据加工后的管理:ARBOR软件公司和ETI。
(9)商务视图建模改善
VisualWarehouse图形查询编制器得以扩展,目前除了支持常用的SQL语句还支持JOIN和GROUPBY语句,简化了复杂的SQL声明。
VisualWarehouse基于久经考验的独创技术,可以支持复杂业务分析过程的每一步骤,同现有应用程序环境集成,转换数据,自动执行数据仓库处理,分析数据,并为决策人员提供信息。VisualWarehouse是一种简单易用、经济有效的数据中心和数据仓库产品,可以处理部门中设计、实现和应用方案时的相应任务。其较低的维护成本和迅速的实现过程将使工作组迅速提高工作效率。
VisualWarehouse提供了完整的Web支持功能,允许从任何Web浏览器访问任何数据。因为VisualWarehouse的信息目录完全支持Web,用户可以访问可用数据的详细信息,包括格式、通用性、拥有者和位置。
IBM的VisualWarehouse提供了强有力的工具以定义、建立、管理、监控和维护一个商用信息系统环境„„数据仓库。但是,IBM并不满足于此。为了更好地满足用户的需求,IBM设计了一个完整的解决方案。IBM将Dataguide和VisualWarehouse集成在一起并与Lotus、Approach和相应平台上的DB2UDB打包在一起,作为一个完整的解决方案提供给用户。其中,Dataguide靠商用信息分类表支持商业需求,帮助用户查找和理解数据仓库中的商用信息。Lotus、Approach可帮助用户分析信息并把它以图表的方式表示出来。
IBM的VisualWarehouse系列软件包用于帮助企业迅速建立、管理和分析数据仓库和数据中心。VisualWarehouse系列包括VisualWarehouse、VisualWarehouseOLAP(联机分析处理)、IBM及其贸易伙伴提供的补充产品。VisualWarehouse系列已得到扩展,通过与EvolutionaryTechnologiesInternational(ETI)和ValityTechnology的产品相结合,可以满足复杂的数据提炼、纯化和转换需求。VisualWarehouse的Cognos和BusinessObjects版本也已经分别集成于相应公司的前端工具之中。这些版本提供了完整的业务智能解决方案,包括从数据访问、分析到应用。
VisualWarehouse产品系列集成了数据仓库功能,单一软件包中的集成化工具可以简化数据仓库和决策支持的整个过程。它提供了迅速建立小型企业或工作组数据仓库并投入运行所需的一切。
现在,越来越多的用户受益于VisualWarehouse,例如:INGRAM公司依靠IBM可视数据仓库将原始数据转变为有价值的商用信息;RYDERSYSTEM、VOLTINFORMATIONSCIENCES和INTENTIA这三个可代表数据仓库客户群的系统集成商得出了一致结论:IBM的可视数据仓库是一个强有力的、经济的、易于安装和实施的数据仓库。它提供支持商业决策的、一致的和固有的数据。另外,国内用户也在不断增长,例如:上海庄臣有限公司等。
OLAP在IBM的商务智能中扮演着重要角色,IBM为此提供一个分析工具——DB2OLAPServer,深入最终用户的业务,对桌面上的数据进行实时操作。DB2OLAPServer是一套独特的商务工具,能够快速地分布传统监视和报告范围之外的应用程序数据。
IBMDB2OLAPServer是一种功能强大的工具,结合了业界领先的ARBORESSBASEOLAP功能以及DB2的可靠性、可管理性和访问能力。ARBORESSBASE是OLAP市场领先的厂商。同其它OLAPAPI相比,有更多的前端工具和应用程序利用了ESSBASEAPI,使其? 事实上的业界标准。由于DB2OLAPServer包含了完整的ARBORESSBASEOLAP引擎,所有支持ESSBASE的应用程序都可以同DB2OLAPServer协作,而不必加以修改。同大多数基于SQL的应用程序结合时,DB2OLAPServer和VisualWarehouse将为前端用户提供更多的前端工具和业务智能应用程序选择余地的优势,如今用户可以享受更多种OLAP应用程序的优势,如通过ARBOR的OLAP引擎集成预算功能,充分利用在相关技术上的投资,管理基本设施和DB2的数据。
通过集成IBM的VisualWarehouse和DB2OLAPServer(称之为VisualWarehouseOLAP版本),这套解决方案将具有三方面的重要价值:
(1)完全、自动地把OLAP集成到数据仓库,数据抽取和生成自动地由规则和数据源支持,直接进入DB2OLAPServer的立方体
(2)OLAP描述数据外部化
(3)一个中间数据存储库
DB2OLAPServer和ESSBASE产品最突出的方面在于它特别的分析能力和简便的分布。OLAP系统更倾向于把劳动集中于获得和清除数据,使用VisualWarehouseOLAP版本能够自动地创建和维护多维数据库,大量减少手工维护并确保数据稳定。
利用VisualWarehouseOLAP版本还有一项附加收益,就是在可视化数据仓库上创建了一个中间信息仓库。这个中间数据仓库包含干净、抽取的数据。用来在OLAP系统上装载多维数据。一旦OLAP系统装载并上线,或者作为干净数据源来进行OLAP以外的分析比如查询客房地址等,这些中间数据就可以废弃。
VisualWarehouseOLAP版对于分析业务需求来说是一套很好的商务智能解决方案,它利用自动维护仓库工具提供了强大的分析型数据的分析能力。
当用户的数据积累到一定数量时,这些数据的某些潜在联系、分类、推导结果和待发现价值隐藏在其中,我们可以使用数据发掘工具帮助发现这些有价值的数据,IBM在这方面的工具就是IntelligentMiner。IBMIntelligentMiner被选为业界最佳数据采集工具,赢得了DM读者奖。除了数据仓库和数据挖掘解决方案,IBM还在此基础上开发了一系列行业解决方案及应用程序。
1.IBM数据挖掘工具
IntelligentMiner通过其世界领先的独有技术,例如典型数据集自动生成、关联发现、序列规律发现、概念性分类和可视化呈现,它可以自动实现数据选择、数据转换、数据发掘和结果呈现这一整套数据挖掘操作。若有必要,对结果数据集还可以重复这一过程,直至得到满意结果为止。
现在,IBM的IntelligentMiner已形成系列,它帮助用户从企业数据资产中识别和提炼有价值的信息。它包括分析软件工具IntelligentMinerforData和IBMIntelligentMinerForText,帮助企业选取以前未知的、有效的、可行的业务知识,如客户购买行为,隐藏的关系和新的趋势,数据来源可以是大型数据库和企业内部或Internet上的文本数据源。然后公司可以应用这些信息进行更好、更准确的决策,获得竞争优势。
(1)IntelligentMinerforData
IntelligentMinerforData可以包含传统文件、数据库、数据仓库和数据中心中的隐含信息。这一产品的最新版本拥有改进的用户界面,增强了并行性,提供新的平台支持、统计功能、一种新的中枢净价值预测技术以及优化的算法。
IntelligentMinerforData帮助用户充分利用传统数据库或普通文件中的结构化数据。其采集算法已成功应用于客户及贸易伙伴之中,满足市场分析、诈骗行为监测、客户联系管理等业务领域的需求。系统支持的服务器平台包括AIX和AIX/SP、OS/390、SUNSolaris、OS/400和WindowsNT,此外还将全面推出OS/2客户机版本。
(2)InteligentMinerforText
IBM还扩展了采集解决方案的范围,包含了文本数据源。IntelligentMinerforText允许企业从文本信息中获取有价值的客户信息。文本数据源可以是Web页面、在线服务、传真、电子邮件、LotusNotes数据库、协定和专利库。
IntelligentMinerforText扩展了IBM的数据采集功能,可以从文本文档和数据源获取信息。数据源可以包括客户反馈、在线新闻服务、电子邮件和Web页面。其功能包括识别文档语言,建立?、用语或其它词汇的词典,提取文本的涵义,将类似的文档分组,并根据内容将文档归类。新版本中还包括一个全功能的先进文本搜索功能。系统支持的服务器平台包括AIX和WindowsNT、OS/390和SUNSolaris。
IBMIntelligentMiner系列可以充分发挥您寻找相关信息的潜力,并帮助您花费最少的时间来搜索和浏览结果信息。此外,文本采集技术还可以适用于多种需要查看或研究文档的用户,如专利代理人、企业图书管理员、公共关系人员、研究人员和学生。
2.行业解决方案
通过利用以上介绍的IBM数据仓库和数据挖掘技术,IBM为客户开发了一系列行业解决方案及应用程序,主要有以下几种:
(1)DecisionEdgeforFinance——专门为金融行业设计的综合解决方案。DecisionEdgeforFinance不仅仅是简单的报告工具,它提供了行销经理所需的全部技术,以制定战略业务决策并开展行销活动。
(2)DecisionEdgeforInsurance——端到端的解决方案,包括硬件、软件、顾问和服务,其设计目的是帮助保险业行销经理制定战略业务决策并开展行销活动。
(3)IBMDiscoverySeriesforBanking——为满足“客户至上”的银行业需求而设计的应用程序套件。
(4)IBMDiscoveryfortelecommunications——为电信行业提供完美的客户服务的应用程序套件。
(5)BusinessAnalysisSuiteforSAP——适用于下列公司:已经安装SAP事务处理系统,并需要建立数据仓库,以充分利用日常运作中收集的所有事务数据。
(6)Surf-Aid——数据采集应用程序,用于分析Web站点利用率。
(7)InfoPrintBusinessIntelligenceSolution——允许企业将自定义消息、姓名及地址同图形和条形码相结合,向客户提供有独特个性的行销资料。
(8)GlobalServicesBIOffering——包含不同角度(行业、业务功能、技术)的战略和规划功能,以及帮助客户理解和解决业务困难、管理数据仓库项目、开发和实现先进分析功能的方法。
6.数据仓库工程师的职责精选 篇六
1、负责数据仓库架构、元数据、数据质量、血缘分析等环节的设计与实现,构建可扩展的数据仓库和分析解决方案;
2、负责将BI、运营、产品、客服等业务部门的需求抽象成数仓模型并落地;
3、负责参与智能用户画像体系开发与建设;
4、负责数据工具、数据产品及其他数据需求的开发。
技能要求:
1、有数据仓库需求调研和需求分析经验,能根据业务需求设计数据仓库模型,并对数据仓库数据模型进行管理,保证数据质量,熟悉kimball架构;
2、精通sql开发,有较丰富的Hive sql性能调优经验优先;
3、熟悉spark structured streaming、flink中至少一种流式处理计算框架,有相关开发经验;
4、熟悉大数据存储处理组件,包括但不限于Hive/HDFS/HBASE/presto/Druid/kylin/impala;
7.企业数据仓库中元数据的应用研究 篇七
以数据仓库为核心的商务智能(BI)技术日益受到业界重视,许多BI系统己经投入使用,带来了巨大的效益。但是数据仓库的数据质量问题已经严重影响了商务智能的应用能力,由此引发了人们对元数据管理和应用的研究。
元数据是“关于数据的数据”或“关于数据的结构化数据”,即关于数据的内容、质量、状况和其他特性的信息。[1]
1 数据仓库的数据质量问题
基础数据的正确性、真实性直接影响到报表和分析结果的可信度。突出的数据质量问题包括:
誗数据被错误理解
誗重要的事实错误传达
誗不能判断商业变化造成的影响
誗缺乏工具连贯性
誗缺乏查帐索引
数据质量问题主要是由分公司本身录入、业务系统新旧多次切换和升级、业务扩展操作等原因造成。
从图1数据质量管理体系架构图我们可以看到:元数据是数据质量管理实现的基础,元数据管理支撑功能的实施是数据质量管理系统的核心。
数据质量管理系统的核心是元数据管理支撑功能的实施:
誗数据质量管理包含元数据管理
誗元数据管理功能为数据质量管理提供支撑
元数据是数据质量管理系统实现的基础,是描述和控制BI系统中数据的数据,对上层功能提供信息支撑。
2 应用元数据提高数据质量的应用实例
可以提高数据质量的主要元数据业务应用包括:元数据浏览、数据时效性探察、指标管理与分析、数据血统分析、影响分析、处理过程分析、表重要程度分析和表无关程度分析等。
2.1 数据血缘分析
辅助管理人员对由BI系统提供的报表、指标的数据项进行血缘分析,了解该指标或报表元素由源系统到BI系统,由数据仓库到前端显示或者报表系统的计算过程和处理方法,管理人员可以通过血缘分析结合数据时效性探查来了解提供报表和指标的可信度或对CPIC的相应的指标定义和有关规范进行核查。
业务人员可以对由BI系统产生的某一个指标或者报表元素进行血源分析,即已知某一数据项,查找到该数据项从源系统到前端展示的若干ETL过程相关的数据项、计算方法、计算公式,形成该报表元素(或指标)的族谱图,从而了解产生该数据项的流程。
2.2 处理过程分析
处理过程分析与数据血缘分析类似,但处理过程分析给出的是过程的执行相关信息,数据血缘分析给出的是数据的流动信息。
2.2.1影响分析
影响分析使你可以回答类似下面的一些问题:
誗我所做的这个改动还会影响到别的什么地方?
誗这个对象还依赖于别的什么对象?
图2展示了在金融业务BI应用中用Meta Stage进行交叉工具对数据质量影响的分析,我们可以清晰地通过元数据管理工具分析出一个数据对象在数据处理链条上的所有依赖关系。
2.3 数据时效性探察
BI系统中的数据时效性是BI系统中数据质量的重要的组成部分,通过对BI系统元数据的管理,可以分析到某一条或某一些数据的时效性。首先通过元数据浏览和检索功能,检索感兴趣某个数据项相关的元数据信息,探察该数据最后计算的时间;然后,通过元数据ETL分析,找到该元素以及和该元素相关的计算元素的ETL过程(从生产系统到数据仓库,再从数据仓库到前端展示系统)的最终执行时间。对上述时间进行探查分析,以决定该数据的时间有效性和真实性。
2.4 元数据相关性分析
在调整BI系统时,经常遇到调整一些系统而影响其他系统的情况。为了保证数据的一致性,需要对整个BI系统中的相关的元数据进行调整。此时,通过元数据相关性分析,找到所有需要进行调整的元数据,可以统一进行修改和调整。
3 结束语
元数据管理是提高数据仓库数据质量的必由之路,元数据管理的复杂性及元数据管理的很多内容仍然需要依靠管理制度、流程、其它辅助工具以及人工参与来共同完成。
参考文献
[1]Poole J,Chang D,Tolbert D,等.彭蓉,刘进译等译.公共仓库元模型开发指南[M].北京:机械工业出版社,2004.
[2]Marco D.张铭,李钦,等译.元数据仓储的构建与管理[M].北京:机械工业出版社,2004.
8.谈数据仓库与数据挖掘教学研究 篇八
关键词:数据仓库 数据挖掘 进展
中图分类号:TP311.13文献标识码:A文章编号:1673-9795(2012)10(a)-0179-01
随着社会的发展,数据仓库与数据挖掘研究行业也越来越成熟,数据库技术的应用也得到不断推广和深入,该行业的中心点已由原来的事务处理逐渐转换、趋向现在的分析处理,以数据仓库为基础,在形成的一系列新技术里,其核心就是联机分析系统的研发和数据挖掘技术的深入。这些技术目前已经逐步投入到实际使用中。关于这些技术的研发与探讨工作也成为该领域研究的热门话题。
1 数据仓库系统
各种数据源的类型多种多样,其中包括各种关系数据库的管理系统、文件系统等,当然,有事也含有WEB上数据,这些数据在质量上、各有各的特点,多种多样,在数据模式的设计上也是千差万别,在各自专一的项目上也是独树一帜,各领风骚,导致这些不同原因主要是数据来源的不统一。这就给在数据集成过程中造成很多不便,所以,现在在数据集成过程中是主要难点就体现在数据模式设计、数据的清洗、数据转换、导人、更新等方法,截止目前數据仓库系统的研究工作也重点关注和投入在这些方面。
现在我们再来谈一下数据清洗的问题。在数据清洗工作中,是否能够准确、高效的发现重复数据并予以删除是该项工作的重要问题。因为数据源的多种多样,这就不可避免的出现很多相同重复的数据,也就是复本,同时,各个数据源的质量也是千差万别,由于录入的的方法不同,如拼写错误,活着录入者的一些不一致的微小习惯造成的细微差别,被人客观的误认为是不同的数据。为了提高整个数据库的质量,就需要将这些重复的数据找出来并进行逐个删除,以保证数据的可靠性。寻找数据库中的重复数据需要合理高效的方法,当前主要参考采用一些标准文本相似性的匹配方法及,就像编辑距离等。但这些方法却不能解决一些特殊的问题,如语义上的相似性判定问题等。为了寻找解决这个问题的办法,经过努力,相关学者就数据仓库中的唯表方面研究并提出了一种高效、新型的寻找方法,这种除了通过参考数据间字符串后呈现出的相似程度来判断这两个元组对象是否有相同的特点,还利用维表中提供的数据含有的的层次关系,再从语义上对比出所要判断数据的相似程度。
在数据集成中,数据源的数据是多种多样的,一般分为:关系数据库、XML半结构化数据等,因此,这些不同的数据源中的数据在在访问方式是也不尽相同,也有些数据访问应用系统接口,数据模式在设计中也显得不同。要将这些不同的数据装入数据库,且保证数据中所含有的信息不丢失,即保证模式的匹配、模式中语义的一致,就成了一项重要的研究目标。目前我们大多数使用的方式为把要用到的数据源中的数据转换成特定的中间形式,就像统一模式的XML文本那样,然后再将数据装入数据仓库。
2 联机分析技术
数据仓库与数据挖掘研究行业要想得到更深入的发展联机分析技术是非常关键的一项。在数据仓库映众中,出现越来越多的大量的聚集操作,联机分析就是在这样的条件下诞生的一项新技术。联机分析技术分为两个类型:一类是根据关系数据库系统形成的练级分析系,俗称ROLAP,它的基本原理就是使数据仓库里面的数据能够进行合理组合,可以直接迅速的通过关系条件查询信息,使联机分析系统能够拥有下钻、上翻、分片、分块等功能。当前我们所用到的关系数据库管理系统均拥有信息查询功能。另一类是根据多维模型形成的联机分析系统,俗称MOLAP,它的基本原理是多维数组宴珊联机分析系统,常用于怎样减少存储空间等方面的问题研究,以此来提高该系统在查询方面的性能。这两类联机分析系统这些年都有独特的论述见解以论文方式出现在各种刊物上。与之同步进行的是OLAP系统在应用方面的大力推广,使相关学者对在OLAP系统中的体系结构一类问题的探讨也发生了的兴趣,还有一些学者就集群结构方面的OLAP系统研发了一种对数据在实时过程中敏感的中间件的系统。能够使系统查询更加准确、一致,也能够全面提高集群系统的性能发挥的效率。
截止目前,我们队ROLAP实现的技术方面已经研究了很长一段时间,通常在增强ROLAP的执行效率的手段主要表现在两方面:一个是使用物化视图效果的原理,它的做法是把用户可能用到的信息查询提前总结好,这样我们的用户在实施查询时,从已经完成的数据、视图来入手,就能够很快的得到需要查询的最终结果。在这里面,最重要的问题就是如何选择物化视图和实现的查询。另一个方面就是以OLAP查询种用到的的索引结构为研究参考对象,我们常用的是利用位图的索引等。现在,查询优化技术方面与现有方法的改进和进行新研究、为该行业力求突破的研发方向。
等联机分析系统里含有的数据立方体能够建立之后,我们有了根据这种结构系统回答各类OLAP的查询条件。近年来我们的研究人员对研究怎样根据数据立方体能够解决那些更加有深度的查询帮助做出了很大的努力。数据立方体里面通常都含有无数的数据信息,怎样让我们的用户全面的认识立方体中含有的信息是需要继续探讨的一个关键问题。
3 数据挖掘
数据挖掘、数据分析主要表现为分析与挖掘流数据。流数据不同于一般数据,它的特点往往表现为数据量巨大,无法完整的将它存储在某种中间介质中,也就无法对这些数据进行分析和计算。流数据在实际应用中发挥的作用又大,实际应用背景广泛,在电信、传感器等数据量出现的快且量大的行业中有很重要的作用。由于当前使用手段较多,这里不做一一介绍。
4 结语
随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,在大量的数据背后隐藏着许多重要的信息,如果能把这些信息从数据库中抽取出来,将为公司创造很多潜在的利润,对企业和团队的下一步计划有很大的帮助,因此,做好该方面的研究工作,对社会及企业都有很大的影响。
参考文献
[1]王玉芬.基于数据仓库的决策支持研究[J].商场现代化,2007(3):15.
9.利用数据仓库技术辅助CRM决策 篇九
CRM作为一种商业智能系统,能够从企业客户数据库中获得数据,结合其他部门的业务数据库,利用数据仓库对客户数据进行.7P,即客户概况分析;客户忠诚度分析;客户利润分析;客户性能分析;客户未来分析;客户产品分析;客户促销分析,锁定目标客户群,并通过一定的OLAP方法和适当的数据挖掘策略来发现众多数据背后的规律与联系,为企业的行销提供及时、准确、有价值的分析结果;为企业留住有价值的客户,开展高效的促销活动提供帮助;为企业赢得客户,赢得市场,CRM系统能够从大量的信息中找到对企业有价值的知识,依靠的是数据仓库、OLAP和数据挖掘等计算机技术,其中数据仓库是CRM的灵魂,CRM的很多工作都是以数据仓库为基础展开的。下面我们就来讨论一下如何利用CRM系统中所使用的数据仓库技术辅助企业做出决策。
一、数据仓库技术
数据仓库是支持管理决策过程的、面向主题的、集成的、动态的、连续的数据集合,对企业经营管理决策具有强大的支持和推动作用,特别是对数据密集型的企业更为有效。它以改进后的数据库技术作为存储数据和管理资源的基本手段,以统计分析技术作为分析数据和提取信息的有效方法,通过人工智能、神经网络、知识推理等数据挖掘方法来发现数据背后的隐藏的规律,为企业提供各种层次的决策信息。根据美国META集团的调查,数据仓库技术在美国金融业、制造业、商贸业以及社会服务等方面都得到广泛的应用,已经采用数据仓库的企业的投资回报率均在40%以上,部分企业高达每年600%。
二、应用数据仓库技术辅助决策
数据仓库技术是商业智能管理的重要基础和手段,已经成为企业级信息管理和决策支持系统建设过程中必要的技术支持。下面从两方面分析它的应用:
1. 数据仓库在CRM系统结构中的应用
CRM系统由业务数据库系统、决策支持系统等部分构成,
决策支持系统即DSS由三个层次的内容组成:数据仓库、联机分析处理和数据挖掘。他们之间的关系可以从CRM系统的数据处理循环过程图)中看出。决策支持系统是整个CRM的核心部分,而数据仓库技术又是支撑DDS的核心技术。下面通过CRM系统的数据处理循环过程中的各个部分来分析。[next]
图1 CRM系统的数据处理过程循环图①原始的数据进入业务数据库
数据仓库是企业CRM系统成功开发和使用的建设基础。原始数据一部分来自现有的管理信息系统,即内部数据源;另一部分来自企业的专门调查或来自相关部门的统计信息,即外部数据源,而且由于趋势分析的需要,数据源还要能够提供历史数据信息。
②数据的整合存储
对业务数据库的数据经过接收、分析、抽取、净化、汇总、变换、存储等之后,为了得到数据仓库的数据存储,首先要确定数据仓库的分析主体和指标体系,再从源数据库中分析抽取面向主题的集成数据。以该主题数据作为分析型应用的数据基础,可以大大的缩短系统的响应时间,并能很好的满足相应主体的分析要求。这样原先存放在多个业务系统中的反映企业局部情况的数据经过整理后转换成反应企业整体情况的信息,这样就完成了从“数据→信息”的转变。
③结合OLAP和数据挖掘技术细化分析结果
10.数据仓库工程师的工作职责 篇十
1.负责数据ETL开发,优化ETL流程设计;
2.负责数据质量问题的分析、跟进、解决,进行数据质量监测、校验和提升;
3.负责ETL开发实施文档的编写;
4.负责梳理公司数据仓库/数据集市数据清单、数据映射关系,优化现有数据仓库模型;
5.完善和梳理数据指标体系,完成和维护数据字典的工作;
6.参与数据标准的制定、数据标准管理和数据安全管理工作;
7.参与公司大数据平台的建设,包括Sugar报表或神策接口配置,用户画像标签体系的开发等
任职要求:
1.有shell或Python脚本开发经验;
2.有传统数据库SQL Server和MySQL,有存储过程编写能力;
3.熟悉Hadoop生态相关技术并有相关实践经验,包括但不限于Sqoop、Hive、HBase、Kylin等开发经验;
4.有kettle、azkaban或oozie工作流调度经验;
5.熟悉Hive SQL或Flink SQL的开发;
6.有数据仓库模型设计,有使用kafka+Flink Streaming实时数据处理经验优先;
7.有Sugar、神策或Tableau使用经验,有用户画像或客户召回标签工作经验优先;
11.数据仓库毕业论文 篇十一
关键字:大数据;数据仓库;教育决策
中图分类号:TP393 文献标志码:A 文章编号:1673-8454(2015)01-0014-02
一、教育的大数据时代
在大数据的时代,各行各业都在谈大数据,它的影响辐射各行各业,并且已经开始在信息产业、交通运输、医疗卫生、食品安全等领域中发挥出重要作用。与此同时,作为面向社会公众的教育行业,无论从教育数据资源的情况,还是对大数据的分析应用需求看,亦进入了大数据时代。
教育管理信息化是《国家中长期教育改革和发展规划纲要(2010-2020年)》和《教育信息化十年发展规划(2011-2020年)》所确定的教育信息化建设核心任务之一,对支持教育宏观决策、加强教育监管、提高各级教育行政部门和学校的管理水平、全面提升教育公共服务能力具有不可或缺的重要作用。教育改革发展涉及面广、难度大,越来越需要准确全面的数据分析和服务作为教育科学决策的支撑。建设国家教育管理信息系统,就是建立涵盖学生、教师、学校资产及办学条件的教育管理信息系统和基础数据库,并以此为基础建立数据分析与科学预测的教育决策服务系统,已成为支持教育改革与宏观决策的现实需求。国家教育管理信息系统的建设,也为教育大数据的积累奠定了基础。
二、教育大数据仓库与数据服务支撑平台
教育大数据仓库与数据服务支撑平台是基于教育服务与监管基本宗旨,统筹考虑教育事业全局,以适应大数据时代教育数据新特征和支撑教育监管和决策的数据分析为出发点,集成大数据思路和传统数据仓库架构,构建纵向覆盖各级教育机构,横向覆盖教育各业务领域的、统一的教育数据信息资源中心,将合适的教育数据资源及时、有效地提供给合适的教育管理、决策者进行教育主题研究分析、评价和预测,促进教育监管与决策更加合理性、准确性、科学化以及智能化,服务于教育事业的改革创新,支撑教育事业智慧化的发展趋势。
1.总体架构
平台的总体架构以教育系统全局为视角,以应用为驱动,基于SOA的理念,运用柔性架构设计思想和分层体系架构,以“满足当前应用、扩展未来需求”为目标,综合考虑大数据时代下新的技术思路和传统数据仓库的优势,采用组件化、服务化的方式,灵活适应功能、分析内容的动态追加和变更,满足系统未来变化的需要。架构的主要内容以及相互之间的逻辑关系如图1所示。
2.主要内容
(1)数据集成整合系统:是将各种数据源中的各种类型的数据按照教育数据资源中心的数据规范要求进行清洗、转换等操作,将符合教育数据资源标准体系要求的数据整合、加载到教育数据资源中心,为后续的统计、分析、挖掘业务提供高质量、规范化的数据资源;
(2)数据管控系统:是对数据资源的集中管控,保证数据的准确性、完备性和安全性。主要建设元数据管理、数据质量管理和数据安全管理,从而达到对教育数据资源中心中数据的管控;
(3)数据治理体系:是对教育数据资产管理行使权力和控制的活动集合,是建立教育数据管理制度、指导教育系统执行数据规划、数据环境建设、数据安全管理、元数据管理、数据质量管理等其他数据管理活动的持续改进过程和管控机制;
(4)数据服务调度管理系统:是整个平台的“发动机”,以教育管理各级行政单位、各级各类学校、科研院所以及社会公众等不同团体在监管、决策、研究分析以及公众数据服务等应用为驱动,将教育数据资源中心数据按照一定的规则,运用合适的智能分析技术,以组件化、模块化、服务性的方式及时、准确、合理地推送给数据分析应用中心,从而直观、友好地展现给不同的监管者、决策者、研究分析人员以及社会公众;
(5)智能分析系统:主要是利用教育数据资源中的数据,通过即席查询、统计报表、多维查询、数据挖掘等技术手段,进行多种教育主题的综合分析以及通过大量数据信息挖掘潜在信息,实现教育的评价与预测等,然后以一种合适的、直观可视化的、有好的方式及时、准确地提供给相关教育监管、决策、研究分析人员以及社会公众,从而实现教育监管、决策以及研究分析的科学化、智能化。
3.预期目标
(1)汇集不同来源的各种教育数据资源,建立起统一、规范的教育数据信息视图,形成覆盖教育各领域的、综合的、面向各种教育主题的教育数据资源中心,实现统一的教育数据管控、治理机制;
(2)形成面向不同主体的、特定领域的教育应用主题的数据集合,按照不同的教育主题进行组织、汇总、管理数据,满足政府(教育行政单位及国家其他行政单位)、学校、社会公众、国际教育团体等不同教育数据应用主体对数据进行分析解读、评价和预测的需求;
(3)建立柔性化的分析性数据应用服务的统一出口,通过灵活的组件化方式,将特定的数据集以合适的数据展示形式及时地、直观地提供给各种不同的教育数据应用领域,满足教育监管与决策的数据服务需求;
(4)建立国家、省两级教育大数据仓库与数据服务支撑平台体系,既实现不同教育级别不同类型教育数据资源的整合与集成,同时又能够满足国家和省级不同的应用需求;
(5)构建一套全面的、标准化的、可操作性的教育数据资源服务保障体系,形成一种长久有效的教育数据资源服务保障机制,可持续性地为教育监管与决策服务。
总之,国家教育大数据仓库和数据服务平台的建设实施,将全面、有效地支撑各级各类教育数据资源的分析,并且使教育监管与决策智能化的能力得到逐步提升。
三、结语
当今各行各业都在大谈大数据的时代,大数据的开发应用已经被许多国家提到国家战略的高度来进行研究。今年初李克强总理所做的政府工作报告中明确提出要设立新兴产业创业创新平台,在大数据等方面赶超先进,引领未来产业发展。作为国家公共管理部门,教育如何适应大数据时代,并利用大数据的开发应用推动教育事业的发展、改革与创新,支撑教育事业智慧化的发展趋势,是当前所有教育同仁共同思考的话题。并且随着国家教育信息化战略的实施,大数据的开发应用需求更加迫切,所以我们应当适应大数据潮流,把握机遇,充分利用大数据,结合教育信息化建设现状,构建教育大数据资源中心,有效支撑教育的监管和决策,推动教育的智慧化,从而实现教育的变革。
参考文献:
[1]张春艳.大数据时代的公共安全治理[J].国家行政学院学报,2014(9).
[2]沈菲飞.基于数据仓库的高校学生管理预警与支持系统[J].巢湖学院学报,2007,9(5).
[3](英)Viktor,Kenneth著,盛杨艳,周涛译.大数据时代-生活、工作与工作思维的大变革[M].浙江:浙江人民出版社,2013.
[4]韩蕊.大数据让数据仓库更具有价值[J].互联网周刊,2014(3).
[5]俞燕萍,丁荣涛.基于数据仓库技术的学生就业趋势分析系统设计[J].中国科技信息,2008(7).
12.数据仓库中数据存储与访问的实现 篇十二
数据仓库的概念自出现后,首先被应用于金融、电信、保险等传统数据处理密集的行业。国外许多大型的数据仓库在1996-1997年建立。随着工业竞争的加剧,数据仓库已成为营销的必备武器----一种通过更多地了解客户需求而保住客户的途径。
1 数据仓库研究现状
OLAP (On-line Analytical Processing) 是面向特定问题的联机数据访问和分析,它主要用于支持目标明确但比较复杂的查询分析操作[1]。目前数据仓库数据存储的实现主要有三种模式,一是单纯的关系数据库存储即ROLAP (Relational OLAP) ,二是多维数据库存储即MOLAP (Multidimensional OLAP) ,三是关系数据库和多维数据库的混合型存储[2]。第三种模式在国内已经开始广泛应用,但还存在存储效率低,访问权限难以控制等问题。
目前,我国很多商业银行都尝试构建了应用于某一方面的数据仓库系统,数据仓库的构建几乎都是基于ROLAP来实现的,绝大多数是用Microsoft SQL Server完成的。对于汇总数据和历史数据的访问及访问速度的要求,还是有些欠缺。
2 一种高性能的技术--HOLAP
根据OLAP的自身特点,它主要就是对用户请求的快速响应和交互式的操作,多维分析则是OLAP的核心所在。OLAP系统在具体实现时首要解决的是如何存储数据的问题。数据的存储有三种方式,即ROLAP、MOLAP和HOLAP (Hybrid OLAP) ,HOLAP是对他们的良好折中。它得益于ROLAP较大的可伸缩性和MOLAP的快速计算。MOLAP的查询性能很好,它可以很好地解决对于历史数据和汇总的查询问题,它的分析能力很好,这正是数据仓库应用系统所应有的特点。MOLAP多数用于存储那些历史的、聚合的数据,当要查询一些细节数据时,就要选择ROLAP这样才能满足需求,更好地完成查询分析任务。
3 改进后的存储模式
在考虑到实际应用和用户需求的基础上,可以基于关系数据库和多维数据库共同来搭建企业级的数据仓库。实现的方法是把聚合的、历史的数据存储在多维上,明细数据存储在关系数据库中,各取所长,达到事半功倍的效果,基于这两种存储方式实现的即HOLAP。
与之前的应用模式不同的是数据平台的数据仓库是用关系数据库和多维数据库共同组建的。关系数据库选择了由IBM DB2 UDB完成,多维数据库则选择了Essbase/DB2 OLAP Server来完成。数据展现平台用Java实现,基于MVC设计模式实现,并将该平台分为Web层、服务层和数据访问层。由于要访问不同的数据库系统,所以要区别对待,访问关系数据库数据则采用开源的Ibatis框架,将各种SQL语句存放在配置文件中进行统一维护通过JdbcDao访问关系数据库;对于多维数据库数据, DB2 OLAP Server的多维数据集访问的脚本语言的接口也提供了Java接口,由于数据展现平台是用Java开发的,所以我们可以直接访问多维数据库。但是在实践过程中证明,通过这种方式访问多维数据库的速度是相当的慢,之后尝试使用我们最熟悉的C,采用Java原生接口来实现对多维数据库的访问,它是通过Essbase/DB2 OLAP Server的C接口访问多维库的。使用C后效果则截然不同,如果将采用Java访问多维库的系统称为原有系统,将采用C访问多维库的系统称为改进系统。
4 结束语
本文对于我国的数据仓库的应用模式提出了将历史的、聚合的数据存放在多维库中,将细节数据存放在关系库中的存储方式,并采用C接口访问多维数据库,采用Ibatis框架访问关系库的改进方案。改进后更适合于对汇总数据及历史数据的查询,并提高了数据访问速度。
摘要:从分析国内外的数据仓库应用现状入手, 指出银行在应用数据仓库过程中存在的存储效率低, 访问权限难以控制等问题。然后基于对数据存储的分类, 提出关系数据库和多维数据库混合存储的方法, 测试表明该系统达到节省存储空间和提高访问速度的效果。
关键词:数据仓库,商业银行,联机分析处理
参考文献
[1]颜石专, 李战怀.基于数据仓库和OLAP的商务决策系统[J].微电子学与计算机, 2006, 23 (2) :64-67.
13.数据仓库工程师的工作职责 篇十三
1. 负责数据仓库架构设计与开发
2. 根据业务调研,设计信息模型与数据模型,负责大数据建模、ETL、数据产品及平台的设计与开发
3. 满足业务数据需求,设计面向业务的数据集市模型
4. 需求的沟通与数据开发项目管理
5. 基于Hadoop生态的程序设计、开发和维护
岗位要求:
1.熟悉SQL语言,至少熟悉Oracle、MySQL、SQL sever一种及以上
2.精通数据库系统(Oracle、SQL、mysql等):精通熟悉Oracle数据库体系结构,基础扎实;精通熟悉DataGuardRAC等高可用技术,能顺利的配置和管理dataGuard;精通熟悉Oracle的备份与恢复技术;熟悉SQL和PLSQL,能编写日常维护需要的脚本
3. 从事过数仓逻辑模型、物理模型设计与实施等工作
14.数据仓库工程师的岗位职责表述 篇十四
1.负责业务的数仓数据集市的建设,能提炼通用需求,数仓标准,实现高质量的数据互通共享
2.对海量数据进行统计与分析,产品效果评估与分析,为产品策略优化迭代提供强有力的数据支持
3.和业务团队紧密合作推动数据产品与服务的落地,具备良好的沟通协调能力
任职要求:
1.计算机 数学 统计, 金融等相关专业的本科或以上学历;从事数仓领域至少3年以上,具备海量数据的DW模型设计与ETL开发经验 2.熟悉数仓领域知识, 包括但不局限于:数据质量,元数据管理,主数据管理,数据开发测试工具与方法;
3.掌握Greenplum,Oracle,Teradata,Mysql 等至少一种,灵活运用SQL实现海量数据ETL加工处理;有Greenplum经验优先
4.具有数据仓库相关开发经验,如ETL,建模,BI,数据产品等,熟悉数仓模型
5.掌握一门或多门开发语言,不限于java/python/scala等,熟悉Linux/Unix平台上的开发环境
6、主导过大型数据仓库架构或模型设计经验者优先;
15.商业银行数据仓库建设 篇十五
数据挖掘是20世纪90年代中后期提出的概念, 它是以传统的数据库技术作为存储数据和管理资源的基本手段, 以统计分析技术作为分析数据和提取信息的有效方法。以人工智能技术作为挖掘知识和发现规律的科学途径的一种解决问题的方案。而数据仓库的建设, 可以看作数据挖掘的一个重要预处理步骤。在数据仓库的建设过程中, 可以将支持企业日常运作的各个独立系统中的数据进行清理、集成和统一, 并且可以将数据加载入不同于日常交易系统结构的易于查询分析的数据模型中, 为后续数据挖掘高效地获取准确明晰的数据扫清障碍。
1 数据仓库
根据数据仓库之父W.H.Inmon的说法, “数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合, 支持管理部门的决策过程”。这个简短而又全面的定义指出了数据仓库的主要特征。4个关键词, 面向主题的、集成的、时变的、非易失的, 将数据仓库与其他数据存储系统 (如关系数据库系统、事务处理系统和文件系统) 相区别。
数据仓库领域的领导厂商, 美国Teradata公司给企业级数据仓库下过一个定义, “一个企业级数据仓库是一个由集成的、明细的、可扩展的数据组成的, 集中的, 保留历史的数据机, 可以支持多个部门的各种决策分析, 是整个企业分析型数据的唯一来源”。这里有5个关键字:集成的、明细的、可扩展的、集中的、保留历史的。
从以上两个定义来看, 时变的包含了保留历史的意思, 而面向主题的结构保证了其结构和设计是可扩展的。因此, 从笔者的观点来看, 数据仓库的关键字应该是:面向主题的、集成的、时变的、明细的、集中的和非易失的。
为了进一步理解数据仓库的概念, 我们可以将数据仓库系统和操作型数据库系统进行一下比较, 概括在表1中。
2 商业银行数据仓库
所谓商业银行数据仓库, 是将数据仓库技术运用到商业银行的经营分析中, 从而为商业银行的精准营销、绩效考核、风险管理等提供强有力的数据支持。
从技术角度来看, 商业银行的数据仓库与其他企业的数据仓库差别不大, 具有数据仓库本身具有的一切技术特性。但是其数据模型的设计, 必须与商业银行的业务逻辑相切合, 这样才能发挥其应有的作用。
商业银行数据仓库采集包括银行核心系统在内的交易系统数据, 经过加载整理, 按照银行业务主题 (当事人、内部机构、资产、地址、产品、协议、事件、渠道、总账、营销等) 进行组织和存储, 形成商业银行数据仓库的基础模型区, 特点为以数据驱动, 保留基础、细节、历史、整合的数据。
3 数据仓库模型
3.1 维度模型
该模型将数据看作数据立方体 (data cube) 形式, 立方体由维和事实定义。
维是关于一个组织想要记录的透视或实体。每一个维都有一个表与之相联, 该表称为维表, 它进一步描述维。
维度数据模型围绕中心主题组织。该主题用事实表表示。事实是数值度量的。把它们看作数量, 是因为我们想根据他们分析维之间的关系。事实表包括事实名称和度量, 以及每个相关维表的关键字。
比如, 银行想记录客户所持有的账户的相关信息, 那么就要建一张账户的事实表来表示账户这个主题。在账户表中有账户的余额、开户日期、开户机构、账户持有人等信息。其中, 账户余额就是账户表的度量字段。而开户日期、开户机构等字段则是与其他日期、机构等维表关联的关键字。
3.2 星型模型
是维度模型的一种, 包括一个大的包含大批数据和不含冗余的中心表 (事实表) , 一组小的附属表 (维表) , 每维一个。这种模型很像星星爆发, 维表围绕中心表显示在射线上。
3.3 雪花模型
雪花模型是星型模型的变种, 其中某些维表是范式化的, 因而把数据进一步分解到附加的表中。结果模式图形成类似于雪花的形状。
雪花模型和星型模型的主要不同在于, 雪花模型的维度可能是范式化形式, 以便减少冗余。这种表易于维护, 并节省存储空间, 因为当维结构作为列包含在内时, 大维表可能非常大。然而, 与巨大的事实表相比, 这种空间的节省可以忽略。此外, 由于执行查询需要更多的连接操作, 雪花结构可能降低浏览的性能。这样, 系统的性能可能相对受到影响。因此, 在维度建模的数据仓库设计中, 雪花模型不如星型模型流行。
3.4 范式化模型
根据企业的业务特点, 将整个业务流程抽象为若干个主题, 主题内部遵循三范式以上的范式进行建模 (必要时可以适当降范式) , 主题与主题间通过关系表连接。比较类似于雪花纬度模型, 但是范式化程度比雪花模型更高, 也没有事实表和纬度表的概念。
3.5 商业银行数据仓库模型的选择
从理论上来看, 维度模型在查询上比较有优势, 但是对于业务种类繁多, 业务流程复杂的商业银行来说, 用维度模型进行存储未必能将各个操作型系统的数据进行很好地整合。
而范式化模型可以将操作系统的各类数据很好地整合存储, 但是范式化的结构不利于快速分析查询, 需要经过多次的表间联接才能完成一次客户全视图查询。
因此, 笔者认为单单使用维度建模或者范式化建模都不能很好地支持企业级数据仓库的建设和发展。根据国际最佳实践以及笔者的项目实施经验, 比较好的做法是在数据模型层使用范式化模型, 而后通过视图将范式化模型转换为维度模型给数据集市供数。
4 商业银行数据仓库整体架构初探
4.1 源系统文件 (Source file)
源系统文件就是将银行各操作型系统 (比如客户信息系统、存贷款系统、中间业务系统、信用卡系统、电子银行系统等) 数据表中的数据以文件形式下载给数据仓库系统。同时, 视相关业务数据量大小决定每天是全量下载还是增量下载。
4.2 操作型数据存储 (ODS) 层及其视图
操作型数据存储区域的数据表结构一般与上游源表结构一致, 数据也基本一致, 等于是将上游数据复制一份到数据仓库系统, 因此也称为源系统镜像 (Source Image) 。
操作型数据存储 (ODS) 视图, 是为了数据安全性和查询性能等因素考虑建立的视图, 其结构与ODS本身结构一致。操作型数据存储 (ODS) 的作用主要有以下几个: (1) 如果上游源系统文件每日下载增量数据给数据仓库, 则可以在ODS进行全量累加; (2) 对于上游源系统文件中部分错误数据 (比如字段长度被截位等) , 可以在ODS及时发现, 进行修复和清理, 提高到达模型层数据的数据质量; (3) 对于那些时效性要求高, 不需要历史数据, 且查询不是很复杂的业务需求 (比如电话银行的增值业务等) , 可以绕过数据仓库模型层, 由ODS直接供数。
4.3 范式化模型层
根据商业银行日常运作的业务特点, 抽象出若干个主题 (比如当事人、内部机构、资产、地址、产品、协议、事件、渠道、总账、营销等) , 将银行各个交易系统中的数据经过整合加载入各主题内部的各个数据表中。
可以说, 模型层的设计对于整个数据仓库建设的成败起着至关重要的作用, 模型设计人员需要结合银行自身业务特点在模型的稳定性、准确性、完整性和易用性等方面进行权衡, 从而设计出高效、稳定、准确的模型。
4.4 逻辑视图
逻辑视图的主要目的是方便数据仓库下游各数据集市取数, 由于是面向查询, 建议使用维度建模。
随着数据仓库的发展, 其下游的数据集市将会越来越多。因此, 对于逻辑视图的设计除了要方便查询以外, 更要注意对于统计指标的重用, 以及对于视图数量的合理规划。需要在稳定性和易用性之间找到平衡点。同时, 从模型层到逻辑视图的转换逻辑复杂程度和转换性能也是需要考虑的一个问题。
5 数据标准、数据质量管理和元数据管理
要建设好商业银行的企业级数据仓库, 除了要选择一种合适的建模方法, 有一个合理的数据架构以外, 更要关注存入数据仓库的数据情况。要真正体现数据仓库的价值, 还是要依靠存入仓库中的数据, 可以说数据是数据仓库的生命。而说到数据, 就必须要提数据标准、数据质量管理和元数据管理这3块内容。
5.1 数据标准
数据标准是用来描述数据的, 用来定义数据的业务含义和技术特征, 可以分为业务数据标准和技术数据标准。业务数据标准从银行业务角度来描述数据, 比如账号可以描述为“与银行签订了特定协议的客户所持有的, 用于存放交易金额的账户号”。技术数据表准则从数据库技术的角度来描述数据, 比如账号可以描述为“25位长度的数字串, 由9位地区号+9位网点号+2位识别号+5位顺序号组成”。
5.2 数据质量管理
数据质量管理是数据仓库建设的重要内容, 是数据仓库应用及价值发挥的基础。具体来说, 数据质量管理需要部署数据质量检查规则。对于在数据仓库中发现的数据质量问题, 需要通过数据质量管理平台进行反馈、跟踪和验证, 从而保证数据质量问题的有效解决。
5.3 元数据管理
元数据管理的工作主要是建立一个物理平台, 将数据标准在物理上实现落地。元数据管理平台的建设要注意其范围和详细程度。从范围上来说, 最好是有一个覆盖全行所有数据和数据结构的大元数据系统, 这样可以保证各个系统之间的数据结构和各个元数据的统一规划和设计。从详细程度上来说, 需要建立机制, 要求各个系统的所有数据结构及其相关信息都要登记到元数据管理平台中, 这样才能使其发挥应用的价值和作用。
5.4 数据标准、数据质量管理和元数据管理的关系
数据标准、数据质量管理和元数据管理三者是相辅相成, 相互作用的关系。
数据标准的建立给数据质量管理提供了判断依据, 凡是不符合数据标准的数据都是有问题的数据。同时, 数据质量发现和解决的过程中也可能会产生新的数据标准。
元数据管理平台的建设则是需要和数据标准建立同步实施的, 数据标准必须与元数据保持统一和同步。
6 灵活查询
所谓灵活查询, 就是在数据仓库中开辟一块空间, 让业务用户直接从仓库中获取数据, 以满足业务人员即时的、灵活的查询。
产品再好, 也需要营销了才能让客户知晓。灵活查询在数据仓库的建设过程中就是扮演了这么一个营销的角色。让业务人员开始使用数据仓库, 从中体会到数据仓库的优势。
同时, 在业务人员使用数据仓库的过程中, 也可能发现一些数据质量问题, 这样也有利于改善数据仓库本身的数据质量情况。
对于数据仓库项目的设计开发来说, 推广灵活查询也具有其积极的意义。对于一般的数据集市应用类项目开发周期一般需要几个月时间, 而且业务人员在提需求的时候, 没有数据验证环节。导致当项目完成了, 或是已经失去市场机遇, 或是没有达到业务人员的预期, 效果未必令人满意。灵活查询的推广, 可以让业务人员在提需求前先通过数据仓库来验证自己的想法, 有时还需要建立一些预测模型进行模型训练。对于一些营销类项目, 还可以较快地提取结果。待到需求都成熟了, 再向数据仓库项目组提需求, 进行常规部署, 这样也提高了项目开发的效率和效果。
参考文献
[1]JIAWEIEI HAN, MICHELINE KAMBER.数据挖掘[M].范明, 孟晓峰, 译.北京:北京出版社, 2001.