西部数据

2024-07-31

西部数据(12篇)

1.西部数据 篇一

1,作为支付宝数据首席分析师,你怎么看待“数据挖掘”这个词?

所谓的“数据挖掘”是基于用户的行为挖掘出有价值的东西,以及这个东西被用到商业环境上。比如非常著名的“啤酒与尿布”的案例,它的背景是在1992年的美国,每周四或者每周五下午5点-7点的时间形成的连锁销售。但是这个联合销售的方法并不适合任何时间和任何场合,单纯地剥离其背景本身,谈数据挖掘就是一个很泛的事情。

2,你认为,支付宝的数据和淘宝的数据有什么不一样?

我不在淘宝工作,所以很难全面地去了解淘宝内的数据。简单来说,支付宝的数据很广,它是以结果为导向的,显示的是买家交易最后一步动作,而淘宝探讨的是影响其购买的多项数据,是过程数据,它的数据更深,更细分。

3,作为产品出身的数据分析师,按道理你应该对影响消费者购买以及过程数据更感兴趣,为什么会选择支付宝这种以结果为导向的交易数据分析呢?

支付宝也有其特殊的优势。从我个人而言,选择一个公司做数据分析有几个理由,第一,公司高层对数据的理解和重视程度;第二,公司的数据量足够大,足够丰富,能和你本身的研究方向相契合;第三,公司文化与就是个人性格的匹配,这三点支付宝都符合。

4,你个人认为数据能帮助卖家解决什么问题?

其实数据的核心就是+将复杂问题简单化。今天的数据是否成功主要看两方面:第一是从时间(Righttime)上,数据出现的时间能否在你最需要它的时候出现;第二,从技术层面讲,有关数据的技术门槛能不能再降低。如果你能让你的用户用2秒时间,只要按一个箭头就可看到他想看的数据,那么这些数据就更有价值的。

5,作为产品出身的人,你看数据的角度会和单纯的数据分析师有什么不一样么?

从我本身而言,我认为不懂商业的人别谈数据。因为做任何数据都应该从问题出发。比如,你在用数据解决问题之前,首先要问自己几个问题:what is the problem(是什么问题?);who(用户是谁);why me(为什么是我做?);why now(为什么是现在做?);What scale(用户层大么?)。这几个问题,如果都是YES,那么这个产品就一定值得做。

6,如果你是支付宝的CEO,你最关心支付宝的哪些数据?

这就要看你所指的时间性了,比如周度,月度,甚至年度是不一样的。如果你的问题是指周度(week)敏感的话而我的时间只有十分钟的话我的答案会是:第一,新/老用户支付成功率;第二,新增用户数的周环比及最近峰比较;第三,十大业务量最高的支付场景中那一个超出了我的预期。第四,商户及用户上周投诉的分类排行榜。

7,现在很多卖家开口闭口就会必谈pv.uv和转化率,你认为这是卖家最应该关心的数据吗?

我不是卖家,但是这个问题的答案是:显然不是。数据是需要背景的,并不是任何类目,任何级别的卖家他关心的都应该是所谓的流量和转化率等。比如京东前一段时间最关注的是物流是否给力,因此京东的CEO最想要看的就是送达率的情况,而如果老板关注的是新品成功率,又或者是追单率等数据,这些数据都不是空想,而是经过沉淀和契合卖家自身发展背景的。因此,肯定不是所有的卖家在任何阶段关心的数据都是一样。

8,你觉得作为淘宝卖家,应该如何使用数据?

卖家更应该学会关注搜索数据(Buyer demanddata),而不是交易数据,比如作为一个女装卖家,你输入“新款”,会发现,其实早在3月11 日,就应该是春装打折的时候,如果你对搜索数据敏感,就更容易发现商机,而不是只盯着所谓的交易数据不放。要注意的是其实百分之九十影响你的数据不一定在站内。

9,如果你是淘宝卖家,你会关注哪些数据?

如果我是卖家,我关心的数据有两个纬度:第一,新用户从那个渠道找到我,看了什么?买了什么。;第二,存量用户中的留存情况。

10,你觉得,一个公司或者一个卖家,如何合理利用数据来制定KPI呢?

很多公司的KPI大多是以业务目标为导向,很少以用户为导向。其实更好的KPI导向应该是以用户为核心。我们常说用户很重要,但是用户到底有多重要,那些用户对你更重要,可以量化吗?。其实要知道用户对你的感知只要问一个问题就可以,用户失去你,他会不会不爽?比如失去了QQ密码,用户会慌,没有了支付宝,对用户影响大么?从这个角度去分析,自然能找到答案。

[关于数据分析与数据挖掘的数据10个问题]

2.西部数据 篇二

2005年6月至2007年12月海洋表面洋流示意图。数据源:海面高度数据来自美国航空航天局 (NASA) 的Topex/Poseidon卫星、Jason-1卫星, 以及海形图任务/Jason-2卫星测高仪;重力数据来自NASA/德国航空航天中心的重力恢复及气候实验任务;表面风压数据来自NASA的Quik Scat任务;海平面温度数据来自NASA/日本宇宙航空研究开发机构的先进微波扫描辐射计——地球观测系统;海冰浓度和速度数据来自被动微波辐射计;温度和咸度分布来自船载、系泊式测量仪器, 以及国际Argo海洋观测系统

泄密者爱德华·斯诺登 (Edward Snowden) 还在寻求容身之所的时候, 美国国家安全局 (NSA) 全方位收集电话和电子邮件记录之事经过他的披露, 已经引发了不安和愤怒。

奥巴马当局声称, 监听数据带来了安全, 然而左翼和右翼都在谴责这种窥探行为是对隐私的侵犯。

数据不是信息, 而是有待理解的原材料。但有一件事是确定无疑的:当NSA为了从其海量数据中“挖掘”出信息, 耗资数十亿改善新手段时, 它正受益于陡然降落的计算机存储和处理价格。

数据挖掘这一术语含义广泛, 指代一些通常由软件实现的机制, 目的是从巨量数据中提取出信息。数据挖掘往往又被称作算法。

威斯康星探索学院主任大卫·克拉考尔 (David Krakauer) 说, 数据量的增长——以及提取信息的能力的提高——也在影响着科学。“计算机的处理能力和存储空间在呈指数增长, 成本却在指数级下降。从这个意义上来讲, 很多科学研究如今也遵循摩尔定律。”

在2005年, 一块1TB的硬盘价格大约为1, 000美元, “但是现在一枚不到100美元的U盘就有那么大的容量。”研究智能演化的克拉考尔说。现下关于大数据和数据挖掘的讨论“之所以发生是因为我们正处于惊天动地的变革当中, 而且我们正以前所未有的方式感知它。”克拉劳尔说。

随着我们通过电话、信用卡、电子商务、互联网和电子邮件留下更多的生活痕迹, 大数据不断增长的商业影响也在如下时刻表现出来:

·你搜索一条飞往塔斯卡鲁萨的航班, 然后便看到网站上出现了塔斯卡鲁萨的宾馆打折信息

·你观赏的电影采用了以几十万G数据为基础的计算机图形图像技术

·你光顾的商店在对顾客行为进行数据挖掘的基础上获取最大化的利润

·用算法预测人们购票需求, 航空公司以不可预知的方式调整价格

·智能手机的应用识别到你的位置, 因此你收到附近餐厅的服务信息

大数据在看着你吗?

除了安全和商业, 大数据和数据挖掘在科研领域也正在风起云涌。越来越多的设备带着更加精密的传感器, 传回愈发难以驾驭的数据流, 于是人们需要日益强大的分析能力。在气象学、石油勘探和天文学等领域, 数据量的井喷式增长对更高层次的分析和洞察提供了支持, 甚至提出了要求。

这幅2005年6月至2007年12月海洋表面洋流的示意图集成了带有数值模型的卫星数据。漩涡和窄洋流在海洋中传送热量和碳。海洋环流和气候评估项目提供了所有深度的洋流, 但这里仅仅使用了表层洋流。这些示意图用来测量海洋在全球碳循环中的作用, 并监测地球系统的不同部分内部及之间的热量、水和化学交换。

在医学领域, 2003年算是大数据涌现过程中的一个里程碑。那一年第一例人类基因组完成了测序。那次突破性的进展之后, 数以千计人类、灵长类、老鼠和细菌的基因组扩充着人们所掌握的数据。每个基因组上有几十亿个“字母”, 计算时出现纰漏的危险, 催生了生物信息学。这一学科借助软件、硬件以及复杂算法之力, 支撑着新的科学类型。

另一例生物信息学的应用来自美国国家癌症研究所。该所的苏珊·霍尔贝克 (Susan Holbeck) 在60种细胞系上测试了5000对美国食品和药品管理局批准的抗癌药品。经过30万次试验之后, 霍尔贝克说:“我们知道每种细胞系里面每一条基因的RNA表达水平。我们掌握了序列数据、蛋白质数据, 以及微观RNA表达的数据。我们可以取用所有这些数据进行数据挖掘, 看一看为什么一种细胞系对混合药剂有良好的反应, 而另一种没有。我们可以抽取一对观察结果, 开发出合适的靶向药品, 并在临床测试。”

互联网上的火眼金睛

当医学家忙于应对癌症、细菌和病毒之时, 互联网上的政治言论已呈燎原之势。整个推特圈上每天要出现超过5亿条推文, 其政治影响力与日俱增, 使廉洁政府团体面临着数据挖掘技术带来的巨大挑战。

印第安纳大学Truthy (意:可信) 项目的目标是从这种每日的信息泛滥中发掘出深层意义, 博士后研究员埃米利奥·费拉拉 (Emilio Ferrara) 说。“Truthy是一种能让研究者研究推特上信息扩散的工具。通过识别关键词以及追踪在线用户的活动, 我们研究正在进行的讨论。”

Truthy是由印第安纳研究者菲尔·孟泽 (Fil Menczer) 和亚力桑德罗·弗拉米尼 (Alessandro Flammini) 开发的。每一天, 该项目的计算机过滤多达5千万条推文, 试图找出其中蕴含的模式。

一个主要的兴趣点是“水军”, 费拉拉说:协调一致的造势运动本应来自草根阶层, 但实际上是由“热衷传播虚假信息的个人和组织”发起的。

2012年美国大选期间, 一系列推文声称共和党总统候选人米特·罗姆尼 (Mitt Romney) 在脸谱网上获得了可疑的大批粉丝。“调查者发现共和党人和民主党人皆与此事无关。”费拉拉说, “幕后另有主使。这是一次旨在令人们相信罗姆尼在买粉从而抹黑他的造势运动。”

水军的造势运动通常很有特点, 费拉拉说。“要想发起一场大规模的抹黑运动, 你需要很多推特账号, ”包括由程序自动运行、反复发布选定信息的假账号。“我们通过分析推文的特征, 能够辨别出这种自动行为。”

推文的数量年复一年地倍增, 有什么能够保证线上政治的透明呢?“我们这个项目的目的是让技术掌握一点这样的信息。”费拉拉说, “找到一切是不可能的, 但哪怕我们能够发现一点, 也比没有强。”

头脑里的大数据

人脑是终极的计算机器, 也是终极的大数据困境, 因为在独立的神经元之间有无数可能的连接。人类连接组项目是一项雄心勃勃地试图绘制出不同脑区之间相互作用的计划。

除了连接组, 还有很多充满数据的“组”:

·基因组:由DNA编码的, 或者由RNA编码的 (比如病毒) ——全部基因信息

·转录组:由一个有机体的DNA产生的全套RNA“读数”

精神障碍通常是具体病例具体分析, 但是一项对150万名病人病例的研究表明, 相当多的病人患有超过同一种疾病。芝加哥大学的西尔维奥·康特中心利用数据挖掘理解神经精神障碍的成因以及之间的关系。“好几个 (研究) 团队都在致力于这个问题的解决。”中心主任安德烈·柴斯基 (Andrey Rzhetsky) 说, “我们正试图把它们全部纳入模型, 统一分析那些数据类型……寻找可能的环境因素。”图片来源:Andrey Rzhetsky, 芝加哥大学

大数据盯着“bigdata” (意为大数据) 。这些是在推特上发布过“bigdata”的用户之间的连接, 用户图标的尺寸代表了其粉丝数多寡。蓝线表示一次回复或者提及, 绿线表示一个用户是另一个的粉丝。图片来源:Marc Smith

20名健康人类受试者处于休息状态下接受核磁共振扫描, 得到的大脑皮层不同区域间新陈代谢活动的关联关系, 并用不同的颜色表现出来。黄色和红色区域在功能上与右半脑顶叶中的“种子”位置 (右上角黄斑) 相关。绿色和蓝色区域则与之关联较弱或者根本没有关联。图片来源:M.F.Glasser and S.M.Smith

这是星系动物园志愿者们发现的差不多2000个背光星系之一。它被其后方的另一个星系照亮。来自背后的光令前景星系中的尘埃清晰可辨。星际尘埃在恒星的形成中扮演了关键的角色, 但它本身也是由恒星制造的, 因此检测其数量和位置对于了解星系的历史至关重要。图片来源:WIYN望远镜, Anna Manning, Chris Lintott, William Keel

随着数据及通讯价格持续下跌, 新的思路和方法应运而生。如果你想了解你家中每一件设备消耗了多少水和能量, 麦克阿瑟奖获得者西瓦塔克·帕特尔 (Shwetak Patel) 有个解决方案:用无线传感器识别每一台设备的唯一数字签名。帕特尔的智能算法配合外挂传感器, 以低廉的成本找到耗电多的电器。位于加利福尼亚州海沃德市的这个家庭惊讶地得知, 录像机消耗了他们家11%的电力。图片来源:Peter Menzel/The Human Face of Big Data

·蛋白质组:所有可以用基因表达的蛋白质

·代谢组:一个有机体新陈代谢过程中的所有小分子, 包括中间产物和最终产物

连接组项目的目标是“从1, 200位神经健康的人身上收集先进的神经影像数据, 以及认知、行为和人口数据”, 圣路易斯市华盛顿大学的连接组项目办事处的信息学主任丹尼尔·马库斯 (Daniel Marcus) 说。

项目使用三种磁共振造影观察脑的结构、功能和连接。根据马库斯的预期, 两年之后数据收集工作完成之时, 连接组研究人员将埋首于大约100万G数据。

绘制脑区分布图的“分区”是一项关键的任务, 这些脑区最早于两到三世纪之前通过对少量大脑染色被识别出来。“我们将拥有1, 200个人的数据, ”马库斯说, “因此我们可以观察个人之间脑区分布的差别, 以及脑区之间是如何关联的。”

为了识别脑区之间的连接, 马库斯说, “我们在受试者休息时获取的扫描图中, 观察脑中的自发活动在不同区域之间有何关联。”比如, 如果区域A和区域B自发地以每秒18个周期的频率产生脑波, “这就说明它们处于同一网络中。”马库斯说。“我们将利用整个大脑中的这些关联数据创建一个表现出脑中的每一个点如何与其他每一个点关联的矩阵。” (这些点将比磁共振成像无法“看到”的细胞大得多。)

星系动物园:把天空转包给大众

星系动物园项目打破了大数据的规矩:它没有对数据进行大规模的计算机数据挖掘, 而是把图像交给活跃的志愿者, 由他们对星系做基础性的分类。该项目2007年启动于英国牛津, 当时天文学家凯文·沙文斯基 (Kevin Schawinski) 刚刚蹬着眼睛瞧完了斯隆数字巡天计划拍摄的5万张图片。

阿拉巴马大学天文学教授、星系动物园科学团队成员威廉·基尔 (William Keel) 说, 沙文斯基的导师建议他完成95万张图像。“他的眼睛累得快要掉出眼窝了, 便去了一家酒馆。他在那里遇到了克里斯·林托特 (Chris Lintott) 。两人以经典的方式, 在一张餐巾的背面画出了星系动物园的网络结构。”

星系是一个经典的大数据问题:一台最先进的望远镜扫描整个天空, 可能会看到2000亿个这样的恒星世界。然而, “一系列与宇宙学和星系统计学相关的问题可以通过让许多人做相当简单的分类工作得以解决。”基尔说, “五分钟的辅导过后, 分类便是一项琐碎的工作, 直到今日也并不适合以算法实现。”

星系动物园的启动相当成功, 用户流量让一台服务器瘫痪了, 基尔说。

斯隆巡天的全部95万张图片平均每张被看过60次之后, 动物园的管理者们转向了更大规模的巡天数据。科学受益匪浅, 基尔说。“我的很多重要成果都来自人们发现的奇怪物体, ”包括背光星系。

星系动物园依赖统计学、众多观察者以及处理、检查数据的逻辑。假如观察某个特定星系的人增加时, 而认为它是椭圆星系的人数比例保持不变, 这个星系就不必再被观察了。

然而, 对一些稀有的物体, 基尔说, “你可能需要40至50名观察者。”

大众科学正在发展自己的法则, 基尔补充道。志愿者们的工作“已经对一个真实存在的重大问题做出了贡献, 是现存的任何软件都无法实现的。鼠标的点击不该被浪费。”

这种动物园方法在zooniverse.org网站上得到了复制和优化。这是一个运行着大约20项目的机构, 这些项目的处理对象包括热带气旋、火星表面和船只航行日志上的气象数据。

最终, 软件可能会取代志愿者, 基尔说。但是计算机和人类之间的界线是可互换的。比如说超新星动物园项目在软件学会了任务之后就关闭了。

我们惊讶地得知志愿者们积累的庞大数据是计算机学习分类的理想材料。“一些星系动物园用户真的很反感这一点。”基尔说, “他们对于自己的点击被用来训练软件表达出明显的怨恨。但是我们说, 不要浪费点击。如果某人带来了同样有效的新算法, 人们就不必做那些事情了。”

学习的渴望

人们长久以来改进对图像和语音的模式识别的努力已经受益于更多的训练, 威斯康星大学麦迪逊分校的克拉考尔说。“它不仅仅是有所改善, 更是有了实际的效果。5到10年之前, i Phone上的Siri是个想都不敢想的点子, 语音识别一塌糊涂。现在我们拥有了这样一批庞大的数据来训练算法, 忽然之间它们就管用了。”

等到处理能力一次相对较小的改变令结果出现突破性的进展, 克拉考尔补充道, 大数据的应用可能会经历一次“相变”。

“大数据”是一个相对的说法, 不是绝对的, 克拉考尔指出。“大数据可以被视作一种比率—我们能计算的数据比上我们必须计算的数据。大数据一直存在。如果你想一下收集行星位置数据的丹麦天文学家第谷·布拉赫 (Tycho Brahe, 1546-1601) , 当时还没有解释行星运动的开普勒理论, 因此这个比率是歪曲的。这是那个年代的大数据。”

大数据成为问题“是在技术允许我们收集和存储的数据超过了我们对系统精推细研的能力之后。”克拉考尔说。

我们好奇, 当软件继续在大到无法想象的数据库上执行复杂计算, 以此为基础在科学、商业和安全领域制定决策, 我们是不是把过多的权力交给了机器。在我们无法觑探之处, 决策在没人理解输入与输出、数据与决策之间的关系的情况下被自动做出。“这正是我所从事的领域, ”克拉考尔回应道, “我的研究对象是宇宙中的智能演化, 从大爆炸到大脑。我毫不怀疑你说的。” (本文编译自:The Why Files, Data Dance, Big Data and Data Mining;原创人员:编辑/Terry Devitt;设计制图/S.V.Medaris;项目助理/Yilang Peng;专题作者/David J.Tenen Baum;内容制作总监/Amy Toburen)

知识链接

“大数据” (Big data) 作为时下最火热的IT行业的词汇, 随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。

早在1980年, 著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中, 将大数据热情地赞颂为“第三次浪潮的华彩乐章”。不过, 大约从2009年开始, “大数据”才成为互联网信息技术行业的流行词汇。美国互联网数据中心指出, 互联网上的数据每年将增长50%, 每两年便将翻一番, 而目前世界上90%以上的数据是最近几年才产生的。此外, 数据又并非单纯指人们在互联网上发布的信息, 全世界的工业设备、汽车、电表上有着无数的数码传感器, 随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化, 也产生了海量的数据信息。大数据技术的战略意义不在于掌握庞大的数据信息, 而在于对这些含有意义的数据进行专业化处理。换言之, 如果把大数据比作一种产业, 那么这种产业实现盈利的关键, 在于提高对数据的“加工能力”, 通过“加工”实现数据的“增值”。且中国物联网校企联盟认为, 物联网的发展离不开大数据, 依靠大数据可以提供足够有利的资源。

随着云时代的来临, 大数据也吸引了越来越多的关注。《著云台》的分析师团队认为, 大数据通常用来形容一个公司创造的大量非结构化和半结构化数据, 这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起, 因为实时的大型数据集分析需要像Map Reduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

大数据分析相比于传统的数据仓库应用, 具有数据量大、查询分析复杂等特点。《计算机学报》刊登的“架构大数据:挑战、现状与展望”一文列举了大数据分析平台需要具备的几个重要特性, 对当前的主流实现平台——并行数据库、Map Reduce及基于两者的混合架构进行了分析归纳, 指出了各自的优势及不足, 同时也对各个方向的研究现状及作者在大数据分析方面的努力进行了介绍, 对未来研究做了展望。

3.数据关联、数据废气和黑暗数据 篇三

很多机构都有数据废气(Data Exhaust),数据不是用完就是被舍弃,它的再利用价值也许你现在不清楚,但在未来的某一刻,它会迸发出来,可以化废为宝。比如,按照工作性质和绩效表现对员工进行更加精细区分,通过合理的编组,既能提高员工满意度有能提高劳动生产力。

黑暗数据(dark data)就是那些针对单一目标而收集的数据,通常用过之后就被归档闲置,其真正价值未能被充分挖掘。如果黑暗数据用在恰当的地方,也能公司的事业变得光明。

35.数据关联分析

【某公司团队曾经使用来自手机的位置数据,来推测美国圣诞节购物季开始那一天有多少人在梅西百货公司(Mact's)的停车场停车,进而可以预测其当天的销售额,这远早于梅西百货自己统计出的销售记录。无论是华尔街的分析师或者传统产业的高管,都会因这种敏锐的洞察力获得极大的竞争优势。

对于税务部门来说,税务欺骗正在日益的被关注,这时大数据可以用于增加政府识别诈骗的流程。在隐私允许的地方,政府部门可以综合各个方面的数据比如车辆的登记,海外旅游的数据来发现个人的花费模式,使税务贡献不被叠加。同时一个可疑的问题出现了,这并没有直接的证据指向诈骗,这些结论并不能用来去控告个人。但是他可以帮助政府部门去明确他们的审计和其他的审核以及一些流程。】

36.数据废气(Data Exhaust)

物流公司的数据原来只服务于运营需要(例如内部车队的优化调度),但一经再利用,物流公司就华丽转身为金融公司,数据用以评估客户的信用,提供无抵押贷款,或者拿运送途中的货品作为抵押提供贷款;物流公司甚至可以转变为金融信息服务公司来判断各个细分经济领域的运行和走势。

有公司已经在大数据中有接近“上帝俯视”的感觉,美国洛杉矶的一家企业宣称,他们将全球夜景的历史数据建立模型,在过滤掉波动之后,做出了投资房地产和消费的研究报告。麦当劳则通过外送服务,在售卖汉堡的同时获得了用户的精准地址,这些地址数据汇集之后,就变成了一份绝妙的房地产业的内部数据。】

37.黑暗数据(Dark Data)

【 在特定情况下,黑暗数据可以用作其他用途。Infinity Property & Casualty公司用累积的理赔师报告来分析欺诈案例,通过算法挽回了1200万美元的代位追偿金额。一家电气销售公司,通过积累10年ERP销售数据分析,按照电气设备的生命周期,给5年前的老客户逐一拜访,获得了1000万元以上电气设备维修订单,顺利地进入MRO市场。】

38.客户流失分析

【美国运通 (American Express,AmEx)以前只能实现事后诸葛亮式的报告和滞后的预测,传统的BI已经无法满足其业务发展的需要。于是,AmEx开始构建真正能够预测客户忠诚度的模型,基于历史交易数据,用115个变量来进行分析预测。该公司表示,对于澳大利亚将于之后4个月中流失的客户,已经能够识别出其中的24%。这样的客户流失分析,当然可以用于挽留客户。酒店业可以为消费者定制相应的独特的个性房间,甚至可以在墙纸上放上消费者的微博的旅游心情等等。旅游业可以根据大数据为消费者提供其可能会喜好的本地特色产品、活动、小而美的小众景点等等来挽回游客的心。】

39.快餐业的视频分析

【快餐业的公司可以通过视频分析等候队列的长度,然后自动变化电子菜单显示的内容。如果队列较长,则显示可以快速供给的食物;如果队列较短,则显示那些利润较高但准备时间相对长的食品。】

40.大数据竞选

【 2012年,参与竞选的奥巴马团队确定了三个最根本的目标:让更多的人掏更多的钱,让更多的选民投票给奥巴马,让更多的人参与进来! 这需要“微观”层面的认知:每个选民最有可能被什么因素说服?每个选民在什么情况下最有可能掏腰包?什么样的广告投放渠道能够最高效获取目标选民? 如竞选总指挥吉姆·梅西纳(Jim Messina)所说,在整个竞选活中,没有数据做支撑的假设不能存在。

为了筹到 10 亿美元的竞选款,奥巴马的数据挖掘团队在过去两年搜集、存储和分析了大量数据。他们注意到,影星乔治·克鲁尼(George Clooney)对美国西海岸40岁至49岁的女性具有非常大的吸引力:她们无疑是最有可能为了在好莱坞与克鲁尼和奥巴马共进晚餐而不惜自掏腰包的一个群体。克鲁尼在自家豪宅举办的筹款宴会上,为奥巴马筹集到数百万美元的竞选资金。此后,当奥巴马团队决定在东海岸物色一位对于这个女性群体具有相同号召力的影星时,数据团队发现莎拉·杰西卡·帕克(Sarah Jessica Parker,《欲望都市》的女主角)的粉丝们也同样喜欢竞赛、小型宴会和名人。“克鲁尼效应”被成功地复制到了东海岸。

在整个的竞选中,奥巴马团队的广告费用花了不到3亿美元,而罗姆尼团队则花了近 4 亿美元却落败,其中一个重要的原因在于,奥巴马的数据团队对于广告购买的决策,是经过缜密的数据分析之后才制定的。一项民调显示,80%的美国选民认为奥巴马比罗姆尼让他们感觉更加重视自己。结果是,奥巴马团队筹得的第一个1亿美元中,98%来自于小于250美元的小额捐款,而罗姆尼团队在筹得相同数额捐款的情况下,这一比例仅为31%。】

41.监控非法改建

【“私搭乱建”在哪个国家都是一件闹心的事,而且容易引起火灾。 非法在屋内打隔断的建筑物着火的可能性比其他建筑物高很多。纽约市每年接到2.5万宗有关房屋住得过于拥挤的投诉,但市里只有200名处理投诉的巡视员。市长办公室一个分析专家小组觉得大数据可以帮助解决这一需求与资源的落差。该小组建立了一个市内全部90万座建筑物的数据库,并在其中加入市里19个部门所收集到的数据:欠税扣押记录、水电使用异常、缴费拖欠、服务切断、救护车使用、当地犯罪率、鼠患投诉等等。接下来,他们将这一数据库与过去5年中按严重程度排列的建筑物着火记录进行比较,希望找出相关性。果然,建筑物类型和建造年份是与火灾相关的因素。不过,一个没怎么预料到的结果是,获得外砖墙施工许可的建筑物与较低的严重火灾发生率之间存在相关性。

nlc202309021312

利用所有这些数据,该小组建立了一个可以帮助他们确定哪些住房拥挤投诉需要紧急处理的系统。他们所记录的建筑物的各种特征数据都不是导致火灾的原因,但这些数据与火灾隐患的增加或降低存在相关性。这种知识被证明是极具价值的:过去房屋巡视员出现场时签发房屋腾空令的比例只有13%,在采用新办法之后,这个比例上升到了70%。】

42.榨菜指数

【负责起草《全国促进城镇化健康发展规划(2011-2020年)》(以下简称“城镇化规划”)的国家发改委规划司官员需要精确知道人口的流动,怎么统计出这些流动人口成为难题。

榨菜,属于低质易耗品,收入增长对于榨菜的消费几乎没有影响。一般情况下,城市常住人口对于方便面和榨菜等方便食品的消费量,基本上是恒定的。销量的变化,主要由流动人口造成。

据国家发改委官员的说法,涪陵榨菜这几年在全国各地区销售份额变化,能够反映人口流动趋势,一个被称为“榨菜指数”的宏观经济指标就诞生了。国家发改委规划司官员发现,涪陵榨菜在华南地区销售份额由2007年的49%、2008年的48%、2009年的47.58%、2010年的38.50%下滑到2011年的29.99%。这个数据表明,华南地区人口流出速度非常快。他们依据“榨菜指标”,将全国分为人口流入区和人口流出区两部分,针对两个区的不同人口结构,在政策制定上将会有所不同。】

43.天气账单

【常言道,“天有不测之风云”,遇到过出门旅游、重要户外路演、举办婚礼等重要时刻却被糟糕的天气弄坏心情甚至造成经济损失的情况吗?全球第一家气象保险公司“天气账单”能为用户提供各类气候担保。客户登录“天气账单”公司网站,然后给出在某个特定时间段里不希望遇到的温度或雨量范围。“天气账单”网站会在100毫秒内查询出客户指定地区的天气预报,以及美国国家气象局记载的该地区以往30 年的天气数据。通过计算分析天气数据,网站会以承保人的身份给出保单的价格。这项服务不仅个人用户需要,一些公司,比如旅行社也很乐意参与。

一家全球性饮料企业将外部合作伙伴的每日天气预报信息集成,录入其需求和存货规划流程。通过分析特定日子的温度、降水和日照时间等3个数据点,该公司减少了在欧洲一个关键市场的存货量,同时使预测准确度提高了大约5%。】

44.历史情景再现

【微软和以色列理工学院的研究人员已开发出一款软件,能根据过去20年《纽约时报》的文章以及其他在线数据预测传染病或者其他社会问题可能会于何时何地爆发。

在利用历史数据进行测试时,该系统的表现十分惊人。例如,根据2006年对安哥拉干旱的报道,该系统预测安哥拉很可能发生霍乱。这是由于,通过此前发生的多起事件,该系统了解到在干旱出现的几年后霍乱爆发的可能性将上升。此外,该系统根据对2007年初非洲大型飓风的报道,再次对安哥拉发生霍乱做出预警。而在不到一周之后,报道显示安哥拉确实发生了霍乱。在其他测试,例如对疾病、暴力事件及伤亡人数的预测中,该系统的准确率达到70%至90%。

该系统的信息来自过去22年中《纽约时报》的报道存档,具体时间为1986年至2007年。不过,该系统也利用了网络上的其他一些数据,了解什么样的事件会带来特定的社会问题。这些信息来源提供了不存在于新闻文章但却有价值的内容,有助于确定不同事件之间的因果关系或前后关系。例如,该系统能够推断卢旺达和安哥拉城市之间所发生事件的关系,因为这两个国家都位于非洲,有着类似的GDP,其他一些因素也很相似。根据这种方法,该系统认为,在预测霍乱爆发方面,应当考虑国家或城市的位置,国土面积有多少是水域,人口密度和GDP是多少,以及近几年是否发生过干旱。

负责此项研发工作的Horvitz表示,近几十年来,世界的许多方面都发生了改变,不过人类的本性和环境的许多方面仍然未变,因此软件可以从以往的数据中了解事情发生的模式,从而预测未来会发生什么。他表示:“对于回溯更久之前的数据,我个人很感兴趣。”

此类预测工具的市场正在形成。例如,一家名为Recorded Future的创业公司根据网上的前瞻性报道和其他信息来源预测未来事件,该公司的客户包括政府情报部门。该公司CEO Christopher Ahlberg表示,利用“硬数据”来进行预测是可行的,但从原型系统到商用产品还有很长的路要走。】

45.Nike+传感鞋

【耐克凭借一种名为Nike+的新产品变身为大数据营销的创新公司。所谓Nike+,是一种以“Nike跑鞋或腕带+传感器”的产品,只要运动者穿着Nike+的跑鞋运动,iPod就可以存储并显示运动日期,时间、距离、热量消耗值等数据。用户上传数据到耐克社区,就能和同好分享讨论。耐克和Facebook达成协议,用户上传的跑步状态会实时更新到账户里,朋友可以评论并点击一个“鼓掌”按钮——神奇的是,这样你在跑步的时候便能够在音乐中听到朋友们的鼓掌声。随着跑步者不断上传自己的跑步路线,耐克由此掌握了主要城市里最佳跑步路线的数据库。有了Nike+,耐克组织的城市跑步活动效果更好。参赛者在规定时间内将自己的跑步数据上传,看哪个城市累积的距离长。凭借运动者上传的数据,耐克公司已经成功建立了全球最大的运动网上社区,超过500万活跃的用户,每天不停地上传数据,耐克借此与消费者建立前所未有的牢固关系。海量的数据对于耐克了解用户习惯、改进产品、精准投放和精准营销又起到了不可替代的作用。】

46.沃尔沃的工业互联网

【在沃尔沃集团,通过在卡车产品中安装传感器和嵌入式CPU,从刹车到中央门锁系统等形形色色的车辆使用信息,正源源不断地传输到沃尔沃集团总部。“对这些数据进行分析,不仅可以帮助我们制造更好的汽车,还可以帮助客户们获取更好体验。”沃尔沃集团CIO Rich Strader说。这些数据正在被用来优化生产流程,以提升客户体验和提升安全性。将来自不同客户的使用数据进行分析,可以让产品部门提早发现产品潜在的问题,并在这些问题发生之前提前向客户预警。“产品设计方面的缺陷,此前可能需要有50万台销量的时候才能暴露出来,而现在只需要1000台,我们就能发现潜在的缺陷。”】

47.McKesson的动态供应链

【在美国最大的医药贸易商McKesson公司,对大数据的应用也已经远远领先于大多数企业,将先进的分析能力融合到每天处理200万个订单的供应链业务中,并且监督超过80亿美元的存货。对于在途存货的管理,McKesson开发了一种供应链模型,它根据产品线、运输费用甚至碳排放量而提供了极为准确的维护成本视图。据公司流程改造副总裁Robert Gooby说,这些详细信息使公司能够更加真实地了解任意时间点的运营情况。McKesson利用先进分析技术的另一个领域是对配送中心内的物理存货配置进行模拟和自动化处理。评估政策和供应链变化的能力帮助公司增强了对客户的响应能力,同时减少了流动资金。总体来讲,McKesson的供应链转型使公司节省了超过1亿美元的流动资金。】

48.纸牌屋与电影业

【《纸牌屋》最大的特点在于,与以往电视剧的制作流程不同,这是一部“网络剧”。简而言之,不仅传播渠道是互联网观看,这部剧从诞生之初就是一部根据“大数据”,即互联网观众欣赏口味来设计的产品。Netflix成功之处在于其强大的推荐系统Cinematch,该系统基于用户视频点播的基础数据如评分、播放、快进、时间、地点、终端等,储存在数据库后通过数据分析,计算出用户可能喜爱的影片,并为他提供定制化的推荐。 为此他们开设了年Netflix大奖(点击查看获奖算法),用百万美元悬赏,奖励能够将其电影推荐算法准确性提高至少10%的人。

未来的电影制作成本将大幅降低,一千粉丝足以使电影成功。还是像《技术元素》里说:“目光聚集的地方,金钱必将追随。”】

49.点评与餐饮业

【美国很多州政府在与餐饮点评网lep展开合作,监督餐饮行业的卫生情况,效果非常好。人们不再像以前那样从窗口去看餐馆里的情况,而是从手机APP里的评论!在中国的本地化O2O点评比如大众点评、番茄点等等,消费者可以对任何商家进行评判,同时商家也可以通过这些评判来提升自己的服务能力,在环节上进行更大力度的效率优化。

未来的餐饮行业将会由互联网和社会化媒体上所产生和承载的数据彻底带动起来,会有越来越多的人加入点评中,餐馆优胜劣汰的速度将会大幅加快。】

4.数据掘金:电商数据运营入门篇 篇四

如何组织安排网站的网页内容,以符合访客的个性化需求。

如何找出同一类访客的特征并预测其未来的购买行为。

如何调整商品页面的安排以提高商品被购买的比例。

如何自动地把商品分类,把同时可能购买的货物放在同一个网页上,以增加单次购买的商品总值。 如何吸引老客户多次回访网站,并做反复购买。

如何估计购物车被放弃的可能性以及如何降低这一数字。

所有这一切都建立在寻找不同的显性或者隐含的数据模式之上。

1 网站流量分析

要解答客户什么时候来丶从哪里来的问题要诉诸于电子商务领域最常听到的一个词了:流量。通常说的流量( Traffic)是指网站的访问量,是用来描述访问一个网站或是网店的用户数量以及用户所浏览的网页数量等一系列指标,这些指标主要包括:独立访客数量( Unique Visitors)丶页面浏览数( Page Views)丶每个访客的页面浏览数(Page Views Per User)。

查看流量数据可以采用的工具有 Google分析( Google Analysis)丶百度统计丶我要啦丶淘宝量子恒道丶 CNZZ等。利用这些工具,我们可以从多维度来分析流量,例如从时间维度来分析流量,可以得出在什么时间段访问某类商家的客户最多,也就是客户最喜欢在什么时候来到我们的电子商务网站,这对中小型的电子商务网站的帮助是最大的。

在做流量分析和访客来源分析中,我们最常使用的数据挖掘方法是时间序列。时间序列是数据挖掘领域中用来分析一段时间里各项指标的变化情况最常用的方法,通过时间序列我们不光可以从趋势图中看出网站(店)流量的大体变化情况,更重要的是我们能够预测未来一段时间的网站(店)流量情况。

网站流量分析,是指在获得网站访问量基本数据的情况下对有关数据进行的统计和分析,其常用手段就是 Web挖掘。Web挖掘可以通过对流量的分析,帮助我们了解 Web上的用户访问模式。那么了解用户访问模式有哪些好处呢?

在技术架构上,我们可以合理修改网站结构及适度分配资源,构建后台服务器群组,比如辅助改进网络的拓扑设计,提高性能,在有高度相关性的节点之间安排快速有效的访问路径等。

帮助企业更好地设计网站主页和安排网页内容。 帮助企业改善市场营销决策,如把广告放在适当的 Web页面上。 帮助企业更好地根据客户的兴趣来安排内容。 帮助企业对客户群进行细分,针对不同客户制定个性化的促销策略等。

一般的互联网数据分析工具中都有网站访客流量来源分析功能,可以直接得出一定结果。而本案例中的网上商城是构筑在淘宝天猫商城之上的,所以我们只能采用淘宝本身提供的和淘宝开放平台上的工具来做数据分析。我们可以从店铺的淘宝量子恒道工具中直接获取流量来源和访客地理位置分布。

图 1和图 2中的流量来源和访客地理位置分布就是从店铺的淘宝量子恒道工具中直接获取到的。

图 1 最近7天访客来源分布示意图

图 1基本阐明了最近7天网店的客户通常采用何种方式进入网店。这里我们可以看到,因为这家网店的店铺优化做得还可以,来自淘宝的免费流量占到了 36.67%。同时因为做了一定时间,有一定的知名度,所以自主访问的比例超过了 20%,占到了 22.41%。通常来说,如果商品的品质和价格吸引人,网站呈良性发展,那么淘宝免费流量和自主访问的所占比例就会稳步提高。

因为这个网店是在天猫站内,所以来自站外的访问量不是特别多。而对于独立的网上电子商城,基于搜索引擎的流量会占到相对较高的比例。来自搜索的流量同样也要分成自然搜索流量和搜索关键词广告流量。

对于独立的网上商城,也就是说它们不在天猫这类综合电子商城内的,我们可以分析出用户是点击了什么链接进入到商城的;如果是来自于搜索引擎的,我们还可以分析出用户是通过搜索什么关键词进入到商城的。

图 2 最近7天访客来源地理位置分布示意图

图 2 的数据显示了最近7天网店的客户分别来自哪个省份。在图 2中我们看到,访问该网上商城最多的访客来自广东,约占 19%,而其次来自北京和江苏,分别占 11.25%和 8.85%。值得注意的是,来自该品牌的一个重点目标城市上海的流量并不太多,只占 3.66%。

发现来自上海的流量占比不高的时候,我们可以做两种假设:

是否上海的受众不喜欢我们推出的产品?

是否对于上海的推广力度不够?

为了验证第一种假设,我们可以做客户调研,看是否增加某些关键词的商品描述和图片可以提升客户留存。而对于第二种假设,我们可以针对上海地区投放广告,并监测广告的转化率和效果。

对于单个访客在互联网上的来源分析,可能是没有太大意义的。但是综合一段时间内所有访客的来源信息,我们可以做趋势分析,从而决定在互联网上投放广告和资源的力度及方向。

2 商品销售分析

在电子商务网站上对商品销售进行分析是定时定期需要做的事情。我们可以做的商品销售分析种类很多,比如各个不同商品的访问量丶热点分析丶性能数据等。我们在做分析时,也要考虑到行业丶时间和地域等各种方面的因素,并和平均及基准的数据做对比。

做商品销售分析,需要从时间和空间的维度以及商品的类别丶价格等多个维度来做分析,这里可以做的报表类型非常多。

我们单纯从时间维度上来看,常用的报表是同比和环比的报表,而时间区间的选择可以是年丶季度和月,而当一个电子商务网站在刚刚开始的时候,周数据的报表也是偶尔会用的。

除了分析商品的销售之外,我们还需要做的分析是潜在的销售,也就是客户到网站来,浏览了哪些商品和分类,搜索了哪些商品,从而了解客户的兴趣点和将来可能购买的商品。

我们来看一家电子商务网站热销商品销售的月报表(见表 1)。

表 1 商品销售月报表

表 1 中的平均客单价指的是在购买相应商品时平均订单的价格。在整个网站上所有商品的平均单价为27.63,平均客单价为49.48。从热销商品的排名来看,平均客单价偏低,在前五名的商品中,只有两件商品的平均客单价高于平均值。从表 1 中的数据来看,销售是有提升空间的。我们看表 1 中货品单价最高的两个产品 B和 D,其对应的平均客单价也是最高的,而且从商品单价和平均客单价的比对来看,购买商品 B和 D的用户,同时也购买了多个其他商品。如果我们可以提升商品 B和 D的销售,网站的整体收入也会随之提升。

3 定期数据分析

要想做好电子商务网站的运营,需要做各种分析和报表,定期展示丶对比网站数据和运营数据。而对于大部分 CEO来说,周期的销量增长量可能是他们最为关心的数据分析。

以增长量为例,下面列出的这些数据是电子商务公司的董事长丶总经理和各级销售管理人员经常需要查看的与业务相关的增长量数据。这些数据都可以是负数。

增长量:所分析的业务在一定时期内增长的数量,是分析期与对比期的差额。

同比增长量:当前值与去年同期值之间的差值,用同比增长量来统计消除了周期变动和季节变动的影响,所用时间期间通常是月或者季度。

环比增长量:是指当前值与上一期数值之间的差值,所用时间期间一般是季度丶月或者星期。

增长速度是用来反映业务成长性的相对指标,用以查看当期增长量和对比期的数据对比。

同比增长速度是当期增长量与去年同期值之比,说明当期业务水平对去年同期业务水平增长的相对程度。

环比增长速度是当期增长量与前一期水平之比,说明业务分析期与相邻前期业务水平的相对增长程度。 项目增收贡献率:某项目增长量和所有项目总的增长量的比例。

4 内容分析

我们所述的电子商务网站上的内容分析和其他分析一样,也都是需要从数据出发的。

商品分析和页面分析从一定的角度来说,也都属于内容分析。这里所说的内容分析的对象是在商品页面之外的内容。

我们通过分析流量和客户兴趣点匹配相应的内容。通过数据,我们可以看到不同的内容所吸引的点击关注,从而对内容做出相应的调整。

在做内容分析之后,网站的内容需要从下面三个方面做优化: 内容专业化;内容差异化;内容质量化。

本段文字节选自《数据掘金:电子商务运营突围》

5.数据仓库与数据挖掘结业论文 篇五

参考题目:

1.数据挖掘技术在数据仓库中的应用

2.关联规则在数据仓库中的应用

3.Aproior算法及其改进

4.决策树算法综述

5.聚类技术在XXX中的应用

6.XXX分类算法在XXX中的应用

7.分类算法的比较

8.聚类算法的比较

9.……

10.……

要求如下:

1.最上面内容为:姓名、学号、专业和成绩,见模板。

2.题目居中,宋体4号字加粗。

3.正文:首行缩进2个汉字,宋体小四号,行间距为1.25,页面设置为:左-2 右-1.5 上-2 下-2.左侧装订。

4.若包含图或表,则居中。

5.至少4页,并在每页下面的中间加上页码。

模板如下:

姓名___________ 学号____________ 专业______________ 成绩_____________

题目

1.引言

2.XXX

3.XXX

4.…

6.西部数据 篇六

为正确、高效处臵金融统计数据集中系统数据报送环节面临的突发事件,提高应对数据报送风险的能力,保证金融统计数据采集工作顺利运行,依照人民银行总行确定的风险应对机制适用范围,根据自身情况及面临的风险特制定本方案:

一、组织机构

成立数据报送风险应急工作小组,由XXX行长任组长,计划财务部、风险管理部、信息科技部、各支行主管副行长及其他涉及数据报送的部门领导为成员。办公室设在计划财务部,负责具体工作。

二、风险应对机制方案

(一)金融统计制度变更的处理机制

对于统计制度变更引起的统计指标、统计口径等方面的变化,在接到正式通知后及时传达给各支行和相关部门。

业务部门与科技部门相关人员配合,在五个工作日内完成相关指标的修改及测试。

如果发生重大变化,如人行接口程序发生变化时,要求系统开发商在2个工作日内到达,进行相关业务的开发,保证与人行系统同步,及时按新口径进行统计,确保统计数据按时报送。

(二)数据处臵程序故障的处理机制

对于统计数据处理程序故障,视情况及时应对。我行统计数据处理程序采用BS架构模式,如出现故障,可以分为三种情况:

(1)前端应用程序出现故障,导致业务人员无法登陆生 成报送打包文件时,报送数据不会丢失,科技部门可在10分钟之内重新搭建前端环境,确保不会影响到报送业务的正常处理。

(2)数据库端出现故障,导致报送数据无法生成时,科技 部门可手动执行程序生成报送数据,整个生成数据的过程所需时间在1小时之内,确保不会影响数据报送。(3)装载数据库的pc-server机器出现软件或硬件故 障,导致报送数据无法正常生成时,可启用备用设备。备用设备的软件环境与正式运行环境完全一致,可在最多1个工作日内采集完成所需所有数据,保证报送程序正常工作。出现故障的服务器视故障严重程度,最多在5个工作日内会完全恢复至原状态。

(三)人员的配臵机制

对于人员配臵方面,实施AB岗制度,确保不因人的因素影响数据报送工作。

所有统计岗位都设立AB岗模式,以A岗为主,B岗为辅,若A岗人员离岗时,会及时移交给B岗人员。系统维护上也配备两名技术人员。

如统计人员更换,要求前任统计人员做好统计资料的交接,负责新任统计人员的培训,并指导一至二个报送周期后方可离岗。

(四)报送及时性的保障机制

统计部门与其他报送数据的部门保持联系,制订明确的数据上报时间,要求各数据报送部门按时报送。

对基层机构数据报送工作纳入内控考核,出现迟报、漏报和误报现象及时纠正,视情节给予内控扣分。

(五)数据更新的保障机制

现行机制下,我行金融统计报送系统与核心系统的基础数据是同步的,当本机构下设机构、部门发生变更时,金融报送数据系统会在次日采集核心变化的基础数据进行相应更新。

统计部门人员要在发生变更的次日进行数据测试,确保数据更新的及时和完整。

(六)报文报送途径的应急机制

一旦发生我行与人行数据接收系统无法链接时,数据报送管理员可下载打包好的报送数据到存储介质人工报送至市人民银行。

(七)计算机病毒的防控机制 服务器已安装企业版杀毒软件与防火墙,杀毒软件能够实时监控自动杀毒,对病毒进行防控。

遇到无法查杀病毒,导致报送数据的机器无法使用的最坏情况,则启用备用服务器重新生成报送数据,生成数据过程所花费时间在1个工作日之内。

(八)不可抗力的应急机制

遇到重大自然灾害,将启动特殊情况处理方案,导致主服务器及备用服务器硬件设备损坏,无法产生报送数据时,科技部门会取定期异地备份的数据库数据,在5个工作日内重新搭建报送环境,确保完成报送工作。

7.西部数据 篇七

关键词:分布式数据库,数据复制,数据分片

通常,分布式数据库系统需要维护数据库的多个副本,保持数据库多个副本间的数据一致性是分布式数据库系统维护的重点。数据复制能够将数据副本建立在不同的节点上,是重要的分布式数据库应用技术,能够避免因为某一个节点失效而导致分布式数据库崩溃的情况出现。在不同的数据副本上操作不同节点上的事务,进行单副本串行是保持数据库中不同数据副本间的一致性的重要方法。利用SQL Server 2000中的数据复制功能,可以把主要精力放在本地副本更新上,由分布式数据库系统完成其余副本的更新。

1 数据复制概述

数据复制能够将数据库中的数据备份到互联网、广域网或是局域网连接的服务器、站点的数据库当中,是强大的、重要的分布式数据库应用技术。数据复制能够保证各个副本之间数据的一致性,保持数据的同步。数据复制具有提高分布式数据库系统的性能,提高数据可用性,提高数据查询的速度等优点。通常,分布式数据库中,以数据更新传播的不同方式为依据,将数据复制分为异步复制和同步复制两大类。数据同步复制是事务执行的内容之一,其将每一个更新操作同时传送至其他副本的另外节点之上,并同时提交全部副本的更新。数据异步复制不同于数据同步复制,其将所有更新纳入到一个事务中,然后传送至副本的另外节点,使通信量降低,并且减少事务回滚而导致的代价。数据复制能够将已有中心数据库中的信息备份到各级拥有信息需求的不同数据库当中,也能够把各级分布数据库中的信息备份到中心数据库当中,从而有利于进行全局联机的决策支持分析与事务处理。

2 数据复制在SQL Server 2000中的应用

在维护同一个数据库多个副本间的一致性方面,SQL Server 2000提供了较为完备的复制功能。SQL Server 2000中数据复制的相关主体是发布者、分发者和订阅者。在SQL Server 2000中,用户能够利用数据库中已有的数据。用户处理数据时,即使断开了连接也能够进行数据副本处理。只要在重新连接后,用户将更改的内容传送至数据库当中就可以了。这样充分确保了各个分布数据间的独立性。SQL Server 2000中主要有事务复制、快照复制与合并复制三种类型的数据复制模式。首先,事务复制模式。在订阅服务器上进行数据初始快照运行,如果在发布服务器上进行数据更改,就使用事物日志对个别事务进行捕获,然后将个别事务传送至订阅服务器。其次,快照复制。直接分发数据位于某个时刻的状态,不对数据更新进行监视。把发布器中的数据复制到订阅服务器中进行数据复制。快照复制适合更新次数较少的大量数据的数据复制。最后,合并复制。在订阅服务器接收数据的过程中,不论订阅和发布服务器之间是否进行了有效的连接,数据更新都可以照常进行。在订阅服务器和发布服务器连接时,合并复制能够合并所有的更新。

这些复制类型都能够保证各个层次数据一致性的需求,为事务的ACDI属性提供了相应的功能。事务复制、快照复制与合并复制所具有的特点和功能都能够满足独立性与一致性的数据复制的要求。其中,事务数据复制是常用的便捷的数据复制方法。事务数据复制能够将数据库中的数据传送至其他的数据库,能够记录DELETE、UPDATE、INSERT等不同类型的数据操作。在维持数据复制的一致性方面,事务复制采用异步复制方式,将数据分发至订阅服务器,并进行增量修改。事务复制在SQL Server 2000中主要由三部分构成:日志读取代理、分发代理和快照代理。快照代理能够形成数据文件和描述文件,与新的订阅数据库保持同步。日志阅读器代理能够在分布数据库中插入事务日志中的事务。分发代理能够将复制事务从数据库中传送至订阅者。快照代理、日志读取代理和分发代理相互协调,保证各个副本的传输数据保持同步。

3 基于XLM的中间件模型及数据分片

3.1 基于XLM的中间件模型

基于XLM的中间件模型的主要功能模块包括:全局DOM树、中心处理模块、局部DOM树以及包装器。首先,全局DOM树。W3C组织推荐的DOM是一组用于合法HTML文档与XML文档的编程接口。全局DOM树允许脚本与程序进行动态访问、结构更新、文档内容更新和类型更新。其次,中心处理模块。中心处理模块是中间件模型的核心模块,它按照相关的数据分片策略,参照XML或DTD提供的路径模式信息,处理全局DOM树上的路径实例,在各个站点上分布每种模式的路径实例。第三,局部DOM树。在数据分片完成之后,在各个站点上利用DTD模式信息重新构建和全局DOM结构相同的局部DOM树。局部DOM树是全局DOM树的子集,如果把所有站点上的局部DOM树合并在一起,就能够得到全局DOM树。最后,包装器。通常,数据源均具有自己的包装器,在获得查询请求之后,就会从数据源中进行数据检索,找出所需的数据,并且将数据转化成XML形式。此外,数据源中的包装器能够进行数据源和DOM树之间的转换操作。从纵向来看,包装器、局部DOM树与其所对应的数据源共同形成了一个处理单元;从横向来看,包装器、局部DOM树、核心出来模块与全局DOM树共同组成了XML的中间件层。

3.2 数据分片

数据分片是分布式数据库的重要技术之一。传统的数据分片技术有Hybrid-Range分片策略、Range分片策略、Round-Robin分片策略。这些分配策略适用于有着固定模式的数据库,而不适用于无固定模式的、半结构化的XML文档。HRPS是一维分片方法,其划分的根据是关系中的某一个属性值,划分好的每个子空间内的数据元组数量相同,数据元组的值域互不相交。查询响应时间极小化是HRPS的重要目标,在查询数据时应当注意网络通信、磁盘I/O、CPU这些基本资源的占用。HRPS在XLM中间件基础上的扩展方法——EHRPS。EHRPS划分全局DOM树遵循以下原则:子空间包含路径实例数量大致相同的局部DOM树;子空间均只包含路径实例不重复的集合;根据DTD提供的路径模式信息,在不同站点上进行路径实例分配。由于中间件是统一的数据模型,在DOM树查询的相应时间当中会发生中间件系统资源消耗。DOM树的合并和XML文档生成DOM树的时间影响着DOM查询的响应时间。

4 结束语

综上所述,数据复制与数据分布在分布式数据库中有着广泛的应用。分布式数据库中,根据数据更新传播的方式将数据复制分为异步复制、同步复制两大类。在SQL Server 2000中的数据复制的主要有事务复制、快照复制与合并复制三种类型。事务型数据复制能够从一个数据库向其他的数据库分发数据,是一种较为理想的数据复制方法。在SQL Server 2000中事务复制主要由日志读取代理、分发代理和快照代理三个有机环节组成。全局DOM树、中心处理模块、局部DOM树和包装器是基于XLM的中间件模型的主要功能模块。Hybrid-Range分片策略等传统的数据分片技术适用于有着固定模式的数据库。EHRPS是HRPS基于XLM中间件的扩展方法,适用于无固定模式的、半结构化的文档,能够降低查询难度,提高查询的准确度。

参考文献

[1]朱丽丽.分布式数据库在高校的应用策略[J].科技信息 (科学教研) , 2008 (17) .

[2]涂承胜.基于VB的数据库的图像处理技术[J].计算机工程与设计, 2003 (6) .

[3]王祥武.数据复制技术比较[J].信息系统工程, 2010 (3) .

[4]勒敏, 刘建辉.分布式数据库系统数据一致性维护方法[J].科技广场, 2008 (3) .

[5]张建飞.数据复制系统的研究[J].才智, 2011 (11) .

[6]刘荣.分布式数据库系统数据复制技术的研究[J].电脑知识与技术, 2009 (7) .

[7]徐丽萍, 袁刚, 卢炎生.DRMDP:一个基于动态优先级的反射式数据复制中间件[J].计算机工程与科学, 2009 (2) .

8.西部数据6TB紫盘全球首发 篇八

西部数据紫盘(W D Purple)是专为物联网中有大量数据需求的视频监控应用而设计的,胜任任何现有与新装的家庭与小型办公场所的安防系统环境,还能支持最多8个硬盘并发工作的模式,每个硬盘最多32台高清(HD)摄像机拍摄的影像。从今日起,西数紫盘可以提供从1TB到6TB的不同容量选择。

“视频监控一直以来引领着整个物联网应用的发展。随着高分辨率、高比特率视频摄像机与大容量监控视频存储设备与设备交互需求的驱动,物联网带来了大数据访问与分析改善用户的安全。”西部数据存储科技高级副总裁暨总经理Matt Rutledge说道,“西部数据6TB紫盘为这个高速成长的市场带来了创新。”

西部数据紫盘搭载了多项独有的技术,包括:AllFrame-结合ATA串流技术,AllFrame可以有效减少视频丢帧,提高回放质量并增加可支持的盘位数量。西数紫盘享受专属的固件更新服务,可在监控系统中提高回放质量并尽可能减少干扰;IntelliSeek-在高温与全天候监控环境中,低功耗性能至关重要。IntelliSeek技术可针对系统负荷自动计算最佳寻道速度,能够有效地降低功耗并减少噪音与震动。

西部数据紫盘以监控级标准设计与测试,兼容行业主流基座与芯片方案,可与现有或新装视频监控系统无缝集成。自从2014年2月西部数据紫盘首次面世以来,西部数据与多家监控行业合作伙伴紧密协作,开发出专用的测试标准规范并检测监控系统的性能。测试结果显示,与竞争品牌的监控级存储产品相比,西部数据紫盘表现更佳,特别在支持的摄像机、通道数目及系统负荷增加的情况下。

9.从美国西部开发看我国西部发展 篇九

美国历史上开发西部的基本背景

美国历史上的“西部”最初是指从阿巴拉契亚山到密西西比河之间的地带,习惯上称为“旧西部”;后随着美国领土向西的扩张,又把密西西比河到落基山脉之间的地带称之为“新西部”;把落基山脉到太平洋沿岸之间的地带称之为“远西部”。美国开发西部的过程中,有两个大规模集中开发的时期,一个是1860―1890年之间,这一时期开发西部的主要动力来源于皮货贸易、土地投机以及奴隶主庄园的扩张,这30年间,美国人占据了4.3亿英亩土地,耕种了其中的2.25亿英亩,并且在西部土地上成立了10个新的州;第二个时期是1930―1970年之间,自罗斯福新政以来,美国政府陆续出台相关法规,成立专门机构,加大对西部财政补贴和资金投入,实行各种优惠政策,进行流域综合治理,大力发展军工企业、高新技术产业,极大地改变了西部的经济结构,使得美国经济重心逐步西移,东西部经济发展趋于平衡。

美国历史上开发西部采取了哪些政策措施?

(1)实行联邦“公共土地”政策鼓励开垦

主要包括1862年通过的《宅地法》,该法规定每个年满21岁的美国公民或宣布愿意成为美国公民的人,只须交纳10美元手续费就可以免费获得无人居住的政府所有土地160英亩。只要定居和开垦5年,土地就永远归其所有,并且可以出售;也可以在居住6个月之后,按照当时的最低价格每英亩1.25美元购买。1873年通过的《鼓励西部草原植树法》规定,只要在自己的地产上种植40英亩树并保持以上,就可获得160英亩联邦土地,1878年又把造林面积降低到10英亩。1877年颁布的《沙漠土地法》规定,政府向那些愿意在干旱土地上修筑部分灌溉沟渠的人,以每英亩25美分的低价出售640英亩土地,而且可以在3年内付清。1878年实施的《木材石料法》规定,允许把不宜农耕、但有出产木材和石料价值的土地,以每英亩2.5美元的价格出售,每人限购160英亩。

(2)建立专门机构和配套法规保障政策实施

20世纪60年代,美国对西部地区的开发进入新的阶段,先后成立了地区再开发署和经济开发署等专门机构,负责落后地区的开发工作,并相继颁布了一系列重要法令,其中主要有1961年的“地区再开发法”,1962年的“加速公共工程法”和“人力训练与发展法”,1964年的“经济机会均等法”,1965年的“公共工程与经济开发法”、“阿巴拉契亚地区开发法”以及1972年的“农村发展法”等。此外,联邦政府还确定了开发落后地区所应遵循的基本战略。这些战略主要有:一,综合战略,既通过广泛的财政、货币政策等综合措施,使贫困地区的经济发展保持高的增长率。二,减缓痛苦战略,即通过失业津贴、医疗保健方案,公共援助等长期和短期援助,消除落后地区的困境。三,根治战略,即通过地区开发计划,职业训练和教育,促进落后地区自我发展。

(3)利用军事工业生产拉动经济发展

联邦政府通过各种渠道向西部倾注财力,其中一个主要的方式就是增加军事订货合同。二战前夕,美国政府在确定军事工厂与基地时就优先考虑将其设在西部地区。二战期间,军事工业的飞速发展带动了该地区的发展,侵朝战争和侵越战争期间,国防开支剧增,成为联邦政府财政支出中的最大项目,从而导致大量国防开支源源流入西部地区,大大加速了它们的经济增长。据统计,从60年代到80年代,美国西部所得防务合同始终保持在40%以上,最高年份曾达到60.6%。按人口平均计算,该地区所得防务合同远远超过其他地区,1975年联邦政府在各地花费的防务开支,中西部人均为207美元,东北部为309美元,南部11州为412美元,包括加州在内的西部高达623美元,为中西部的3倍。

(4)以高新技术产业发展推动产业结构升级

美国西部地区土地价格低廉,资源丰富,气候温和,劳动力价格相对便宜,非常适合宇航、原子能、电子、生物工程等高新技术工业的发展。二战以后,西部和南部抓住美国大量军事工业转为民用的契机,迅速发展了宇航、原子能、电子等高科技产业。美国几个最著名的高新技术工业科研生产基地,如加州的“硅谷”、北卡罗来纳的“三角研究区”、佛罗里达的“硅滩”、亚特兰大的计算机工业等都位于西部和南部。根据美国国会技术评价局的统计,1972―1977年间高技术工业就业人数净增最多的10个都市地区有8个位于西部,只有2个位于东北部的马萨诸塞。

美国历史上开发西部对我国进行西部大开发的几点启示

(1)灵活优惠的土地开发利用政策有助于推进我国西部大开发进程

19世纪美国为了鼓励更多的人向西部迁移,制定了灵活多样的土地开发优惠政策,极大地推动了西部开发的进程。这一时期陆续出台的《鼓励西部植树法》、《沙漠土地法》等规定,只要在西部地区种草植树或修筑灌溉沟渠达到一定面积和一定时间,就可低价或免费获得一定面积土地。美国因为土地可以私有,当然可以通过赠送土地的方式来鼓励开发落后或贫瘠地区。我国实行土地公有制,不可能用同样的方式来鼓励西部开发,但是完全可以制定其他多种优惠政策来调动西部开发的积极性。可以考虑将一定面积待开发治理土地以低价、无偿或先期注入资金扶持的方式,承包、分租或批租给某单位和个人,在治理开发的前期给予贷款、补贴、贴息、雇佣工人工资、医疗有保障等政策,规定几十年不变,承包或承租者拥有充分的土地使用、转让、和经营管理权。政府的目的就是先投钱,慢慢少投钱到不投钱,鼓励、养活并稳定一部分人长时间甚至一生以植树种草、治理土地为业,等到土地治理开发产生明显经济效益时,政府通过各种手段鼓励承租者将所得利润用于土地更大面积的治理开发,而决不收取利润,一直到形成土地开发的良性循环。

(2)中央政府应因地、因时制宜地赋予我国西部各省更大的自主权

美国开发西部过程中,除了联邦政府采取了大规模的财政补贴和转移支付政策外,州、县等地方政府具有相当大和灵活的自主权,很大程度上吸引了企业的进入,巩固了美国西部开发的经济基础。我国西部在财政收入、国内生产总值、进出口等方面占全国的比重较低,不可能指望西部近期内为国家做出多大的贡献,因此应该放开对西部各省的僵硬的.“一刀切”管理模式,允许它们拥有更大、更多的政策制定权,八仙过海,各显神通,只要在坚持社会主义市场经济和遵纪守法的原则下,敢闯敢试,多想多干,谁能实现自己的迅速发展,谁能减少对国家的依赖和对中央财政的负担,谁就是正确的,谁就是值得发扬光大的。例如,是否可以允许西部部分省份拥有自己制定税收政策的权力;能否考虑西部部分省份在项目审批、进出口企业登记、企业上市、开发区设立等方面拥有更大的自主权;还可以考虑赋予西部各省在对外开放、设立边境自由贸易区、引进外资方面更大的权力;另外,在发行地方债券、建立地方银行以及设立地方证券场外交易中心等方面,可以考虑给予西部各省更大的权力和优惠。

(3)重视发挥高科技产业对我国西部产业结构调整的拉动作用

美国在两次世界大战期间,大发战争财,发展了一批具有相当技术水平和规模实力的军工企业,这些军工企业大都分布在美国的西部地区。进入

10.四、学生卡制卡数据和数据的上报 篇十

(一)制卡数据包括校名、学生姓名、性别、学籍号、身份证号、学生数字照片,所有数据由CMIS生成。为保证学籍号的唯一,学籍变更后该学生的原学籍号不得分配给其他学生。学生数字照片为内容整洁、近期免冠蓝色背景彩照(头部宽度及高度占照片宽度及高度的60%―70%,色彩深度为24位,分辨率为640*480点的JPG文件,并将压缩选择为最优质量)。

(二)制卡数据由学校和区县管理部门按各自职责逐级上报,上报的所有制卡数据如发现错误必须经CMIS系统修改后,由校级卡管理系统重新导出。

(三)各级卡管理责任人要对数据的准确、上报数据文件的安全无病毒负责,对于数据出错造成损失的要承担责任。

11.数据啊数据 篇十一

这里面包括了7.7%的GDP增速,M2突破100万亿同比增长15.7%,3月份工业增加值为8.9%,3月份用电量创46个月新低,而人民币兑美元为0.1616—这是人民币兑美元汇率升至高于以往任何一个时候的水平。加上一个星期前公布的2.1%的CPI,则可以看到一些有意思的地方,这些趣味多半是由不合逻辑带来的。把它们摆在一起,你会发现它们最终在逻辑上是自相矛盾的。

用电量创新低说明开工不足—官方的解释是对电的利用更为有效率,但鉴于目前没有有效的报道证明任何技术升级的蛛丝马迹,所以还是可以得出工业生产下降的直接结果。实际上前两个月的工业增加值基本上都是9.9%,3月份是8.9%。增加值的概念有点复杂,你可以把它看作经营利润,有点类似于经营总收入减去各项费用之类的意思。如果这个值低,说明利润不怎么高。而正是工业增加值等等的这些“利润”一起构成了GDP—国内生产总值。这个数据非常奇特,它有三种算法,但是如果说增速是百分之多少的话,基本用的都是生产法。你也可以更简单点理解GDP,它基本可以等同于税前利润—即营业收入减去各项支出后再加上非主营业务收入的净额。

工业增加值下降导致GDP下降,这没有问题。但3月份的M2则有点离谱了。M2是广义货币的意思,你也可以简单点记住它,M1指的是市场上的现金包括支票、活期存款,M2则包括了定期存款和债券,2011年央行还将理财也纳入了M2的范畴。M1是现实购买力,M2是潜在加现实购买力。市场上流通的资金不够时,央行会开始投放货币。比如给一级交易商—商业银行等钱来购买有价证券,这就是所谓的逆回购将钱投放给市场。

有些人会看M2/GDP的比值来衡量货币是不是超发,这个比例实际上没有非常大的意义,并且也没有一个可以比较的中值。另外一种简单的方式可以很容易看出问题所在,那便是GDP+CPI后,再加上1至3个百分点,便大致是M2的增速。如果超过过多的话,就是超发。按照这个公式,合理的M2大概是在12.8%,但实际上3月份的M2是15.7%。

这个数字市场倾向于会首先反应是利好,因为这表明资金更多,但实际上从来就不是什么太好的事情。更加不好的是,一季度中国的M2又超过了世界货币总量的52%了,也就是说,即便美国和日本一直在量化宽松,但是它们的货币投放量实际没有中国多。呃,100万亿人民币真的有点多。

当然这只是一个月的数据,央行向来的传统是第一季度货币会更宽松而随后收紧。如果横竖都要来一场经济改革的话,那么央行就必须在货币投放上谨慎行之。因为一旦货币超发会引起物价上涨,这会让人们顷刻间对改革失去仅存的好感。并且CPI的数据其实还是满可疑的。阿里巴巴根据网上交易情况编制的互联网购物价格指数显示,2月份的物价同比上涨了10.6%。

来看最后一个数据,人民币兑美元,最不可思议的部分来了—人民币在上涨,还是历史高位。4月15日这天其实还发生了一件事,在尾盘的时候全球黄金和白银的价格猛跌,这是一次没有预兆的黑天鹅。这意味着美元兑大部分货币都上涨,但是它兑人民币却跌了。黄金已经从1900美元/盎司的现货价格跌到了1422美元/盎司。

全球的货币宽松已经达成了共识,那黄金作为保值品是不应该持续下跌的;而当全世界都指责中国的货币超发造成通货膨胀并且实际数据也有点不好时,买家却在买入人民币指数—这实在是非常矛盾的,市场一定有什么地方出了点问题。

12.基于关联数据开放政府数据 篇十二

2009年2月,Tim Berners-Lee在TED大会上提出关联数据,并介绍了其对于数据Web发展的影响。随后,世界各国开始以关联数据的形式公开发布政府数据,如美国、澳大利亚、新西兰、荷兰、瑞典、西班牙、奥地利、丹麦等以及地方政府伦敦、纽约、温哥华等。最具影响力的是2009年5月美国data.gov的启动以及2010年1月由互联网之父Tim Berners-Lee和南安普敦大学人工智能教授Nigel Shadbolt领导开发建立的英国政府开放数据网站data.gov.uk。在国内,政府各部门对信息的需求变得越来越明显,为了解决当前政府“信息孤岛”的问题,把所有可公开的相关数据关联起来,并发布到统一的数据平台上供大家使用,我们将采用W3C标准中的关联数据技术和方法实现数据的开放。为了实现这个目标,我们需要处理的问题有:信息的来源问题,数据的格式问题,数据的相互关联问题以及数据的使用问题等。同时,关联数据作为基础技术,使数据的发布者能满足数据使用者的各种各样的需求,实现数据的最大化应用。

2 Linked Data与国外开放政府数据

Linked Data这个概念来自W3C正式项目———关联开放数据(Linked Open Data,LOD)项目。目前该项目含有50多亿个RDF三元组,该数据还在不断的增加。简单来说,关联数据的三个基石是URI、RDF和HTTP协议,即通过HTTP协议来传递RDF数据,而这个RDF数据是一个遵循特定规则语义数据,这个特定的规则就是使用URI来描述任何资源[1]。关联数据和数据的关系就好比万维网和文件的关系,是语义万维网的一种可行的表达方式,实用且可操作,适用于各种形式的数据,它根据开放标准将数据连接在一起,从中萌发出很多新的事物,比如:在遵循关联数据四项原则的前提下,地理信息系统、移动通信系统、公安信息系统的数据能组合在一起,有效的评估公安系统对某一区域犯罪率的控制。

2009年,美国和英国都分别作出开放数据的承诺,data.gov与data.gov.uk两个政府网站相继启动。5月下旬,由美国联邦首席信息办公室和Vivek Kundra成立的一个美国政府网站data.gov,作为政府数据中央存储库,经过一年的时间从起初的47个数据集已经发展到现在的272677个。其根本目标是,让公众对联邦政府行政部门生成的“高价值”、机器可读的数据集进行访问,使得公众的参与与协作是网站成功的关键。2010年1月项目正式启动的英国政府网站data.gov.uk采用语义网的架构概念、SPARQL的搜索技术,其中地理信息底层采用yahoo用户界面库Yahoo User Interface Library实现[2],该网站就已包含约2500个数据集,这些数据集来自于英国政府部门,既是非私有的,并以相同的格式存在以便重用。总体来看,data.gov.uk拥有超过data.gov的优势,使用关联数据格式发布数据,使得用户更容易使用数据,它使用通用的网络语言使得用户对整个网站的导航比较熟悉,让更多用户也参与进来。但是,这两个网站发展的空间还很大,随着时间的推移,将会变得更流畅,更富成效。

3 国内数据开放存在的问题

政府的信息开放包含三个方面:政府透明度,问责制,以及知情权。当前,来自政府体制内的不同部门利益难以协调,难实现数据的整合、公民对政府的监督和问责。国家信息化办公室的撤销,从一方面显示了国内信息化地位的降低。而对于研究者来说,没有数据,就如“无米之炊”,但并不是所有的政府及科研数据都拿不到,只是拿到的数据精度不高,不成系统,甚至不能用,因此,数据的开放和共享在国内成为了一个瓶颈。另外,还存在一个问题,对于同一种类的数据,不同的部门会采取不同的统计方法,所得出的结果有很大差别,比如说,对于贵州人口统计,我们应该选择哪一个体制的数据,国家统计局(常住人口37623600人)与贵州省公安系统统计的数据(户籍人口39850386人),用户只能是根据自己的需求来选择所需要的数据。2006年1月12日,中国生态系统研究网络的数据正式对外公布,虽然数据在进一步的完善中,但这也是科学界数据共享的一个新的开始。最后,在接下来的数据工作中,除了解决数据分散、信息孤岛,还应有针对数据开放的立法,保证数据的有效使用。

针对中文信息的处理,也存在很多的问题,比如说歧义的自动识别,对于水果类的“苹果”和计算机品牌“苹果”,计算机还不能准确的识别出来;又如目前搜索引擎的主要问题,缺乏智能,用户的输入是关键词的组合,无法准确地表达用户的检索需求,搜索引擎的输出是网页集合,需要用户自己从这些返回的网页中进一步寻找答案,浪费了时间,即使是Google中国,它按照倒排序的方法将用户较感兴趣的网页放在前面,但是最终的选择还得靠人工来选择;由于信息的异构,把信息融合在一起时比较困难;等等。因此,在我们运用Linked Data技术来对国内的数据进行开放处理时,应考虑到具体的国情和中文信息处理方面的问题,只有与现实结合起来,才能更好的做好政府数据开放的工作。

4 开放政府数据

2005年,Izzard,Vincent和Burlat等人在第一届企业软件和应用互操作国际会议中提出了关于企业集成中语义和本体的概述和一个通用的集成处理工作流程[3]。借鉴英美两国开放数据(data.gov与data.gov.uk)的成功案例,根据实际需求和互操作任务,采用Linked Data标准实现政府部门之间数据的共享和开放。这一节将介绍Linked Data技术是怎样应用到国内数据开放的进程中。

采用“从下自上”的方法开放数据,即在取得高层授权后,先把数据放到网上,由使用者集体参与的结果来决定出数据最后的形式,之后再整合。发布开放数据工作流图如图1所示[4,5,6]。

4.1 语义描述

语义描述是为了明确服务的功能和业务数据的语义,包括数据的描述、功能的描述和业务的描述。语义描述数据是整个工作流程中比较难以实现的一个步骤,但是一旦充分的实现了语义描述,将会帮助大众更容易的找到、理解、使用数据。实现语义的描述的过程充分展现了Linked Data技术的优势所在。

4.1.1 标识

使用URIs(Uniform Resourse Identifiers,统一资源标识符)来标识资源。在Linked data环境下,统一选用HTTP URIs,避免使用其他的URI模式(如URNs和DOIs)。选择HTTP URIs命名主要有三个原因:其一是http://是唯一的URI模式,并且绝大多数工具和基础设施都支持;其二是URIs提供了一种简单的方式创造出全球唯一的名字,且不需要集中地管理;其三就是URIs的作用不仅仅是命名,也是Web中处理资源信息的途径。好的资源标识符不仅仅是提供人和机器都可读的描述,也要“Cool”[7],即设计简单、稳定及可管理。

4.1.2 选择URIs

URIs用来命名资源,并连接RDF和Web,在发布关联数据之前,我们应该找出相应资源的URIs。一方面,它们必须是很“好”的命名,能使其他的发布者可靠地把你的资源链接到他们的数据上;另一方面,在恰当的地方建设好支撑技术的基础设施,使得它们能被解引用。要尽量选择在可控情况下发布的URI,另外,最好是选择可以帮助记忆的、稳定的、持久的命名。因为一旦更改URI,就会改变已经建立的链接。由于技术环境制约着URI的选择,所以对URI进行清理也是很必要的工作,可以通过添加URI重写规则到Web服务器的配置中实现。最后,可在URIs中使用关键字确保其唯一性,例如,在处理书籍的URI时,使用ISBN编号作为URI的一部分。如:

http://www4.wiwiss.fu-berlin.de/bookmashup/books/006251587X

4.1.3 选择术语集

为了使客服端应用程序能尽可能简单访问到数据,应使用已经普遍使用的数据集,在现有术语集中没有找到需要的术语时,才定义新的术语。

重用现有的术语集

在语义Web中已有很多著名的术语集:FOAF(Friend-of-a-Friend)、DC(Dublin Core)、SIOC(Semantically-Interlinked Online Communities)、SKOS(Simple Knowledge Organization System)等。这些数据源的URI是解引用的,意味着能从Web中检索到相应概念的描述,并能链接到其他数据源的URIs。

自定义术语

使用RDF词汇描述语言1.0:RDF模式或OWL(Web Ontology Language,Web本体语言)。需要注意的是,最好不要从零开始定义新的词汇,而是在现有的词汇上附加术语来描述资源,最重要的是术语的URIs要能解引用,使得客户能查找到术语的定义。由于人能猜测,但机器不能,在定义过程中不能丢失重要的信息,也不要创建太多的限制,而是保留发展的灵活性。

4.1.4 RDF描述

如果没有对数据的描述,数据是没有多大用处的。对数据的一个描述就是一个固定格式的字节流,譬如HTML,RDF/XML或JPEG。例如,某个同学的成绩单就是一个信息源,它能被描述为一个HTML页面,一份PDF文档或RDF文档。由于单一的信息资源能有很多种不同格式的描述,用一种简单的语言来描述数据集以创建一个Web页面,可以帮助搜索引擎找到数据供给用户使用。在描述中至少应该包括这个资源的标题、说明、出版日期及数据来源等。

4.1.5 链接

在完成了对数据的描述之后,下一步就是实现数据的链接了。

手动链接

一旦定义了特定数据集作为合适的链接对象,就需要手动的搜索想链接到的URI引用,如果数据源没有提供搜索的接口(SPARQL终端或HTML的Web形式),可以使用Linked Data浏览器(Tabulator或Disco)搜索数据集并找到准确的URIs。需要注意的是,数据源可能使用HTTP-303重定向来重定向客户端,从定义非信息资源的URIs到定义描述非信息资源的信息资源的URIs。在这种情况下,请确保所连接到URI引用是定义非信息资源,而不是关于它的文档。

自动生成

这种方法适合于规模不大的数据集,此时,使用自动记录链接算法生成数据源之间的RDF链接是有意义的。

4.2 语义发布

其目的是提供一种方法,使得计算机能理解所发布的信息的结构,甚至是信息的含义,使信息搜索和数据集成更有效率。并将多种不同类型的数据转换为关联数据类型。

如:关系数据库,有一些开源的工具能实现关系数据库到关联数据的转换,如D2RServer,Triplify;电子表格,机构的大量信息以电子表格的形式存在,早期的recovery.gov数据都是以表格的形式发布,部分源表在最上面一行有一个表头,可以导出为逗号分隔文件、CSV;XML,首先把XML数据放到Web中,然后指出这个XML是关于什么的?是什么东西?关系又是什么?再使用一个程序转换XML文件为RDF,等等。

确定了要发布的数据后,维护发布的数据就成了是政府最关心的问题。所以为了保留数据的历史性,应使用版本可控的数据集,以便人们能引用和链接到过去或现在的版本,这些升级的或新的数据集也能索引到旧的数据集。在必要的时候还能提供工具转换旧的数据。因此,如果能在数据中嵌入数据的版本号或是标识符,那就会使得人们使用数据更加便利,顺畅。

4.3 测试及调整数据

在发布作为Linked Data的信息到web后,应该测试信息是否能准确的访问到。一个简单的测试方法就是把多个URIs一同放入Vapour链接验证服务,生成一份详细说明URIs关于HTTP不同要求的报告。另外,就是查看在不同的Linked Data浏览器中信息是否显示准确,浏览器是否能在数据范围内找到RDF链接。

4.4 语义发现

语义发现是发现服务中能够进行有意义的交互的处理过程。通常,语义发现过程依赖于语义描述。语义发现的一个基本要素就是能用额外的信息来扩大对服务的描述,如元数据。服务的提供者也许会采取各种各样的方式来描述他们的服务、访问策略等。尽管如此,很多资源的使用者也会根据他们自己的选择策略来决定他们想要使用的服务,如数据的起源、衍生的服务质量、信誉指标等。在发现服务中使用语义,使得搜索引擎能更好地“理解”特定网页的内容,更准确的搜索想要的信息,同时也可搜索到其他有用的精密信息,同时使得自动化搜索有可能得以实现,更容易集成多个Web服务[8]。

4.5 语义调解

语义调解是异构系统进行交互的构成要素,是在产生冲突的情况下使用的特定实体[8]。其主要作用是利用数据,以创造更高级别的应用程序的信息。使用本体调解技术,如合并、对齐或一体化,语义调解器能识别出数据之间隐含的相似之处。值得注意的是,调解器必须被理想的考虑为第三方,其主要目标是使不同的观点近似,避免可能给予所涉及的当事方之一特权的决定。

当知识表述在一个中立的执行方式中时,可以更容易使用知识,更容易在不同的应用系统中重用知识。使用调解器表示一个源执行的接口要求,并转换到能被目标接口使用的知识库中,并作用于数据和其处理过程,若系统要求数据的语义内容是相同的,需要数据调解器,但是表述的句法是不同的;若共享一个处理过程的语义内容时,就需要处理调解器,但是消息或消息交换模式是不同的[9]。

5 结束语

使用关联数据标准发布数据对于政府来说,提高了政府透明度,实现公民对政府的监督和问责。其中,对于政府数据的发布者来说,关联数据标准意味着能可靠地发布数据,而对于数据的使用者来说,关联数据标准则意味着他能灵活、方便地重用政府数据。政府数据有很多可以使用关联数据的领域,如统计和地理空间信息,但是大多数数据都不是关联数据格式,且数据模式难以理解和重用,对于Web规模的数据集成是封闭的。文中结合国内数据开放所存在的问题以及中文处理过程中的问题,总结出开放并发布政府数据到Web中的工作流程,即在确定所需要的数据源后,从各个部门收集数据,按照先发布后调解的原则,把语义描述好的数据发布到Web中,将各种类型的数据形式统一转换成关联数据形式存储在RDF数据库中,在测试并调整后,语义发现数据及选择需要的服务,在异构系统进行交互的时候使用本体调解技术实现数据的合并、对齐或一体化,增加数据的重用。由于当前国内政府还没有实现数据的开放,关联数据技术仍未得到充分的应用,国外的相关工具在处理中文时时常会产生异常,而国内相应的工具没有开发出来,所以这也是将来需要解决的问题,要使政府数据完全实现关联数据标准,还有很多工作要做的,很多技术需要学习。

摘要:采用Linked Data标准来发布开放的政府数据,可以提高政府数据的透明度,增强公民对政府的监督和问责。该文中结合国内没有实现政府数据开放和共享的原因,总结出适应于国内发布开放的政府数据到Web的工作流程,即在确定所需要的数据源后,从各个部门收集数据,按照先发布后调解的原则,把语义描述的数据发布到Web中,将各种类型的数据形式统一转换成关联数据形式存储在RDF数据库中,在测试并调整后,语义发现数据及选择需要的服务,在异构系统进行交互的时候使用本体调解技术实现数据的合并、对齐或一体化,增加数据的重用。关联数据技术使得政府作为一个中心平台,用来满足来自商业、学术和开发人员对数据的广泛需求,最大限度使用各种类型的数据。

关键词:关联数据,语义,公开,链接,电子政务

参考文献

[1]Christian Bizer,Tom Heath,Tim Berners-Lee.Linked Data-The Story So Far[J].International Journal on Semantic Web and InformationSystems,2009,5(3):1-22.

[2]John Sheridan,Jeni Tennison.Linking UK Government Data[M].London:LDOW Press,2010.

[3]Said Izza,Lucien Vincent,Patrick Burlat.A Unified Framework for Enterprise Integration—An Ontology-Driven Service-Oriented Ap-proach[C].Switzerland:Pre-proceedings of the First International Conference on Interoperability of Enterprise Software and Applications,2005.

[4]Bizer C,Cyganiak R,Heath T.How to publish Linked Data on the Web[M].Germany:ISWC Publishing,2008.

[5]Daniel Bennett,Adam Harvey.Publishing Open Government Data[M].Washington DC:W3C Working Group Press,2009.

上一篇:2022秋学校综治工作计划下一篇:爱国卫生清洁月活动实施方案论文