大数据的应用论文

2024-09-09

大数据的应用论文（精选8篇）

1.大数据的应用论文篇一

大数据在智慧城市的10大应用

大数据是智慧城市各个领域都能够实现“智慧化”的关键性支撑技术，智慧城市的建设离不开大数据。建设智慧城市，是城市发展的新范式和新战略。大数据将遍布智慧城市的方方面面，从政府决策与服务，到人们衣食住行的生活方式，再到城市的产业布局和规划，直到城市的运营和管理方式，都将在大数据支撑下走向“智慧化”，大数据成为智慧城市的智慧引擎。

欧盟利用大数据实现智慧城市的做法给我们很多启示。

欧盟对智慧城市的评价分为六个方面：智慧经济、智慧治理、智慧生活、智慧人民、智慧环境、智慧移动性。也就是说智慧城市要促进经济的发展，要改进和帮助更多大众的参与，让老百姓享受智慧的生活，人民得到更好的服务，居住环境更加优化。智慧城市的应用很广泛，我们都知道有物流、交通、电网、工业、农业、建筑、环境、医疗等方面。现在我要讲的是，智慧城市本身会催生大数据，我们可以看到一个企业会涉及到很多环境，管理环境，开放环境，知识环境、服务环境，过去这些环境的关联度不够，那么现在通过数据库使得这些环境能够联合起来，使得企业的效率提高40%-60%，根据赛门铁克的一份最新调研报告，今天全世界所有企业的信息存储总量已达2.2ZB，企业平均10PB，大企业更大点，小企业小点。一般企业都会建立数据库，必须进行数据的集资和数据的挖掘，企业的数据在企业内部已经占有很重要的位置。

(1)智慧经济

首先大数据在商业上怎么能很好运用，它会分析用户的购物行为，什么商品搭配在一起会卖得更好，还有很多公司通过分析找到最佳客户，淘宝数据魔方则是淘宝平台上的大数据应用方案。那么商家可以了解淘宝平台上的行业宏观情况、自己品牌的市场状况、消费者行为情况等，并可以据此作出经营决策。

美国有个投资公司分析了全球3.4亿微博账户留言，判断民众情绪，人们高兴的时候会买股票，而焦虑的时候会抛售股票，依此决定公司股票的买入或卖出，该公司今年第一季度获得7%的收益率。

阿里公司根据在淘宝网上中小企业的交易状况筛选出财务健康和诚信的企业，从而无需担保来放贷，目前已放贷300多亿元，坏帐率仅0.3％，大大低于商业银行。

企业通过信息收集很好的掌握企业的运营状况，分析居民与财务有关的记录包括贷款申请、租赁、房地产、购买零售商品、纳税申报、水电费缴付、有线电视缴费、电话缴费、报纸与杂志订阅、机动车档案等，能够得出消费者的个人信用评分，从而推断客户支付意向与支付能力，发现潜在的欺诈。

IBM日本公司建立了一个经济指标预测系统，从互联网新闻中搜索影响制造业的480项经济数据，计算出采购经理人指数PMI预测值。

印第安纳大学学者利用Google提供的心情分析工具，对270万用户在2008年3～12月所张贴的970万条留言，挖掘出用户happiness、kindness、alertness、sureness、vitality 和calmness等六种心情，进而对道琼斯工业指数的变化进行预测，准确率达到87%。

利用大数据分析可实现对合理库存量的管理，华尔街对冲基金依据购物网站顾客评论分析企业产品销售状况，华尔街银行根据求职网站岗位数量推断就业率。

(2)智慧治理

美国纽约的警察分析交通拥堵与犯罪发生地点的关系，有效改进治安。美国纽约的交通部门从交通违规和事故的统计数据中发现规律，改进了道路设计。

利用短信、微博、微信和搜索引擎可以收集热点事件与舆情挖掘。

电信运营商拥有大量的手机数据，通过对手机数据的挖掘，不针对个人而是着眼于群体行为，可从中分析：实时动态的流动人口的来源及分布情况；出行和实时交通客流信息及拥塞情况。利用手机用户身份和位置的检测可了解突发性事件的聚集情况。

MIT的Reality Mining项目，通过对10万多人手机的通话、短信和空间位置等信息进行处理，提取人们行为的时空规则性和重复性，进行流行病预警和犯罪预测。

(3)环境监测

对城市的河流进行采样，通过卫星发布，收集产量的数据，这个数据非常大，通过这个数据分析能够判别城市中有没有污染。

(4)智慧医疗

无论是药品的研发还是商业模式的开发运用数据分析都能够得到很好的分析，我们医院里有大量的病例，这里有大量的数据，传统的普通病例很难挖掘数据，现在变成电子化有利于更高数据挖掘，数据的挖掘有利于发现医疗知识，由于医疗资源的分配不均，因此远程医疗十分必要，另外，居家监护很重要，谷歌公司与美国疾病控制和预防中心等机构合作，依据网民搜索内容分析全球范围内流感等病疫传播状况，谷歌的判断与疾控中心的判断是一致的。

社交网络为许多慢性病患者提供了临床症状交流和诊治经验分享平台，医院借此可获得足够多的临床效果统计。个性化的医疗同样很重要，我们发现，同样的治疗对一些病人无效，75％癌症病人，70％的老年痴呆者、50％的关节炎病人、43％的糖尿病患者、40％的哮喘病患者，38％的抑郁症病人。因为人体对药品代谢方式的差异取决于个体特定的基因、酶和蛋白质组合，因此基因信息对选择最优治疗非常关键。对人体个性体质的挖掘会做到真正意义上的对症下药，一个人的基因信息大概1GB。

(5)智能搜索

除此之外，我们还通过网络进行学习，早期的网络学习是通过网站专业人员编制的内容，如今我们希望能够实现更加智能的搜索。随着移动互联网的出现，搜索引擎会变成基于语音的智能搜索；基于位置的搜索；基于个性化搜索。

(6)舆情监测

大众传播发展的很快，这里包含着大量的数据，例如微博传播具有裂变性、主动性、即时性、便捷性、交互性、草根性，跟进性和临场感，每一个微博用户既是“服务器”，也是“受众”。中国的微博比社交网络更热，因为140个字符的微博在英文和中为分别约等于25个和85个英语单词，即中文微博的信息量是Twitter的3～4倍。最近两个月在YouTube上上载的视频超过了ABC、NBC和 CBS 电视台自1948年以来24/7/365 连续播出的内容，而“云平台＋多屏融合”模式已成为智能家居和智能车载等的发展方向。

(7)精准营销

美国信用营销分析专家张川告诉《环球时报》记者，在大数据分析的应用上，美国政府和大公司领先新兴国家至少20年。15年前，美国的信用卡公司就可以进行数据挖掘实现精准营销：在合适的时间，通过合适渠道，把合适的营销信息投送给每个顾客。

(8)犯罪预警

随着智能电话和电脑网络的普及，美国政府和大公司把自己的触角伸到个人生活的每个方面。美国个人的一切在线行为数据都被收集储存，再加上已被有关机构掌握的个人信用数据、犯罪记录和人口统计等数据，有关公司和政府机构可以运用数据挖掘的办法，监控和预测个人的行为，并做出相关决策。

(9)全球安全监测

如美国已具备对全球网络空间的监视控制能力。斯诺登披露的“棱镜”计划，缘于美国政府的“星风”监视计划。2004年，布什政府通过司法程序，将“星风”监视计划分拆成由国家安全局执行的4个监视计划，除“棱镜”外，还包括“主干道”、“码头”和“核子”。其中，“棱镜”用于监视互联网个人信息。“核子”则主要负责截获电话通话者对话内容及关键词。“主干道”和“码头”分别对通信和互联网上数以亿兆计的“元数据”进行存储和分析。“元数据”主要指通话或通信的时间、地点、使用设备、参与者等，不包括电话或邮件等的内容。

(10)市场价格监测

肯尼思·丘基尔是《经济学家》杂志数据编辑、《大数据：一次将改变我们生活、工作和思考方式的革命》一书的合著者之一，他日前在美国《外交政策》杂志掀起一场有关“大数据时代令隐私保护问题更加突出”的讨论。丘基尔举例说，警方如果要侦破一个城市的加油站是否存在合谋操控价格的“卡特尔行为”，以往要靠线人举报。但今天，可以做大数据分析——分析该市油价变化和加油站分布情况。通过分析，可以发现正常的价格变化规律，如果价格变化持续异常，就可以怀疑存在价格垄断的行为。丘基尔认为，大数据的价值在于存储后的再使用。不过，关键的一个问题是，收集、保存一切信息，与隐私保护政策是有冲突的，“保存一切信息是必要的，但是在这么做之前，我们有必要问自己一个问题，即现行的隐私保护政策是不是妨碍了我们正在迈入的大数据世界”。丘基尔提到，社会有必要就此进行大辩论，以便为大数据时代的隐私保护划定新的边界。

结束语

美国IT咨询公司Avanade商业情报部副总裁斯蒂夫·帕尔默告诉《环球时报》记者，大数据是指非常“膨胀”的数据集，用典型的数据分析软件和工具难以对其进行捕捉、储存、管理、分享、分析和可视化。大数据有3个特征：一是数据的数量大;二是产生或被吸收的速度和频率快;三是数据的多样性。为从大数据中“挖出金矿”，一家企业或机构必须能够应对大数据上述3个特征。帕尔默说，大数据给人类带来的真正机遇是把许多信息碎片拼起来，为我们的决策服务。

附：全球顶尖大数据公司一览

企业名称：IBM

网址：http:///

2011年5月，IBM正式推出InfoSphere大数据分析平台。InfoSphere大数据分析平台包括 BigInsights和Streams，二者互补，Biglnsights基于Hadoop，对大规模的静态数据进行分析，它提供多节点的分布式计算，可以随时增加节点，提升数据处理能力。Streams采用内存计算方式分析实时数据。InfoSphere大数据分析平台还集成了数据仓库、数据库、数据集成、业务流程管理等组件。

企业名称：亚马逊

网址：http:///

对于云计算和大数据，亚马逊绝对具有先见之明，早在2009年就推出了亚马逊弹性MapReduce（Amazon Elastic MapReduce），亚马逊对Hadoop的需求和应用可谓了若指掌，无论是中小型企业还是大型组织。弹性MapReduce是一项能够迅速扩展的Web服务，运行在亚马逊弹性计算云（Amazon EC2）和亚马逊简单存储服务（Amazon S3）上。这可是货真价实的云：面对数据密集型任务，比如互联网索引、数据挖掘、日志文件分析、机器学习、金融分析、科学模拟和生物信息学研究，用户需要多大容量，立即就能配置到多大容量。

除了数据处理外，用户还可以使用Karmasphere Analyst的基于服务的版本，Karmasphere Analyst是一种可视化工作区，用于在亚马逊弹性MapReduce上分析数据。用户还可以提取结果文件，以便在数据库或者微软Excel或Tableau等工具中使用。

企业名称：甲骨文

网址：http:///

甲骨文在近期发布的Oracle大数据机（Oracle Big Data Appliance）为许多企业提供了一种处理海量非结构化数据的方法。在2011年10月初召开的Oracle OpenWorld 2011大会上甲骨文正式推出了Oracle大数据机。对于那些正在寻求以更高效的方法来采集、组织和分析海量非结构化数据的企业而言，该产品具有很大的吸引力。

与甲骨文近期推出的其他一体化产品一样，Oracle大数据机集成了硬件、存储和软件，包括Apache Hadoop软件的开源代码分发、新的甲骨文NoSQL数据库和用于统计分析的R语言开源代码分发。该产品被设计为能够与甲骨文Database 11g、Oracle Exadata数据库云服务器，以及针对商业智能应用的新的Oracle Exalytics商业智能云服务器一起协同工作。

企业名称：谷歌

网址：http:///

谷歌一直是科技行业的领军者，近年来几乎在任何一项互联网科技项目你都能看到谷歌的身影，大数据时代谷歌自然不会错过。何况如果对其拥有的海量数据进行深入挖掘，这对于提升谷歌搜索乃至所有谷歌服务的价值无可估量。

BigQuery是Google推出的一项Web服务，用来在云端处理大数据。该服务让开发者可以使用Google的架构来运行SQL语句对超级大的数据库进行操作。BigQuery允许用户上传他们的超大量数据并通过其直接进行交互式分析，从而不必投资建立自己的数据中心。Google曾表示BigQuery引擎可以快速扫描高达70TB未经压缩处理的数据，并且可马上得到分析结果。大数据在云端模型具备很多优势，BigQuery服务无需组织提供或建立数据仓库。而BigQuery在安全性和数据备份服务也相当完善。

去年底该服务只向一小部分开发者开放，现在任何人都可以注册这项服务。免费帐号可以让你每月访问高达100GB的数据，你也可以付费使用额外查询和存储空间。

企业名称：微软

网址：http:///

微软研究部门从2006年起就一直致力于某种非常类似于Hadoop的项目，被称为“Dryad”。今年年初，该计划通过与SQL Server和Windows Azure云的集成实现了Dryad的产品化。虽然现在微软还没有更新，但看上去Dryad似乎将成为在SQL Server平台上影响大数据爱好者的有力竞争者。

微软进入这一市场可谓“姗姗来迟”，而且在一定程度上说，数据仓库分析和内存分析计算市场落下了后腿。2011年初微软发布的SQL Server R2 Parallel Data Warehouse（PDW，并行数据仓库），PDW使用了大规模并行处理来支持高扩展性，它可以帮助客户扩展部署数百TB级别数据的分析解决方案。微软目前已经开始提供Hadoop Connector for SQL Server Parallel Data Warehouse和Hadoop Connector for SQL Server社区技术预览版本的连接器。该连接器是双向的，你可以在Hadoop和微软数据库服务器之间向前或者向后迁移数据。

微软在去年推出了基于Azure云平台的测试版Hadoop服务，今年它承诺会推出与Windows兼容的基于Hadoop的大数据解决方案（Big Data Solution），这是微软SQL Server 2012版本（首发日期还不知道）的一部分，现在也不清楚微软是否会与其他硬件合作伙伴或者相关大数据设备厂商合作。

企业名称：EMC

网址：http:///

EMC于1979年成立于美国麻州Hopkinton市，1989年开始进入企业数据储存市场。EMC公司是全球信息存储及管理产品、服务和解决方案方面的领先公司。EMC是每一种主要计算平台的信息存储标准，而且，世界上最重要信息中的 2/3 以上都是通过EMC的解决方案管理的。

面对大数据时代，EMC公司推出用于支持大数据分析的下一代平台――EMC Greenplum统一分析平台（UAP）。Greenplum UAP是一个唯一的统一数据分析平台，可扩展至其他工具，其独特之处在于，它将对大数据的认知和分享贯穿整个分析过程，实现比以往更高的商业价值。

企业名称：Teradata

网址：http:///

Teradata公司(Teradata Corporation，纽约证券交易所交易代码TDC)是全球领先的数据仓库，大数据分析和整合营销管理解决方案供应商，专注于数据库软件，数据仓库专用平台及企业分析方案。不久前宣布推出一款集硬件、软件和服务于一体的全面产品组合——Teradata分析生态系统(Teradata Analytical Ecosystem)，使不同的 Teradata 系统实现无缝协作，为企业客户提供分析和更深入的洞察力，帮助其预测商业机会和加速实现商业价值。Teradata Unity 将确保整个Teradata Analytical Ecosystem的同步和统一。为了增强在大数据分析领域的优势，Teradata还收购Aster Data公司，以增强其非传统数据分析的能力，突破了SQL分析的限制，协助企业从全部数据中获取更多价值。

企业名称：NetApp

网址：http://

Network Appliance，Inc.（NetApp，美国网域存储技术有限公司）是IT存储业界的佼佼者，自1992年创业以来，不断以创新的理念和领先的技术引领存储行业的发展。Network Appliance, Inc.(NetApp)是向目前的数据密集型企业提供统一存储解决方案的居世界最前列的公司。

NetApp StorageGRID 是一个久经验证的对象存储软件解决方案，设计用于管理 PB 级、全球分布的存储库，这些存储库包含企业和服务提供商的图像、视频和记录。通过消除数据块和文件中数据容器的典型约束，NetApp StorageGRID 提供了强大的可扩展性。它支持单个全局命名空间内的数十亿个文件或对象和 PB 级容量。

NetApp StorageGRID 实现了智能的数据管理和安全的内容保留。它通过一个具有内置安全性的全局策略引擎来优化数据存放、元数据管理和效率，该引擎管理数据的存储、放置、保护和检索的方式。此外，使用数字指纹和加密等技术防止内容受到篡改。

NetApp StorageGRID 有助于随时随地提供数据，以便于不间断地运营。该解决方案被设计为允许灵活进行部署配置，以满足全球的多站点组织的不同需要。

企业名称：Sybase

网址：

Sybase公司成立于1984年11月，总部设在美国加州的Emeryville(现为美国加州的Dublin市)。作为全球最大的独立软件厂商之一，Sybase公司致力于帮助企业等各种机构进行应用、内容及数据的管理和发布。

Sybase IQ是Sybase公司推出的特别为数据仓库设计的关系型数据库。相比于传统的“行式存储”的关系型数据库，Sybase IQ 使用了独特的列式存储方式，在进行分析查询时，仅需读取查询所需的列，其垂直分区策略不仅能够支持大量的用户、大规模数据，还可以提交对商业信息的高速访问，其速度可达到传统的关系型数据库的百倍甚至千倍。“随着 Sybase IQ 不断地在分析应用 POC 测试中拔得头筹，有时甚至超过其他对手 100 倍之多”，Gartner 评价道，“ Sybase IQ 逐渐成为从数据集市到企业数据仓库架构最令人渴望的 DBMS(数据库管理系统)。”

自 2009 年推出以来，Sybase 陆续发布了 Sybase IQ 15.1、15.2、15.3 以至最新的 Sybase IQ 15.4 版本，每个版本都着力于增加新的核心能力以促进更深入的高级分析。Sybase IQ 15.4是面向大数据的高级分析平台，将大数据转变成可指挥每个人都行动的情报信息，从而在整个企业的用户和业务流程范围内轻松具备大数据的分析能力。

因此，有人说Sybase IQ15.4正在彻底改变“大数据分析”。

企业名称：惠普

网址：

大数据时代来临，老牌巨头惠普也不甘落后。不久前惠普企业服务事业部宣布推出全新服务，帮助客户更快部署惠普子公司Vertica的Vertica Analytics Platform，从而迅速洞悉关键的业务信息，辅助决策过程。

Vertica Analytics Platform 让用户能够大规模实时分析物理、虚拟和云环境中的结构化、半结构化和非结构化数据，从而深入洞悉“大数据”。

Advanced Information Services for Vertica 帮助客户最大化实现 Vertica 分析平台性能，并构建企业分析专用环境。惠普提供从评估到实施的一系列服务，与客户共同定义多种交付方式组合，并找出匹配其现有基础设施的最佳解决方案。

Advanced Information Services for Vertica已在全球上市，将为实现“瞬捷”企业构建灵活的智能环境。

企业名称：沃尔玛

网址：http:///

在这里看到沃尔玛的身影，可能很多人会有疑问，全球最大的传统零售业巨头沃尔玛怎么就跟大数据扯上关系了？看了下面的介绍你就会明白了。

沃尔玛是最早通过利用大数据而受益的企业之一，曾经拥有世界上最大的数据仓库系统。通过对消费者的购物行为等非结构化数据进行分析，沃尔玛成为最了解顾客购物习惯的零售商，并创造了“啤酒与尿布”的经典商业案例。早在2007年，沃尔玛就已建立了一个超大的数据中心，其存储能力高达4Pb以上。《经济学人》在2010年的一篇报道中指出，沃尔玛的数据量已经是美国国会图书馆的167倍。

沃尔玛实验室计划将沃尔玛的10个不同的网站整合成一个，同时将一个10个节点的Hadoop集群扩展到250个节点的Hadoop集群。目前实验室正在设计几个能将当前像Oracle、Neteeza这样的开放资源的数据库进行迁移、整合的工具。

沃尔玛曾进行了一些列的收购，包括Kosmix（沃尔玛实验室前身）、Small Society、Set Direction、OneRiot、Social Calenda、Grabble等多家中小型创业公司，这些创业公司要么精于数据挖掘和各种算法，要么在移动社交领域有其专长，从此我们就可以看出沃尔玛进军移动互联网和挖掘大数据的决心。相信在沃尔玛的带领下，传统行业也会慢慢意识到大数据的重要性，加速步入大数据时代。

企业名称：Clustrix

网址：

Clustrix创立于2005年，是Y Combinator 2006年冬季班的成员。Clustrix可以为SQL数据库提供专利数据应用方法，帮助人们处理大量的数据，使SQL数据库无限扩容成为可能。最近Clustrix从Sequoia Capital、USVP和 ATA Ventures三家风险投资公司处再次获得价值675万美元的风险投资，至今已获融资1200万美元。Clustrix总部设在美国旧金山，研发中心设在西雅图。为打开欧洲市场，公司计划将总部迁至荷兰的阿姆斯特丹，并将于年底前在印度设立办公室。

企业名称：Cloudera

网址：http:///

Cloudera是一家专业从事基于Apache Hadoop的数据管理软件销售和服务的公司，总部位于加州帕洛阿尔托，2009年3月发布了第一款商业产品，当时获得由AccelPartners领投的500万美元投资。该公司于2010年6月正式推出Cloudera企业产品。2011年11月募集到4000万美元风险投资资金，此轮融资由风险投资机构Ignition Partners的合伙人弗兰克·阿泰勒(Frank Artale)领投。Cloudera之前的投资者顶尖风投机构Accel Partners、Greylock Partners、Meritech Capital Partners 和In-Q-Tel也参与本轮投资。

以上企业以外，包括MapR、HStreaming、Hadapt、DataStax、Datameer这些与Hadoop以及大数据相关的新公司都已经获得投资，新一轮热潮正在兴起。

2.大数据的应用论文篇二

其实,大数据之“大”不单单指数据体量的巨大, 若单以数据量来说,现今的教育大数据充其量只能算作“小数据”。大数据的“大”更体现在数据范围的 “大”,体现在更多样的数据来源、更宽泛的数据内容,继而得出有“大”价值的结论。显然,目前我们的教育大数据还是过于单一了。学业数据固然重要,但当我们把注意力扩展到学业以外,我们会惊喜地发现,学业之外的教育大数据同样精彩。

首先,教育大数据可以帮助我们分析学生学业成绩背后的一些深层次问题。以PISA为例,虽然同样是一项测试,但由PISA测试所得的大数据却分析出了五彩斑斓的结论。我们可以从PISA官方报告中看到这些通过大数据进行的“有趣”分析:通过对学生旷课或逃学数据的分析,对“逃学现象”做出深入剖析;通过对学生就读的学校来自市区还是乡镇的数据分析,对教育中的“市区优势”给出独到的解释;通过对学校开展课外活动的数据分析,看课外活动对课内学习的影响……香港研究人员利用PISA开放的关于学生课外补习的50多个国家和地区的大数据,经过细致的分析,得出了课外补习未必能改善学生学科成绩的结论,就是一次成功的大数据应用。

教育大数据还可以为学校管理提供更多的依据。在美国的学校里,各种类型的数据都会被关注到,不同类型的数据都会被及时上传到各类在线平台上,以方便事后分析。比如,美国很多学校都会关注“校园欺负” 现象,教师会及时记录在学校里发生的欺负现象的报告人、行为人、处理意见等数据并及时上传。在一段时间后,经由大数据分析,汇总出相关信息,再由学校做出有效的干预。很难想象我们的学校会将这样敏感的数据列为分析对象。

教育大数据甚至能对学生的生活给予人性化的关照。2013年,媒体报道了华东师范大学的一位女生收到了校方的短信:“同学你好,发现你上个月餐饮消费较少,不知是否有经济困难?”原来,校方通过对学校饭卡消费数据的分析,发现该生每顿饭的餐费都偏低, 于是发了上面这条“爱心短信”。不过,真正的原因却是该生正在减肥,所以餐费下降。这听起来仿佛是一次 “笑谈”,不过,严肃地说,这也不失为一次教育大数据的有益尝试。而最终的判断失误恰恰说明了校方采用的数据范围仍然不够大,若是能和其他方面的数据一起综合判断,这次无心之失或许就不会发生。但是,这件事情本身还是给了我们丰富的联想,正如有“大数据时代预言家”之称的舍恩伯格所说的:“大数据的核心就是预测”,与此相联系的案例包括我们耳熟能详的啤酒与尿布、飓风与蛋挞的故事。

我们之所以把教育大数据更多地理解为学业大数据,究其原因,恐怕还是传统的观念在起作用。也就是只有为教学服务,大数据才有意义。而不少所谓的教育大数据,其实都是各种考试、测试的数据分析。甚至在一些学校的实践中,教育大数据成了应试的帮手,这无疑是对教育大数据的一种讽刺。

3.大数据应用打开的想象空间篇三

这个提问引发了现场来自各行各业企业CIO的热议，今年刚提出这一概念不久的大数据在企业中该如何应用还在摸索阶段，但其带来的智能化业务模式已为各企业的CIO及业务管理者打开了业务创新和变革的想象空间。

智联招聘副总裁石鹏认为，Web3.0时代是根据用户真实身份和关系分析产生的洞察。在智联招聘网站上，用户关系的入口就是招聘网站，求职者在网页上的搜索行为和招聘企业发布招聘信息，其在网页上的行为模式，如对哪些职位感兴趣、基于真实身份的职位、简历、企业信息等都形成了庞大的非结构化数据，构成大数据应用的基本信息。而智联招聘的技术团队在后台建立各种各样的数据应用模型，试图从这些非结构化数据中发现规律，进行分类整理和分析，提升职位推荐和简历推荐的准确率。

智联招聘的求职雷达就是一款基于大数据应用开发的产品，它的运作逻辑是：1、根据相似简历、职位等信息的分类，找到同组人群；2、记录合并这个人群的投递行为，获得面试情况；3、通过对面试情况的分析将有用的信息展示给用户。

另一款产品的思路则是简历推简历。企业发布职位信息后会收到一些不符合其需求的简历，HR处理这些简历会浪费时间，简历推简历的产品则是鼓励招聘企业对已看过的简历打分，根据这些打分来分析供求企业需求，推送合适的简历，提高推送准确率。

中集集团信息管理部总经理赵小平认为，数据无垃圾，大数据分析的关键在于以何种思路来做数据整理和分析。这个观点得到在场CIO的一致赞同，而江苏道吉面料有限公司IT经理杜建成则补充，传统的数据管理方式多是基于某种具体的管理需求或业务背景来收集和应用数据，如要做财务管理，则用系统收集会计数据等，记录所有数据会带来存储困难。而大数据时代则是大量可反映人们行为方式的非结构化数据的分析和再利用的过程。目前根据Gartner最新的研究数据，大数据再利用率只有10%左右。

但无论如何，大数据对人类行为的分析、预测和应用已经为商业打开了想象空间，催生新的业务模式。爱康国宾副总裁冯朝晖介绍，大数据应用在医疗行业，可产生在线的健康管理网站和社区，这是以疾病预防和健康管理为主要业务的爱康国宾正在做的事情。

4.大数据的典型应用场景及展望篇四

2015年1月24号，2015 China Hadoop Summit技术峰会在北京如期举行。本次大会作为国内大数据行业最具影响力的IT大会，吸引了众多从事Hadoop研究与推广的权威技术专家、Hadoop技术爱好者和IT厂商前往参加。

现任星环信息科技(上海)有限公司联合创始人兼首席技术官，曾任英特尔数据中心软件部亚太区CTO的孙元浩老师在本次大会上带来了主题为《2014年大数据的典型应用场景及展望》的分享，本文主要针对目前Hadoop主流应用场景，实时流数据的处理以及大数据技术给未来生活的设想等内容进行了整理。

四年前的硅谷，风投埃里森拿出一亿美金来投资大数据公司，他认为Hadoop技术在未来的若干年中会从底层的数据平台，从传统的关系型数据库进行迁移。数据的分析层会被全新的数据分析工具所替代，可视化层和应用分析会有更多的新工具出现，并认为这个市场将达到几百亿美金的规模。

过去几年，Hadoop的发展非常迅猛。我们常讲大数据的四V特征，Hadoop在大数据处理上表现出的处理量、性能、挖掘能力的提升和碎片化处理能力，使其得到越来越广泛的应用。

一、Hadoop的主流应用场景：数据仓库的主要组成部分

传统的企业有若干个主机，用于销售、运营管理等等，产生的数据首先经过ODS层，将数据从多个业务系统中集中起来，进行清洗、转换等集成操作，然后将过加工的数据进入企业IT架构的核心——数据仓库进行统计、挖掘和分析。最后用可视化工具进行展现。这是传统的企业数据仓库的架构，经常采用主流的甲骨文等数据库技术来实现。

Hadoop作为数据仓库组成部分的四个驱动力

互联网公司早年的时候，是把Hadoop做在数据仓库的核心，比如Facebook早期的时候是从服务器采集是通过实时的日志的采集工具，经过Hadoop把Hadoop作为数据分析工具，呈现把结果放在甲骨文中做展现。

互联网公司之所以这么做，是因为互联网数据量大到在传统的数据库不能处理。现在传统的企业也面临同样的问题，将Hadoop作为数据仓库主要组成部分有四个驱动力：

效率：传统的数据仓库技术已经面临非常繁重的数据分析任务，处理的延迟从一天到了一周。

成本：传统的数据架构成本动辄几千万。Hadoop可以实现成本若干倍的降低。

数据来源多样：视频、音频等企业非结构化数据来源增多。MapReduce对于非结构化或半结构化数据的读取非常有效。

数据分析需求的演进：数据分析不再只满足于统计。使用Hadoop的技术，能够对数据进行深度的挖掘和分析，实现对未来的预测。

Hadoop改变企业数据仓库架构的线路图第一步：数据仓库的补充 2011、2012年的时候 Hadoop主要是作为数据仓库的补充在做数据的清洗。这一层Hadoop很擅长。Hadoop的优势是能够把计算任务对全要素进行统计分析，这是方式非常适合简单的场景，早年Hadoop的最佳用途是作为ETL的平台，第二步：逐渐进入核心

随着Hadoop生态系统逐渐完善，有更多的数字化工具支持Hadoop，Hadoop开始进入数据仓库的核心领域。有些企业开使用Hadoop来直接做数据可视化，在有些行业中已经开始用Hadoop逐渐取代传统的关系数据库来建立数据仓库。从整个的数据仓库的架构来看，有一半的架构已经开始被Hadoop覆盖了。

第三步：Hadoop使资源管理变为可能，最终将取代企业完整的整据仓库

在一两年之内有些企业完整的数据仓库架构都可能会被Hadoop取代掉。

过去企业数据仓库的时候任务很繁重，系统效率低下。造成这种状况的重要原因是，客户把过多的负载放在数据仓库上面，数据仓库本身又没有资源配合的方式。

Hadoop2.0推出了管理框架，使得资源管理变成了可能，使得数据仓库支撑多个部门的数据分析和访问更加高效。举例来说，每个部门的业务都是动态创建虚拟集群实现的，每个集群都有一定的资源配额，这样的配额用时不会超过这个配额，使得用户任何的负载不会影响其他的用户，这成为数据仓库里一个重要的实现，数据仓库完全平滑，24小时不间断运行的保障。过去上千人在访问Hadoop的时候，也是通过调度机制实现的，随着Hadoop2.0的出现和资源管理能力的提升，通过资源管理层可以方便的配置资源。

我们可以设定CPU的内存和存储资源，每个部门使用的时候有配额的最低保障。当另外一个部门的用户上线使用的时候，比如创建了一个集群，这时会把你的部分资源还给后面的第二个用户，原来第一个用户的资源被收缩了，更多的用户进来的时候，第一个用户的资源被进一步收缩，收缩到一个最低的指标。一方面充分保障了每个用户最低资源的配额，第二也保证系统整体运行的情况下可以充分有效利用整体的计算资源。

二、随着云计算和物联网的逐渐兴起，实时流数据的处理将成为关注重点

云计算和物联网使得数据呈现两个主要特点。首先，数据在没有人工干预的情况下24小时不间断的产生；第二数据并发量高，使得单一的统计已经不能满足用户要求，对数据模式的分析和深度挖掘的要求增强

现在的大数据处理不光需要做统计，而是需要做机器学习，快速地检测出异常的状态。

比如在交通行业部署的实时监控平台，这是一个发展得比较成熟的案例，在全国已经得到了广泛部署。其主要用途是把路面上装的摄像机的照片和分析出来的车牌等信息，实时的传送到中心的大集群中，然后把所有的车流信息实时汇总至省级集群部署，通过流处理形成实时的应用，比如说区间测速、实时路况、公安部实时布控的应用等。相关数据也会进入到数据库，对外提供车辆轨迹的查询，实时路况的检索，比如行车分析和交通管理的应用等。

过去在常见的部署架构中由数据集群做实时的处理时，包括应用和查询的功能，数据会经过蜂窝队列，分布量是非常高的，单节点的服务器可以支撑一秒钟十万条结果的插入，基本上是满负荷。

传统的流处理加上Hadoop，可以解耦前端应用和后端的分析应用。由于分布队列的吞吐量很高，可以在几百万个地方写入，可以基本满足上千万传感器同时传送峰值的压力，后端的是流处理的引擎做数据分析。

我们把数据流按时间切片，每个小切片一百毫秒左右。我们需要在数据经过这个流的时候在流上直接做异常检测，包括多种算法，最基本的是希望将这些算法直接移植到流上，实现流式的异常检测。这里面有一个挑战是，刚开始出现的异常可能并不准确，尽量要避免误报的情况，通常会用SQL来做聚合和预先的数据处理，而Spark可以实现小片的批处理流程，我们在小的批量上能够实现延迟是一秒钟内可以发出告警。

这种方式的好处是可以对实时数据和历史数据实现综合的分析，都同在一个数据库中，可以在上面用完整的统计分析的挖掘，包括可以做计算和预测，这些分析超出了以前统计的范畴，而且需要历史数据和实时数据进行统一的分析。这个领域今年可能会是比较热门的领域，预计这个模式在物联网实时处理上得到更加广泛的应用。

三、大数据技术能给我们的生活带来什么我们把数据源分两大类：

1.人的行为产生的数据：包括网上购物、通过运营商通话、发微信都会留下数据，这些分析无外乎是给客户提供更好的服务，或者是帮助商家更准确的找到客户进行精准营销；

2.机器产生的数据：帮助发现一些客观规律，比如说交通的模式是怎样的，用电的消耗量和气侯和电网的关系是怎样的，也对数据进行分析和能够做实时报警和诊断优化生产线的流程提供依据。

数据分析和挖掘开始出现，目前还不是主流。大数据描绘的场景是能够进行预测，这逐渐开始成为事实。人流密度实时预警

比如通过对基站的数据基本上可以比较粗的定位人的大致位置。通过对数据进行密度的统计，可以非常迅速的找出区域内部密度的值，基础值是每个基站每英里多少个用户数，这是基站可以提供的数据，利用这个数据可以非常快的知道人群的密度。

也可以利用银联的数据，我们的合作伙伴用银联的数据把上海的商圈都找出来了，商圈是根据过去三个月银联的刷卡记录，根据消费额、消费地点以及消费商户的类别进行统计的，上海14个商圈是比较密集的，有些商圈我们也没去过，比较偏远的反而是商圈。上海的架构看基础是卫星城的架构，和北京不同，周围有很多密集的商圈。这个数据也可以做人群的预测，商圈是人群密集的地方，随着踩踏事件的出现，公安的客户也来找到我们，发现这个数据对他们很有用，因为我们可以统计节日间实时的刷卡记录，可以判断晚七点到九点消费集中的区域，这些区域是人垃圾短信分类

利用流式的机器学习做垃圾短信的分类，在流上做实时的检测，速度是非常快的，可以流上实时的实现。运营商所有的短信经过流式系统可以迅速的判断出哪些消息是垃圾短信，来净化现在运营商的垃圾短信泛滥局面。消费者行为预测

机器学习类：协同过滤、相似度主要是比较商品间的相似程度进行推荐，一些新的应用也比较有趣，像是基于时序关系的预测。每次消费行为和时间是有关的，一个人经常跑到陆家嘴有一个明显的地方，带着小孩会去海洋公园玩一下，有时看东方明珠看一下，然后去正大广场吃个午饭，这是统计出一个模式，这是时序相关性，我们可以对客户推送一些比较精准的广告。总结

我们看到Hadoop主要的用途是数据仓库中，未来会逐渐的开始把更多的负载牵到上面来；第二物联网逐渐的兴起，针对一些挑战我们需要在流上做更强的分析和机器学习，这种新的架构也层出不穷；第三是全新的集群的应用。可以预见的是，随着云计算和物联网等技术的不断发展，利用大数据的分析能力实现对未来的洞察将逐渐成为现实。【编辑推荐】

大数据时代之hadoop：了解hadoop数据流（生命周期）惠普携手青岛打造大数据应用及产业示范基地

Apache Hadoop 2.6.0发布——异构存储，长时间运行的服务与滚动升级支持

Hadoop RPC通信Client客户端的流程分析

5.大数据的应用论文篇五

大数据及其关键技术的教育应用实证分析

胡水星

【论文摘要】大数据作为信息技术发展的新趋势，已经渗透到各行各业，成为重要的生成因素。在数据分析驱动教育，变革教学的大数据时代，教育领域同样蕴藏着具有广泛应用价值的海量数据，在对教育数据挖掘和学习分析技术等教育大数据关键技术分析的基础上，结合共词分析和教育博客等社会化网络教育数据，构建教育领域的相关学习分析和数据挖掘模型，探索教育变量之间的相关关系，实践大数据的教育应用，为教育教学提供有效的决策支持服务，促进教育教学的变革与创新。

【论文关键词】大数据；学习分析；数据挖掘；共词分析；社会网络分析

大数据作为信息技术发展的新趋势，已经渗透到各行各业，成为重要的驱动因素，并掀起行业变革的巨浪。随着我国教育信息化水平的不断提升，越来越多的学习管理系统在教育领域中被应用，数据化的学习信息和学生信息逐渐增多，教育数据的海量增长，导致在教育管理、教育服务、教学研究、教育评价等领域也面临大数据问题，教育大数据时代已经悄然来临。“教育信息量的爆炸式增长以及相关数据处理技术的创新发展成为人们新的视野焦点，如何利用与分析这些数据信息，不仅影响着信息交流、知识传递和学习效果，更在一定程度上影响着教学决策制定和学习模式优化，已经成为目前教育工作者和学习者一致关注的方面。”[1]

在数据分析驱动教育，变革教学的大数据时代，教育领域同样蕴藏着具有广泛应用价值的海量数据，利用教育数据挖掘和学习分析技术，构建教育领域的相关模型，探索教育变量之间的相关关系，为教育教学决策提供有效的支持将成为未来教育的发展趋势。

一、大数据及教育大数据关键技术

计算机技术、移动通信技术、互联网技术，再到大数据技术的登台亮相，不中国论文榜--中国权威论文发表平台，我们为您提供专业的论文发表咨询和论文发表辅导！

仅体现着信息技术的深入与发展，更体现着大数据时代的到来；大数据技术在教育领域的广泛应用引起了教育变革，推动了教育发展，学习分析实现了教育的探索性分析，数据挖掘实现了教育管理与决策的制定。学习分析和数据挖掘这两大大数据关键技术在教育领域的深入应用，为教育教学带来了新的机遇。

(一)大数据 2012年，联

合国发布

了

大

数据白

皮

书“BigforDevelopment:Challenges&OpportunUies”，明确提出大数据时代已经到来。[2]大数据作为信息技术发展的新趋势，具有海量的数据规模(Volume)、快速的数据流转(Velocity)、多样的数据类型(Variety)和巨大的数据价值(Value)4V特性。[3]大数据是一种价值观、方法论……是一场思维的大变革，已经渗透到各行各业，成为重要的一种生成因素，并掀起了变革的浪潮。[4]通过对海量数据的分析挖掘，以一种前所未有的方式获得巨大的产品服务、深刻的真知灼见，为我们理解生活以及认识世界提供了一种全新的思维方式，实现思维的三大转变：一是不再依赖于小样本数据，而是与现象相关的所有数据；二是不再热衷于追求微观层面的精确，而是宏观层面的洞察力；三是从传统的因果关系追求中解脱出来，关注相关关系的发现和应用。[5]

大数据借助无所不在的传感设备和计算能力，对现实世界、虚拟世界以及虚实融合世界的复杂网络数据进行解析和挖掘，实现行为判断和决策。随着教育领域各种学习管理系统、课程管理系统、网络互动平台的应用，各种学习行为、学习状态等教育数据将海量增长，教育大数据时代已经悄然来临。大数据使得教育信息成为可捕捉、可量化、可传递的数字存在，大数据使得教育过程性考察成为可能，更能透过真实的数据发现教与学的关系，教育正悄悄地发生着一场革命。[6]

(2)教育大数据关键技术

近年来，随着大数据的推进与发展，教育大数据处理与分析已经成为推动教育改革与发展的驱动力，引起了各国政府和教育行政部门的高度重视。2012年10月美国教育部发布了《通过教育数据挖掘和学习分析促进教与学》中国论文榜--中国权威论文发表平台，我们为您提供专业的论文发表咨询和论文发表辅导！

(EnhancingTeachingandLearningthroughEducationalDataMiningandLearningAnalytics)报告。[7]力图通过教育大数据分析挖掘，促进“大数据”教育应用，从而为教育发展抢得先机。

大数据为海量教育数据的存取提供了技术基础，但原始的教育数据只是教育大数据的基础，只有通过对采集到的各种数据进行教育数据挖掘，构建学习分析模型，发现教育变量之间的关系，并实现赋予数据相关意义，才能使数据转变为信息；信息进_步经过分析和综合，形成知识；最后通过实践运用，知识才上升到智慧层次。[8]因此，教育数据挖掘和学习分析技术是教育大数据的关键技术。

1.教育数据挖掘

教育数据挖掘（EducationDataMining)是综合运用数理统计、人工智能与机器学习和数据挖掘等技术与方法，对教育原始数据进行分析处理，通过构建数据模型，对学习者的学习结果与学习内容、学习资源和教学行为等变量进行相关关系分析，从而有效地预测学习者未来的学习趋势。[9]并为教育工作者、学习者、学生家长、教育教学研究者以及教学软件开发者提供支持，实现教育系统中教育资源的良性互动，最终实现改进学习的目的。教育数据挖掘流程具体如图2所示。

2.学习分析

学习分析（LearningAnalytics)的研究对象是学生及其学习环境，目的是通过对教育海量数据的分析和建模，发现潜在问题，优化和理解学习，预测学习者在学习中的进步和表现。学习分析具体过程如图3所示。显而易见，学习分析技术就是围绕学习者在学习过程中产生的各种信息数据，利用各种数学建模方法和数据处理技术来解释这些数据，并根据结果数据与分析信息，对学习过程与情境进行探究，并进一步发现学习的规律，为优化和完善教学提供相应的反馈，持续地促进学习者的学习。学习分析技术利用数据挖掘、数据解释与数据建模的优势，对学习的平台中积累的大量数据信息进行采集、存储、分析和表示，并运用分析测量结果对学习者学习行为进行评估、预测和干预，为个别学生量身定制更有效的教育，进而改善和提升教与学的质量与效能，实现改善教学和促进学习的目的。中国论文榜--中国权威论文发表平台，我们为您提供专业的论文发表咨询和论文发表辅导！

除了学习分析和数据挖掘这两大教育大数据关键技术，近年来慕课、微课、翻转课堂、社会网络软件、云计算、Moodle等网络学习开源平台、WEB2.0技术都可以纳入教育大数据的技术范畴。

二、大数据促进教育变革随着教育领域各种大数据技术的应用，我们已经进入一个数据驱动教学、分析变革教育的大数据时代。虽然技术还没有给教育带来如1987年AlfredBork所预言那样的变革[12]，但技术具有拓展、增强或者变革人类学习的潜力，科技进步不可避免地带来了教育的革新，并且对教育发展带来了深远的影响。如，大规模数据分布式处理技术实现了结构化与非结构化数据存储；云计算技术实现了教育资源的共建共享；社会性交互软件促进了学习型社会的构建；MOOCs与翻转课堂实现了个性化学习构建；开源学习管理系统实现了学习过程管理。大数据技术在教学领域的应用革新了教育思维方式、重构了教学评价方式、颠覆了传统教学模式、实现了个性化教育，教育大数据背景下教学的规训与教化在撤退，支持和服务在推进。[13]

(一）数据挖掘与学习分析有助于教学决策和评务价

教育大数据记录了教学的过程，发现了新的知识，创造了更大的教育价值，促进和优化了教学策略和评价。移动互联网时代，知识的获取变得以学生为中心，因为，每个学生的智力特点和吸收水平都是不一样的，移动互联网支持了以学生为中心的学习，突破传统不再是所有人在统一的课堂上在规定的四十五分钟内听相同的教学内容。新兴的教育技术与资源使得教育更加以学习者为中心，使教育从批量到个性的实现成为一种可能；教师的教育思维也从宏观的群体教育向微观的个体教育方式转变，促进了以学习者为中心的个性化教育的实施，进一步使得因材施教成为一种可能。

从技术层面上说，学习者在互联网等媒体上留下的任何数据痕迹，都可以进行分析，可以发现数据背后隐藏的学习者相关学习特征、兴趣爱好、行为倾向，与教育教学相关的状态信息都将一览无余。从这个意义上来说，未来的教育发展方向就是应用学习分析和数据挖掘等大数据技术去实现精准的个性化教育。将大数据对教育教学中海量数据的整合分析，结合态度、行为和行为背景等因素，就中国论文榜--中国权威论文发表平台，我们为您提供专业的论文发表咨询和论文发表辅导！

可以发现学生思想、行为和心态的变化，分析出每个学生的特点，再结合总体学生的表现和其他因素的分布就可以准确对某位学生实施正确的评价，最终使得对每个学生的教学都可以建立在对过去行为数据的分析基础上。[14]从而真正打破传统技术背景下“不得不承认，对于学生，我们知道的太少”那样的窘境。[15]

大数据技术有利于对教师课堂教学计划、课堂教学评价、课堂视频资源中的各种数据进行提取和分析，从而为预测、处理教学行为、学习心理提供了重要依据，为教学评价提供了较为全面和完整的信息，克服了评估主观性强的缺憾，教学评价不再是经验式的，而是在大数据基础上的“归纳”，更具说服力和公信力，实现了教学评价的客观公正与科学正确，教学决策的针对性与时效性。

(二）微课与翻转课堂教学有利于个性化学习模式重构

未来教育在大数据技术的支持下变得越来越个性化，慕课、微课与翻转课堂的教学应用有利于个性化学习环境的构建，数字化课程资源的标准化定制实现了学习内容的学生自组织学习，在线学习使得学校教育和教师更多地转向学生个体，关注学习者的个性化培养，教师实现了从教学者到助学者角色的转变，更多地是承担学习的支持服务和协作交流。[16]个性化学习模式更多地关注师生之间、生生之间、学生与教育媒体之间的交往互动、个性化服务和灵活的教学范式。微课实现了知识从固化到碎片，移动互联网则使我们可以充分利用碎片化的时间。不仅如此，我们每一次对碎片化时间的利用都还可以是非常高效的，因为，学习系统了解你的学习情况，知道怎么让你更高效地学习。

传统教育是大家在一个封闭的客厅里，规定每节课45分钟，而现在移动互联网可以让学生和全世界各个地方的学习者交流，做到线下进行知识学习，线上进行知识传递，完全颠倒传统的教学结构，使强调知识传递、以教定学的知识传授模式逐步让位于强调问题中心、以学为主的整合探究模式，构建了新的教学范式。

中国论文榜--中国权威论文发表平台，我们为您提供专业的论文发表咨询和论文发表辅导！

教师可以利用微课和翻转课堂进行基于技术的课堂教学案例欣赏，积极开展分析、讨论和教学反思活动，在学习活动中实现对技术、学科和教学法之间的深层次理解。[17]在这种模式下，一方面，充分调动了学生的积极主动性，学习者在课堂上进行深入交互和思想碰撞，而不再是存在了几个世纪的那种被动的教学模式接受者；另一方面可以进一步加深对整合技术的学科教学知识的理解，培养教师将技术和学科教学知识整合地根植于自身课堂中的能力，实现将知识的传授迁移到了课外。

(三）在线视频与大规模开放课程有利于教学知识呈现

开放存取已经成为帮助所有人进行学习的关键因素之_，“技术支持了信息的开放存取，实现了知识共享的无处不在”，[18]这也是21世纪由新的学习技术所带来的张力和机会：学科内容的音频、视频等多媒体融入呈现，营造了更为丰富的交流互动和学生体验参与，促进了学习者情感领域的认知与发展，并进一步帮助我们所有人学习；现有的视频动画、网络多媒体、甚至3D的教学内容，生动逼真地呈现在学习者面前，使学习突破了传统的学校围墙的限制，未来的师生关系应该是从传道授业变成解惑的角色，传道授业由互联网上高质量的视频资源来替代；在线视频分享为每一位学习者打开了一扇从其他机构那里学习的大门，学习和培训从单中心到多中心，各种大规模开放在线课程让学习方式越来越丰富。通过向学习者提供观看、参与和反思的教学视频资源，实现了跨界学习交互和教学应用示范。这种交互和示范不仅能够展示如何理解技术、学科内容知识和学科教学知识之间的关系，更能够展示如何为学科内容领域的教学制定与技术有关的有效决策，[19]从而促进学习者自主建构知识体系，实现教学知识的呈现与内化。

(四）学习管理系统和web2.0技术有助于教学管理和情境参与

利用web2.0技术，用户可以在其中创建视频群组，订阅特定频道和成员的视频，上传视频，给视频贴标签。在世界范围内分享视频、创建播放列表、与拥有共同兴趣的人保持联系等。这些工具赋予了学习者在教育过程中的话语权，支持参与式学习。?大数据促进教育发展的第三大宏观趋势是建构_种协同、协商和中国论文榜--中国权威论文发表平台，我们为您提供专业的论文发表咨询和论文发表辅导！

共享这些知识和信息的文化创造；一种参与式学习文化。[21]正如约翰.赛利.布朗所指出的那样，在这种新型的参与式教育环境中，学习者开始参与到一种建构、改进、学习、分享的文化中。各种免费的教育资源随处可见、各种支持学习者参与的社会性工具软件层出不穷，资源和工具的结合能使学习者自由添加、实时评论和独立创建全新资源，这时我们需要重新审视和界定学习究竟是什么一学习不再是消费和吸收，而变成了生成和参与。由于有了Moodle、Sakai、Blackboard等学习管理系统和web2.0技术对学习参与的支持，实现了以学习需求和学习者为中心的转变，动态的教与学关系，通过挖掘知识、寻求联系、总结规律，每个教师和学习者都能发挥自己最大教育潜能。

三、大数据关键技术教育应用实证分析

大数据所带来的教育的未来，不单是表述_个理念和社会直觉，更是一种教育变革和社会行动。在大数据技术的支持下，教育不再是单_的理念交流与经验传承的社会科学，而确确实实变成依托教育行为数据的实证科学。在教育大数据时代，由于教学实验的布置，教育时空的设计、学习场景的构建、教育环境的创设、教育数据的采集和教育管理的决策，这些过去只能依靠理念灵感加经验的东西，可以实实在在地以数据形式进行记录、跟踪，真正变成一种数据支撑的行为科学。[22]

大数据技术在教育教学实践中的广泛应用，积累了大量的学习状态数据，如何让数据说话，揭示教育数据背后的教育现象本质，为教育决策和政策制定提供建设性解决方案，我们将通过数据挖掘和学习分析这两大大数据关键技术在教学领域的应用案例进行实证分析，以期为数据挖掘和学习分析等大数据技术的教育应用提供借鉴与启发。

(一)基于教育数据挖掘的共词分析

教育大数据技术促进了教师专业发展，两者具有一定的相关性，国内许多文献对两者进行了深入研究，我们抽取10年以来在CNKI、EBSCO、Springerlink等国内外期刊上出现的教师专业发展和教育大数据相关的关键词频次，利用内容分析，文本分析等方法对关键词出现的共篇关系构建共词分析矩阵，并通过中国论文榜--中国权威论文发表平台，我们为您提供专业的论文发表咨询和论文发表辅导！

Ochiia相似性系数法对数据进行分析计算，从而将共词矩阵转换为相关矩阵，在相关矩阵的基础上，进_步构建相异矩阵，并采用多维度尺度分析法进行分析，形成教育大数据背景下教师专业发展的知识体系谱系图，从而对教育大数据教师应用提供良好的决策指导。

期刊论文一般都有几个关键词，用以说明本篇论文的主要研究领域和重点方向等，如果多个关键从上面的“教育大数据与教师专业发展高频关键词多维尺度图”中可以发现象限_、象限三和象限四是几块相对集中的研究领域。其中第一象限属于大数据范畴，主要关注“大数据”、“学习分析”和“数据挖掘”；第三象限主要属于教师专业发展范畴，主要包括“教师信息素养”、“教师Tpack”、“教师专业发展”；第四个象限属于个性化学习技术范畴，关注“慕课”、“翻转课堂”和“个性化学习”；相对这几个关键词集中象限，第二象限只有教学绩效评估，这说明教学绩效评估和其他几个范畴共同联系相对少些。关键词的图中分布也比较符合我们对相关文本内容的分析，对教师教育专业化发展具有很好的决策指导作用，如，在进行大数据学习应用时应该重视学习分析和数据挖掘的学习；在进行教师专业化培训时应该重视教师Tpack能力和教师信息素养的培养；在进行个性化学习支持服务的时候应积极利用翻转课堂和慕课进行学习环境构建、学习模式创设。

通过教育数据挖掘共词分析，很好地展现了教育大数据背景下教师专业发展的知识体系谱系图，更加明确地解释出教育大数据对教师专业发展的影响及两者之间的相关性，从而为教育大数据背景下的教师专业发展提供确实有效的指导与建议。

(二）基于社会网络分析的教育博客学习分析

社会网络分析可以对网络群体中的个体学习行为与学习行动者之间的关联和群体影响进行分析，通过相关的社会网络分析软件，利用距离、密度和中心度、社群图等概念对网络属性进行评价，是社会结构关系研究可视化的、说服力强的一种方法手段。教育大数据视野下，学习分析技术越来越被重视，社会网络分析作为一种学习分析方法，可以对网络学习的平台、课程管理平台、网络日志等记录的大量过程化数据进行深入挖掘，发现网络学习中学习者的学习中国论文榜--中国权威论文发表平台，我们为您提供专业的论文发表咨询和论文发表辅导！

行为和社会交互特征，从而为网络学习提供决策引导和服务支持。

为了运用社会网络分析进行教育数据学习分析，我们选择一个浙江省中小学教师专业发展培训班作为样本数据，依托湖州师范学院精品课程《教育技术学基础》为网络平台，具体如图5所示。通过对培训教师在该课程网站上的教育博客群参与活动分析，选择培训班20名教师的教育博客交流情况，进行网络日志数据的收集。并规定博客的发帖、链接、回复和推荐都记为一次网络交流。

数据的处理分析主要采用社会网络分析软件UCINET6.0,数据挖掘以前，先根据教育博客上的网络曰志进行数据获取，然后对参与博客交流的教师进行T1-T20的编码，培训教师用TEC编码标示。关系矩阵的建立，具体如表4所示。

行列交叉单元格中的数据表示第i行的教师对第j列的教师进行教育博客互动的次数，0表示没有互动，每个教师相对于本人，博客互动都定为1。经过Netdraw导入关系矩阵，经过UCINET6.0教师教育博客互动交流社群图分析，具体如图6所示。

从社群图中可以看出，TEC在网络博客群中处于中心地位，而且没有孤立的点，这说明教师专业化^培训中培训教师处于主导地位，和受培训教师积极进行网络博客交流与互动，帮助受训教师解决问题；同时受训教师也积极相互进行合作交流，进行教育技术课程学习。

进一步通过networks-centrality-degree进行中心度分析，得到如表5所示。

从表5中可以看出，TEC的入度和出度都是最高的，这进一步说明了教师在培训中的地位，起到了协作、引导和帮助的作用；同时T15出度比较多，说明该教师在培训中能够通过积极发帖引导其他教师进行培训交流;T20的入度比较多，说明其他参与培训的老师比较喜欢和该教师进行互动交流，同时也表明该教师在教育博客中的声望较好，比较受广大培训教师的欢迎。

为进一步了解各培训教师在网络中的交互特征和作用，我们进一步通过networks-centrality-freemanbetweenness-nodebetweenness进行中间中心度中国论文榜--中国权威论文发表平台，我们为您提供专业的论文发表咨询和论文发表辅导！

分析，得到表6所示。

从表6中可以发现TEC、T6和T1的中间中心度比较高，这说明教师和这两位培训学员在博客讨论区中扮演了领导者的角色，对教学培训资源具有一定的控制作用；同时这两位受训教师也起到了培训的桥梁沟通作用，对教师培训交流的信息起到了很好地沟通传递作用。

四、结语

大数据作为信息技术发展的新趋势，已经渗透到各种领域，成为变革的一种重要生成因素。在数据分析驱动教育，变革教学的大数据时代，教育领域同样蕴藏着具有广泛应用价值的海量数据。多元的教育“数据”已是教育行业及其相关领域必须考虑的因素。如何高效分析和挖掘这类数据信息已经成为提高教育质量，推动教育发展的新浪潮。大数据关键技术正是从技术层面实现了各种学习行为数据的量化与显现，使学习者的体验感受得以实现，通过记录、分类、挖掘和运用学生学习过程中产生的大量非结构化数据，能够揭示出学生的学习模式；通过监测、跟踪、分析和应用学生在整个学习过程中形成的数据档案，能够帮助理解学生为了掌握学习内容而进行学习的全过程。[23]

学习分析和数据挖掘这两大大数据关键技术已经成为教育研究的热点和趋势，通过数据挖掘可以对教育数据进行从微观到宏观的统计、分析、综合和推理，指导教育教学实际问题的解决,发现教育现象之间的相互关联和规则，从而可以更好地做出教育预测和实施教育决策;通过学习分析既能为学生提供高质量、个性化的学习体验，又能改进教育工作者的教学方式，完善和优化教学过程，真正使教学实践活动转向关注微观个体，实现真正意义上的个性化学习和教育个性化支持服务，从而有利于促进教育公平。

总之，学习分析和数据挖掘等大数据关键技术的教育应用实践，不仅探索了教育教学数据背后隐藏的相关关系，更为教育教学决策的科学制定提供了有效的服务支持，促进了教育教学的变革与创新，引领了教育教学发展的新方向。

【参考文献】中国论文榜--中国权威论文发表平台，我们为您提供专业的论文发表咨询和论文发表辅导！

[1]周馨.大数据时代教育数据价值挖掘[J].信息与电脑(理论版)，2013,(8).[2][3][7][9]徐鹏,王以宁,刘艳华，张海.大数据视角分析学习变革--美

国《通过教育数据挖掘和学习分析促进教与学》报告解读及启示[J].远程教育杂志，2013，（6).[4]张杰夫.大数据-大视野-大教育[J].中小学信息技术教育，2013，（10).[5]维克托迈尔.舍恩伯格，肯尼思.库克耶著.盛杨燕,周涛译.大数据时代[M].杭州：浙江人民出版社，2013，（1).[6]魏忠.教育正悄悄发生一场革命[M].华东师范大学出版社，2014,(11).[8]马婧,韩锡斌，周潜,程建钢.基于学习分析的高校师生在线教学群体行为的实证研究[J].电化教育研究，2014，(2).[10]魏顺平.教育数据的挖掘、分析、应用[J].中小学信息技术教育，2013，（10).[11]杨庆安,赵伟男，张海.大数据在教育领域应用的学习分析框架构建[J].软件导刊.教育技术，2013，（5).[12]Bork,A.Learningwithpersonalcomputers[M].NewYork:Harper&Row，1987.[13]魏忠.教育正悄悄发生一场革命[M].上海：华东师范大学出版社，2014，（11).[14]喻长志.大数据时代教育的可能转向[J].江淮论坛，2013，（7).[15]张燕南，赵中建.大数据时代思维方式对教育的启示[J].教育发展研究，2013，(21):3-4.[16]魏忠.大数据时代的教育革命[EB/OL].[2014-07-29].http:〃中国论文榜--中国权威论文发表平台，我们为您提供专业的论文发表咨询和论文发表辅导！

6.大数据时代下数据挖掘技术与应用篇六

【摘要】人类进入信息化时代以后，短短的数年时间，积累了大量的数据，步入了大数据时代，数据技术也就应运而生，成为了一种新的主流技术。而研究数据挖掘技术的理念、方法以及应用领域，将对我国各个领域的未来带来更多的机遇和挑战。本文就大数据时代下数据挖掘技术与应用进行探究。

【关键词】大数据，数据挖掘，互联网

数据挖掘是一门新兴的学科，它诞生于20世纪80年代，主要面向商业应用的人工只能研究领域。从技术角度来看，数据挖掘就是从大量的复杂的、不规则的、随机的、模糊的数据中获取隐含的、人们事先没有发觉的、有潜在价值和知识的过程。从商业角度来说，数据挖掘就是从庞大的数据库中抽取、转换、分析一些潜在规律和价值，从中获取辅助商业决策的关键信息和有用知识。

1.数据挖掘的基本分析方法

分析方法是数据挖掘的核心工作，通过科学可靠的算法才能实现数据的挖掘，找出数据中潜在的规律，通过不同的分析方法，将解决不同类型的问题。目前常用的方法有聚类分析、特征数据分析法、关联性分析等。

1.1聚类分析法。简单来说聚类分析就是通过将数据对象进行聚类分组，然后形成板块，将毫无逻辑的数据变成了有联系性的分组数据，然后从其中获取具有一定价值的数据内容进行进一步的利用。由于这种分析方法不能够较好的就数据类别、属性进行分类，所以聚类分析法一般都运用心理学、统计学、数据识别等方面。

1.2特征性数据分析法。网络数据随着信息时代的到来变成了数据爆炸式，其数据资源十分广泛并且得到了一定的普及，如何就网络爆炸式数据进行关于特性的分类就成为了当下数据整理分类的主要内容。此外还有很多方法都是通过计算机来进行虚拟数据的分类，寻找数据之间存在的普遍规律性完成数据的特性分析从而进行进一步分类。

1.3关联性分析法。有时数据本身存在一定的隐蔽性使得很难通过普通的数据分析法进行数据挖掘和利用，这就需要通过关联性分析法完成对于数据信息的关联性识别，来帮助人力完成对于数据分辨的任务，这种数据分析方法通常是带着某种目的性进行的，因此比较适用于对数据精准度相对较高的信息管理工作。

2.数据挖掘技术的应用

数据挖掘技术的具体流程就是先通过对于海量数据的保存，然后就已有数据中进行分析、整理、选择、转换等，数据的准备工作是数据挖掘技术的前提，也是决定数据挖掘技术效率及质量的主要因素。在完成数据准备工作后进一步对数据进行挖掘，然后对数据进行评估，最后实现运用。因此，数据挖掘能够运用到很多方面。如数据量巨大的互联网行业、天文学、气象学、生物技术，以及医疗保健、教育教学、银行、金融、零售等行业。通过数据挖掘技术将大数据融合在各种社会应用中，数据挖掘的结果参与到政府、企业、个人的决策中，发挥数据挖掘的社会价值，改变人们的生活方式，最大化数据挖掘的积极作用。以教育行业为例，探究数据挖掘技术在高校教育教学活动中的应用。

2.1在高校管理中的应用。数据挖掘技术在高校管理的内容主要包括：高校招生录取工作、贫困生选定以及优秀生评定等。高校每年的招生工作是学校可持续发展的重要环节，直接影响到高校教学质量以及发展情况。比如数据挖掘技术在高校管理中的应用主要是对学生高考成绩、志愿填报、以及生源来源地等多方面信息进行整理分类汇总。具体步骤是通过进行数据的收集和预处理，建立相关数据模型，采用分类算法，提取和挖掘对用户有用的信息，然后进行数据挖掘的数据存储形式。目前高校数据挖掘技术应用的范围比较广泛，由于高校管理内容比较复杂，因此在其管理内容的每个小部分也开始利用数据挖掘技术进行管理，比如学生成绩管理，课堂教学评价系统等。

2.2在高校课堂教学评价中的应用。数据挖掘技术在高校课堂教学评价系统中的应用主要也是利用关联分析法。首先先对数据进行预处理工作，数据的预处理是数据挖掘技术的关键步骤，并且直接影响着数据挖掘技术的应用效率。数据预处中要将教师的基本信息、教师教授课程以及教师的职称、学历、学生信息以及学生课表相关信息进行数据初始记录。对于教师的评价内容根据高校自身的条件和需求而定，学校教学评价管理部门登录学校教务系统后，将学生所选择的选项对应转换为教师的分值，通过计算机计算总分后得出教师的学期得分。学生对于教师教学的评价在一定程度上也反映了自己的学习情况，如对教师的评价为零分，则说明学生也否定了自己的学习效果。2.3在高校学生信息管理系统中的应用。高校学生信息管理系统中管理要素主要是学校的领导、任课教师、学生以及家长。系统的功能要包括：对不同的用户设置不同的使用权限；对学生的基本信息以及学生浏览管理网站的记录要做到明确记录；各个学院不同专业的学生课程要能准确公布并允许学生根据实际情况修改；成绩管理要能实现大批量添加及修改；还有比如评优活动、党务管理等具体功能。数据挖掘技术在高校学生信息管理系统中的应用主要是利用决策树的方法。学生信息管理的基本数据就是学生入学时填写的基本信息表，内容包括学生的姓名、学号、考勤以及学习成绩等，这些都是学生特有的属性，学生信息管理利用决策树方法就是将学生的这些属性作为决策元素，监理不同的决策节点，实现对学生全方位的考核和评价，完整的了解到每位学生的具体信息。

2.4高校图书馆信息系统中的应用。数据挖掘技术最基本的应用就是通过对现有的数据进行分析来了解学校图书馆现有资源利用情况，为图书馆的未来建设提供可靠数据。数据挖掘技术能够使图书馆资源得到极大程度的优化整合。比如数据挖掘技术可以对检索记录进行整理，将手工数据转变为电子数据记录。其最大的优势就是利用数据挖掘技术更加全面的分析总结数据库资源，帮助图书馆管理人员对于图书馆信息的补充和调整，还能够为高校图书馆的馆藏工作建设提供有效的引导。数据挖掘还能应用于图书馆的多媒体数字资源，多媒体数据挖掘技术能够更为快捷和准确的为读者提供相应的服务。

3.结语

数据挖掘技术是近几年新产生的网络技术，可是它的广泛应用性受到了很多公司以及研究人员的喜爱。这些年来，伴随着时间的推移以及网络技术的不断发展大数据挖掘技术不断的被更新，开发，而且在金融、管理、教学等行业中都得到了广泛的应用。我相信随着网络技术的不断发展，大数据挖掘技术的应用面将会越来越广。

【参考文献】

7.大数据的应用论文篇七

关键词：大数据,应用,政府统计

大数据对于统计工作既是挑战也是机遇。大数据彻底改变了传统的统计调查方式,大数据如何在政府统计中应用成为当前热点内容。本文以无锡市财税数据在政府统计工作应用为实例,探讨新形势下政府统计应用大数据的路径和发展方向。

一、大数据及应用于政府统计的路径

(一)大数据的概念和特征

大数据(Big Data),或称巨量资料,是指所涉及的资料量规模巨大,已无法通过目前的软件工具在合理的时间内撷取、管理、处理与整理。大数据是由数量巨大、结构复杂、类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的整合共享,交叉利用,形成的智力资源和知识服务能力。大数据具有4个特征,即规模性(Volume)、多样性(Variety)、价值性(Value)、实时性(Velocity),这是大数据区分于传统数据的最显著特征。

(二)应用于政府统计的大数据的分布状态

在政府统计工作当中,有用、可用的大数据主要有以下几种:

1.分布在党政机关部门的行政记录数据。

行政记录是指国家行政机关为实现监督、管理和服务等目的,通过登记、报告、行政许可审批等方式收集并保存的关于行政监督对象的相关信息。行政记录是各级行政机关业务管理的产物,能够用文字和数值反映现象的状态和特征。当前,大部分的行政记录与政府统计数据存在交叉重叠的部分。如工商行政管理部门的企业(个体户)登记户数与经济普查得到的企业(个体户)户数有较大重叠;发改部门审批重点项目与固定资产投资统计中的重点项目投资有密切联系;税务部门的税收征收数据与“四上”单位财务统计数据有直接关联等。

2.分布在提供社会公共服务的企(事)业单位业务数据。

提供社会公共服务的企事业单位主要是指为社会、为群众提供直接服务的公用事业单位和服务行业,以及具有公共服务职能的企业,具体包括:医疗卫生、教育、供水、供电、供气、供热、公交、物业、社保、金融、邮政、电信等行业和单位。这些单位在办理相关业务时产生的有关数据。这其中部分数据与政府统计业务有直接关联,部分数据间接关联。如社保部门办理社会保险金征缴数据与统计部门劳动工资统计有关联;供电部门所负责的区域内各企业电量消耗数据与统计部门能源统计有关联;供水部门所负责的区域内各企业水资源消耗与统计部门水耗统计有关联等。

3.分布在按照市场经济行为运行企业的生产经营数据。

企业内部数据是大数据的一个主要来源。企业内部数据主要包括存放于企业操作型数据库中的各种业务数据(结构化数据)和办公自动化系统中包含的各类文档数据(非结构化数据)。主要是指企业生产经营过程中积累下来的各种各样的数据记录,如客户记录、销售记录、人事记录、采购记录、财务数据和生产库存记录等。这些企业内部数据与政府统计工作有直接关系。尤其是对于纳入统计范围的“四上”单位,这些企业的产、销、财务、工资数据均是统计部门开展专业调查需要掌握和了解的。此外,如生产、销售、耗能、用工等明细数据可以更多地应用于政府统计当中,但受企业数据保密的影响,这些数据功能还没有很好发挥。

二、大数据在政府统计中的应用实践

无锡市统计局从2008年初着手尝试广泛运用税收数据应用在政府统计业务当中,并不断深化,目前已经取得明显积极成效。

(一)大数据应用的平台建设

大数据不仅海量,而且复杂,需要特殊的技术、工具来支撑和实现,通过收集、整理大数据,并对其进行分析挖掘,进而从中获得信息。无锡市统计局利用税收数据主要是依托建立的财税信息联网系统平台。将财政、国税、地税自身原有掌握的资料信息统一交换到一个平台,数据信息类型主要包括纳税人税务登记与税种鉴定基础数据信息;申报、征收、入库数据信息。财税信息联网系统平台由中心数据库节点和数据提供单位的前置机节点组成,各数据提供单位节点依据电子政务内网为载体,分别与中心数据库节点连接,实现中心数据库与数据提供单位之间日常数据交换和向授权用户提供浏览查询访问。数据交换管理依托元数据库和标准字典库实现数据交换平台的信息管理,并通过交换数据维护管理功能,完成对各类交换数据格式的描述定义。

(二)大数据应用的具体案例

从2008年开始运行以来,财税信息联网系统平台累计接收了财政、国税、地税提供登记数据记录88.87万条,接收的申报征收记录3929.22万条,真正成为一个数据的海洋。在政府统计上的应用主要有以下几个方面:

1.应用于财税运行分析之中。

根据财政、国税和地税交换的原始数据,按照日历年度进行了汇总和分类,计算汇总形成包括各级次公共预算收入情况、各级次公共预算收入占比情况、分级次税收收入情况、分级次税收收入占比情况、城市建设维护税和教育费附加负担情况等分类汇总数据。通过这些数据,结合经济运行态势开展综合情况分析,在进行经常分析、动态跟踪的基础上,围绕财税与产业结构转型升级、财税与经济运行态势等方面开展重点分析和课题研究,成为服务地方党政领导的新手段。

2.应用于经济普查全过程之中。

经济普查工作包括单位清查、普查数据上报、数据审核等多个环节。在经济普查中,财税数据得到广泛应用,在单位清查时,通过财税联网平台提供的税务部门掌握的二、三产业法人单位纳税情况与工商、民政等部门数据进行比对,排查法人单位和产业活动单位,确保清查单位不重不漏。在经济普查数据审核上报过程中,充分利用财税联网平台数据对法人单位和产业活动单位上报的经济普查数据进行核实比对,发现问题及时检查落实,确保了经济普查数据真实可靠。第三次全国经济普查已经如火如荼开展,财税联网平台数据将继续发挥作用。

3.应用于质量控制全过程之中。

近年来,无锡市统计局坚持以提高统计数据质量为中心,逐步建立了多层次、全方位的质量控制体系,这其中财税联网平台数据发挥了重要作用。目前,部分专业在逻辑、趋势、经验、测算等评估手段综合运用中广泛采用了财税联网平台数据,有效地防止了数据偏差。如工业专业在评估增加值增速时充分参考财税联网平台中工业应税销售的增长情况;贸易专业在评估社会消费品零售总额数据时充分参考财税联网平台中批发零售业增值税增长速度、住宿餐饮业营业税增长速度;建筑业专业在评估建筑业总产值、增加值数据时充分参考财税联网平台中建筑业增值税、营业税增长速度;核算专业在评估第三产业中其他营利性服务业数据时充分参考其他营利性服务业营业税增长速度。财税联网平台数据成为政府统计部门开展数据质量控制体系的有力帮手。

4.应用于“四大工程”改革之中。

以“企业一套表”为核心的统计四大工程建设是重大统计革命,四大工程建设第一项任务就是建设真实完整、及时更新的基本单位名录库。财税联网平台数据在维护基本单位名录库建设方面发挥了重要作用,纳税记录是动态的数据,体现了企业的经营正常与否,体现了企业的发展状态。一方面,通过税收征缴记录挖掘出新增税源单位信息,及时核对纳入基本单位名录库中;通过税收征缴记录挖掘出一段时间没有纳税记录的企业,及时核查修改完善基本单位名录库信息。另一方面,在“三上”单位和重点服务业企业审批方面,根据财税联网平台数据,对可能符合规下(限下)升规上(限上)的企业进行梳理排查,对符合条件的按照规则积极入库,确保不重不漏。

5.应用于统计服务科学决策之中。

财税联网平台数据海量,挖掘其中的数据会得到很多有价值的信息,促进统计部门更好服务科学决策。如2013年8月1日起,小微企业中月销售额不超过2万元的增值税小规模纳税人和营业税纳税人开始享受暂免征收增值税和营业税的政策福利,国务院这一政策出台,各级领导在科学决策中都想了解和掌握本地区小微企业情况,了解过去小微企业纳税情况,减免政策出台产生的影响等。无锡市统计局根据财税联网平台数据,及时挖掘数据,形成了《小微企业暂免营业税和增值税对我市影响浅析》报告,分析了符合减免税收政策小微企业的现状和分布、2012年和2013年上半年纳税情况,并对下半年免税政策执行后税收收入减少进行了定量预测。

三、推进大数据在政府统计应用的思考

(一)推进大数据在政府统计应用满足的条件

大数据的种类、性质多种多样,这些数据结构松散,数量巨大,很难从中挖掘有意义的结论和有用的信息。对政府统计来说,能够在工作中应用的大数据必须满足几个条件:

1.数据的关联性。

数据集合中的信息要与当前政府统计业务有关联,相关性强,如信息中某个字段与统计业务中的标准、分类等一致或相关,信息包含的内容与统计的调查对象一致或相关,这样的大数据才能在政府统计上应用更广泛,也更容易被统计工作者理解、接受和使用。

2.数据的一致性。

数据集合中每个信息都不包含语义错误或相互矛盾的数据,这是确保大数据能够在政府统计中应用的前提条件。一般来说,行政记录更为准确。

3.数据的完整性。

数据集合中包含足够的数据来回答各种查询和支持各种计算。尤其是用来替代统计全面调查的数据必须齐全,一旦数据不全或丢失,出现数据的不完整,将对统计数据结果产生影响,甚至谬论。

4.数据的时效性。

数据集合中每个信息都要有一定的时效性,因为政府统计工作是有时间概念的,数据产生是有频率的,月、季、年,大数据的信息良好的时效性可以保证加工产生的统计信息更为可靠、有用,可以充分发挥价值。过期的数据在应用中作用不大。

(二)推进大数据在政府统计应用注意的问题

1.注重循序渐进。

大数据应用在政府统计工作中,要逐步实施,首先选取行政记录进行试点,其次选取提供公共服务的企事业业务数据进行运用,最后再选取企业数据进行使用。从数据的获取性上先易后难,成功一个推进一个,确保大数据应用稳步开展。

2.注重标准统一。

大数据应用,标准很关键。这里面包括大数据的分类标准与政府统计分类标准是否一致,如何统一规范,如何进行交换,采集与挖掘,这需要政府统计部门认真研究,同时及时整合、组建大数据研究机构,协调有关部门制定大数据分析研究的规范和标准,统一标准后才能更好地推动大数据的全面应用。

3.注重信息共享。

大数据真正落地在很大程度上有待于各个部门打破各自的“信息孤岛”,实现共享。在大数据应用过程中,只有实现统计部门数据与其他数据的共用共享、共同开发、共同研究,实现大数据的全社会共同利用,才能更好促进大数据在统计工作中的应用,才能使大数据真正被广大公众接受。

4.注重人才培养。

传统的统计工作只需要一支队伍、数台电脑、几个软件就能进行统计调查、数据采集、汇总和分析。但在大数据应用于政府统计工作中时,统计队伍也要发生变化才能够适应,需要引进大数据维护人员、建模人员;在计算平台上,需要广泛借助云计算,积极与大数据拥有者、云计算服务商等合作,传统的统计队伍和工作方式将难以为继,这就需要统计部门加紧引进和培养既熟悉统计业务,又熟悉大数据处理、挖掘、计算的人才,以满足大数据时代来临的需要。

8.大数据的应用论文篇八

关键词：暗数据；大数据；数据服务；图书馆

中图分类号： D035 文献标识码： A DOI： 10.11968/tsygb.1003-6938.2015040

Analysis of the Influence of Dark Data on Library’s Utilization of Big Data

Abstract It is necessary for library to apply big data to increase and widen its service， but dark data in big data will certainly influence the application. It is important for us to recognize the existence of these data and their influence and then try to exclude them so as to increase efficency.

Key words big data； dark data； data service

毋庸置疑，大数据是当下社会最热的词汇，其不仅被学术界所研究，也被政府所重视，更被商界所追捧，全社会已然进入到了一个开口必言“大数据”的时代，数据也似乎成了可以推动社会发展的最强驱动力，但实际是否如此？所有的大数据都真如一些研究所言可以分析与利用，是“金矿”、是推动社会发展的新动力吗？带着这些问题，笔者通过引进、介绍了占大数据比例较高、价值巨大但难以收集、分析和应用的暗数据，重点分析了暗数据对应用大数据的影响和图书馆应用暗数据的方式与途径。

1 暗数据概述

目前，业界对“暗数据”的定义还不丰富和完善，相关讨论也都主要引用国际著名咨询公司Gartner公司对“暗数据”的定义：“企业在开展正常业务活动期间采集、处理和存储，但通常无法用于其它目的（如分析、商业关系和直接获利）的信息”[1]。大数据智库则将其定义为：“暗数据”是深藏于海量数据之中、在商业应用上可能发挥重大作用的关键隐含数据[2]。结合上述两种定义，我们可以理解为，“暗数据”是人类没有掌握和收集但已产生影响的数据+人类没有开发挖掘的大数据，具有不易收集与分析、隐匿性较高等特征。

相较于大数据，暗数据的社会关注度就逊色不少。笔者以主题为“暗数据”检索了国内收录研究文献最为齐全的中国知网（检索日期：2015年3月30日），结果显示只有2015年初蒋报永发表在2015年1月12日《中国计算机报》上的“点亮‘暗数据’的五种方式”[3]一文，可见国内学者对其的研究之匮乏接近于空白。但需值得注意的是，有一篇网络博文则受到了业界极大的关注，那就是上海图书馆馆长吴建中先生2015年2月22日发表于其博客“建中读书”的“暗数据”[4]一文，该博文不但对暗数据的GARNER定义、国内外图情界对其的关注与实践进行了介绍，也介绍了博主对暗数据的理解与发展展望。

根据上述两篇仅有的中文文献资料，我们知道：国际知名的开放出版机构生物医学中心（BioMed Central，简称BMC）与全球最大搜索引擎谷歌Google，分别于2008年及其后，各自致力于药物开发或科技领域的暗数据研究；从2012年开始，美国众多企业都在信息发布或微信等媒体上透露将关注暗数据信息；惠普、美国慷孚系统公司（CommVault System， Inc）等IT公司正致力于研究和推广点亮“暗数据”的信息治理策略研究和智能归档解决方案。此外，Facebook面对数量庞大的互联网社群，为了使生成的内容既吸引一批忠实的品牌倡导者，也可以唤醒那些“潜水粉”，于是通过在社交虚拟社区测定“潜水粉” 的点击率、变动率和一段时间内的参与度，以此来“激活”“潜水粉”①，将品牌的着力点放在他们“正在不做什么”之上，进而影响和促动营销者们挖掘品牌内在的价值[5]。

2暗数据对图书馆应用大数据的影响

2.1 图书馆暗数据的分类与原因

尽管大数据价值巨大，但其价值的实现必须依赖于深度的数据挖掘和分析，以此来发现隐藏在事物发展表明的本质和规律，进而实现数据信息的增值与开发。反之，数据则会处于黑暗的非揭示状态。而从上述暗数据的定义、特征等可以看出，处于黑暗非揭示状态的数据可能是人们未能存储掌握或真实存在而又人们未能知道的数据，也可能是已经存储但没有挖掘开发的数据，这两类不同的数据对大数据分析和应用的影响也存在差异。

图书馆是社会知识存储、加工与组织的公益性机构，也是社会文明发展历程的见证者和成果继承者，跨入大数据时代以来，图书馆界敏锐的观察到了大数据社会民众的信息需求变化特征，并开始了对大数据时代图书馆转型变革的研究与实践。其中，掌握和分析用户的图书馆利用等信息行为等数据，以为用户的个性化、专业化信息服务开展、推送与实现提供决策参考，是图书馆在大数据时代的大数据应用主要内容。暗数据的存在和对其他数据的影响也会影响到图书馆对大数据的应用效率、价值和意愿，而分析这些影响的大小与可能性，则需从图书馆所需大数据中所含暗数据的来源入手，以进一步通过分析这些来源数据可能产生的影响。笔者认为通常来说，图书馆所需大数据一方面来自于用户享受图书馆服务时产生的借阅习惯、借阅历史等存储于计算机的结构化数据，和产生于用户在科学研究、社交网络等情景时产生的非结构化数据、半结构化数据（第一类数据），另一方面则来自于互联网、商场等物理空间、虚拟空间中个体的信息行为数据（第二类数据）。

nlc202309040951

从产生上述两类暗数据的原因来看，既有主观原因，也有客观原因，如数据收集、分析和挖掘等处理设备、技术等都可能造成数据无法准确掌握的原因，对数据分析深度的欠缺、基于经验的人为主观判断等也可能造成暗数据价值的浅层挖掘，隐私、商业信息的保护和获取之间矛盾，大数据时代信息伦理规约和传统信息道德的博弈，等等。这些问题的解决既需要相关技术的发展为支撑，也需要数据挖掘等相关工作的开展积累，更需要相关法律、法规和制度的完善与保障等多方发展推动因素。

2.2 暗数据对图书馆应用大数据的影响

从对图书馆应用大数据的影响来看，第一类数据主要会影响到图书馆对用户个体需求特征的精准判断和服务，如对用户所需学科领域、服务途径等的模糊掌握，会影响到用户对图书馆服务的体验与评价，甚至当图书馆在大数据时代信息中心的地位被边缘化、以服务来体现价值的情况发展逐步显现时，用户可能会选择其它信息咨询、数据分析等盈利性机构，最终降低图书馆的存在价值；第二类数据主要会影响到图书馆对非图书馆服务利用者和发展生态环境的需求与态势判断，如对非图书馆用户来说，其对图书馆服务的服务体验可能处于空白，图书馆不能依赖第一类数据的分析来断定所有社会民众的图书馆服务体验意愿，而是需掌握这类潜在的图书馆用户利用图书馆服务的可能性和有区别于图书馆用户的服务需求，这就需通过分析这类信息行为主体在互联网、社交空间、移动终端使用等方面的社会数据。同时，图书馆不能对数据的分析局限在固定用户和潜在用户的信息行为等范围，大数据的价值巨大就是因为其实现了多领域、多途径数据的关联，通过潜在的关联去分析和发现事物之间可能产生的关联关系，如经典的“啤酒+尿布”就是看起来毫不相干的两件事，最后却关联在一起并铸造了一个传奇营销案例。因此，图书馆也需对产生于商场、博物馆等物理空间和网络、设计空间等虚拟空间的数据进行掌握与分析，以寻求图书馆的服务改进与事业发展途径。如果对所分析的数据在数量、来源分布等方面存在较大的暗数据，其分析的结果可能不能达到预期的效果或产生一定的结果偏移，影响到图书馆决策者在事业发展、服务改进等方面的正确决策和创新。

3 如何点亮图书馆所需的暗数据

3.1 图书馆应用暗数据：价值与风险并存

大数据价值的产生缘于其广泛的来源和庞大的数量以及复杂的组成结构，那么，在大数据中，暗数据所占的比例有多高呢？全球性的组织CGOC（Compliance， Governance and Oversight Counsel，合规管理监督委员会）在2013年进行的一项调查研究结果显示：“在企业存储的数据中，69%的数据对企业毫无价值[3]”。也有科学研究表明“宇宙中有90%是由人们看不见的暗物质组成的”[6]、“存在于地处暗黑之海里面（Dark Web）一些孤岛的数据占数据总量的85%以上”[7]，等等。这些都表明暗数据不但存在于大数据之中，且所占比例和数量巨大。图书馆利用这些存在形态多样、收集与存储难度较高、数量巨大、结构复杂的暗数据，其带来的价值必将巨大吗，但也将面临着上述的技术、信息伦理等制约与风险，2013年央视3·15晚会曝光的网易等公司追踪用户cookie、分析邮件内容就是一件典型的案例[8]，而其实从大数据的角度来看待的话，其只是客户信息行为数据的一个收集过程，但其与当前的用户隐私等法律法规相冲突，面临法律诉讼等风险。“棱镜门”事件也是此类事件的典型代表。

与风险对应的则是价值，暗数据好比所占宇宙物质高达90%的暗物质一样，其主导着大数据的形态分布、结构组成与价值大小等属性，其实这也就决定了对大数据的分析与挖掘其实就是对暗数据的价值挖掘与分析，图书馆掌握和提高了对暗数据的应用，也就是提高了对大数据的应用。

3.2 图书馆应用暗数据：方式与途径

“点亮‘暗数据’的五种方式”一文对于企业如何点亮“暗数据”，释放更大商业价值有了初步研究成果，认为企业可通过利用CommVault Simpana10更好地搜索、了解和管理企业存储的海量非结构化数据（如电子邮件等），智能地利用已存储内容，在数据的生命周期内对其进行管理，就可告别“暗数据”时代[3]。笔者借鉴企业的五种方式，认为对图书馆来说，应用暗数据的方式与途径第一步是控制图书馆“暗数据”的庞大数据量。即抛弃传统的数据保护方法，通过借鉴Simpana软件基于内容的保留策略，仅保留那些对于图书馆有重要价值的数据，如用户的上网记录、借阅历史等数据，减少数据存储成本。第二步是建立一个全面的归档策略。即一方面从所有生成数据的地方采集数据，另一方面能够使用一个单一、不可复制的索引去管理所有数据。第三步是让用户和图书馆能自助搜索和访问所需数据。即让用户能够快速地发现、访问、分析和提取所需信息。第四步是自动管理数据生命周期。即让对数据从生成到处理的整个生命周期进行评估，制定内容删除的治理策略。第五步是确保合规和发现。即对数据的获取与利用是否与现行的法律法规等有冲突，进行策略改进。同时，还要确保其它未收集数据的及时发现与已收集数据的价值发现，让更多的暗数据走向可视化（收集的可视化与价值的可视化）。

4 结语

《驾驭大数据》一书曾写到，数据的核心是发现价值，而驾驭数据的核心是分析[9]。暗数据在大数据中所占的比例和价值决定了其大数据分析和应用的核心，但目前的科学发展、技术水平、法律法规、伦理道德等制约和影响着对暗数据的研究与应用，业界对暗数据的研究和关注说明人们对更深挖掘大数据价值的期待，也说明对于解决应用暗数据存在的障碍充满期待。图书馆一直以来是社会知识存储、数据加工与分析的中心与主要阵地，尽管在当前发展时期，暗数据的存在可能会影响到图书馆用户个性化、学科化等服务实施的精准性和未来图书馆事业发展的态势判断，同时还需处理好风险与价值共存的关系，但借鉴企业实施点亮“暗数据”五步途径，也能在一定程度上降低暗数据对图书馆应用大数据的影响。

nlc202309040951

参考文献：

[1]Gartner IT Glossary. Dark Data[EB/OL]. [2015-03-16].http：//www.gartner.com/it-glossary/dark-data.

[2]暗数据（Dark Data）[EB/OL].[2015-03-16]. http：//mp.weixin.

qq.com/s？__biz=MzA5NzY5NDQxNg=&mid=201848593

&idx=4&sn=fc7c68a27c19f52aad571078fb01219e.

[3]蒋报永.点亮“暗数据”的五种方式[N].中国计算机报，2015-01-12.

[4]吴建中.暗数据[EB/OL]. [2015-03-16].http：//blog.sina.com.cn/s/blog_53586b810102vgky.html.

[5]Dark Data and Measuring Invisible Impact in Your Facebook Community[EB/OL].[2015-03-16].http：//www.socialme

diatoday.com/content/dark-data-and-measuring-invisible

-impact-your-facebook-community.

[6]东南大学借“大数据”研究暗物质数据总量等于30个国家图书馆[EB/OL].[2015-03-16].http：//news.jschina.com.cn/system/2014/09/21/021926615.shtml.