大数据产业调研报告(9篇)
1.大数据产业调研报告 篇一
关于加快培育大数据产业集群推动产业
转型升级的意见
以大数据为代表的新一代信息技术是新科技和产业革命的重要引擎。为加快培育中关村大数据产业集群,充分发挥大数据在工业化与信息化深度融合中的关键作用,推动中关村国家自主创新示范区(以下简称中关村示范区)产业转型升级,根据《中关村国家自主创新示范区战略性新兴产业集群创新引领工程(2013—2015年)》,制定本意见。
一、加快培育中关村大数据产业集群
(一)培育大数据产业具有重要意义。当前,信息技术和互联网的新发展带来了大数据的爆发式增长,数据正在成为驱动经济增长和社会进步的重要基础和战略资源。基于海量数据资源的挖掘和应用催生的大数据产业,蕴含着巨大的商业价值和社会价值,是全球下一个促发创新、角力竞争、提高生产力的前沿领域。大数据与信息、生物、高端制造、节能环保、新能源、文化教育等领域的深度融合和创新应用,将广泛带动行业信息化、网络化、智能化发展,加速农业、制造业和服务业等产业转型升级。作为我国信息产业的策源地,中关村率先布局大数据产业,大数据应用领域与硅谷发展同步,超大规模数据仓库、分布式存储和计算、基于人工智能的大数据分析等一批前沿技术实现突破,大数据基础设施、基础软件、行业应用等环节一批领军企业快速成长,已形成大数据产业集群先发优势。中关村加快培育和发展大数据产业集群,将为一区多园协
2.大数据产业调研报告 篇二
关键词:大数据,大数据应用,大数据产业,大数据价值
1 研究背景
2012 年1 月30 日,美国华尔街日报发表了一篇题名为 《科技引领的繁荣即将到来》的文章,文中阐述了人类正面临的三大技术变革,其中第一个谈到的就是大数据[1]。从数据量来看,国际调研机构IDC预测,到2020 年,全球数据量将达到35. 2ZB,如此庞大的数据量和快速增长的速度将有效推动数据产业的发展。
谈到大数据,牛津大学教授、大数据权威专家维克托迈尔·舍恩伯格[2]在其著作Big Data: A Revolution That Will Transform How We Live,Work,and Think中阐述了这样的观点: 在科学技术还没有办法处理海量级数据的时候,科学研究通过抽样的办法对样本数据进行处理,从而预测全局数据的情况,但样本数据的绝对随机性是无法完全把握的,所以在通过小样本来预测全局的时候往往会出现大的偏差。随着云计算技术的发展,数据竞争的压力以及互联网环境下社交网络、移动设备等产生的海量数据的冲击,造就了今天大数据的兴盛,同时数据处理技术的发展为全样本数据的处理提供了可能,通过大数据处理技术可以对更多的和更完备的数据进行科学处理,从而提高了数据分析的科学性、准确性和精确度。可以说,技术的发展是大数据产业发展的主要驱动力。
大数据产业的发展源于大数据应用,近几年随着大数据的持续火热发展,大数据应用冲击着各个行业,为全社会带来了新的思考。大数据产业作为一个新兴产业正席卷而来,并创造出了巨大的价值,成为了当今企业和学者关注的热点问题。本文主要阐述了大数据在国内外各个领域的应用,在此基础上对大数据产业的发展、社会定位以及价值实现途径进行探索,最后针对国内大数据产业的发展给出了若干建议。
2 大数据应用
到目前为止,对于 “大数据” 有多种定义,IBM、IDC、Gartner等机构都对大数据进行了不同程度的定义。不同的定义取决于行业的差别,但多数定义都反映了那种不断增长的捕捉、聚合与处理数据的技术能力,而这个数据集在数量、速率与种类上持续扩大[3]。或许目前对于大数据概念的清晰鉴定不必过分苛刻,只需满足大数据的 “3V” 或“4V”特征即可,重要的是大数据能做什么,也就是大数据应用。
大数据的价值体现在大数据的应用上。对大数据的应用最早可追溯到2000 年6 月Google公司为应对庞大的信息检索而建立的覆盖数十亿网页的索引库,这是大数据应用的起点。此后,有很多通过大数据应用受益的经典案例,如google流感趋势( Google Flu Trends) 利用搜索关键词预测禽流感的散布; 美国沃尔玛连锁超市通过对消费者购买行为数据的研究得出 “啤酒+ 尿布”和 “蛋挞+ 飓风用品”的关联销售; 此外,基于语料库的智能翻译系统、基于大量消费者购买行为数据的电子商务自动推荐系统、基于CDR ( Call Detail Record) 的用户位置分析等,都是典型的大数据应用。随着数据价值的日益凸显,数据的开源以及数据的相互关联,大数据应用必将在未来带来全行业翻天覆地的变化。
2. 1 大数据在推动经济发展方面的应用
大数据是事关全球经济的重大技术革新。美国的大数据产业链生态已经初步形成,部分大型互联网公司已经开始品尝到了大数据带来的甘甜,一个典型的案例就是美国奈飞公司翻拍的 《纸牌屋》大获成功,其背后在演员选择、情节发展、播放方式上就是通过对3 000 万人次的观影行为、400 万次的影评和300 万次的搜索请求进行分析确定的,包括播放量、用户的重合度、用户群、用户的访问深度等[4]。我国的大数据发展也开始步入了实际操作的阶段,北京、天津、上海、重庆、陕西、湖北等地都在积极部署地方大数据产业战略。具体在推动经济发展上,大数据应用主要涵盖了以下方面:
( 1) 金融。金融机构通过大数据应用平台Hadoop来分析信息,应用于诈骗侦测、风险管理、效率优化、产品优化、客户流失分析、客户体验分析等方面。如银行通过对交易数据的分析来模拟市场行为,进而对用户进行评估; 此外,通过对客户消费行为的事件关联性分析来提高客户的转化率等。但与此同时,随着互联网金融的发展,其对传统银行业也带来了巨大的冲击,如阿里巴巴利用大数据分析技术,从淘宝网的交易数据中筛选出财务健康和诚信的中小企业,使得阿里巴巴小额不良贷款率为1. 02% ,信用贷款坏账率为0. 3% ,远远要低于传统商业银行[5]。
( 2) 电子商务. 淘宝、京东、一号店等大型电子商务交易平台利用大数据技术对网络交易数据进行挖掘和分析来发现大量有价值的信息,进而优化交易活动,精准推荐,促进商品销售。例如,基于大数据相关性分析的亚马逊图书推荐系统根据用户的付费购买行为和用户浏览行为为用户推荐书目,进而来刺激消费,就是典型的大数据应用。
( 3) 网络通信、中国联通,中国移动,中国电信 “三驾马车”都在积极布置大数据应用架构,为客户提供更加丰富和有针对性的信息化产品及解决方案,依托自身的核心业务来实现利润的最大化。中国联通在大数据的投入上多达数百亿; 中国移动则构建了多个大数据应用平台,如BC - PDM&ETL、BI - PAAS等; 中国电信利用大数据技术深入IDC服务及智慧城市建设。
( 4) 零售业。大数据同样给零售业带来了新的春天。通过对顾客数据的分析来判断客户级别并提供个性化销售服务,进而有效地进行客户关系管理;通过对商品数据的分析来确定商品组合、库存、定价、促销等; 通过对供应链数据的分析来优化物流、现金流,确定供应商等。比如沃尔玛超市通过使用客户的Facebook好友喜好和Twitter发布的内容来进行数据分析,从而发现顾客的爱好、生日等有价值的信息,进行礼品推荐,实现智能销售。
2. 2 大数据在改善医疗卫生方面的应用
健康始终是人类关心的话题,也许大数据的到来可以在治疗人类疾病、改善人类健康、延长人类寿命方面作出积极的贡献。美国已经在基因组学大数据应用、精神卫生大数据应用等方面取得了不错的成绩。2010 年起美国实施 “蓝纽扣”计划,允许消费者安全地获取他们的健康数据,从而可以使其更好地管理自己的健康,这使得越来越多的美国人开始从中受益[6]。此外,斯坦福大学把所有医院的电子病历都转换成了斯坦福大学数据中心的数据,通过有效挖掘和利用,可以更加全面地了解病人的各种需求。在英国的医疗行业中,英国拥有着完备的医疗服务系统,并存放着庞大的英国医疗数据,英国数据战略委员会已经通过大数据技术对数据进行了整理和分类开放[7]。在我国,大数据在医疗行业的应用主要包含以下两个方面: 一是居民健康档案的数据管理和服务,对海量的医疗及健康数据进行统计和分析,为管理决策、监管实施等提供更为科学的依据; 二是医院的大数据管理和服务,主要集中在临床诊断和临床科研,并且为医院管理层的决策支持提供实时有效的数据服务。
2. 3 大数据在优化学生教育方面的应用
大数据时代的来临同样给教育行业带来了一场新的变革,大数据将会使教育管理和服务变得更加个性化。美国开放了大规模的开放网络课堂,利用大数据技术对平台上的数据进行跟踪,通过对学生学习情况进行研究,来揭示什么类型的课程最受学生欢迎,进而来提升教学质量、优化学生教育。此外,亚利桑那州州立大学开发了Knewton系统,通过观察学生们的上课、做作业和考试等数据的情况来判断学生是否选对了专业,并给予指导和帮助[8]。同样,我国清华大学苏州研究院大数据处理中心正在致力于智慧教育的研究,开发出的自动测评数据平台在把握学生学习和作业的全量数据采集的基础上,实现了与学校同步教学的主客观题的自动批改与测试,并将后台数据库中大量的相关信息精准推送给学生、教师和家长。同时大数据在对教师数据进行教师评估、对学生数据进行学生评估方面也将发挥着便捷有效的作用。在科技发展的当下,大数据正变成实现教育产业革命的动力和工具。
2. 4 大数据在保障国家安全方面的应用
美国、欧盟、日本等都已经把大数据提升到了国家战略的层面,不仅仅是因为大数据推动了经济变革,而且还在于大数据已经深刻影响到了国家安全。安全问题始终是各国高度关注的问题。美国国土安全部、美国国防部利用大数据技术,在打击恐怖分子,跟踪、监控、阻止犯罪活动等方面取得了显著的作用,如2012 年5 月美国击毙本·拉登就是通过对一系列的海量侦测数据进行分析判断带来的结果。对我国而言,我国不仅是一个人口大国,同时也是一个网络大国、数据大国,网络的安全和数据的安全将直接影响到国家的安全,习近平主席也曾提出,“没有网络安全就没有国家安全,没有信息化就没有现代化”。当前,网络安全和数据安全已经上升为国家安全的重要组成部分,我国应充分利用大数据所带来的优势,通过大数据分析技术积极开展反暴反恐等侦测识别工作,同时切实加强对数据安全的保护。
2. 5 大数据在节能和环保方面的应用
在能源日益宝贵,环境污染日益严峻的今天,大数据在节约能源和改善环境方面也将发挥出巨大的作用。2012 年,美国政府与电力行业推出了 “绿纽扣”计划,该计划可以让美国家庭和企业获得他们的能源使用情况,以更好地掌握能源消耗,帮助节约资源。在我国,近些年来经济高速发展的同时也引发了一系列的能源和环境问题,当前大数据处理技术的发展在为我们解决这些难题方面提供了一些可能,如我国电力行业通过大数据分析技术,基于海量的历史用电数据、用电人口数据、区域面积等数据进行用电量的预测、规划和用电负荷的预测,在此基础上来优化用电、节约用电,同时为电网调度、电网安全提供辅助决策[9]。此外,未来大数据也将在环保方面作出积极的贡献,如通过收集水质、大气环境等方面的完整数据,并利用大数据处理技术进行深度分析,来预测水质健康和环境气象的变化,并据此制定环境保护策略。
2. 6 大数据在便利社会管理方面的应用
当前,大数据在政府进行社会管理的诸多方面正发挥着积极的作用。如美国印第安纳大学通过对金融危机以来的用户发帖和留言进行挖掘,进而来分析用户的心情,借此研究和判断2008 年金融危机带来的社会影响; 2014 年,美国国税局将纳税人近3 年的数据加以共享,这使得纳税人在抵押、贷款等事物中变得更加便捷; 新加坡通过手机信号探知城市人流和热点地区,动态安排城市服务人员; 西班牙电信通过手机用户全天活动的位置地图,辅助政府制定停车场计划; 法国Orange Business Services公司通过每天监测法国高速公路产生的数据并进行分析,可以为行驶于高速公路上的车辆提供准确及时的路况信息,大大提高了道路通行率。此外,我国政府通过收集微博、微信、QQ等社交网络产生的大量数据,并对这些社会言论进行分析,以此更好地发现社会问题,进行舆情监测,从而改进社会管理。
总之,大数据的应用存在于社会的方方面面,未来的应用领域可能会更多。不难看出,现阶段大数据应用通过整合行业内外数据,在推动社会发展中创造了巨大的价值,重点表现在大数据的分析和预测价值上。总体上,互联网行业是大数据产业的发起者和领跑者,也是大数据应用最深入的领域,金融、电信、交通、公共管理、医疗卫生等领域正在积极尝试大数据应用,从当前的发展来看,全球的大数据产业生态正在逐渐形成。
3 大数据产业的定位和价值实现途径
中国工程院院士倪光南认为,大数据从数据挖掘、商业智能发展而来,是信息技术发展的必然产物,因此大数据产业其本身属于第三产业; 同时他认为大数据产业不能一蹴而就,必须遵循科学的方法循序渐进。
大数据产业的发展需要数据科学的支撑,数据科学横跨多个学科领域,要形成对数据的洞察,在数据源及属性的选取、数据模型的选择、所采用的分析及验证方法都需要系统、科学的理论指导和方法论。图1 为大数据实施的方法论[10]236。
首先是业务需求定义阶段,要充分认识到其中蕴藏的机遇和挑战以及大数据在其中能发挥的作用和价值; 其次是大数据的应用分析,在这一过程中需对大数据的方方面面做全面的考察和度量,并与业界标杆进行比较,然后紧接着是大数据技术应用架构的设计; 再次是大数据技术切入和实施,根据不同的应用场景,选择不同的技术切入模式,如表1 所示[10]240; 最后是大数据的试用、评估以及对成功应用的推广,最终形成一个强大的大数据应用平台。现阶段,新兴的大数据产业通过大数据技术对数据的高速捕获和处理,进而对大量的、类型众多的数据进行分析,以获取信息的价值,提供更优质的服务,在未来大数据产业的价值将得到进一步凸显。
在大数据产业链中,天然具备海量数据的公司是数据拥有方,通常是政府机构、电网、石油公司等; 能提供大数据环境下数据处理能力及解决方案的公司是技术提供商,通常是咨询公司、技术供应商等; 能有效整合数据资源、提供面向行业分析的服务公司是数据服务方,通常是数据分析服务机构;能有效挖掘数据、利用数据并形成新的商业模式和商业服务的公司是数据应用方,通常是基于模式创新思维的公司。上述四者共同构成了大数据的产业生态链[11]。大数据产业的关键在于产业实践中的生产要素的数据化,并做到数据的准确、全量、实时和互联互通。
4 对我国大数据产业发展的建议
图2 为国内大数据产业链现状。首先,在大数据产业应用领域,国内的许多互联网公司已经处于比较好的国际水平,如国内的阿里巴巴、百度、腾讯、当当、京东等互联网企业,其在大数据应用领域已经开始崭露头角。其次,在大数据产业的技术领域和服务领域,我国企业要明显落后于很多国际企业,比如在提供网络基础设施与终端的企业里,我国的优秀企业以华为为主,在国际上比较有影响力的包括苹果、CISCO、三星等诸多知名公司; 在计算和存储方面,国际知名厂商包括Intel、IBM、EMC、Oracle、HP、微软等,而国内同类企业在此方面却要相差很远。此外,在大数据产业的发展上,我国还面临着大数据人才匮乏、关键技术依赖、创新动力不足等一系列问题。基于此,我国应在大数据人才的培养和储备、关键技术的开发和突破、创新体制的开放和优化等方面着重着力,以加快对大数据产业的布局,完善大数据产业发展环境,尽快抢占大数据产业的先机,更好更快推动我国经济在未来的发展。同时,我们也有理由期待,在众多国际厂商越来越重视我国数据市场的同时,我国的大数据市场也将很快产生本土化的大数据创新型解决方案和创新产品。
4. 1 大数据人才的培养和储备
大数据产业的发展离不开数据人才的参与,现阶段数据人才已然成为了各行各业的佼佼者,数据科学家将成为未来最重要的人才之一,因此数据人才的培养和储备就变得尤为重要。美国各大高校纷纷开设了数据科学专业及相应的课程,同时美国政府推出的面向高级工程专业等优秀人才的移民政策吸引了世界上一大批优秀人才。我国也应该在数据科学相关专业人才的政策引导方面进一步加强,同时加大国内相关人才的培养,如在高校的专业设置、课程设置、师资力量建设等方面进一步加强和优化;此外,我国相关机构包括企业在内等更是要创造良好的数据人才培训环境,助力大数据产业的发展。
4. 2 关键技术的开发和研究
大数据技术同样是大数据产业发展的重中之重,尤其是在核心技术的开发上,其将成为决定未来大数据产业发展地位的重要因素。当前盛行的大数据技术是以Hadoop + MapReduce为主的开源技术,其中Hadoop的分布式文件处理系统( HDFS) 是大数据存储框架,而分布式计算框架MapReduce是大数据处理的框架。开源技术在大数据产业中占据了主导地位,同时也对大数据行业作出了巨大的贡献,但基于开源技术带来的挑战是技术门槛降低和激烈的竞争,当前诸如谷歌、IBM、微软、Intel、Oracle等许多国际互联网公司纷纷推出了基于Hadoop的大数据集成产品,而我国企业在这一方面还存在不小的差距,因此在大数据行业中,还是要开发出企业自己的核心关键技术,这就需要加大技术研发投入和技术开发力度,并且要加强技术运营、技术维护及技术服务,争取在大数据技术市场中占领一席之地。
4. 3 创新体制的开放和优化
大数据产业的发展要求开源、开放的数据、标准和平台,形成开放的实践和创新体制,因此为使大数据产业更好更快发展,应创建良好的创新体制,鼓励创新、激励创新,不断优化和完善现有的创新体制,形成开放的创新文化。开放的创新文化和优秀的创新体制是保障大数据产业发展的动力和源泉,其可集众人之智、采众人之长,创新新技术、新产品、新模式、新服务,以此来促进大数据产业的创新和良性发展。
5 结束语
就目前来看,全球的大数据产业还处于发展初期,我国的大数据产业才刚刚起步。虽然大数据可以创造出巨大的价值,但大数据也有不完美的地方。首先是数据的质量。数据量大并不等同于数据价值大,反而可能会有更多的噪音数据和垃圾数据[12]。中国工程院院士汪应洛也认为,数据质量是大数据产业这座大厦的基础,如果数据质量不高、基础不牢靠,大数据产业就可能岌岌可危,甚至根本无从发展[13]。其次是对个人隐私保护的挑战。大数据时代需要更加完备的个人数据保护模式和保护机制。再次是样本的代表性。在调用大数据时,要注意样本和应用场景的适用性,切实解决实际问题。
3.贵州试验大数据产业 篇三
2014年10月,“云上贵州”系统平台正式上线。截至12月20日,贵州政府主导的“7朵云”已经有41个应用系统迁上“云上贵州”系统平台。据悉,2015年“云上贵州”系统平台将加大上云力度。一方面,将实施资源扩容,整合构建服务于大数据产业的人口、法人、空间地理信息、宏观经济、征信等5大共享基础数据库,推动关键支撑技术公共服务平台初步建成;另一方面,将扩大“7+N”云工程建设覆盖面,新增至少10朵云,新增200个以上信息化应用系统迁移至“云上贵州”系统平台。
根据决策者的设计,依托这个平台,贵州将引进培育10家以上关键支撑技术企业,集聚200家左右数据增值服务企业,以及20家以上端产品制造企业,形成大数据产业链,产业规模达到1100亿元。
12月20日,贵州省人民政府副省长王江平接受了《中国新闻周刊》的专访,介绍贵州发展大数据产业的决策过程及具体规划。
“争论的焦点主要是人才和数据开放问题”
中国新闻周刊:请介绍一下贵州发展大数据产业的相关情况与进展。
王江平:发展大数据产业,关键在实现数据互联互通。在贵州省委省政府的主导下,经过将近半年的筹备,“云上贵州大数据产业发展有限公司”已于11月初成立,公司下设7个子公司,通过实施智慧交通云、电子政务云、工业云、环保云、智慧旅游云、电子商务云、食品安全云的“7朵云工程”,带动数据互通、共享。
经过将近一年的努力,贵州大数据产业发展取得了多方面的成果:规模总量迅速扩大,2014年1-11月,全省以大数据为重点的电子信息产业实现规模总量1310亿元,同比增长67.8%,而以大数据增值服务、配套端产品制造为主体的大数据产业实现收入150亿元;市场主体不断壮大,全省以大数据为重点的电子信息企业较2013年底增加了400余家。尤其值得注意的是,上证股价最高的企业已经从茅台变为大数据健康医疗企业“朗玛”,二者都是贵州的企业;产业结构优化升级,大健康、大旅游等产业与大数据融合发展,催生了电子商务、网络新媒体、智能安防、导航服务等一批新型业态。
未来三年,我们计划推动贵州大数据产业实现三步跨越式发展:第一步,2015年把贵州打造成国家级的大数据内容中心;第二步,2016年上半年把贵州打造成国家级的大数据服务中心;第三步,2017年把贵州打造成国家级的大数据金融中心。通过“内容中心-服务中心-金融中心”的产业路径,实现数据到金融的价值转化,以数据流吸引资金流、人才流等各种要素的持续聚集。
中国新闻周刊:贵州作为一个经济后发省份,为什么选择大数据这样前沿的产业作为实现“跨越式”发展的方向?
王江平:首先贵州具备发展大数据产业的三重优势:
第一,贵州拥有发展大数据产业的能矿、气候和无地震等自然优势。气候凉爽,常年温度保持在16摄氏度左右,能矿资源充沛,水火互济等,让贵州发展大数据产业具有多重天然优势。尤其贵州不在地震带上这一优势,使贵州建立大规模数据中心成为可能。同时,贵州地靠西南,依托东盟、香港及南方巨大的发展市场,有建立数据中心、灾备中心等的巨大市场需求。
第二,贵州具有发展大数据产业的后发优势。大数据产业的发展,数据整合至关重要,但要把碎片化、孤岛性数据集合起来,在已经发展起来的地方由于利益格局很难打破,发展阻力反而更大。贵州作为一个经济欠发达省份,对信息的使用才刚起步,基础比较薄弱,所以信息孤岛相对较少,利益格局也相对容易打破,由此数据整合、共享与开放的成本很低,障碍也相对较少,效率比较高。
第三,贵州已经形成发展大数据产业的政策优势。由于要跨越式发展,贵州在这个问题上琢磨得比较多,迅速形成了共识和政策上的安排,从而形成了政策优势。
优势的叠加,使以大数据为核心的电子信息产业成为贵州经济、社会发展的引擎,这个选择是必然的。
贵州选择发展大数据产业还肩负着保护环境的使命。贵州过去是以能矿为主,经济结构偏重的省份,现在,习近平总书记对贵州提出了新要求,要求贵州守住“生态和发展两条底线”,群众也要求在发展经济的同时保护生态环境,所以贵州经济发展必须选择对自然环境破坏小,后发有优势,与其他省份发展差距不太,且符合时代潮流的产业。
中国新闻周刊:请介绍一下选择发展大数据产业的决策过程?
王江平:事实上,贵州一直在探索在资源环境约束、产能过剩背景下,如何发展产业的问题,但真正决定发展大数据产业经历了几个月的历程。
2013年9月,我们召开了信息产业发展大会,虽然当时我们对大数据还没有深刻的认知,讨论的也还是传统的信息产业发展思路和类似信息消费、服务呼叫中心和电子产品制造之类的传统信息产品。但也是那次会议,让我们开始系统地思考信息化时代的贵州发展路径。
12月,在贵州省经济工作会议上,我们开始有了发展大数据产业的想法,提出能不能在2014年两会的时候向全国发出推动大数据产业发展的呼声,让全社会知道贵州有意愿发展大数据这一新兴产业。
接下来的三四个月里,我们开始尝试策划一些相关的活动,在这个过程中,我们进一步认识到了发展大数据产业的紧迫性和必要性,坚定了发展大数据产业的决心和信心。
4.大数据调研报告 篇四
发表于2012-02-06 13:26| 2517次阅读| 来源CSDN| 0 条评论| 作者李智
数据中心浪潮数据挖掘数据分析大数据
摘要:大数据时代的数据格式特性 首先让我们先来了解一下大数据时代的数据格式特性。从IT角度来看,信息结构类型大致经历了三次浪潮。必须注意这一点,新的浪潮并没取代旧浪潮,它们仍在不断发展,三种数据结构类型一直存在,只是其中一种结构类型往往主导于其他结构: 结构化信息这种信息可以在关...根据IDC的调查报告预测到2020年全球电子设备存储的数据将暴增30倍,达到35ZB(相当于10亿块1TB的硬盘的容量)。大数据浪潮的到来也为企业带来了新一轮的挑战。对于有准备的企业来说这无疑是一座信息金矿,能够合理的将大数据转换为有价值信息成为未来企业的必备技能。恰逢此时,CSDN专门针对企业相关人员进行了大规模问卷调研,并在数千份的调查报告中总结出现今企业大数据业务的现状。在此我们也将调研结果展示与此以供大家参考。
大数据时代的数据格式特性 首先让我们先来了解一下大数据时代的数据格式特性。从IT角度来看,信息结构类型大致经历了三次浪潮。必须注意这一点,新的浪潮并没取代旧浪潮,它们仍在不断发展,三种数据结构类型一直存在,只是其中一种结构类型往往主导于其他结构:
结构化信息——这种信息可以在关系数据库中找到,多年来一直主导着IT应用。这是关键任务OLTP系统业务所依赖的信息,另外,还可对结构数据库信息进行排序和查询; 半结构化信息——这是IT的第二次浪潮,包括电子邮件,文字处理文件以及大量保存和发布在网络上的信息。半结构化信息是以内容为基础,可以用于搜索,这也是谷歌存在的理由; 非结构化信息——该信息在本质形式上可认为主要是位映射数据。数据必须处于一种可感知的形式中(诸如可在音频、视频和多媒体文件中被听或被看)。许多大数据都是非结构化的,其庞大规模和复杂性需要高级分析工具来创建或利用一种更易于人们感知和交互的结构。
企业内部大数据处理基础设施普遍落后
从调查结果可以看出,接近50%的企业服务器数量在100台以内,而拥有100至500台占据了22%的比例。500至2000台服务器则占据剩下28.4%的比例。可以看出面对大数据现今大部分企业还没有完善其硬件基础架构设施。以现阶段企业内大数据处理基础设施的情况来看50%的企业面临大数据处理的问题(中小企业在面对大数据的解决之道应遵循采集、导入/处理、查询、挖掘的流程)。
但这只是暂时状况,“廉价”服务器设施会随着企业业务的发展逐渐被淘汰出历史的舞台,在未来企业基础架构体系的硬件选用上,多核多路处理器以及SSD等设备会成为企业的首选。Facebook的Open Compute Project就在业界树立了榜样,Open Compute Project利用开源社区的理念改善服务器硬件以及机架的设计。其数据中心PUE值也是领先与业内的其他对手。
而在具有大数据处理需求的企业中52.2%的日数据生成量在100GB以下,日数据生成量100GB到50TB占据了43.5%,而令人惊讶的是,日数据生成量50TB以上也有4.4%的份额。数据量持续的增长,公司将被迫增加基础设施的部署。专利费用将一直增加,而开源技术,则省了这笔一直持续的专利费。对于急需改变自己传统IT架构的企业而言,传统的结构化数据与非结构化数据的融合,成了所有人关心的问题。
企业面对大数据处理的挑战与问题
现今大数据呈现出“4V + 1C”的特点。既Variety:一般包括结构化、半结构化和非结构化等多类数据,而且它们处理和分析方式有区别;Volume:通过各种设备产生了大量的数据,PB级别是常态;Velocity:要求快速处理,存在时效性;Vitality:分析和处理模型必须快速变化,因为需求在变;Complexity:处理和分析的难度非常大。
从图中我们可以看出资源利用率低、扩展性差以及应用部署过于复杂是现今企业数据系统架构面临的主要问题。其实大数据的基础架构首要需要考虑就是前瞻性,随着数据的不断增长,用户需要从硬体、软件层面思考需要怎样的架构去实现。而具备资源高利用率、高扩展性并对文件存储友好的文件系统必将是未来的发展趋势。
应用部署过于复杂也催生了大数据处理系统管理员这一新兴职业,其主要负责日常Hadoop集群正常运行。例如直接或间接的管理硬件,当需要添加硬件时需保证集群仍能够稳定运行。同时还要负责系统监控和配置,保证Hadoop与其他系统的有机结合。
而多格式数据、读写速度(读写速度是指数据从端点移动到处理器和存储的速度)以及海量数据是企业面临大数据处理急需解决的技术挑战。众所周知随着大容量数据(TB级、PB级甚至EB级)的出现,业务数据对IT系统带来了更大的挑战,数据的存储和安全以及在未来访问和使用这些数据已成为难点。同时大数据不只是关于数据量而已。大数据包括了越来越多不同格式的数据,这些不同格式的数据也需要不同的处理方法。充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术的最重要的应用。
企业内部数据分析与挖掘工具应用现状
云时代企业数据挖掘面临如下三点挑战。挖掘效率:进入云计算时代后,BI的思路发生了转换。以前是基于封闭的企业数据进行挖掘,而面对引入互联网应用后海量的异构数据时,目前并行挖掘算法的效率很低;多源数据:引入云计算后,企业数据的位置有可能在提供公有云服务的平台上,也可能在企业自建的私有云上,如何面对不同的数据源进行挖掘也是一个挑战;异构数据:Web数据的最大特点就是半结构化,如文档、报表、网页、声音、图像、视频等,而云计算带来了大量的基于互联网模式提供的SaaS应用,如何梳理有效数据是一个挑战。抛去价格因素之外可以看出反应速度慢、操作不方便、数据不准确、分析不准确这四项是企业数据分析与数据挖掘面临的主要问题。商业化解决方案固然成熟,但成本也是显而易见的。而具备在开源平台之上处理分析大数据能力的数据科学家则成为另外的一种选择。数据科学家具备专业领域知识并具备研究利用相应算法分析对应问题的能力,可帮助创建推动业务发展的相应的大数据产品和大数据解决方案。
5.大数据报告 篇五
学生姓名: 尹怡 学
号: 1370714 导
师: 庞哈利 专
业: 控制工程 所属课群: 学位课
课程名称: 前沿技术与职业发展 课程负责人: 徐林
课程开设日期: 2014.6.23-2014.12.31
东北大学信息科学与工程学院
2014年
科学技术创新对大数据发展的动力
1.绪 论
随着信息技术的飞速发展,人类社会进入数字信息时代。获取和掌握信息的能力己成为衡量一个国家实力强弱的标志。一切信息伴随需求不同决定其效益不同,而一切有益信息都是从大量数据中分析出来的。海量数据又随时间持续产生、不断流动、进而扩散形成大数据。大数据不仅用来描述数据的量非常巨大,还突出强调处理数据的速度。所以,大数据成为数据分析领域的前沿技术。数据成为当今每个行业和商业领域的重要因素。人们对于数据的海量挖掘和大量运用,不仅标志着产业生产率的增长和消费者的大量盈余,而且也明确地提示着大数据时代已经到来。
数据正成为与物质资产和人力资本同样重要的基础生产要素,大数据的使成为提高企业竞争力的关键要素。数据成为资产、产业垂直整合、泛互联网化是数据时代的三大发展趋势。一个国家拥有的数据规模及运用的能力将成为综合国力的重要组成部分,对数据的占有权和控制权将成为陆权、海权、空权之外的国家核心权力。大数据与人类息息相关,越来越多的问题可以通过大数据解决。不仅在数据科学与技术层次,而且在商业模式、产业格局、生态价值与教育层面,大数据都能带来新理念和新思维,包括政府宏观部门、不同的产业界与学术界,甚至个人消费者。大数据与互联网一样,是信息技术领域的革命,更加速企业创新,在全球范围引领社会变革并启动透明政府的发展。
大数据正在引发一场思维革命,大数据正在改变人们考察世界的方式方法,以前所未有的速度引起社会、经济、学术、科研、国防、军事等领域的深刻变革。大数据除了将更好的解决商业问题,科技问题,还有各种社会问题,形成以人为本的大数据战略。大数据这一新概念不仅指数据规模庞大,也包括处理和应用数据,是数据对象、技术与应用三者的统一。大数据既可以是如政府部门或企业掌握的数据库这种有限数据集合,也可以是如微博、微信、社交网络上虚拟的无限数据集合。大数据技术包括数据采集、存储、管理、分析挖掘、可视化等技术及其集成。大数据应用是应用大数据技术对各种类型的大数据集合获得有价值信息的行为。充分实现大数据的价值惟有坚持对象、技术、应用三位一体同 步发展。大数据是信息技术与各行业领域紧密融合的典型领域,有着旺盛需求和广阔前景。把握机遇需要不断跟踪研究大数据并不断提升对大数据的认知和理
解,坚持技术创新与应用创新协同共进同时加快经济社会各领域的大数据开发与利用,推动国家、行业、企业对于数据的应用需求和发展水平进入新的阶段。
在大数据时代数据作为一种独立存在的实体,其资产价值越来越突出,日益引起人们的重视。从具体的个人到形形色色的企业,从各国政府到各种组织都可以合法地去收集数据。不论个人还是企业,以及政府等都可以是数据的拥有者。今后个人隐私与数据归属权可能关系越来越少,欧洲民众要求政府公开信息的诉求极其强烈,民众有权向政府申请信息公开。除了涉及国家安全和个人隐私的公共信息外,大部分政府信息都可以公开。
大数据主要有三个方面对人类经济社会发展影响巨大,归纳起来:一是能够推动实现巨大经济效益,二是能够推动增强社会管理水平,三是能够推动提高安全保障能力。大数据在政府和公共服务领域的应用可有效推动政务工作开展,提高政府部门的服务效率、决策水平和社会管理水平,产生巨大社会价值。总而言之,大数据将为人们提供强有力的新工具,使人们能更加容易地把握事物规律,更准确地认识世界、预测未来和改造世界。
大数据可以分为大数据存储和大数据分析,大数据存储的目的是支撑大数据分析,大数据存储致力于研发数据存储平台,大数据分析关注在最短时间内处理大量不同类型的数据集,大数据分析相比于传统的数据仓库应用数据量大、查询分析复杂,大数据分析平台需要具备并行数据库、Map Reduce 及基于两者的混合架构。
2.社交网络崛起的大爆发
我们已经进入一个复杂科学领域,随着云计算、云存储、物联网、二维码技术和 LBS(基于位置的服务)的互联网技术广泛应用,人类的各种社会互动、沟通设备、社交网络和传感器正在生成海量数据。商业自动化导致海量数据存储,但用于决策的有效信息又隐藏在数据中,如何从数据中发现知识,以数据挖掘为代表的大数据分析技术应运而生。
1、社交网络的公共性
社交网络是大数据的重要来源,大数据的社会应用与社会价值就来自于社交网络,比如
国外影响巨大的 Facebook 和 Twitter,国内近年来风起云涌突然兴起的微博,特别是大家关注度非常高的新浪微博,这种网络交流平台具有媒介属性,日益成为影响不可忽视的的社会化媒体,每分每秒时时刻刻都在产生数以亿级形形色色 的话语文本。人具有与他人交流、分享、传播信息的天生需求,与他人直接交流互动和传播各种信息加大了人的社会交往,基于人际关系的信息传播创造了数量庞大的关系数据,扩大了大数据的社会价值与社会影响,带来商业上的无限想象力和各种企业的商业应用价值,大数据产生的技术背景离不开社交网络,移动互联网和物联网的发展导致大数据越来越大,具有随时收集、即时应用、及时生产 的重要特点。
例如时装产业产生的大数据基本源自无处不在的社交媒体。全世界每天都有 10 亿人以上在社交网络上交流信息发表观点。每一刻都会有上百万人通过社交媒体点赞分享、转发微博、讨论时尚、引导潮流。大数据时代,越来越多的各大品牌知名设计师直接利用社交网络与公众交流,让大众直接参与到设计当中,根本改变了此前这一行业的封闭性,不再只对时尚界的所谓精英开放。越来越多的品牌比如巴宝莉选择在时装秀之前的通过官方微博账号发布了模特们在后台的照片,许多顶级设计师愿意在网上发布自己全新的设计,如奥斯卡・德拉伦塔在Instagram上通过微博发布了最新款式的高级女装成衣系列。顶级买家被流行博客写手取代,网络红人占据了时尚杂志主编的前排座椅,在社交媒体上拥有大批微博粉丝的摄影师对大众的时尚影响力远远超过传统的精英人群。
2、社交网络的价值性
在一定程度上,大数据的社会应用价值越来越多的来自新型的社交媒体,在这些影响巨
大的微媒体社会背景下,大数据参与渗透进入各种各样的商业应用领域,产生巨大的社会影响,微博营销开始成为商家的选择,已成为目前最显著的商业模式,是大数据最直接的商业应用。社会化媒体直接成为企业首选地营销工具,企业通过社会化媒体发布有效信息,直接影响和引导消费者的潮流,主动收集来自消费者的反馈信息,积极进行互动,成为利润来源的重要渠道。社交网络互动传播彻底改变传统大众媒体单向的传播方式,可以针对具体特定不同的各种目标群体,通过信息技术点对点直接传递不同的特定信息,影响舆论,改善声誉,建立美誉度,有助于形成购买决策。很多企业关注从海量采集的关系数据中提取发现真 正有价值的商业信息,建立客户档案,实现精准营销,追踪目标客户,分析客户价值建立商业模型。
企业开始加强了解社会化媒体,其深刻认知和巨大投入将产生新的媒介形态并实现产品营销的新思路。社交大数据不仅仅对个别企业,而且对一些相关行业
都可以带来及其深刻的巨大变革。第一大数据有效改善传统的营销方式,与之相比利用有效精准的大数据营销,可以保持前期的大量曝光,中期的利益转化,到后期的实际购买,所有行为都是可提前预测并且随时监测的。效果可量化评估是采用大数据带来的前所未有的最实质性的根本影响;第二在社交这个环节,会产生越来越多的普通消费者在网络上通过各种社交媒体随时反馈自己在使用过程中对企业突出的产品以及建构的品牌形象发表看法,这个互动的过程会不断产生各种各样许多富有价值的有效信息,甚至还会包括发现一些潜在的意想不到的市场需求。对一个处在发展阶段的企业来说,这些有效信息不仅帮助他们可能采取措施调整原有传统产品,甚至引发并且催生新的不一样的商业模式。洞察消费者需求是大数据追求的核心价值;第三大数据可以变革某些具体行业,比如电影行业大数据可以根据实际数据能够预估票房,在金融行业可以进行前瞻预测提前作出调控措施,企业可以根据采集的大数据建立一些加上模型,预测消费者行为,进行数据分析。就连奥巴马为了赢得美国总统大选,他的团队就采集利用来自各种社交媒体产生的数据进行有效分析,做出民意评估,监测舆情,帮助连任,无疑发挥出来巨大的推动作用。
3、社交网络的应用性
社交媒体可以很短时间产生很大信息量,采取有效方法运用海量数据才是每个企业在市场面临的棘手问题。社会化媒体必须学会处理数据,具体步骤可以分为以下内容,首先进行收集,然后根据数据的不同类型导致具有不同用途,经过判断有些可以用于市场评估,反映市场效果,进一步了解市场,时时监测竞争对手,获得市场情报;还有一些可以通过信息技术采取自然语言处理,比如适当分类,有效聚类,快速获得消费者的需求以及人们对企业产品和所在行业的及时反馈和相关看法,利于企业做出判断,快速做出相应调整。例如电视广告价格很贵,媒体投放成本相对较高,一个企业的销售广告同时有 15 秒和 30 秒两个不同版本,但事先难以确定哪个版本更能吸引消费者,这时可以提前把视频传播至互联网,通过无处不在的社交媒体进行免费传播。应用大数据技术可以把采集消费者的信息,快速收集所有评价加以系统分析,找到有助于传播的元素,分析引起消费者反感的原因,快速提前测试有助决策,为广告主节省大量成本。通过大数据企业与用户间出现新的沟通方式,商业模式正在发生变化,在全世界社交媒体都引起市场变革,表现出企业日益关注消费者,用户重要性正在不断凸显。2012
年9月一家美国调研机构对市场营销人员进行调查,将近2/3的受访客户承认提高在广告营销领域采用数据管理平台的原因出于挖掘大数据的市场需求。
运用社交大数据,关键在于拥有数据。尽管用户数量不迅速增加,但预测用户行为,提出更精准的建议,仍然需要采集更大更多的数据量。如果数据处理能力没有提高,不能结合实际商业场景,就不会形成精细落地方案,既不可持续,也不可获利,导致社交大数据发展面临挑战。只有提高分布式计算、改善存储功能,加快实时计算的能力,才会实现价值。如果没有实际应用,大数据技术就不会产生实际意义。
大数据带来市场变革,挑战已有经验,颠覆已知模式,引领人类走向智能社会,数字化生存成为新的生活方式,社会化媒体随时记录人们的社会生活,感知行为态度、参与交往过程、建立互动关系,数据记录不仅保存而且可以分析,产生新的社会科学研究方法,拥有预知社会的可能性,在社会科学领域产生革命性变革和影响,大数据直接改变社会科学研究的模式和路径。
3.物联网发展的促进作用
随着物联网迅速发展,各种行业、不同地域以及各个领域的物体都被十分密切地关联起来。物联网通过形形色色的传感器将现实世界中产生的各种信息收集为电子数据,并把信号直接传递到计算机中心处理系统,必然造成数字信息膨胀,数据总量极速增长。2.1、物联网形成产业链
物联信息不仅仅包括物联管理对象信息与物联感知设备信息,更突出物联实时信息。根据物联网数据的来源可以分成传感器感知数据和社交网络数据两种。虽然目前网络上产生的数据多于各种传感器感知到的数据总量,但是随着物联网设备的日益普及和感知技术的进步,传感器产生的数据量将大幅增加,最终将超过网络数据量,这种趋势越来越明显。
物联网改变了人们的社会活动形式,改善了人们的生活方式,变革了商业模式,被称为第三次信息化高潮,继计算机、互联网产生之后对社会的发展产生新的冲击。物联网把对象物和互联网相互连接起来,即时信息交换,智能化识别,实现定位跟踪,监控管理对象,产生大量数据,影响电力、安防、医疗、物流、交通、环保等行业形成新的商业模式。物联网联合大数据,正在迅速创造出巨大的社会价值和商业价值。
中国信息产业商会乐观预测,中国在 2013 年传感器设备将继续保持市场规模,表现快速增长势头,中国物联网 RFID 产业市场达到 320 亿元左右,规模将比 2012 年增长 35%左右。物联网伴随着移动互联网和云计算的迅猛崛起,物联网产业链上的各环节成本减少,相关产品价格迅速下降,进一步带来物联网硬件及其基础设施的大规模普及。同时,工信部联合财政部提供专项资金用以支持物联网发展,2013 年投入的专项资金将超 5 亿元。而在政策支持与市场反馈的协同发展推动下,业内人士大胆预测未来数年物联网会全面推广大规模普及,其产业规模或许比现有互联网大 30 倍。
物联网发展离不开基础建设,需要设备制造企业提供传感设备与网络核心设备,随着存储能力非常巨大的云计算中心的不断建设和投入使用,物联网持续产生的大数据可以随时存储,在线处理,产生价值,成为现实。企业需要思考物联网收集的大数据与其产业发展的融合与转换,将数据转化为利润,开辟市场蓝海,收获真金白银,发明新的商业模式,形成新的商业思维。2.2物联网产生大数据
物联网大数据成为焦点,引起各大 IT 巨头越来越多的注意,其潜在的巨大价值也正在通过市场逐渐被挖掘出来。微软、IBM、SAP、谷歌等国际知名 IT 企业已经在全球分别部署了大量数据中心,还拿出大笔资金收购擅长数据管理和建构分析方面的优秀软件企业。这些物联网产生的大数据来自于不同种类的终端,比如智能电表、移动通信终端、汽车和各种工业机器等,影响生产生活的各个领域,各个层面,不可小觑。
物联网产业链的核心不是设备和元器件,而是数据以及数据驱动的产业,物联网的核心价值不在感知层和网络层,而是在更广泛的应用层。物联网产生的大数据经过智能化的处理、社会化的分析,将生成各种商业模式,产生各异的多种应用,形成了物联网最重要的商业价值。
处理物联网收集的大数据并不容易,物联网中的大数据不简单等同于互联网数据。物联网大数据不仅包括社交网络数据,更包括传感器感知数据,尽管社交网络数据包含大量可被处理的非结构化数据,比如新闻、微博等,但是物联网传感器收集的许多碎片化数据属于非结构化数据,在目前还不能被处理。
物联网应用于多个行业,而每个行业产生的数据有独特的结构特点,因此就形成很多相异的商业模式。物联网创造商业价值的基础是数据分析,物联网产业
将出现各种类型的数据处理公司,比如数据分析公司,软件应用集成公司和商业运营公司将逐步分化,产业链将逐步完善。
中国物联网刚刚进入应用阶段,刚刚起步,调查物联网产业最前沿的一线参与主体,可以发现主要包括 RFID 标签厂商、传感器厂商、电信运营商和一些系统集成商。目前各地已经建成的大量物联网系统已经开始进入市场,主要应用于远程测量、移动支付、环境监控等方面。另外主要分布在物品追溯系统和企业供应链管理等方面,应用较多的医疗健康、智能电网、汽车通信等服务也已开始出现,积极探索盈利,努力获得用户,占领高端市场。而在物联网应用的过程中,我们发现电信运营商起到主导作用,扮演起行业龙头,发挥带动的作用,另外中国电信表现突出,也开始宣传自己物联网应用系统用于全球远程监控。而电信运营商之所以分外努力推广应用物联网,不仅仅在于运营商可整合硬件、芯片、应用等各步骤中的许多优秀合作伙伴,在运营方面以外,还在于物联网广泛应用在电信终端,可以有效整合电信互联网产业链的推进。电信运营商的示范不仅积累实战经验,甚至可帮助电信运营商将业务在物联网中拓展为系统方案解决商,介入各种增值业务。2.3物联网催化大商业
看待电信运营商,可以应用大数据的观点,物联网商业模式将更多的移动终端容纳进来,作为数据采集设备,加以信息化应用,适应市场需求,成为物联网跨界发展的趋势。这种数据如果能得到运营商快速化、规模化、跨领域的广泛应用,那么电信运营商可能获取的商业回报会进一步参与到物联网的各个建设环节中,并且还可能使越来越多的商业信息被运营商掌握。这些信息驱动企业合作,推动参与各方共同寻找一种多方共赢的路径,建立新型商业模式。实现应用物联网数据,特别需要升级商业模式,真正创造多方共赢的有利环境。而要建立多方共赢的理念,就应该推动物联网真正成为市场的中心,变成一种商业的驱动 力,吸引产业链内的所有企业共同参与物联网发展建设。
现在大部分行业的商业信息移动化、社交化,大数据必然会成为最佳捷径,实现用户商业价值的。物联网大数据支撑商业开展,服务商业决策,提供各种行业信息,因此物联网大数据的未来是无限的,富有商业魅力。物联网大数据要获得产业健康有序发展,不能仅在概念上停留,还需要政策支持,市场完善以及产品持续的不断创新。而更为重要的方向是推动不同部门、不同机构、不同行业之间共享物联网大数据的问题。各部门公开数据、分享数据才能利用数据深层价值,产生数据的附加价值。虽然目前交通、电力、工业等不同行业还没有合为一个物联网,但是共享不同行业的各种数据信息是可行的。而目前政府部门也开始意 识到数据单一难以发挥最大效能,开始寻求数据交换伙伴,部门之间已经开始相互交换数据,必将成为一种发展趋势,而共享不同部门之间不同种类的数据信息有助于发挥物联网更大的价值。
在未来几十年,物联网大数据面临着战略性的时代发展机遇及挑战。物联网握手大数据,不仅延伸更为广泛的应用,更会产生出价值更大的产业链,所以,将物联网发展离不开大数据理念,而大数据的广泛应用进一步加快物联网的前进步伐,在互动发展全过程中,物联网能够促进并带动大数据发展。大数据的采集和感知技术的发展是紧密联系的,提升以传感器技术、RFID 技术、指纹识别技术、坐标定位技术等为基础的感知能力是物联网发展的基石。普及智能手机发展感知技术的高峰期,如广泛的应用地理位置信息、通过对手机呼气直接检测燃烧脂肪量、手机键内嵌指纹传感器、可以监测从空气污染到危险的化学药品的嗅觉传感器、可感知用户当前心情的智能手机技术及通过衣着进行识别人物的技术。还有实时监控口腔活动及饮食状况的牙齿传感器,可追踪眼球读懂情绪的 3D 笔记本摄像头,新型可监控用户心率的纺织材料,引入支付领域的生物测定技术等。世界被数据化的过程就是感知被逐渐捕获的过程,一旦世界被完全数据化了,信息就是世界的本质。
4.云计算提供的技术平台
大数据与云计算的关系密不可分,大数据必须采用分布式计算架构挖掘海量数据,必须依托云计算的分布式数据库、分布式处理、云存储和虚拟化技术。大数据包括大量非结构化和半结构化数据,下载这些数据到关系型数据库用于分析时会消耗大量时间和金钱,因为实时的大型数据集分析需要像MapReduce一样的框架来向许多台电脑分配工作。依靠宽带、物联网的大数据提供了解决办法,具有无数分散决策中心的云计算大系统能够产生接近整体最优的帕累托效应,无数分别思考的决策分中心通过互联网与物联网形成超级决策中心。互联网中多元动态、并行实时的大数据思维的出现促进重新定义知识的本质特性的认识。大数据时代企业的疆界变得模糊、网民和消费者的界限正在消弭、数据成为核心资产并将深刻影响企业的业务模式,甚至重构其文化和组织。因此大数据改善国家治理模式,影响企业决策、组织和业务流程,改变个人生活方式。如果利用大数据
贴近消费者、深刻理解需求、高效分析信息并作出预判,所有传统的产品公司都只能沦为新型用户平台级公司的附庸。
大数据是继云计算、物联网之后 IT 产业又一次颠覆性的技术变革。云计算主要为数据资产提供了保管、访问的场所和渠道,而数据才是真正有价值的资产。企业内部的经营交信息、互联网世界中的人与人交互信息、物联网世界中的商品物流信息、位置信息等数量远远超越现有企业 IT 架构和基础设施的承载能力,实时性要求也将大大超越现有的计算能力。大数据的核心议题和云计算必然的升级方向是盘活数据资产,使其为国家治理、企业决策乃至个人生活服务。
大数据和云计算这两个词经常被同时提到,很多人误以为大数据和云计算是同时诞生的、具有强绑定关系。其实这两者之间既有关联性,也有区别。云计算指的是一种以互联网方式来提供服务的计算模式,而大数据指的是基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式、科学范式、生活方式和关联形态上的颠覆性变化的总和。大数据处理会利用到云计算领域的很多技术,但大数据并非完全依赖于云计算;反过来,云计算之上也并非只有大数据这一种应用。
大数据出现具有深刻的原因。2009 年至 2012 年电子商务在全球全面发展,电子商务是第一个真正实现将纯互联网经济与传统经济融合,嫁接在一起发展的混合经济模式。正是互联网与传统经济的结合才催生出现在社会高度关注的大数据。大数据链接互联网产业与传统产业,而且大数据结合互联网应用于传统产业领域,范围超过纯互联网经济。在电子商务模式出现以前,传统企业的数据数量缓慢增长。传统企业的数据仓库大多数属于交易型数据,而交易行为处于用户消费决策的最后端,电子商务模式使得用户的搜索、浏览、比较等行为企业可以采集到,这就至少提升了企业的数据规模一个数量级。现在日益流行的移动互联网和物联网又必将使企业数据量提高两三个数量级。从这个角度来看,大数据时代必然出现,大有发展。
5.结论
6.春运大交通数据报告 篇六
因20春节相比去年提前10天,春运车票的预订大幕已经开启。为了方便用户提前安排春节出行,抢到一张炙手可热的回家车票,去哪儿网通过对60多万条飞机航线、50余万条铁路客运线进行大数据计算,正式发布《年春运大交通数据报告》,为回家旅客提供参考。
相比去年,今年春运最大的变化是,火车票预售期由春节前60天缩短至30天。从旅客往年预订情况看,在火车票开售后购不到票的旅客会转而选择乘飞机出行。然而,很多热门航线的机票已经进入预订高峰,大多升至全价甚至出现航班售罄的情况。去哪儿网建议,旅客应更合理地安排出行计划,做好备用的出行方案。
12月15日进入火车票抢票高峰 高铁占比超4成
众所周知,铁路向来是春运客运量最高的交通工具。相比去年,由于2017年春运火车票只能提前30天购买,火车票抢票形势更加严峻。
如图所示,春节提前一个月,旅客进入购票高峰。去哪儿网大数据预测,2017春节将至,月15日将进入旅客春运抢票高峰,此轮去程购票高峰将和去年一样,一直持续到春节前结束。
年春运,互联网售票量占总售票量的64.6%,占比超过一半,其中手机APP发售车票1.5亿张,售票总量比例由去年的15.7%上升至39%。去哪儿网预测,生长在互联网时代的90后将是2017年春运的主力军。
在火车用户画像中,选择乘坐火车回家的男女比例分别为52.5%、47.5%,其中90后人群占比高达43%,80后人群为27.8%,两者占比超过70%,成为绝对的中坚力量。
近年春运,铁路最热门的出发地集中在北京、上海、成都、重庆和杭州。这些城市多属于超一线和新一线城市,外来人口集中,也是多条铁路线路的起始地。
一个显著的变化是,购买快速铁路车票的用户比例不断增加,选择乘坐高铁的人数占比达到了41.5%,选择乘坐城际铁路的人群比例也达到了10.3%,整体超过了总数的一半。
去哪儿网大数据预测显示,乘坐上海出发的高铁线路人数最多,杭州、长沙、北京、广州的票量紧随其后。
与热门出发地相对应的,重庆、上海、杭州、成都、郑州是往年国内最热门的目的地。这些城市周边铁路、公路、航空线路密集,以此作为中转目的地的旅客也不在少数,抢票难度成几何倍数增加。
非高铁、城际等高速列车的出发地,北京最为热门。不过与高速列车热门出发地不同,紧随其后的重庆、昆明、西安、郑州出发的票量与北京之间相差并不多。
最难买航线已经进入抢票模式 多数航班恢复全价
从2016年春运的大数据看,预定高峰期出现在距离春节20天,这一天的预订量创出近期以来的新高,与上个月同期环比增长100%。
大数据显示,2017年春运出发最集中的日期是2017年1月24日,已经进入了乘飞机回家旅客的人数峰值期,全国重要的机场将进入到繁忙状态。返程高峰则从大年初六即2017年2月2日开始。
85后成机票预订主力军 天秤座成“空中飞人
移动互联网时代来临,网上购票已经成为消费者最便捷的预订方式。来自去哪儿网大数据显示,选择乘坐飞机回家的旅客男女比例相近,天秤座在12星座中乘坐比例为9.8%,力压群雄。
从年龄段上看,85后人群成为机票预订主力军,占比高达36.9%;41-55岁的中年人比例为24.7%,位居第二;有意思的是,31-40岁年龄段的.青年反而乘坐比例相对较低,这个年轻力壮的群体更多的是选择火车的出行方式。
家乡越北,越会提前购买回家的机票。去哪儿网机票专家分析,排名前十名的航线,以大机场往小机场飞为主,每天的航班数多在30班以内, 是北京至广州这种热门航线航班数的三分之一。
根据去哪儿网大数据统计,北京至佳木斯的航线,在众多热门航线中并不起眼,但订票时间却比其他航线早得多,堪称最难买航线。在去哪儿网平台预订过年前三天回家的机票中,北京至佳木斯这条航线,用户平均会提前36天。从深圳回海口更早,一般提前43天。
十条热门空中回家路出炉平均飞行1416公里
从热门航线看,北京-成都、深圳-重庆、上海-哈尔滨、北京-三亚、广州-重庆、深圳-成都、成都-北京、重庆-广州、北京-哈尔滨、上海-成都,这十条是往年最热门的空中回家路。
去哪儿网统计了往年春运返乡票量最高的50条航线,发现追逐梦想的人们,选择求业、求学城市距离家乡的平均飞行距离是1416.2公里,这几乎是从深圳到西安的里程。
通过去哪儿网平台订票的用户,大多选择在早上7点就坐上飞机,按照平均离家距离1416公里来计算,飞行时间近3个小时,98.8%的用户选择乘坐经济舱。
行李多礼物重 专车成热门接送工具
春运期间,95%的旅客会有行李箱、背包以及各种礼品出行,为了能够快速到达机场、火车站,专车接送机/站成为热门出行工具。
在接送机/站的用户中,25-35岁年龄段人群最高,占比高达48%,35-45岁占比也超过2成。
去哪儿大数据显示,北京、成都、深圳、上海、三亚、广州、昆明、西安、哈尔滨、厦门等10个城市成为去哪儿接送机使用率最高的城市。
其中,在预约时间上看,男性一般提前在出发前3.5天-4.1天预订接送机服务;女性用户明显准备更加充分,其预约时间在4.1天-5.6天。
7.大数据产业生态圈研究 篇七
关键词:大数据产业,产业生态,大数据生态
0 引言
进入21世纪以来, 随着技术进步, 以数据为中心的传统学科 (如:天文观测、基因测序、医疗图像) 生产数据的速度越来越快;物联网的蓬勃发展也带来传感数据与监控数据与日俱增;电子商务、社交网络、移动互联网的快速普及又带来交易数据、行为数据、图片与视频分享的飙升。针对这种现象, 2008年9月《自然》杂志刊登专题, 首次提出“大数据 (Big data) ”名词[1]。尽管大数据至今未有统一的定义, 但其具备海量 (Volume) 、多样 (Variety) 、快速 (Velocity) 、密度低但价值高 (Value) 的“4V”特征已被广泛认同[2]。
从产业上看, 大数据正在成为一个高端的以技术服务和信息服务为主的新兴产业。大数据产业的发展对中国具有三大战略意义[3];
(1) 未来国家的竞争力将体现为拥有数据的规模、活性及对数据的综合运用能力, 这需要以国内发达的大数据产业为支撑;
(2) 大数据产业加深了信息技术、数据技术与工业、农业、传统服务业的融合, 不仅是传统产业升级的助推器, 也是数据探矿、数据化学、数据材料、数据制药等诸多新兴产业孕育的催化剂。
(3) 与计算机、移动通信、物联网产业在芯片、操作系统、标准、专利等方面严重受制于国外不同, 大数据的“开源”基因, 使得大数据产业相对容易实现信息产业的中国梦。
鉴于上述重要意义, 国内一些省份已着手对大数据产业进行调研和分析。目前国家还没有出台关于大数据产业的明确界定。通常认为, 狭义的大数据产业链, 主要涵盖数据存储与管理、数据安全、数据分析、数据呈现、应用算法、数据应用等环节;而广义的大数据产业链, 贯穿数据的整个生命周期, 即从产生、采集、存储, 到管理、分析, 直至最终的呈现与应用。由于大数据产业的范围很广、链条很长, 生态图谱是一种揭示产业状态的高效方法[4]。赛迪集团最新发布了大数据产业生态战略蓝皮书[5], 但其生态二字比较笼统, 仅体现了产业的横向与纵向的结合。为了能深入理清大数据产业的各组成部分及相互关系, 在参考文献[4-5]的基础上, 文章借用生态学中系统、群落、种群的观点对大数据产业展开进一步分析, 提出大数据产业生态圈的概念, 并总结概括各个群落特征, 对若干重要种群的发展情况进行概括分析。
1 大数据产业生态图
生态学中, 种群是一定环境中同种生物的所有个体, 群落是一定环境中所有种群的总和, 生态系统是群落与无机环境构成的统一整体。产业可类比之划分, 比如, 非关系型数据库 (NoSQL) 是数据存储与管理群落中的种群之一, 分布式文件存储数据库 (MongoDB) 是NoSQL种群中的个体之一。
借助生态学的观点, 大数据产业可由基础层、分析层、应用层、云计算基础设施、开源项目、支撑保障体系构成, 6大系统生态圈构成如图1。
每个系统由若干群落组成。例如:基础层存在数据采集、数据预处理、数据存储与管理、大数据处理平台、数据安全等群落;分析层存在基础算法、商业算法等群落;应用层存在数据市场、共性工具、中间件、专业服务、共性平台、行业应用等群落。
1.1 基础层
大数据基础层的工作主要有:
(1) 数据采集。包括Web数据采集、企业经营数据采集、科研数据采集、工业传感数据采集、日志采集等。
(2) 数据预处理。对采集的数据进行清理 (遗漏填补、噪声去除、一致性检查) 、集成和变换 (平滑、聚焦、数据泛化、规范化、属性构造) 、规约 (数据方聚集、维规约、数据压缩、数值规约、概念分层) 等处理, 从而为数据的存储、分析和挖掘做好准备。
(3) 数据存储与管理。包括面向非结构化数据的NoSQL、兼容SQL使用习惯与非结构化扩展能力的NewSQL、实时数据库、数据仓库 (列式存储、大规模并行处理) 、分布式文件系统、管理/监控等。
(4) 大数据处理平台。包含大数据基础架构研究 (目前最主流的是Hadoop) 、并行计算模型与框架 (MapReduce编程模型、面向机器学习的流处理并行框架、图运算) 等。
(5) 数据安全。这渗透在处理平台、采集、预处理、存储与管理每一个环节中。
1.2 分析层
目前, 大数据分析层的工作有明确的商业算法开发, 以及适用范围更为广泛的基础算法开发。基础算法主要包括机器学习、模式识别、数据挖掘、统计分析、社会网络、语义处理与分析、流处理等数据分析算法, 和数据呈现的可视化算法。商业算法常见有社会化媒体支撑技术、位置服务应用支撑技术、个人行为分析、商业智能、Web挖掘和检索、视频搜索、内容分析等。
1.3 应用层
大数据应用层的工作, 在产业次下游包括从事数据的分享或销售, 数据市场的开发、运营与管理, 大数据商业应用共性工具, 中间件, 大数据专业咨询, 系统集成, 基于大数据分析的广告、垂直应用等共性平台。在产业最下游, 则是各行各业的细分应用, 用户有政府、行业主管部门和遍及金融、零售、能源、电信、制造、医疗等众多利用大数据技术进行生产经营的企业。
1.4 云计算基础设施
云计算为大数据的存储和处理提供了良好的平台, 并具有弹性扩展能力, 是有效应对大数据挑战的关键技术和平台。同时, 云计算与大数据的结合, 能够有效降低企业部署和应用大数据分析平台的门槛。
此外需要指出的是, 物联网与移动互联网的发展贡献了大量的数据。在云计算出现之前, 传统的计算机无法处理如此量大、并且不规则的非结构化数据。以云计算为基础的技术手段, 可以有效、低成本地对上述数据进行存储、计算、挖掘和分享。
1.5 开源项目
采取源码公开的方式进行大数据技术研究与交流的项目, 已覆盖到大数据架构、查询/数据流、数据处理、协调/工作流、实时技术、统计工具、机器学习、云计算等多个领域。来自全球的高校、科研机构、企业和个人, 都可成为开源项目的积极推动者。
“开源”是大数据的基因。原有的闭源、专有、整体的硬件存储解决方案不足以帮助企业应对非结构化数据增长的冲击, 而开源软件能降低大数据带来的种种风险。目前, Hadoop、R和NoSQL等开源技术是许多企业大数据策略的支柱。咨询公司Forrester Research认为Hadoop是下一代企业数据仓库在云的核心, R是未来一波大数据开发工具主要的代码库。
1.6 支撑保障体系
大数据的支撑保障体系主要包括标准制订、信息安全体系、隐私保护体系、诚信机制等。政府是建设大数据支撑保障体系的主角。
2 生态圈中的重要种群
在大数据产业生态圈中, 有几个至关重要的“种群”。他们对大数据自身的发展、对大数据促进经济和社会的发展进步有非常关键的作用。
2.1 Hadoop
凭借开源和易用的特性, Hadoop已成为大数据时代数据处理的首选, 也是拥有海量数据处理需求的公司的标准配置。IBM, HP, Intel, EMC, Oracle均基于Hadoop推出大数据商业解决方案, 阿里巴巴、百度也采用Hadoop架构自己的系统。产业中, 许多成功的商业创新也都围绕Hadoop展开, 如Cloudera推出的软件发布包可以帮助企业更方便地搭建以Hadoop为中心的数据管理平台。
2.2 NoSQL和NewSQL
用于处理非关系型数据的NoSQL在大数据时代备受重视, 具备易扩展、高可用、大数据量支持、数据模型灵活等特点。根据存储模型和特征, NoSQL大致可分为列存储、文档存储、key-value存储、图存储、对象存储、XML数据库等类型。HBase, MongoDB已在产业中广为认知, Membase, Hypertable, Cassandra, CouchDB等NoSQL也有较多的应用。
NewSQL的目的是兼容SQL和NoSQL的优点, 同时具备非结构化与半结构化数据的存储能力与SQL的使用习惯。典型的NewSQL有VoltDB, Marklogic, Xeround, NuoDB等。
2.3 数据市场
开放数据资源在深化大数据应用, 加快大数据产业发展方面有巨大的促进作用和深远的影响。数据资源的开放是以数据市场的形式提供服务的。目前美国和英国政府先后推出了官方的数据集网站Data.gov和Data.gov.uk;欧盟也已明确提出了开放数据战略, 由“欧盟竞争与创新计划 (CIP) ”和“连接欧洲设施 (CEF) ”资助, 先提高成员国之间数据的互操作性, 最终整合到统一的数据门户网站中[6,7]。
3 结束语
大数据是信息产业界2013上半年的最热词语之一。跟踪发现, 国内多个省市地区已提出要发展大数据产业, 但他们对大数据产业的理解有较明显的差异。因此, 文章采用生态学方法, 借用系统、群落、种群等工具对大数据产业的组成进行研究分析, 力图从长度与广度方面诠释产业各部分的划分与相互关系。希望文章的分析与总结能帮助地方政府认清产业全局, 更有效率地制订产业政策, 优化财税补贴与投资资金的扶持效率;帮助政府和园区分析产业布局, 更合理地招商引资, 形成合理的产业链。
参考文献
[1]Nature.big data[EB/OL].http://www.nature.com/news/specials/bigdata/index.html.
[2]维克托·迈尔-舍恩伯格, 肯尼思·库克耶.大数据时代[M].盛杨燕, 周涛, 译.杭州:浙江人民出版社, 2013.
[3]李国杰, 程学旗.大数据研究:未来科技及经济社会发展的重大战略领域[J].中国科学院院刊, 2012, 27 (6) :647-657.
[4]韩晶, 宋美娜.大数据[J].中兴通讯技术, 2013, 19 (2) :58-62.
[5]赛迪顾问股份有限公司.蓝皮书:大数据产业生态战略研究 (2012年) [EB/OL].http://www.cciddata.com/ei/bps/dsj/H681152index_1.htm, 2012.
[6]王忠.美国推动大数据技术发展的战略价值及启示[J].中国发展观察, 2012, 90 (6) :44-45.
8.大数据推动基因测序产业化 篇八
DNA是生物的遗传物质,基因是具有遗传效应的基本DNA单位,基因组则是所有基因的总集,包含全部DNA。DNA是长链聚合物,由以A、C、G、T为符号的四种脱氧核苷酸组成。如果将基因组视为一部书,那么书的所有章节都是用A、C、G、T四个字母写成。基因组测序就是测定DNA分子中A、C、G、T的排列顺序,相当于将遗传信息以四字母组成的文本形式读出。人类基因组测序已于2005年完成,科学界也已在人类基因组中发现大量与健康相关的基因。
基因体检时首先需提供唾液,采用生物学方法可提取脱落在唾液中的细胞中的DNA,采用基因测序仪测得基因组中A、C、G、T的排列顺序,并生成数据文件。再将该数据文件与已知数据比对,最后在体检报告中指出受体检者基因组中与健康或疾病相关的基因,并提供健康和医疗建议。第二代测序技术将每基因组测序成本从2001年的9526万美元下降到1000美元。
2007年成立的美国23andMe公司是最早的基因测序互联网公司,由谷歌投资,创始人沃西基是谷歌布林的妻子。体检者在试管里吐一口唾沫,盖上盖子,寄往23andMe。两周后会收到邮件提示,你的基因检测结果已经准备好。用户登录,便可看到自己基因组上超过100万个位点的基因信息和所做的分析,包括对259种疾病患病率的风险预测、祖先血统分析和药物的反应预测等。23andMe目前已有40万用户,测序价格也已从创业时的999美元降为99美元。23andMe被称为“个人健康医疗领域的谷歌”。
在解决了测序成本问题以后,基因测序服务普及的最大瓶颈在于数据处理。完全测序的人类个体基因组数据量为100GB~1000GB,压缩后数据量约为3GB。科学界已知有3000个基因与特定疾病相关,大约每5天发现一个新致病基因,对已有致病基因的认识也在不断深化。数据量巨大、数据复杂、数据更新频繁,使得数据存储、解读及共享已经成为基因测序产业面临的最大挑战。而大数据和云计算则成为突破数据处理瓶颈的利器。
2011年,谷歌投资美国DNANexus公司,谷歌将和 DNANexus 一道,利用谷歌的云计算和大数据平台,打造巨大的开放式的DNA 数据库,而美国国家生物技术信息中心的DNA数据也将并入其中。
有“基因测序界苹果”之称的美国基因测序厂商 IIIumina于2012年推出基因测序云计算平台——BaseSpace。每用户可免费存储1TB测序数据、数百次运行结果的数据,用户可根据需要运行云端的基因数据分析应用程序,包括开源和第三方应用程序。
在国内,2012年华大基因推出了第一个自主开发的云服务产品——EasyGenomicsTM。该平台集基因组学领域内常用的和华大基因特有的数据及参数为一体,结合云存储和高性能计算技术,能够以更低的成本、更高的效率完成大量的基因数据处理及分析。华大基因目前已经拥有212TFlops的峰值计算能力,总内存容量已达到37.2TB,总存储能力已达到17PB。
老话说“上医治未病”,意思是最高明的医生擅长防病。当癌症等重大疾病突然降临,人们往往哀鸣:“为什么是我?”基因测序服务能够为个性化健康管理提供科学依据。新一代测序技术与大数据、云计算共同发力,将使大众“治未病”成为可能,一个庞大的基因测序市场即将形成。
9.2017餐饮消费大数据报告 篇九
6月27日,本地生活服务平台“口碑”联合第一财经商业数据中心联合发布《2017中国餐饮消费报告》。报告显示,80后和90年轻人群在餐饮用户中占比接近7成,而90后正在逐渐超越80后,成为餐饮业消费主体。
2016年中国餐饮市场规模突破3.5万亿元,呈现出两大特征:
1.餐饮行业竞争加剧,大品牌发展势头不如中小品牌。
2.主打线上消费的外卖餐饮品牌、O2O平台、餐饮管理服务商及美食新媒体等不断涌现,运营玩法日趋多样。在这样的市场中,餐饮消费有什么新趋势?餐饮经营有什么新玩法? 饮食健康受重视:北京人最喜欢吃素菜
年轻化的消费群体是传统餐饮改革的动力。口碑的消费数据显示,90后消费者初入社会,经济实力相对较弱,所以他们在线下的餐饮消费会先从快餐、烘焙、烧烤等轻食开始,逐渐“消费升级”到正餐。年轻人的消费习惯与观念也在引领着餐饮行业的潮流。口碑的消费数据显示,外卖平台上沙拉订单量的占比从2016年的1%跃升到了现在的5%。沙拉品类已经逐渐从“尝鲜品”变成人们日常的正餐选择之一。
按照素食订单的占比,北京是最爱吃素菜的城市,其次是厦门、成都、南京、广州。而综合素食、粥,汤,生鲜水果等品类的占比情况,北京的城市餐饮健康化指数最高,位列全国第一,其次是厦门、杭州、成都、南京。川菜粤菜成全民菜品
根据《报告》测算,2016全年,中国餐饮市场规模突破3.5万亿元。从全国范围看,按照餐饮消费额,广东是全国餐饮市场规模最大省份。前十大餐饮大省分别是:广东省、山东省、江苏省、河南省、浙江省、四川省、湖南省、湖北省、福建省、安徽省。
而按照城市对比,餐饮消费力指数排名前15名的城市分别是:上海、北京、苏州、深圳、厦门、广州、杭州、南京、天津、长沙、青岛、成都、武汉、郑州、重庆。
口碑的消费数据显示,从菜系看,在外地也受到欢迎的为川菜和粤菜。从订单占比看,川菜在各个城市都占据了相当大的比重。成为当之无愧的“全民地方菜”。
加剧,中小餐饮发展势头强劲(是中小品牌比重发展更大)
【大数据产业调研报告】推荐阅读:
大数据行业调研报告01-11
2017-2022年中国医疗大数据市场深度调研报告08-15
上海融资租赁合同纠纷案件大数据报告07-12
读《大数据时代》有感:大数据与小生活08-01
大数据挖掘与数据分析07-13
大数据征文10-11
信访大数据平台11-08
大数据教育课堂01-25
大数据职业规划06-15