家具行业数据分析报告(精选8篇)
1.家具行业数据分析报告 篇一
1、财务分析
(1)分析企业的财务状况,了解企业资产的流动性、现金流量、负债水平及企业偿还长短期债务的能力,从而评价企业的财务状况和风险。
(2)分析企业的资产管理水平,了解企业对资产的管理状况,资金周转情况。
(3)分析企业的获利能力。
(4)分析企业的发展趋势,预测企业的经营前景。
同时,系统还应该按照部门、人员、商品、供应商、时间等各个维度综合分析各项财务指标,如:成本、毛利、利润、库存、结算、盈亏平衡点、销售数量、销售金额、市场占有率等等。
2、销售分析
主要分析各项销售指标,例如毛利、毛利率、坪效、交叉比、销进比、盈利能力、周转率、同比、环比等等;而分析维又可从管理架构、类别品牌、日期、时段等角度观察,这些分析维又采用多级钻取,从而获得相当透彻的分析思路;同时根据海量数据产生预测信息、报警信息等分析数据;还可根据各种销售指标产生新的透视表,例如最常见的ABC分类表、商品敏感分类表、商品盈利分类表等。
3、商品分析
商品分析的主要数据来自销售数据和商品基础数据,从而产生以分析结构为主线的分析思路。主要分析数据有商品的类别结构、品牌结构、价格结构、毛利结构、结算方式结构、产地结构等,从而产生商品广度、商品深度、商品淘汰率、商品引进率、商品置换率、重点商品、畅销商品、滞销商品、季节商品等多种指标。通过对这些指标的分析来指导企业商品结构的调整,加强所营商品的竞争能力和合理配置。
4、顾客分析
顾客分析主要是指对顾客群体的购买行为的分析。例如,如果将顾客简单地分成富人和穷人,那么什么人是富人,什么人是穷人呢?实行会员卡制的企业可以通过会员登记的月收入来区分,没有推行会员卡的,可通过小票每单金额来假设。比如大于100元的我们认为是富人,小于100元的我们认为是穷人。好了,现在老总需要知道很多事情了,比如,富人和穷人各喜欢什么样的商品;富人和穷人的购物时间各是什么时候;自己的商圈里是富人多还是穷人多;富人给商场作出的贡献大还是穷人作出的贡献大;富人和穷人各喜欢用什么方式来支付等等。此外还有商圈的客单量、购物高峰时间和假日经济对企业影响等分析。
5、供应商分析
通过对供应商在特定时间段内的各项指标,包括订货量、订货额、进货量、进货额、到货时间、库存量、库存额、退换量、退换额、销售量、销售额、所供商品毛利率、周转率、交叉比率等进行分析,为供应商的引进、储备、淘汰(或淘汰其部分品种)及供应商库存商品的处理提供依据。主要分析的主题有供应商的组成结构、送货情况、结款情况,以及所供商品情况,如销售贡献、利润贡献等。通过分析,我们可能会发现有些供应商所提供的商品销售一直不错,它在某个时间段里的结款也非常稳定,而这个供应商的结算方式是代销。好了,分析显示出,这个供应商所供商品销售风险较小,如果资金不紧张,为什么不考虑将他们改为购销呢?这样可以降低成本呵。
6、人员分析
通过对公司的人员指标进行分析,特别是对销售人员指标(销售指标为主,毛利指标为辅)和采购员指标(销售额、毛利、供应商更换、购销商品数、代销商品数、资金占用、资金周转等)的分析,以达到考核员工业绩,提高员工积极性,为人力资源的合理利用提供科学依据的目的。主要分析主题有,员工的人员构成、销售人员的人均销售额、对于开单销售的个人销售业绩、各管理架构的人均销售额、毛利贡献、采购人员分管商品的进货多少、购销代销的比例、引进的商品销量如何等等。
[电商行业常见数据分析]
2.家具行业数据分析报告 篇二
随着我国城市化进程的逐步加快, 国民生活水平普遍提高, 住房需求量激增, 导致房地产的投资与销售迅猛增长, 同时, 加上政府对业绩的追求、企业为了实现利润、金融机构对个人信贷消费的助力等诸多因素的共同作用, 我国房地产企业平均规模增长速度非常快, 并形成了在短期内难以逆转的态势。由于房地产企业项目开发周期长, 资金需求量大、资金周转速度慢等自身特点, 就其披露的财务报表来看, 大部分房地产企业所拥有的权益资本普遍偏少, 由此产生的基于高银行信贷比、高企业资产负债率等问题更加突显出整个房地产行业融资结构中存在的问题。因此, 研究分析房地产企业实际融资结构中存在的问题, 探索建立多元化的融资渠道, 从而使整个房地产行业健康、可持续发展成为当前行业内急需解决的问题。
2 房地产行业融资结构分析
不同的融资渠道对房地产企业的要求条件和政策约束不同。其中, 传统融资渠道包括国内贷款、利用外资、自筹资金、定金及预收款以及个人住房按揭贷款等;其他融资渠道包括股权融资、房地产信托以及债券融资。
2.1 房地产行业融资结构现状
结合表1可以看出, 2008年至2013年我国房地产行业迅猛发展, 其资金规模由39 619亿元增长至122 122亿元, 增长幅度达208%。我国房地产行业第一资金来源是自筹资金, 占行业资金总额的38%左右。自筹资金成为房地产行业第一资金来源主要是因为个人的住房公积金贷款, 从2008年12月至今, 国家连续上调个人住房公积金贷款利率, 使自筹资金有显著增加, 占比也有所提升;位于第三位的资金来源则是国内贷款 (主要为银行贷款) 。由于近几年房地产行业融资结构不合理、融资过于依赖银行等问题日益突出, 国家陆续出台政策加以调控, 其中2010年10月至2011年7月央行曾连续5次上调贷款利率以试图控制房地产行业对银行贷款的过分依赖。但如此频繁的政策调控所取得的总体效果并不理想, 国内贷款占比由2009年最高的19.66%降至2011年最低的15.24%, 且2012年、2013年有反弹上升的趋势。
数据来源: (1) 2008-2012年数据来自中国统计年鉴; (2) 2013年数据来自中华人民共和国国家统计局网站http://www.stats.gov.cn/
2.2 房地产行业融资存在的问题
(1) 房地产行业融资过于依赖银行贷款, 融资渠道单一。而过于依赖银行贷款这样不合理的融资结构极易产生严重的后果。一方面, 如果央行政策改变, 银行信贷紧缩, 房地产企业就陷入融资困难, 导致资金链断裂;另一方面, 如果房地产行业发生不景气, 房地产企业的市场风险将转变为银行的信贷风险, 进而影响国家的金融安全。
(2) 融资结构不合理导致的高资产负债率。由表2可以看出, 由于改善房地产企业资本结构的融资方式如上市融资、信托融资、债券融资以及基金融资等所取得的资金占比微乎其微, 所以大多数房地产企业更依赖于外部借款, 导致大部分房地产企业资产负债率始终高于其他行业。
数据来源:中华人民共和国国家统计局网站http://www.stats.gov.cn/
(3) 房地产企业上市难度大。我国房地产开发企业进入股票市场上市融资的难度一直很大, 这就阻碍了房地产行业融资渠道多元化的发展。截至2012年底, 我国房地产开发企业共有89 859家, 其中在A股市场上市的房地产企业只有118家, 仅占整个房地产企业总数的0.13%。
(4) 政府调控介入过多导致房地产行业市场机制失衡。目前我国房地产企业的融资不是依照市场本身, 而是政府介入过多、过于频繁导致的房地产行业过度投资、房价快速上涨等问题的日益突出。
2.3 针对房地产行业融资问题的建议
(1) 改善国内金融市场的运作模式, 并改善市场的环境、提高市场的运作效率, 从尊重企业融资的内在法则入手去除政府对金融资源的垄断, 形成有效的市场竞争机制。
(2) 着重发展房地产行业融资二级市场, 减少对银行的过多依赖。目前我国的二级融资市场仅处于起步阶段, 并未形成主流模式, 对整个房地产行业的帮助并不明显。所以应进一步发展并完善房地产行业融资二级市场, 以减少对银行的过多依赖。
(3) 等待时机争取上市融资。通过直接上市或借壳上市, 房地产企业可以在短期内获得大量的、长期的、低成本的资金, 而且通过上市融资还可以改善企业的资本结构, 降低资产负债率。
(4) 健全房地产金融法律体系。确保房地产行业的健康、可持续的发展, 要依靠完善的相关金融法律体系。制定颁布专门的房地产金融方面的法律法规尤为必要。
3 结论
本文以2008年至2013年我国房地产行业相关融资数据为基础, 分析了房地产行业融资结构, 推断出目前我国房地产行业融资过于依赖银行贷款, 融资渠道单一;融资结构不合理导致的高资产负债率;政府调控介入过多导致房地产行业市场机制失衡等一系列问题。针对性地提出了改善国内金融市场的运作模式;着重发展房地产行业融资二级市场, 减少对银行的过多依赖;等待时机争取上市融资;健全房地产金融法律体系等建议, 对目前房地产行业融资存在的问题进行优化。
摘要:房地产行业作为典型的资金密集型行业, 融资问题是影响房地产行业发展的关键所在, 合理的融资结构是房地产行业健康、可持续发展的重要因素。针对当前房地产行业的主要融资渠道, 本文通过收集分析2008年至2013年房地产行业的相关融资数据, 直观地展示了我国房地产行业的融资现状及存在的问题, 并对此提出了针对性的优化建议, 以便使企业建立多元化的融资渠道。
关键词:房地产行业,融资,渠道,结构
参考文献
[1]乔旭.房地产融资模式与分析[J].商情, 2013 (3) .
[2]刘勇.房企融资成本创新高, 资金压力骤升[N].华夏时报, 2011-09-23.
[3]肖静.国内主要房地产公司融资结构分析[J].凯银投资, 2011 (7) .
[4]徐航涛.我国房地产企业融资渠道困境与创新[J].时代金融, 2011 (6) .
[5]唐小飞, 等.我国房地产上市公司融资约束比较研究[J].宏观经济研究, 2011 (5) .
[6]金文辉.我国房地产公司运行特点与融资行为研究[J].现代管理科学, 2010 (1) .
[7]杨辉.房地产企业融资结构创新分析[J].华东经济管理, 2008 (3) .
[8]易宪容.房地产与金融市场[M].北京:社会科学文献出版社, 2007.
3.家具行业数据分析报告 篇三
根据今年的数据,明示了公众对于直销行业文化整体印象是一个持平的概念。占据55.6%近半数的被调查者认为直销行业文化不好不坏,客观看待其有好的一面也存在弊端。这基本是今年整个直销行业在公众形象建设方面的整体态势,以下是重点数据摘选。
【0.09%】
责任企业最受喜爱
通过对比行业文化关键词的曝光率对比得知,“责任”、“创新”、“爱心”、“回报”、“诚信”、“分享”、“自律”等词出现的频率较高,其中,“责任”出现的频率达到0.09%,也就是差不多每1000条直销相关信息中,有1条是和“责任”有关。虽然由于直销行业相关信息较多,总占比不高,但是“责任”一词几乎是其余包括“创新”、“爱心”、“回报”在内的所有正面关键词的总和。
【55.6%】
直销文化毁誉参半
根据今年的数据,公众对于直销行业文化整体印象是一个持平的概念。占据55.6%近半数的被调查者认为直销行业文化不好不坏,客观看待有好的一面也有其弊病。这基本是今年整个直销行业在公众形象建设方面的整体态势。相较于以往的负面消息占主场的情势已有了很大改善。
【1/2000】
公益成直销正面热词第一
而在直销行业相关的网络舆情信息中,正面热词出现比例略高于负面热词,整体舆情态势以正面为主。其中,正面热词以“公益”、“专业”、“爱心”、“慈善”“回报”等词出现频率最高,在网络舆情中,0.056%的受访者认为直销行业“公益”标签最为鲜明,看似不多,但是在当今的信息爆炸年代实属不易。简单地说,这意味着在跟直销相关的2000条信息中,有1条即和“公益”相关。这样的曝光度,当然离不开直销企业多年来在公益领域的默默耕耘。
【50.7% 】
直销文化对社会主流文化的影响未获普遍认同
根据调查问卷显示,近半数(50.7%)受访者认为直销文化对社会主流文化没有影响,两成(22.9%)受访者认为“有积极影响”,相反有17.5%的受访者认为“有消极影响”。
4.家具行业数据分析报告 篇四
篇一:2017年中国大数据行业分析及发展趋势预测(目录)
2017-2022年中国大数据行业市场分析预测及投资前景评估报告(目录)
华经情报网
公司介绍
北京艾凯德特咨询有限公司是一家专业的调研报告、行业咨询有限责任公司,公司致力于打造中国最大、最专业的调研报告、行业咨询企业。拥有庞大的服务网点,公司高覆盖、高效率的服务获得多家公司和机构的认可。公司将以最专业的精神为您提供安全、经济、专业的服务。
公司致力于为各行业提供最全最新的深度研究报告,提供客观、理性、简便的决策参考,提供降低投资风险,提高投资收益的有效工具,也是一个帮助咨询行业人员交流成果、交流报告、交流观点、交流经验的平台。依托于各行业协会、政府机构独特的资源优势,致力于发展中国机械电子、电力家电、能源矿产、钢铁冶金、服装纺织、食品烟酒、医药保健、石油化工、建筑房产、建材家具、轻工纸业、出版传媒、交通物流、IT通讯、零售服务等行业信息咨询、市场研究的专业服务机构。服务对象涵盖机械、汽车、纺织、化工、轻工、冶金、建筑、建材、电力、医药等几十个行业。
我们的服务领域
2017-2022年中国大数据行业市场分析预测及投资前景评估报
告(目录)
【出版日期】2017年
【关 键 字】大数据
【交付方式】Email电子版/特快专递
【价
格】纸介版:8000元电子版:8000元纸介+电子:8500元 【网 址】/story/302700 大数据是继云计算、物联网之后IT产业又一次颠覆性的技术变革。云计算主要为数据资产提供了保管、访问的场所和渠道,而数据才是真正有价值的资产。企业内部的经营交易信息、物联网世界中的商品物流信息,互联网世界中的人与人交互信息、位置信息等,其数量将远远超越现有企业IT架构和基础设施的承载能力,实时性要求也将大大超越现有的计算能力。如何盘活这些数据资产,使其为国家治理、企业决策乃至个人生活服务,是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。大数据时代网民和消费者的界限正在消弭,企业的疆界变得模糊,数据成为核心的资产,并将深刻影响企业的业务模式,甚至重构其文化和组织。因此,大数据对国家治理模式、对企业的决策、组织和业务流程、对个人生活方式都将产生巨大的影响。如今的数据已经成为一种重要的战略资产,它就像新时代的石油一样,极富开采价值。如果能够看清大数据的价值并且迅速行动起来,那么在未来的商业竞争中会占得先机。
众所周知,依托价格相对较低的硬件和开源软件构成的组合,大数据大幅降低了普通企业获得“智慧”的门槛。而在过去,商业智能才是企业获得“智慧”的主要技术手段,一个典型的商业智能需要基于传统数据仓库实现,需要专用硬件和专业ETL工具,项目投资不菲而且建设周期长,这就让大量中小企业对商业智能望而却步。正是基于此,当同样能给企业带来“智慧”的大数据一出现,就受到企业的普遍欢迎。全球大数据技术及服务市场复合年增长率将达31.7%,2016年收入将达到238亿美元,将增速约为信息通信技术市场整体增速的7倍之多。2013年中国大数据市场规模达7.8亿元,从2014年到2017年期间,每年将保持60%的增长。
大数据时代将引发新一轮信息化投资和建设热潮。到2020年全球将总共拥有35ZB的数据量,预测未来大数据产品在三大行业的应用就将产生7千亿美元的潜在市场,未来中国大数据产品的潜在市场规模有望达到1.57万亿元,给IT行业开拓了一个新的黄金时代。数据处理技术和设备提供商、IT系统咨询和ERP/CRM/BI改造服务商、智能化和人机交互应用以及信息安全提供商将获巨大需求,相应公司将获得机会。
本研究报告数据主要采用国家统计数据,海关总署,问卷调查数据,商务部采集数据等数据库。其中宏观经济数据主要来自国家统计局,部分行业统计数据主要来自国家统计局及市场调研数据,企业数
据主要来自于国统计局规模企业统计数据库及证券交易所等,价格数据主要来自于各类市场监测数据库。
报告目录:
第一部分 大数据行业发展概述
第一章 2015年中国大数据行业宏观环境分析第一节 大数据行业定义分析
一、行业定义
二、行业产品分类
第二节 2015年大数据行业宏观环境分析
一、政策环境
二、经济环境
三、技术环境
四、社会环境
篇二:2017年大数据行业概况及发展趋势展望分析报告
2017年1月出版
第1页
一、行业主管部门、监管体制及相关政策........................................3
1、行业主管部门.......................................................................................................3
2、行业主要法律法规和相关政策..........................................................................3
二、行业概况...................................................................................4
1、大数据行业发展概况..........................................................................................4
2、大数据行业发展趋势..........................................................................................6
3、上下游发展对行业的影响..................................................................................6(1)云计算行业是大数据行业最重要的上游行业...................................7(2)泛娱乐产业既是大数据行业内容来源的上游,也是大数据行业应
用的下游............................................................................................................7(3)下游应用广泛的精准广告行业............................................................8
4、行业的市场情况.................................................................................................10
5、会展业概况.........................................................................................................11
三、行业壁垒.................................................................................12
1、技术壁垒.............................................................................................................12
2、行业先入壁垒.....................................................................................................12
3、人才壁垒.............................................................................................................13
四、相关公司简介..........................................................................13
1、深圳市慧动创想科技有限公司........................................................................13
2、北京影谱科技股份有限公司............................................................................13
3、北京腾云天下科技有限公司............................................................................14
4、北京品友互动信息技术股份有限公司...........................................................14
5、北京艾漫数据科技股份有限公司...................................................................15 第2页
一、行业主管部门、监管体制及相关政策
1、行业主管部门
行业没有特定的主管部门及管理体制,仅接受工商局和税务局管理,并且不存在自律组织。
2、行业主要法律法规和相关政策
我国高度重视大数据未来发展,以下是2012年以来国内关于大数据行业相关政策汇总:
2012年7月,国务院发布《“十二五”国家战略性新兴产业发展规划》,明确提出支持海量数据存储、处理技术的研发和产业化。
2013年7月,重庆市发布《重庆市大数据行动计划》,提出2017年将大数据产业培育成全市经济发展的重要增长极。
2013年7月,上海市印发《上海推进大数据研究与发展三年行动计划(2013-2015年)》,指出数据硬件及大数据软件产品具备产业核心竞争力。
2014年2月,国务院公布《关于促进信息消费扩大内需的若干意见》,推动商业企业加快信息基础设施演进升级,构建大数据产业链,促进创新链与产业链有效衔接。
2015年3月,国务院部发布《制定“互联网+”行动计划》,推动移动互联网、云计算、大数据、物联网与现代制造业结合,促进电子商务、工业互联网和互联网金融健康发展,引导互联网企业拓展国际市场。
第3页
篇三:2017年最新互联网+大数据行业分析报告
(说明:此文为WORD文档,下载后可直接使用)目 录
一、大数据概述.............................................................1
1、大数据简介............................................................1
2、大数据特征............................................................1
3、大数据的技术..........................................................2
4、大数据的应用..........................................................2
5、大数据处理方法........................................................2
二、大数据发展现状与趋势分析................................................4
1、国外现状..............................................................4
2、国内现状..............................................................5
3、发展趋势分析..........................................................6
三、重点应用领域及行业企业分析..............................................8
1、重点应用领域..........................................................9
2、重点企业.............................................................14
3、国内运营商分析.......................................................19
四、存在问题及对策分析....................................................20
1、数据量的成倍增长挑战数据存储能力.....................................20
2、数据类型的多样性挑战数据挖掘能力.....................................20
3、对大数据的处理速度挑战数据处理的时效性...............................20
4、数据跨越组织边界传播挑战信息安全.....................................20
5、大数据时代的到来挑战人才资源.........................................21
一、大数据概述
1、大数据简介
随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长。大量新数据源的出现导致了非结构化、半结构化数据爆发式的增长。这些数据已经远远超越了目前人力所能处理的范畴,如何管理和使用这些数据,逐渐成为一个新的领域,于是大数据的概念应运而生。
2、大数据特征
大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到收集、管理、处理、并整理成为帮助企业经营决策目的的咨询。大数据不单单是指数量的量大,而且包括了以下的四个方面:
首先,数据的体量(volumes)大,大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T),和我们所熟知的G相比,体量不可谓不大。其次,是数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。再次,是数据处理速度(velocity)快,在数据体量庞大的情况下,也能够做到数据的实时处理。最后,是指数据的真实性(veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴起,传统数据源的局限被打破,信息的真实性和安全性显得极其重要。
3、大数据的技术
大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。主要可分为:数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等8种技术。同时,由这几种技术形成了批处理、流处理和交互分析三种计算模式。
4、大数据的应用
大数据的应用范围非常广。有机构预测,“大数据”的发展,将使零售业净利润增长60%以上,制造业的产品开发、组装成本将下降50%以上。
在制造行业,企业通过对网上数据分析了解客户需求和掌握市场动向,并对大数据进行分析后,就可以有效实现对采购和合理库存量的管理,大大减少因盲目进货而导致销售损失。
在商业上,国外一些超市利用对手机的定位和购物推车获得商场内顾客在各处停留时间,利用视频监视图像软件分析顾客购物行为,优化商场布局和货架排列。
在政府决策上,分析几十年来的天气数据,将各地降雨、气温、土壤状况和历年农作物产量做成精密图表,就可以预测农产品生产趋势,政府的激励措施、作物存储量和农业服务也可以随之确定。
5、大数据处理方法
大数据的处理方法有很多,普遍适用的大数据处理流程,可以概括为四步,分别是采集、导入和预处理、统计和分析,最后是数据挖掘。
(1)、采集。大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。在大数据的采集过程中,其主要特点和挑战是并发数高,因
为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片是需要深入的思考和设计。
(2)、导入/预处理。虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。
导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
(3)、统计分析。统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。
统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
(4)、挖掘。与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。
5.家具行业数据分析报告 篇五
解决方案
xxxx电子科技有限公司
2013年7月
目录
一、建设背景........................................................3
二、建设思路........................................................3
三、建设目标........................................................3
四、总体设计........................................................4
4.1、设计原则...................................................4 4.2、设计思路...................................................5 4.3、总体架构...................................................6
五、系统实现........................................................6
5.1、整合内容...................................................6 5.2、采集处理方式...............................................7
5.2.1、数据采集..............................................7 5.2.2、数据整合..............................................9 5.3、数据应用..................................................15 5.3.1、应用定制.............................................15 5.3.2、数据展现.............................................21 5.3.3、应用主题数据.........................................21 5.4、主要功能..................................................22 5.4.1、数据来源管理.........................................22 5.4.2、主题和指标管理.......................................22 5.4.3、报表定制.............................................23 5.4.4、图表定制.............................................23 5.4.5、热点定制.............................................23 5.4.6、连接资源管理.........................................23 5.4.7、页面定制.............................................23 5.4.8、用户及角色管理.......................................24
六、系统价值.......................................................24 5.1、企业报表..................................................24 5.2、主题分析..................................................25 5.3、运营监控..................................................25
七、成功案例.......................................错误!未定义书签。
7.1、河北省省级卫生数据整合共享和综合信息管理平台错误!未定义书签。7.2、国药乐仁堂信息采集整合展现管理平台........错误!未定义书签。
八、公司及产品优势.................................错误!未定义书签。
8.1、公司优势..................................错误!未定义书签。8.2、产品特色..................................错误!未定义书签。
一、建设背景
近几年,中国烟草行业信息化飞速发展,各个企业目前己经基本完成了基础设施建设和业务系统建设,如营销系统、专卖系统、物流系统、财务系统、0A系统等。这些信息系统之间相对独立,缺乏有机联系,形成了信息孤岛,无法做到信息资源的共享,进而影响了许多正常业务的效率。由于各单位前期在实施信息系统过程中分别采用了各自的系统标准,因而导致了现有各信息系统之间很难做到“无缝连接”,并且在各系统间存在大量的“手工连接”,进而造成大量的信息失真和信息延时,这种情况还对信息管理部门增加了很多工作量,每天为数据而忙碌。同时各业务系统侧重于业务处理,不能进行充分的价值挖掘,缺乏为企业领导或业务处室的综合分析、宏观决策提供有力支持。因此,在烟草企业数据综合分析应用系统的建设与完善就显得尤为重要。
二、建设思路
三、建设目标
通过建立烟草数据综合分析应用系统,实现收集目前的营销系统、专卖系统、物流系统、财务系统、0A系统等以及其他业务系统的相关数据,并对数据进行整合,加工形成涵盖管理、采购、客服、物流、质管、运营、财务七大领域的信息域,并对信息进行多维度的综合展现,提供各业务所需的综合报表,从而充分挖掘利用现有信息资源,为领导提供决策支持,并更好的为各业务科室和一线业 务人员服务。
四、总体设计 4.1、设计原则
本项目在系统设计、软硬件采购、应用开发、系统集成和服务过程中应采用已有的国家标准、行业标准和主流国际标准,遵循但不仅限于下列标准体系和要求:
《烟草行业信息化标准体系》及其有关标准 《烟草行业信息化建设统一技术平台要求》 《烟草行业数字证书应用接口规范》 《烟草行业信息系统安全等级保护定级指南》 国家《SOA标准体系》
除了遵循上述标准,在整个项目设计开发过程中,需要遵守下面的5项原则。
1.技术的先进性
系统应采用先进成熟的技术,以保证投资的有效性和延续性。 支持常用的操作系统平台、常用的数据库系统、常用的应用服务器平台和常用的开发工具,与XX烟草现有系统互联互通,以保证系统的兼容性。2.系统的稳定性
保证系统能够正常运作, 系统应能够7×24小时连续稳定工作。 软件版本升级或改进应在不影响业务的情况下进行,保证系统可以稳定、平滑过渡。3.系统可维护性
系统应能使系统管理员集中方便地配置、监视、控制、诊断整个系统,并且能够监视和控制用户情况、提高效率、消除隐患。
对于系统各功能模块的配置、控制、监视、诊断等工作能够通过专用的系统管理工具方便的进行,无须进行专门的编码工作。
数据中心系统将按照集中的模式进行部署,因此对系统处理并发任务的 能力提出了很高的要求,投标方需要提供大规模并发流量的处理机制以及发生性能问题时的解决方案;并提供实时交易量(并发交易量及其硬件配置)和并发用户量(并发用户数及硬件配置)的相关测试报告和案例说明; 4.系统安全性
系统应保证信息的安全性,即保证此系统中的信息能够安全存储,并有良好的数据备份和快速恢复方案;
采用分级的安全体系,保证数据在处理和传输全过程的安全性。系统支持对关键的信息(如:用户密码)进行加密保存,同时支持对一些比较重要的业务数据在传送和存储过程中进行加密保护;
保证系统中的信息不被非授权用户访问,按组织结构划分操作人员的操作权限,使用烟草办公自动化系统的用户身份认证系统,且各种使用权限所能调用的应用软件模块可按要求灵活配置;
系统在身份认证方面支持多种的认证手段,如:口令认证、数字证书认证等;
系统支持基于角色和基于资源的授权方式,支持用户到角色的映射,并采用角色的身份来控制对特定操作的访问权,支持层次化,结构化和区域化的角色设定;
系统需要有对系统数据的关键操作(如授权操作、流程环节变更)进行追踪和回溯的能力;
4.2、设计思路
1、模块化的系统结构
系统结构采用三层(3-tier)或多层(N-tier)设计模型;设计模式为B/S 模式。由合理分划、边界清晰的子系统和模块组成,形成组装式、插件式的体系结构,以利于系统的升级、扩充和发展。支持业务流程的可调整性;支持业务信息的可调整性和延续性。
2、面向服务的整体架构(SOA)
系统模块都是向系统内部和外部提供服务的逻辑单元;采用标准的协议提供 服务。采用松耦合的机制与外部系统进行信息交换和系统之间的互操作。
3、无缝集成的应用
提供与其他相关信息系统的数据接口、支持开放的XML 标准接口规范。不同的异构系统之间可以无缝地实现数据集成,也可以无缝地实现业务流程的集成。
4.3、总体架构
系统基于SOA设计理念,架构信息采集、整合、展现信息系统,为增值服务管理奠定总体架构基础,并以“服务”方式,扩展将来主题业务数据分析、服务系统。
五、系统实现
5.1、整合内容
数据来源主要为营销系统、专卖系统、物流系统、财务系统、0A系统以及其他业务系统。5.2、采集处理方式
5.2.1、数据采集 5.2.1.1、功能设计
通过整合完善数据采集系统,更加高效的接收和处理来自各系统的数据,实现数据采集工作的灵活设置和快速部署,使数据采集工作更专业化和规范化,减轻数据提供单位的负担,提高数据采集效率和质量。支持基于事件发生时接收数据消息、支持数据库改变时数据同步、支持定时提取数据、支持外部文件导入、支持异地全局数据库。并且支持基于消息的数据传输,在前置机感知数据改变后,通过WebService机制项服务器传递消息;支持通过各类数据传输中间件进行消息的传递。
数据采集方式包括:自动采集、定时采集。
自动采集是指通过系统接口,自动实时从数据源采集数据,适用于实时性要求较高的数据信息。
定时采集是指在设定好的时间点对数据源数据进行采集,适用于数据源有规范的数据传输技术架构。
数据审核:在数据加载到数据库前对采集的数据的格式及数据内容进行校验和审核,保证数据采集平台采集的数据质量。
自动采集:支持自动采集和定时采集方式,实现采集系统自动获取数据源数据的功能。
数据加工处理:包括数据信息清洗、信息转换、信息加载等功能,将从数据源获取过来的数据进行规范化处理,实现多源数据组合、冲突数据处理、数据格式检查等功能。并将其转换成数据仓库需要的格式。数据加载功能是将经过规范化处理后的数据存放到数据仓库中。需要定义数据的加载频率和加载方式。数据的加载频率根据数据的产生频率和数据仓库对数据的分析粒度决定,可以根据需要来定义加载的间隔。
采集平台系统功能结构如下图:
5.2.1.2、技术实现
1、技术架构
通过各种采集方式把现有各部门、企业的诸多系统通过数据交换平台抓取进入数据中心,并可以通过业务报表填报的功能补充信息,支持暴扣文档、多媒体、XML、文件以及数据库等多种方式的数据采集。
2、数据接口
本系统采集通过建立数据口的方式与现有的营销系统、专卖系统、物流系统、财务系统、0A系统以及其他业务系统进行数据采集,并将采集数据进行审核与加工处理。与此同时考虑到与新系统的整合,系统将预留数据交互模块并建立数据交换机制,为新业务系统的接入提供准备。
5.2.2、数据整合
利用完善的ETL工具,通过节点控制库、信息共享与管理库把采集来的数据按照业务内在关联形成能够表述完整业务链信息的整合信息,并为下一步的数据应用打定基础。
5.2.2.1、技术架构
1、ETL工具介绍
ETL负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
ETL是数据仓库中的非常重要的一环。它是承前启后的必要的一步。相对于关系数据库,数据仓库技术没有严格的数学理论基础,它更面向实际项目应用。所以从项目应用的角度来考虑,按着物理数据模型的要求加载数据并对数据进行 一些系列处理,处理过程与经验直接相关,同时这部分的工作直接关系数据仓库中数据的质量,从而影响到联机分析处理和数据挖掘的结果的质量。
ETL的质量问题具体表现为正确性、完整性、一致性、完备性、有效性、时效性和可获取性等几个特性。而影响质量问题的原因有很多,由系统集成和历史数据造成的原因主要包括:业务系统不同时期系统之间数据模型不一致;业务系统不同时期业务过程有变化;旧系统模块在运营、人事、财务、办公系统等相关信息的不一致;遗留系统和新业务、管理系统数据集成不完备带来的不一致性。
实现ETL,首先要实现ETL转换的过程。它可以集中地体现为以下几个方面:空值处理:可捕获字段空值,进行加载或替换为其他含义数据,并可根据字段空值实现分流加载到不同目标库。规范化数据格式 可实现字段格式约束定义,对于数据源中时间、数值、字符等数据,可自定义加载格式。拆分数据:依据业务需求对字段可进行分解。验证数据正确性:可利用Lookup及拆分功能进行数据验证。数据替换:对于因业务因素,可实现无效数据、缺失数据的替换。Lookup 查获丢失数据 Lookup实现子查询,并返回用其他手段获取的缺失字段,保证字段完整性。建立ETL过程的主外键约束 对无依赖性的非法数据,可替换或导出到错误数据文件中,保证主键唯一记录的加载。
2、整体结构
系统将各个业务系统中采集到的销售、财务、物流、仓储等基本业务数据进行整合,形成节点前置库,并进行数据加载,形成结构化的综合信息共享库与管理数据库,最后通过加工处理形成数据集市,并通过综合分析、统计报表、智能分析、决策支持等方式展现给用户。如下图所示: 5.2.2.2、数据资源整合
主要功能是实现将分散、异构的数据和记录进行规范化整理并实现聚合处理,生成基本数据集所规范的、全面动态的企业业务综合数据信息(宏观或个案级别综合业务视图)共享库,该综合共享库支持动态、交互、智能的综合业务管理,可发布(提供)综合集成的“全景业务信息”以支持全局性同步信息共享。主要功能模块包括数据规范化整理(数据校验、语法学清洗、语义学清洗等)和数据聚合处理(数据解析、整合存储/主数据管理、展现预处理等)。
流程如下图:
1、数据校验清洗 数据质量问题分类:
根据处理的是单数据源还是多数据源以及问题出在模式层还是实例层我们将数据质量问题分为4类:单数据源模式层问题、单数据源实例层问题、多数据源模式层问题和多数据源实例层问题,具体的质量问题表现如下:
1)缺少完整性约束,糟糕的模式设计,2)数据记录的错误,3)异质的数据模型和模式设计,4)冗余、互相矛盾或者不一致的数据,5)唯一性约束,⑾引用约束,6)拼写错误,7)相似重复记录,8)互相矛盾的字段,9)命名冲突,10)结构冲突,11)不一致的汇总,12)不一致的时间选择。
问题数据处理:
单数据源情形中出现的问题在多数据源的情况下会变得更加严重.多数据源没有列出在单数据源情形中就已经出现的问题.模式层次上的问题也会体现在实 例层次上.糟糕的模式设计、缺少完整性约束的定义以及多个数据源之间异质的数据模型、命名和结构冲突等,都属于该类问题.可以通过改进模式设计、模式转化和模式集成来解决模式层次上的问题.实例层次上的问题在模式层次上不可见,一些可能的情况有数据拼写错误、无效的数据值、重复记录等。
对于第1种情形,由于在数据输入时不知道电话字段的值,因此在数据库中以存放一个无效值来表示.如果针对电话字段定义一个规则存放在数据清洗库中,清洗工具就能够根据这条规则判断出哪些是无效值.对于第2种拼写错误的情形,需要在数据清洗库中建立一个存放所有城市名的查找表,通过与该查找表中的城市名相比较,就可以判断出数据库中存放的本来应该是哪个城市.对于第3种情况,一般也需要利用外部的查找表才能检测出来并加以改正.在数据清洗工具中,一些典型的查找表应该是内建的,此外也应该具备可扩展性,允许用户加入新的查找表.对于第4种情形,在一个自由格式的文本类型的字段里包括了很多部分,每个部分都可以单独作为一个字段.如果每个部分的先后顺序一定,且互相之间有分隔符或者保留字,比如Street,Road等等,就比较容易处理.但是,实际中的情况往往不是这样,因此要通过机器学习或者其他办法来解决.由领域专家选定学习样本(相对于所要处理的数据集,样本数量少得多)来训练系统,等训练好了以后,再由系统自动处理大规模的数据集.由于采用机器学习的办法,因此一般来说,需要折衷考虑记忆率和准确率.我们将利用隐马尔科夫模型(HMM)的解决办法.第6种情形的问题是字段之间不对应.为了改正,需要知道哪个字段更可信,这必须利用其他信息才能决定。
第8种和第9种情形表示的是相似重复记录的情况.在第8种情形里,一个记录的name没有简写,而另一个记录的name被简写了,通过定义合适的编辑距离函数,或者内建常用的缩写规则,清洗工具可以检测出这类重复记录.在第9种情形中,同一个现实实体(两个记录的name值相同),但是两个记录的bdate值不一样,在合并这两条记录时,如何选择一个合适的bdate值,是一个棘手的问题.相似重复记录的匹配和合并,是数据清洗过程中一个很重要的问题.首先,选择一个好的距离函数很重要.另外,记录的匹配过程非常耗时.如果采用最简单的方法,所有记录之间两两进行比较,以此来决定是否匹配,其计算复杂度为O(n2),这里n为 数据库中的记录数.对很大的数据库来说,这样的时间开销是无法忍受的。
在检测相似重复记录之前,需要先对数据进行一些处理.典型的处理操作包括: 字段分裂.从自由格式的文本字段中抽取结构,分离各个部分.验证和改正.根据查找表来验证字段值的正确性,若发现错误,则加以改正.如果提供合适的领域知识,该过程也可以验证字段之间的依赖关系.数据标准化.将同一类型的数据用统一的格式来表示,比如日期、电话号码、性别等.在完成大部分的数据转化和其他清洗步骤以后,就可以执行相似重复记录的匹配和合并了。通常情况下,指向同一个现实实体的两条记录的信息是部分冗余的,它们的数据互为补充。因此,通过将其合并,能够更准确地反映该实体.相似重复记录清除可以针对两个数据集或者一个合并后的数据集.首先,需要识别出标识同一个现实实体的相似重复记录,即记录匹配过程.随后,将相似重复记录合并成一个包含该实体的更多属性,而且无冗余信息的记录,同时从数据集中删除多余的记录。
最简单的情况是,数据记录具有这样的属性集(或者属性),它总能够惟一标识一个实体.这时,只要对两个记录集在该属性集上作等值连接,就完成了记录匹配过程.对单个记录集的情形,先根据该属性集进行排序,然后通过检查相邻的记录,就可以判断出它们是否为相似重复记录.如果不存在这样的键属性集,而且数据中可能还存在错误,例如拼写错误等,上面的简单办法就不合适了.这时可以通过引入匹配规则来完成模糊匹配,规则是描述性的,而且可以利用用户自定义的函数.例如,可以有这样的规则:如果name字段相同,而且address字段相似度也很大,那么这两条记录是重复记录.字段之间的相似度,一般用0~1之间的数值来表示,而且不同的字段对记录之间总的相似度的贡献,具有不同的权值.相似度的定义和权值的分配,要由领域专家来确定.对字符串类型的数据,精确匹配或者基于通配符、词频、编辑距离、键盘距离和发音相似度的模糊匹配是很有用的,我们还考虑了字符串的缩写形式并结合信息检索的向量空间模型来定义文本元素之间的相似度。
在处理大的数据集时,匹配重复记录是一个非常耗时的过程.因为是模糊匹 配,所以整个过程相当于要对两个记录集做笛卡尔积.然后,根据相似度进行排序,那些相似度超过某一阈值的记录被认为是重复记录,低于某一阈值的记录则不被认为是重复记录,而相似度介于这两个阈值之间的记录是候选的相似重复记录,需要用户作出决定。因为这类记录的数量不多,所以由用户来决定是可行的。
2、数据聚合处理
根据信息采集整合展现信息系统的建设需求,把清洗后的数据抽象为采购、客服、物流、质管、运营、财务6个业务域。
5.2.2.3、数据分类存储
1、标准数据
标准数据是系统运行的数据基础。标准数据包括业务数据的所有数据标准规范,通过这个库和数据校验机制对数据中心的数据进行标准化保障。由于数据标准存在着时效性,因此针对有时效性的数据进行版本控制,不同的版本有各自的生命周期,不同生命周期中的业务数据对应不同版本的数据。
2、业务数据
业务数据是指从各业务系统中各环节收集上来的业务数据,如财务信息、物流信息、采购订单信息等等。这些数据将会存储到相应的业务域中进行统一管理。
3、主题数据
业务数据以主题的方式进行整合和预处理,本系统主要包括的数据主题有:采购、客服、物流、质管、运营、财务。
5.2.2.4、中间库存储服务
是承接信息获取服务所加载的数据集并实现按数据提供将原始数据集归档。根据业务需求和技术能力其具体实现可做多种策略选择:“基于自定义建模的关系数据存储”,或“基于自定义建模的关系数据存储+基于主数据管理模式的操作数据存储”。区别在于对业务需求变化扩展的适应性和实施成本效益,另外基于主数据管理模式的操作数据存储可以直接支持面向全局同步信息共享视图展现,同时可相当程度支持数据利用业务需求变化。数据仓库存储服务是面向决策支持、基于决策模型的信息展现引擎。
当综合数据信息共享库(综合数据存储服务)包含基于主数据管理的操作数据存储和基于决策模型的面向主题存储时,综合管理信息平台对因业务需求变化(决策模型变化或信息共享规范扩展)的适应性和支持能力得以提高。
5.2.2.5、数据聚合
数据仓库是为了系统建立的数据库,其用来对业务进行统计分析、业务监督、绩效考核、应急指挥及决策支持等。其是通过从各系统数据中抽取归纳出来的,主要包括共享资源数据库和主题数据库。
5.3、数据应用
数据应用模块采用SOA构架,统一了Web应用构架,统一了元数据,能够访问企业资源系统的所有数据源,为所有用户提供了基于纯浏览器的全面的BI功能。
5.3.1、应用定制
系统主要应用定制方式为:报表定制、热点定制、图形定制、数据挖掘四部分,主要实现技术路线为下图: 5.2.1.1、定制类型
1、热点定制
定制文本数据混合的输出方式,简称热点定制。可提供可编辑页面,支持从WORD或网页直接黏贴内容以规范文本输出。提供指标选择功能,让用户可以自行选择汇总指标到编辑页面,并在选择时指定汇总指标的各种条件的默认值。保存热点名称和用到的汇总指标定义到数据库,把可编辑页面的HTML代码保存到数据库,并可以进行修改。如下图:
2、报表定制
通过指定汇总指标及其分组项、条件,形成各种类型的报表。树形结构列出所有的汇总指标以备用户选择,可以多选,并可以选择上月数、去年同期数。综合选择的汇总指标,列出其共有的分组因素,并分为三栏显示。根据用户指定的纵向分组因素和横向分组因素生成预览表。并可保存所有用户定义到指定的报表名称。如下图:
3、图形定制
通过指定汇总指标及其分组项、条件,形成各种类型的图形。树形结构列出所有的汇总指标以备用户选择,只能单选。分析用户用户选择的汇总指标并将其分组因素列为两栏。其一为输出分组项选择,选择后可以预览报表和图形、其二为条件或默认条件指定区域,在分组因素外多出时间范围条件。允许用户选择输出图形的类型——包括比例图、直方图、日线趋势图或月线趋势图,如果用户选择的是趋势图则分组项选择失效,只能按照时间进行分组。允许用户预览输出结果(不含数据或随机数据),并对图表位置进行调整。如下图:
4、数据挖掘
对展现的数据进行深入挖掘探索,一直到基础数据或相关链接系统。上级中规定了在数据输出的同时把每个数据项的元数据属性同时输出,该属性包括:该数据项对应的汇总指标的指标ID;该数据项已经包含的条件;该数据项已经包含体现的分组因素;该报表、图形或热点本身定义中规范的链接方向(可以为空)。
依据以上元数据的定义,有两种分支:
(1)如果该报表、图形或热点本身定义中规范的链接方向不为空,则 1)如果链接方向为本系统中的其他数据资源则把元数据属性中的1、2、3部分分别传递给该数据资源,并把当前点击的数据项的值和其分组项关系也作为条件传输给目标数据资源,然后调用数据输出功能对目标数据资源进行输出。
2)如果链接方向为其他业务系统中的页面资源,则利用单点登录功能模拟出登录效果,并打开该页面资源。
(2)如果该报表、图形或热点本身定义中规范的链接方向为空,则 1)分析该汇总指标已经体现了哪些分组因素,条件中考虑了哪些分组因素,从而获得没有涉及到的分组因素列表,并用弹出菜单的方式请求用户选择向下展开至哪个分组因素,菜单末尾为“基础数据”;如果没有未涉及到的分组因素则直接进入基础数据查询。
2)如果进入的还是汇总指标的查询,则系统形成新的临时图形分析定制,依据用户选择的分组项和原数据项含带的元数据生成,如果是绝对数指标则默认以比例图方式展现,如果是计算指标则默认以直方图展现。
3)如果进入的是基础数据查询,则判断该汇总指标通过哪些基础数据视图的数据汇总得来,并提取这些基础数据视图中列表显示的基础数据指标,配合汇总指标的分组因素(本次涉及到的)形成基础数据列表的输出表头,同时依据汇总指标的条件设置和基础数据视图的关联关系形成SQL语句,从而得到数据。
5.2.1.2、数据分析支撑
实现应用定制的支撑工具包括元数据模型设计和管理工具、多维分析服务器、报表工具、多维分析工具、数据管理工具
1、元数据模型设计和管理工具
本系统采用统一的元数据模型。应用统一的元数据模型设计和管理工具,通过图形化的界面,就可以对多数据源进行描述,并且能够同时描述DB,OLAP等各种数据源。为应用提供统一一致的数据访问。同时元数据模型设计和管理工具支持通用的CWM标准能够和各种第三方的工具实现元数据交换。可直接使用第三方工具生成的元数据模型。从而:
1、减小了开发工作量;
2、减小了系统维护 和修改工作量;
3、提高了应用开发效率;
4、具有良好的元数据的层状扩展性。
是应用和数据库之间的语义层,他封装数据库底层表和字段,建立表连接,为后续开发人员和最终用户提供一个贴合业务术语的数据库结构视图。在元数据模型中可以对已有的数据库结构进行描述,加入各种计算字段,绑定数据的过滤器等,同时可以采用动态SQL,使查询的语句根据不同的条件和情况灵活的适应数据库结构。他可以连接多个数据源,能够连接OLAP,DB等各种数据源。提供对元数据的定制和管理以及安全性控制等相关控制。可直接使用各种标准工具制作的元数据模型。
2、多维分析服务器
从各类数据源(数据库、数据仓库、平面文件)中精心筛选出来的“黄金”数据创建成称为PowerCubes的多维数据立方体。立方体是按探察业务的OLAP多维因素分析模型的设计创建,通过对多维数据立方体的OLAP分析,用户可以辨明趋势、跟踪业务运作、创建高效的统计汇总报表。
支持异构数据源访问,能够适应用户从简单到复杂的应用数据环境,支持虚拟Cube技术(可按时间生成不同的子Cube,可针对单个子Cube进行增量更新,通过虚拟Cube访问多个子Cube,支持虚拟Cube的各子Cube维度不同,以适应变化)。Cognos OLAP Modeling生成的Cube为压缩方式,通常为原始数据占用空间的十分之一甚至更小。同时具有足够的灵活性,支持手工自定义层次和节点,支持维度中不同层次节点之间的计算,支持指标层次灵活设计。
3、报表工具
可以通过其制作各种类型的报表,制作报表时不仅能够连接数据库,还能连接OLAP服务器,能够同时连接数据库,OLAP数据源。用户直接通过在没有插件,没有Applet的纯浏览器界面中鼠标托拽就可以实现各种列表,交叉表,图表,分段报表,主从报表等各种常用报表,以及中国特色的非平衡报表,动态仪表盘,KPI报表等各种高级报表报告。报表可以分页面设计,每页可以有多个查询,每个查询可以连接多个数据源,甚至异构数据源。报表的内容采用的是化繁为简的方式,可以精确控制报表中每一个对象的各种属性。可以通过鼠标拖拽方式将包括声音,视频,图形,表格,文字,关系型数据库内容,OLAP等任何有用的信息集成在报表中。还可以方便实现报表数据和GIS地图数据的无缝集成。报表布局可以精确控制和排版,支持所见即所得的打印。报表设计好之后可以批量生成,也可以通过用户交互条件生成,甚至基于时间以及事件等进行调度,也可以通过Email等方式主动推送给用户。同时采用直接保存即发布的方式,大大简化了报表的发布和管理。
对于报表应用,主要由即席报表工具和即席查询工具来实现。通过报表工具可以制作各种固定格式的报表报告等,通过即席查询工具用户可以方便的进行自助式报表的制作。工具提供了一个完全基于Web方式的交互式数据查询、报表定制和报表浏览界面,能够实现各种复杂的报表,并提供定时运行、报表数据监视预警、多渠道报表分发(如通过Email)等功能。本工具还提供了强大的仪表盘,多媒体报表,地图报表等各种报表报告功能。
工具支持用户直接在没有插件,没有Applet的纯浏览器界面中通过鼠标拖拽的方式进行报表的制作,同时报标志制作完成后,直接通过点击鼠标,就能够将报表进行发布,实现信息的共享。
由于系统采用统一的元数据,能够同时访问国药乐仁堂医药有限公司的各个数据源,所以用户在进行报表制作的过程中不需要了解数据源的具体结构,而只需要从业务的角度出发,通过鼠标拖拽就能够将多数据源的数据整合在一张报表中展现
通过统一的元数据模型设计之后,就可以支持用户直接通过纯浏览器界面,进行从简单到复杂的各种报表的制作,制作的过程中通过各种对象的拖拽,属性设置,不需要编写代码,同时用户通过点击鼠标就能实现报表的发布,真正做到了端对端的报表的展现。
4、多维分析工具
联机分析处理主要指的是多维分析。它提供将数据组织成多维立方体(不论逻辑的还是物理的),而用户可以对这些数据立方体进行切片、旋转、汇总等多角度的查询和统计。这种查询和统计可完全出自用户对业务的考虑,而不必关心数据的物理结构和技术上的组织形式。联机分析应用是业务智能应用中最主要,也是最广泛应用形式。
本方案中的OLAP应用主要由多维分析工具来实现。多维分析工具提供完全基于Web方式的OLAP应用界面,能实现不同主题Cube之间的钻取,并能与报表 工具构成穿透钻取环境,融合查询报表和OLAP应用,为用户提供一个贯穿宏观和细节的全景数据视图。
该工具是面向最终用户的多维分析展现,进行方便的多维度,多层次,多指标的分析。用户只需要在Web界面中通过简单的鼠标拖拽等操作,就可以进行各种OLAP分析,如上钻,下钻,切片,旋转,切块等,另外可以支持图表一起展现和图表联动,支持柱图,饼图,折线图,堆积图,面积图,散点图等各种二维、三维图形,支持用户自定义子集功能,支持同比,环比,百分比等各种比例分析,支持TOP N/ Bottom N 分析,支持2/8分析,支持压缩零。支持排名排序功能,支持维度中不同粒度的混合分析,支持不同维度的非平衡混合分析,支持不同层次维度节点之间的计算,支持用户在纯浏览器界面上进行各种OLAP分析,不需要安装插件,不使用Applet,确保数据安全性,支持用户使用简单的拖拽的方式进行多角度分析,支持从Cube和Cube信息之间的钻取支持Cube和关系型数据库信息之间的钻取,支持将分析结果导出EXCEL, PDF等各种格式,采用保存即发布的方式,不需要另外的发布工具它能够让系统中的每一位用户都能够轻松自如地访问对应权限的数据,从而更有效地管理其业务,作出正确决策。
5、数据管理工具
是个数据抽取、整合、传输、加载的(ETL)工具。它对所有的数据源提供唯一地点来定义元数据和业务规则,定义描述用户业务特征的信息目录,创建数据集市或数据仓库,形成数据中心。通过有效的单结构模型,实现了多种异构数据源、多数据源或多个应用的元数据定义。本工具主要提供数据转换、传输和加载服务,它能快速生成BI应用的信息目录,以及面向主题的数据集市。这种数据集市既可是关系型的数据库表也可是多维数据结构存储的数据立方体—OLAP数据源。这些数据将是信息系统用户在网上做数据访问分析的基础数据。它确保了所有用户能够迅速访问一致性的数据,进行全业务指标整体分析、报表制作和决策支持。
用来自任何普通关系型格式、ERP数据源、平面文件格式的数据或者可以通过ODBC(开放数据库连接)应用协议接口访问的数据。基于数据的集成性,本工具可以采用各种格式提供数据结果,例如维度框架、关系型表格等,用户还可以将数据从一个环境移动复制到另一个环境。可以简化IT部门的数据抽取、转换和加载工作。DataManager使用单一的界面,该界面具有用来架构数据仓库的生动的构造流程(build)图形,可以让穿透钻取关系更加清晰直观,使属性的显示和修改更加方便。自动化向导可以帮助开发人员分步骤的创建一个维度构造流程(dimension build)或事实构造流程(fact build)以及众多的转换函数。自动化的维度管理过程和支持汇总和合并的强大引擎可以简化IT的工作,为IT工作提供支持。
成功的数据仓库项目建立在维度框架结构基础之上。维度设计可以消除在数据集市或数据仓库环境的设计、实施和维护过程中最常见也是最重要的困难。
跨部门、流程和业务领域的共享或一致维度的使用意味着可以将分布式数据源集成到一个一致的视图中。为了实现这个目的,本工具会将公共描述符(descriptor)组织成维度表并将事实内容组织成事实表。
5.3.2、数据展现
系统展现采用基于JAVA平台、B/S应用模式,支持图、文、表集成输出,易于用户理解,同时有利于用户从多维度分析数据。系统数据挖掘简单易用,并支持形成动态报表,自动从后台提取数据,及时更新。
数据展现终端分为页面端展现与移动端展现。即用户可以通过PC机了浏览器获取数据,同时可以通过手机端安卓系统浏览数据。对于移动端展现系统同样支持图、文、表集成显示,并保证数据所产生的单位流量最低。
5.3.3、应用主题数据
系统可以根据用户的实际需求,快速建立应用主题数据库,将相关某一主题的数据进行集成展现,既方便高级管理者从公司全局层面获取数据,又方便针对公司某一业务线路进行数据挖掘。
以卷烟销售、财务管理、经济运行、专卖监管等业务领域为主线,满足公司中层以上对报表统计、业务分析、多维分析、辅助决策支持的需求。针对地市级用户的业务需求应用分析主题内容侧重较微观的业务操作层面。其应用主题主要包括:
客户主题分析 供应商主题分析 销售主题分析 库存主题分析 成本毛利主题分析 商品主题分析 市场投放主题分析。
5.4、主要功能
5.4.1、数据来源管理
数据来源是指系统的每一项基础数据的来源途径,包括逻辑概念的数据来源和物理概念的来源服务器,逻辑概念的数据来源包括各种系统、以及机构,例如专卖系统、营销系统、物流系统等;而物理概念的来源服务器主要是指服务器、数据库或应用服务等,例如位于192.0.0.2上的端口为1521的数据库;或者位于192.0.2.3上的端口为8020的getData服务等。
1、数据来源
提供对数据来源的增、删、改、查的功能,逻辑数据来源的信息项应当至少包括:名称、资源说明、注册者、注册时间、发布者、发布时间、失效时间等。
2、来源服务器
在数据来源下管理来源服务器,提供注册,修改和删除的功能,来源服务器的管理信息应当至少包括:名称、地址、端口、类别等信息,注册后作为系统实际的数据提取来源被管理起来。
5.4.2、主题和指标管理
提供树形关系的主题和域的管理,包括增加下级、增加同级、删除、修改等各种操作,管理的信息内容包括名称、说明信息、注册者、注册时间、发布者、发布时间、停用时间的基础信息。
作为对信息分类的基本管理单元,本功能应当能够把所有的指标——包括基础数据指标和管理指标均注册到分别的主题和域,系统支持注册基础数据指标、注册管理指标以及相应的反向操作。其中包括:主题树和主题管理、基层数据指标管理、管理数据指标管理、数据来源、来源服务器、基础数据视图等,如下图所示: 5.4.3、报表定制
主要实现报表定制,通过选择报表要查询的管理指标项,对报表的数据行的分组项,并且选择报表的查询条件和该查询条件的默认值进行定制,同时支持报表表样预览区域,可以根据业务变化方便快捷的调整所需要的报表,不需做任何程序改动。其如下图所示:
5.4.4、图表定制
通过设定图表要查询的管理指标项、图表的查询条件和默认值、图表关联的热点、图表展现的形式等条件进行图表的制定。其如下图所示:
5.4.5、热点定制
对热点内容进行编辑,并且进行定义,如定义“想得到门急诊人次是多少,选择门急诊人次,选择时间范围”等。
5.4.6、连接资源管理
本功能应用环境为应用端管理人员为信息资源本身进行编目管理,从而内接系统的主题和域等范畴,外连门户中的目录体系。
具体管理内容包括:
1、管理者能够对信息资源目录进行管理,建立目录、增加目录节点、修改节点名称等。
2、管理者能够对注册的信息资源进行审核,规范化注册内容,统一信息资源名称及唯一合法出处。
3、管理者能够对信息资源做发布、作废等管理处理。
为了实现以上功能,系统应能够进行:目录结构管理、编目、注册、发布、查询、维护。
5.4.7、页面定制
对于要展现的图表或报表在页面中的位置及结构进行设定,可以根据客户实 际需求,进行自定义。
5.4.8、用户及角色管理
实现系统用户的增、删、改操作,并且根据用户所需分配其角色和权限等。
六、系统价值 5.1、企业报表
数据综合分析应用系统提供的企业级报表定位为企业报表类数据信息发布的统一出口,企业级报表将为发布各类报表提供数据服务,包括上报国家局的报表,互通工商企业的报表,面向所属各级单位发布的报表,以及面向社会发布的报表等。原各业务系统报表将作为业务明细查询,辅助数据综合应用系统使用,并逐步减少使用,最终淘汰。
企业级报表可自定义各类业务报表,进行灵活展现。例如,对各类常用业务指标,诸如购进量,购进金额,销量,销售金额,毛利,毛利率,库存量,库存金额,需求量,协议量,单箱毛利,单箱毛利率,存销比,动销率,回转率,交叉比率,占有率、覆盖率的算法进行预定义,支持报表查询指标自由组合。5.2、主题分析
以卷烟销售、财务管理、经济运行、专卖监管等业务领域为主线,满足公司中层以上对报表统计、业务分析、多维分析、辅助决策支持的需求。针对地市级用户的业务需求应用分析主题内容侧重较微观的业务操作层面。
(1)客户主题分析。包括客户观察、市场细分、客户评价、客户关系、贡献度、客户保留度、规范度、信用度、客户获利性分析。
(2)供应商主题分析。包括进货分析、库存与未到货合同对比分析、厂商库存分析、库存与未执行合同对比分析、厂商毛利分析、厂商库存走势分析。
(3)销售主题分析。包括销售分析、销售趋势分析,采购分析、调拨分析、获利分析、进销存分析。
(4)库存主题分析。包括库存总量及资金占用分析、库存总量二八分析、库存资金占用二八分析、库存总量变化分析、库存资金占用变化分析、库存分布分析、库存结构分析、库存报警。
(5)成本毛利主题分析。包括毛利分析、毛利分布分析、毛利结构分析、销售毛利分析、配送成本分析、购进成本分析、营销成本分析、库存成本分析。
(6)商品主题分析。包括商品进销存分析、商品的竞争能力分析、卷烟(品牌)购买走势分析、商品销售分析、商品毛利贡献分析、卷烟促销分析、TOP(畅销)卷烟(品牌)分析、卷烟(品牌)末位淘汰分析。
(7)市场投放主题分析。包括市场需求总量分析、社会零售库存分析、价格档次投放分析、品种投放分析。
5.3、运营监控
通过实时监控,以便于采取相应措施,保证部门、个人的执行与公司的整体战略目标一致。
1、为企业决策层提供宏观层面关键指标监控和预警。利用驾驶舱和仪表盘,对企业关注的指标,通过生动而明确的图形和数据进行显示,使决策层和管理层领导能够有效了解当前经济运行的总体情况,并进行监控和预警,为制定和调整企业的战略提供依据。驾驶舱主要围绕KPI指标,通过电子地图、仪表盘、电子 报告、图表等方式给决策层和管理层提供最直观的数据展现。
6.家具行业数据分析报告 篇六
一.公众号属性
从如上数据可以看到,7成本地生活行业公众账号是订阅号,而且近7成做了认证,也就是有了导航栏。通过访谈,90%以上的商户和用户觉得有自定义导航栏会显的账号比较高大
上而且用户体验便捷。
从上图可以看到,超过60%的公众账号不满足于微信基础的图文推送功能,纷纷选择了高级开发模式,而绝大部分选择了微信第三方来提供专业的开发服务,比如微网站、微商城、微会员等,自己有能力开发的账号占到19%,且通过数据纵向分析,自行开发公众账号的比例呈现下降趋势。
微信公众账号粉丝数5000以上的仅为13.6%,一方面本地生活行业规模都相对较小,公众账号采取的是自运营模式,但由于人手和精力不够,内容和活动运营也不够专业,公众账号即便开发了精美的微网站,时间长了很多商户的公众账号进入了濒死状态。
针对消费者,所有开发模式下的公众号都加入了一键导航、一键电话功能,92%的公众号具有微网站,但在线客服功能比例为38%。
二.日常运营:
60%的商户微信公众账号的运营方是市场部,对于大部分小商户,没有明确的部门划分,所以统一归为市场部。
公众账号群发消息的频率40%一周2次,26.5%每天一次,还有近20%每周1次,从图文群发和粉丝增减的数目来看,每周1-2次的推送频率能够为大部分用户所接受,取消关注的概率为每天推送图文用户取消关注概率的1/3.群发的消息普遍存在优惠或活动的宣传信息推送为主,而且近六成的健身养生会所、理发店等选择在下午下班到晚上睡觉前这段时间来推送。
30%的账号在首次关注的图文里推荐给用户微网站,20%的推送了促销活动,这在一定程度上尊重了用户习惯,关注之后即可实现“有利可图,有趣可玩”。
本地生活行业微信公众号平日推送的图文内容,以店内活动、优惠信息、便民服务、生活常识为主,结合开发模式下做的活动,从线上引流客户到线下门店消费。
活动类型分为抽奖和促销两种,更多的商家选择把抽奖和促销结合起来做营销推广。就目前的数据来看,大部分账号都是在刚做了开发模式的时候做了微信端的活动,也在短期内赢得了不少的粉丝,但后期疏于运营管理,账号活动非常少。
三.运营数据:
如上展示数据真的是狠狠的伤了商户老板的心,甚至对微信充满了失望和迷茫。其实,在这种情况下,寻找靠谱专业第三方公司来做代运营和推广就显得尤为重要,这也是一批有眼光的第三方公司转型做代运营和推广的原因。
四.业务效果:
7.家具行业数据分析报告 篇七
当美国学者奈斯伯特惊呼“人类正被大量数据所淹没, 而知识则极度匮乏”时, 出现于2 0世纪8 0年代末的数据挖掘技术让人们看到了发现知识的希望。
零售行业使最早利用数据挖掘技术的领域之一, 随着时代的发展, 传统报表系统已经不能满足日益增长的业务需求了, 企业期待着更好地利用数据分析和数据挖掘这种新的技术来获得知识或洞察力, 促使企业做出更有利的决策, 带来更大的商业价值。这也成为企业生存发展的关键。
二、数据挖掘概念
1. 什么是数据挖掘。
数据挖掘 (DM) 是指从大量数据中抽取隐含的、不为人知的、有用的信息。有时也把数据挖掘等同于数据库中的知识发现 (KDD) 。
从商业角度出发, 数据挖掘可以描述为:按企业既定业务目标, 对大量的企业数据进行探索和分析, 揭示隐藏的、未知的或验证已知的规律性, 并进一步将其模型化的先进有效的方法。
2. 数据挖掘及知识发现处理数据的一般过程。
数据清理→数据集成→数据选择→数据变换→汇总、聚集→数据挖掘→模式评估→知识表示
三、零售业数据挖掘的主要技术分析
数据挖掘采用的方法综合了数据库、人工智能、统计学、模式识别、机器学习、数据分析等领域的研究成果。
1. 概念/类描述:特征化和区分。对含有大量数据的数据集合进行概述性的总结并获得简明、准确的描述。
定性概念描述即数据特征化, 是目标类数据的一般特性或特征的汇总。
对比概念描述即数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。目标类和对比类由用户指定, 而对应的数据通过数据库查询检索。例如:用户可能希望将上一年销售增加1 0%的A产品与同一时期销售至少下降20%的B产品进行比较。再如:比较定期购买某种产品的顾客和偶尔购买这种产品的顾客。结果描述提供顾客比较的一般轮廓, 如比较两类顾客的年龄, 受教育程度, 职业等等, 还可以就某项深入比较, 发现两类间更多的区分特性。
两种描述使用的一些有:基于统计度量、图的简单数据汇总、数据立方体、面向属性的归纳等。
2. 挖掘频繁模式、关联。频繁模式是在数据中频繁出现的模式。包括项集、子序列和子结构。
项集是指频繁地在事务数据集中一起出现的项的集合, 如牛奶和面包。如顾客先购买P C再购买数码相机然后再购买内存卡这样的模式是一个 (频繁) 序列模式。
子结构涉及不同的结构形式, 如图、树或格, 与项集或子序列结合在一起。如果一个子结构频繁地出现, 则称它为 (频繁) 结构模式。
挖掘频繁模式导致发现数据中有趣的关联。著名的“尿布与啤酒”的故事就是关联规则具体应用。著名的关联规则发现方法如:R.Agrawal提出的Apriori算法等。
3. 分类知识发现。所谓分类, 是把给定的数据划分到一定的类别中。分类的关键是对数据按照什么标准或什么规则进行分类。
对于分类规则的挖掘通常有以下几种方法:决策树、朴素贝叶斯、k最近邻分类、人工神经网络、粗糙集方法和遗传算法。不同的算法适用于不同特点的数据集合。最为典型的分类方法是基于决策树的分类方法。
4. 预测型知识发现。
预测型知识是根据事件序列型数据, 由历史的和当前的数据去推测未来的数据, 也可以认为是以时间为关键属性的关联知识。比如, 在零售业中根据先前的销售数据, 预测未来销售中每种商品的收益, 这是一个 (数值) 预测的例子。
目前, 回归分析是一种最常使用的数值预测的统计学方法, 此外还有神经网络、机器学习等多种方法。
5. 聚类分析。
聚类分析处理的数据是无事先确定的类别归属, 是把整个数据库分成不同的群组。它的目的是要群与群之间差别很明显, 而同一个群之间的数据尽量相似。
在零售业中利用聚类可以帮助市场分析人员从客户的基本库中发现不同的客户群, 并且用购买模式来刻画不同客户群的特征。此外, 聚类分析可以作为其他算法 (如特征和分类等) 的预处理步骤。聚类方法主要有两大类, 包括统计方法和神经网络方法。
6. 离群点分析。数据集中那些不符合大多数数据对象所构成的规律 (模型) 的数据对象被称为异类或离群点。
大部分数据挖掘方法很容易将离群点视为噪声或异常而丢弃。然而在某些特定应用场合 (如商业欺诈行为的自动检测) , 小概率发生的事件 (数据) 比经常发生的事件 (数据) 更有挖掘价值。
常使用异常探测方法来发现离群点, 实现异常探测可以用基于统计、基于距离、) 基于偏离的方法。
四、结束语
通过研究和实际应用了解到, 数据挖掘并不是万能的, 在通过数据挖掘得到一些有意思的结果之后, 还要进行相应的市场分析, 用户行为分析和用户访谈, 了解数据背后消费者的心理。
虽然数据挖掘在零售业中的应用有许多成功的案例 (多数都在国外) , 然而在具体实施中还有一些的问题:挖掘算法的改进和计算效率提高, 模型的合理性和易懂性, 与其他系统的集成问题;网络与分布式环境下的K D D问题;个人隐私问题;数据规模超大或太小;另外还可能有观念意识问题, 基础条件不成熟问题, 这些都有待于进一步研究。
摘要:数据挖掘技术逐渐成为研究热点, 应用也越来越广泛。本文结合零售业中各种应用需求, 较详细地分析了针对不同挖掘任务的数据挖掘技术, 并对实施中出现的问题进行了阐述, 表明了改进挖掘算法和提高计算效率的必要性。
关键词:数据挖掘,零售业,算法
参考文献
[1]Shortland R, Scarfe R.Digging for Gold.IEE Review.1995 (5) .41:213~217
8.大数据重构影视行业 篇八
大数据逐步颠覆影视行业
大数据技术的发展和广泛运用对影视行业的各个环节都产生了颠覆性的影响。从收视测量和评价、节目影片策划与改进、观众互动参与,到市场环境评估和广告精准投放,大数据从各个方面推动了影视行业的全方位变革与重构。这种颠覆性影响主要体现在以下四个方面:
第一,从单向输出向互动的转变。在过去,电视影视作品和节目播放的渠道只有电视和影院,而如今的播出渠道不仅有电视和影院,还有各种视频网站、移动客户端、多媒体播放器等等。过去看电视看电影只能播完即过,不能倒回重看,而且无论观众喜欢与否,这个时间就只能看这个节目。对于制作方和电视台而言,根本无法获知观众对节目的好恶和反馈。这对观众以及节目制作者本身都是个问题。
视频网站的崛起,不仅解决了“倒回重看”的问题,还专门为用户反馈建立了评论、分享等专区和模块,让用户能对影视作品进行评价和讨论。而弹幕网站ACFUN、bilibili和tucao等,还直接将用户评论与节目时间流结合到一起,使用户对节目的评论精确到秒。随着大数据技术的成熟,如今用户的搜、看、转、评等各种行为都能量化为数据,对于视频网站、节目编导和导演、演员,甚至广告商而言,根据用户行为和好恶调整节目内容、形式,甚至指导新作品的创作,都已经可以实现。
2013年,印度的一档新闻访谈节目《真相战胜一切》(Satyamev Jayate)的编导,不仅通过社交网站收集和分析了当时的网络热点议题,作为策划节目的基础数据,还根据节目播出过程中各方的反馈数据实现了观众与政府官员、议员及意见领袖的互动。以至于该节目不仅成为了2013年全球最引人注目的电视节目之一,还因其互动模式的成功,促进了印度公共政策的调整和完善,间接影响了国家政策、法律的制定和修改。
从单向输出到互动模式的转变,是观众意志对影视行业价值逐渐增加的体现。在互联网时代,“如果没有用户的喜欢,影视作品就不会成功”已经成为准则。于是,从用户的行为数据中挖掘用户的意志,再将用户意志体现在作品中,成为了影视行业成功的必然手段。
第二,从“制播分离”到“制播同步”。2013年2月,美国Netflix公司出品的电视剧《纸牌屋》对大数据在影视制作和营销过程中产生的作用做出了完美的诠释。该剧从剧情设置、选择演员,到导演阵容、后期制作,都以用户在互联网上的行为数据做支撑,一边制作,一边播出,受到了观众的热捧。也正是借由《纸牌屋》的声名大噪,“大数据”的概念在影视行业迅速升温。
过去电视节目和电影都是先制作,再播出。而近年来随着互联网等新兴事物对大众的影响日益增加,大众化的电视节目越来越难以满足观众日益加深的个性化需求。大数据不仅解决了影视作品多元化、个性化的要求,同时也使多元、个性、即时的创意加入制作,同步播出成为了可能。近年颇受观众喜爱的影视剧《万万没想到》、《爱情公寓3》、《夏家三千金》等就受益于大数据的应用,制作、炒作和播出同时进行,收效甚佳。而以《小时代》为代表的大数据应用电影,尽管其艺术质量有待商榷,但以海量数据为依托的制作和营销,使电影上映后仍取得了不俗的票房成绩。
第三,大数据使影视行业数据应用更多,更细,更深入。在过去,影视行业不是没有数据,只是数据不“大”。作为支撑电视行业的唯一数据,收视率曾被视为电视各项指标评估的“万能码”。仅凭一个数据,就能决定从央视到地市级电视台、从电视广告经营战略确定到具体节目的去留,听起来有些不可思议,但受制于数据收集和分析手段的制约,多年来收视率都掌握着电视行业的生杀大权。而电影,则一律只看票房。
然而,收视率的统计在先天上就存在较大的技术误差,单一数据更是无法反映节目质量。大数据技术的应用,不仅为影视行业提供了更多、更大量的数据,增加了数据的可信度和权威性,还在数据统计和分析层面精确到了电影电视节目的每一秒、每一个镜头和每一步营销。将数据统计与数据分析深入到影视行业的每一个角落,是大数据能够产生深刻影响的根本原因。
第四,大数据重塑影视产业结构。互联网的崛起,改变了傳统影视行业播出渠道单一、制作团队受限的问题,全新的影视行业建立在互联网多样化的播出平台之上,而电影电视作品的制作者也再不必是专业团队。
过去,电视台和电影院垄断了播出渠道,影视作品只能由经由电视台或影院播出。而早在20世纪90年代中期,由于制作能力不足,电视台节目的外包制作就已经开始了。即便如此,民营电视节目制作公司也不得不受制于单一的播出渠道。
互联网视频网站的成熟,为许多草根节目和影视作品带来了新的机遇。近年来,互联网平台已经使民营公司、草根团队、小成本小制作的模式在人才福利待遇、发展平台、工作环境、成长机会等各个方面都有了较强的竞争力,以至于越来越多体制内的精英开始“出走”,这在根本上动摇了影视行业的人才结构。
在影视节目制作方面,过去电视台作为购片方高高在上,其“官方”定位在很大程度上决定了影视节目的风格和内容。这种模式带来最大的问题就是,创作者创意受限,播出的影视作品最终只能是少数人思想的反应。
当大数据将市场和用户的意志反推到影视制作和营销时,影视节目的内容和制作就可以真正反映大众思想。而对于广告商来说,他们终于可以从大数据中看到,每年在影视剧里做广告花的大把银子,到底都用在了哪儿,起了什么作用,能有多少转化率。对于影视行业来说,互联网视频网站的崛起,大数据技术的成熟,带来最伤筋动骨的改变,就是广告商和盈利点的迁移。
从输出方式、制作方式、评判方式到盈利模式和行业结构,大数据从内到外地颠覆了传统的影视行业,而这种颠覆仍在继续,且势不可挡。
当一锅沸水平静下来
李黎,优酷土豆集团副总裁,一个既时尚又有点“范二”气质的小女人。初见李黎,她灿烂的笑容让人印象深刻,一口白牙和明亮的眸子,活泼得像个小女孩儿,很难想象优酷土豆集团的副总竟是这样一个气场。
2011年,李黎从传统电视企业跳槽到优酷,随后她带领优酷的团队推出了一档文化脱口秀栏目——《晓说》。时至今日,《晓说》的成功在影视行业仍具有很高的借鉴价值。《晓说》推出的时候,正是高晓松因“醉驾”的负面新闻远走国外之际。并不“讨喜”的主持人,单一的镜头和简单的内容设计,或许李黎自己都没有想到,后来《晓说》能如此成功。
李黎说,这一切应该归功于大数据。《晓说》的制作过程很大程度上都是依赖大数据的结论反推,说什么话题、在哪儿说、说多少、怎么说,每一个细节最终都得根据用户的行为数据来敲定,这就是《晓说》的成功之道。
“提到大数据,我有很多话要说。”从2011年7月到2012年,几个月的时间,把李黎从一个传统的电视人转变成互联网人,从工作方式到思想的蜕变,曾让她苦不堪言,却也最终使她脱胎换骨。
“对大数据,一开始我是质疑的。”初到优酷,李黎对工作有着强烈的不适反应,她不仅对当时优酷平台所提供的节目数据存有很大的疑虑,而且完全无法理解互联网和网上的用户行为。数据显示用户喜欢的风格、关注的热点都和李黎长久以来积累的经验完全不同,甚至截然相反,所以李黎一开始根本不相信大数据结果的科学性。而更让她无法理解的是毫无章法的互联网规则,阳春白雪和下里巴人共处一室、莫名其妙就突然爆红的网络名人、难以捉摸的用户喜好,互联网让李黎头疼和焦虑。
后来,完全崩溃的李黎跑到了朝阳公园租了一条船,她坐在船上,平静地听着船上自动播放的“网络神曲”,看着周边神态安详的游人,李黎在一瞬间就突然顿悟了——“网络神曲”的爆火,是隐藏在都市白领身后无数社会底层粉丝的拥趸,我们无法理解的,或许正被无数人所喜爱。这样一个道理看似简单,接受并完全改变自己的思维方式却如此艰难,李黎经过了一轮全面的崩溃才真正明白,并学会尊重。
想通了之后,李黎就开始尝试相信并运用大数据。早在2010年3月,优酷就推出了第一份视频行业用户收视数据产品“优酷指数”,李黎首次大数据分析就由这里开始。从视频播放数、搜索量、评论、站外引用等十几个数据指标里,分析用户的好恶、倾向,以此为依据修改栏目设置、节目内容,甚至是剧中人选和衣饰。后来,《晓说》一经推出就大热,证明了李黎运用大数据的成功。但一次成功显然还不能坚定李黎的信心,她说,当时她仍然看不懂那些数据。
“一开始,数据就像一锅沸腾的水,是凌乱无序的。等平静下来,一切就清清楚楚了。”数据需要堆叠,需要量的积累和规律的形成,当成熟的数据摆到李黎的面前,她终于可以冷静地分析那突如其来的大热是怎么回事,未来的爆点又在哪里。直到很多期《晓说》以后,李黎才对大数据彻底拜服。就这样,《小说》之后,优酷土豆又有了《我是传奇》、《侣行》、《男神女神》……
“虽然我还没有想得很清楚,但未来的内容可能不再是观看式的,而是体验式的。”在李黎的畅想里,未来影视行业的商业链条应该是真实世界与虚拟世界的融合,制作、营销等各个环节都通过O2O的方式实现。她信心满满,目光里有一丝狡黠“我们已经在做啦!”
中国的影视行业行走至今,要面临的最大问题是用户体验的再升级。如何将商业元素、用户意志和节目的精神内在融合在一起,并以用户参与体验的方式制作播出,是影视行业未来的方向,而李黎与优酷土豆,已经走在了前面。
李黎的成长和转变是一个隐喻。从质疑、尝试、崩溃、理解,到痴迷、理性,最终融合,传统影视行业与李黎一样,须得经过一番洗礼,才能浴火重生。
数据不是一切
虽然大数据能够为影视行业提供一定的参考,但大数据的结果并不能与成功的作品画上等号。大数据好比一张航海图,制作团队和公司就是航行的大船,航海图越精准,航行自然越顺利,可最终要到达目的地,既要有一个好船长,也离不开船上的好船员。
维克托·迈尔·舍恩伯格在《大数据时代》一书中写道:“大数据不是要教机器像人一样思考。相反,它是把数学算法运用到海量的数据上来预测事情发生的可能性。”大数据为影视行业提供了量化的指标,它最大的意义在于,让影视行業变得更加透明和冷静。
影视作品的创作和观看是一种感性的体验,大数据在这个过程中只能起到优化体验的作用。好莱坞梦工厂CEO杰弗里·卡森伯格曾公开表示,他坚决不会使用大数据,因为电影是“用心之作”。内容和生产基于大数据分析可以提高成功的几率,但不能决定成功。
李黎说自己如今是大数据的信徒,但同时她也承认如何运用好大数据仍然是一个挑战。仅仅一个作品,李黎面对不仅是大量的数据结果和分析结论,她还要面对怎么取舍和权衡这些结果的问题。互联网是一个自由的世界,人与人之间的关系形成了一个个不稳定的社群,大数据集合了不同社群千差万别的偏好,人们的想法和口味变化既快又复杂。互联网上充斥着大量虚假、暴力和愤怒,这显然不是大家希望看到的东西。那些真实而美好的,最后才能真正获得广泛的拥护,这是李黎在互联网上看到学到的,也是她应用大数据的准则。
过去,电视影视作品播出的“把关人”很多,而互联网的“把关人”却相对要少。谈到这个问题,随时一脸笑容的李黎也变得严肃,她说,为了保证数据和结论的真实客观,她每天都要找不同的数据报告来看,不仅是优酷的分析报告,还有第三方的数据、调查公司的数据,就是这样,也不能让她完全放心。作为数亿人观看体验的“把关人”,李黎怕偏颇,更怕犯错,所以她忐忑而谨慎。处在那个位置,纵然手握大数据,责任和使命仍是需要她反复深思的问题。
【家具行业数据分析报告】推荐阅读:
家具家居行业分析报告03-04
中国家具行业研究报告01-20
旅游行业数据分析报告09-28
金融行业数据分析报告10-30
餐饮行业数据分析报告11-24
大数据分析行业趋势07-15
大数据行业调研报告01-11
中国服装行业电子商务应用数据分析12-18
家具行业工作总结11-26