大数据方向的研究生

2024-08-30

大数据方向的研究生（共8篇）

1.大数据方向的研究生篇一

数据库技术的研究是计算机领域中涉及面广、发展最快的研究领域，同时也展示了数据库系统未来的发展方向，从宏观上看，数据库技术的研究主要集中在以下3大领域:

(1)数据库技术理论的研究。随着信息高速公路、互联网络、多媒体等新技术的迅猛发展，数据库已成为信息产业中不可缺少的技术领域。数据库技术与多学科技术的有机结合.是当前数据库技术理论研究的盆点，包括数据模型、规范化理论、并发控制理论等。演绎数据库和知识库系统的研制已成为新的研究方向.特别是数据库的知识发现方法问题，已成为数据库技术理论研究中的新热点。另外，关于数据库新理论、新方法、新技术的研究，关于数据库仓库、OLAP及数据挖掘的研究;关于与Web相关的数据库技术理论的研究.如异构数字资源管理、移动数据库、网络环境下的数据库安全、电子商务、数字图书馆的知识产权、知识管理等.也成为数据库研究的方向。

(2)数据库应用系统的研究，

数据库应用系统的研究主要包括两大方面:一是数据库应用系统设计与开发研究.它包括数据库设计方法、自动化设计工具、设计理念的研究;包括数据模型和数据建模的研究;包括计算机辅助致据库设计方法及其软件系统的研究;包括数据库设计规范和设计标准的研究等。二是数据库专用领城里的研究。为了适应数据库应用多元化的需求.裕要研究、设计和开发适合各种专用领城里的数据库技术，如Web数据库、科学数据库、统计数据库、工程数据库、空间数据库、地理数据库、图像数据库等。总之，为任何行业和学科、为任何组织和个人.设计和开发一个功能强大、使用便捷、效率高、费用低、结构优良、设备配套的数据库应用系统，则是数据库应用系统研究的重大课题。

(3)数据库管理系统软件的研究。由于DBMS是盆据库系统的基创‘它共有时数据库中的数据进行存储、组织、检索、管理等功能.因此，研究功能全、效率高、可靠性好的DBMS.始终是数据库技术研究的重要领域。此外.研制以DBMS为核心的一组相互关联的软件系统或工具软件，其中包括数据通信软件、报表书写系统、表格系统、图形系统、图像系统、声音系统，也是当前数据库软件产品的发展方向。总之.DBMS软件的研究目标是用户界面友好(包括具有可徽性、易用性、多样性)、功能完备、效率高、结构淆晰、开放型等。

2.大数据方向的研究生篇二

关键词：大数据,电信行业,分析模型

在智能终端广泛普及的今天, 毫无疑问, 电信运营商是大数据的生产者。电信运营商在为用户提供上网访问、语音通话、短消息发送等服务管道的同时, 也可以收集管道中流过的数据[1]。通过对这些数据的分析, 可以实现对客户的价值分析, 产品的高效营销以及更好的用户体验。大数据时代所带来的科学的数据存储、分析、处理方法相对于电信行业传统的数据分析方法有更大的优势。可以使决策管理更加准确、理性、更具定量化和可评估性。因此, 企业管理者如何利用大数据的数据分析处理技术积极引导企业变革对未来在激烈的市场竞争中打造自身竞争优势具有重要的战略意义。

1 大数据与电信行业大数据

1.1 大数据简介

对于大数据的翻译很多。目前较被认可的翻译为:指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。大数据具有数据量巨大、数据形态多样、处理速度快及数据价值密度低等特点[2]。

1.2 电信行业大数据

与其他行业一样, 电信行业也面临着大数据的挑战。传统数据时代, 电信企业已经占尽海量数据先机, 较其他行业就有了更完善和发达的数据仓库系统。主要以数据仓库系统为依托, 通过报表、统计分析和数据挖掘工具。大数据时代, 在原有传统数据采集和分析处理基础上, 电信运行商也有了更广阔的数据处理渠道。

目前, 电信行业在大数据领域主要有以下几个可拓展的数据源。

1.2.1 CDR、RFID、Wi-Fi等社交网络信息

不同于互联网的匿名性, 电信企业获得的数据更为准确可靠。以移动用户为对象, 通过RFID、WIFI和通话详单记录所记录的用户通信往来信息为代表的运营商数据更有分析的空间。通过这些数据的分析, 可以发展和完善电信客户社交网络分析。

1.2.2 GPS和移动终端上的各项应用信息

如今, 智能手机已经很大程度上改变了人们的生活。而作为与智能手机关系最密切的电信企业, 要想发展更多的业务和产品, 当然不能忽略移动终端这个数据库可靠且细致的数据。其中, 最有价值的就是地理位置信息和各项应用信息。地理位置信息可以提供用户的位置, 针对地理位置为产品的推广提供更大价值。而电信企业也可以通过采集各项应用信息, 为用户提供互联网、套餐等业务的推荐。

1.2.3 各类企业网站 (尤其是社交网站) 数据

在信息社会的今天, 互联网已经成为电信企业不可忽略的营销渠道。企业纷纷提出网上营业厅、代理业务网站、企业微博之类的电子渠道。这些网站不仅是企业与用户越来越重要的交互甚至交易界面, 更是企业用来了解客户需求、产品问题、产品评估、品牌喜好以及消费心理的重要渠道, 如果能够结合企业有关后台管理系统中的机器数据信息, 企业就可以准确、快速的实现每个使用网站的客户的体验与感受测算。为客户提供个性化的产品推荐和信息浏览服务。

2 电信行业的数据分析方向

对于电信企业来说, 主要掌握了用户的个体兴趣需求和喜好、交友等数据。根据现有的数据种类, 主要有以下几个大数据分析方向, 即社交网络分析模型、客户体验分析模型和客户价值分析模型。

2.1 社交网络分析模型

社交网络是拖动移动互联网迅猛发展的主力军。电信网络原本就是一个巨大的社交网络, 因此电信企业应该让社交网络成为企业认识刻画客户的利器, 并用之于用户关系和市场营销决策管理[3]。而社交网络的本质是通过测算识别客户与客户之间关系所形成的圈子以及圈子中个客户角色的判定形成企业对客户影响力和价值的判断。电信行业作为具有海量相关数据的行业, 具有相较于其他行业更有利的条件。再次基础上利用圈子的影响力进行产品营销和活动推广, 可以获取更大的商业价值, 提高企业营销和运营管理的效率。

2.2 客户体验分析模型

客户体验是一种纯主观在用户使用产品过程中建立起来的感受。良好的用户体验有助于公司不断完善产品或服务。近年, 电信企业也意识到了客户体验的价值, 强调与客户的每一次接触, 在每一个接触点都能了解到客户的体验与感受, 并及时为客户传递信息, 产品提供与客户体验形成良性互动, 实现更高黏度的客户管理。因此, 电信企业近年来一直倡导客户体验管理。然而, 由于以往数据处理和分析技术条件所限, 客户体验管理难以实现。企业要要在每一个接触点对每一个客户使用产品过程中每一个环节的每一次接触进行测量, 并判断客户的体验与感受, 这些数据很难获取, 分析测算也很难实现。大数据时代数据处理和分析技术的发展为这些问题提供了切实可行的解决办法, 其中最有代表性的就是机器数据 (即非结构化、半结构化数据) 处理分析技术已经较为成熟。

采用相关大数据处理分析技术, 可以将客户使用电信产品全过程的每个细节、每个操作留在数据管理系统中, 形成日志数据并对其进行实时采集、实时处理、实时检测相关故障, 将出现问题的客户在机器数据中留下的操作行为轨迹数据与正常行为所需时长和行为轨迹标准进行对比, 实现实时地问题监测、问题判断和快速、准确、人性化的问题解决, 并通过数据库中数据量的不断扩张, 训练更完善的分析模型。通过此良性循环不断发现总结客户的典型行为模式, 修正产品和流程设计, 最终提升客户体验[4]。

2.3 客户价值分析模型

客户价值分析模型认为关系行销的重点要放在如何和最有价值的客户建立长期并为公司带来利润的关系。因此, 企业要根据客户的不同价值, 提供不同营销方案及销售和服务等级, 客户管理的核心就在于客户价值的测算。在传统的数据时代, 电信行业一般是通过计算出产品的消费额, 减去产品成本, 例如网络、人力等, 从而粗略的测算出利润, 以此来判断出客户群体的价值。此方法只能大概的计算出企业级客户价值, 具有许多缺陷。

在大数据时代, 获取信息的途径更为丰富。正如第一点提到的那样, 可以通过社交网络获取客户之间的联系信息, 以此监测产品营销的推广效果。更可以获取有足够影响力的客户, 这样活动的营销效率必然有很大的提高。由此可见, 在大数据的今天, 当企业的客户分析在原有以客户为对象进行分析的基础上, 增加以客户与客户之间关系为对象的分析时, 客户的价值测算和分析也将随之发生变化, 客户的价值不再仅是个体客户消费体现的价值, 还应增加个体客户对所在群体内其他客户的影响力指标。

3 电信行业大数据分析展望

大数据相关技术条件的成熟、大数据分析能力以及分析应用经验的积累等多方面因素, 都是制约企业建设大数据IT系统的条件。首先要升级原有的报表分析系统, 其次逐步注意用户的采集, 为数据分析模型的构建提供足够的数据。最后打通大数据分析的IT系统与企业运营管理系统, 将大数据分析功能嵌入业务流程[5]。

4 结语

本文介绍了大数据和电信行业大数据的特点, 总结了电信行业大数据分析的必要性。并着重对大数据分析中关键的社交网络分析模型、客户体验分析模型和客户价值分析模型进行了详细阐述。这三个模型是电信行业进行大数据分析的基础模型, 同时也是未来电信行业数据分析的主要方向。本文在数据分析处理技术上并没有详细阐述, 论文还存在很多不足之处, 在后续的研究中将会进行补充和改正。

参考文献

[1]黄文良.电信业大数据应用前景展望[J].信息通信技术, 2014, 8 (6) :7-7.

[2]王珊, 王会举, 覃雄派, 等.架构大数据:挑战, 现状与展望[J].计算机学报, 2011, 34 (10) :1741-1752.

[3]漆晨曦.电信客户社交网络分析方法与营销应用探讨[J].电信科学, 2012, 8 (7) :5-9.

[4]潘海鹏.浅谈电信行业大数据的意义与应用[J].电子世界, 2014 (3) :21-21.

3.大数据方向的研究生篇三

【关键词】大数据；保理；应收账款

一、传统保理业务发展困局

一方面，从经济环境来看，受世界经济复苏缓慢，国内外市场需求不足的影响，企业应收账款的规模不断扩大，账期也被不断拉长，应收账款拖欠甚至坏账频发的风险进一步加大。2013年中国国内生产总值同比增长7.7%，2014年第一季度GDP增速为7.4%。随着经济的放缓，产能过剩问题日益突出。在此背景下，供应商面临的回款压力加大，销售商面临的市场环境更加不确定，从而进一步加大了应收账款的回款风险。

另一方面，出于控制买方信用风险的考虑，作为传统保理服务商的银行在开展保理业务融资时往往要求融资主体以大中型企业为主，对买方的资信实力、配合程度要求较高。并且出于对业务成本、效率方面的考虑，银行一般对于开展保理融资的应收账款均有单笔金额（百万元以上规模）及合适账期（三个月至半年）的限制。

而占市场主流的单笔应收账款均存在小、快、频的特征，即单笔金额小（单笔仅几十万甚至十几万元）、周转速度快（账期仅一个月甚至一两周）、发生频率高（几乎旬甚至每周都有交易及对应的应收账款产生），从而造成现有保理业务对应收账款的覆盖率较低。

二、“大数据”时代的保理新方向

综上所述，商业银行保理业务的发展正面临着巨大的挑战。面对困境，是望而却步，将巨大的业务市场拱手相让，还是创新求变、积极探索保理业务的新增长点，实现保理业务的创新发展，成为横亘在国内主流保理商——银行面前的一道难题。

在“大数据”时代中，人们日常不经意间的行动轨迹沉淀为异常庞大的数据，这些数据经过分析和挖掘呈现出的规律和导向，显示出了巨大的价值潜力。通过对数据的共享、归集、整理和分析，最大程度地将决策建立在相关事实基础上的思维模式，正日益成为潮流并持续地改变着各个传统的商业领域。具体到保理业务，它与“大数据”技术有以下四个结合点。

1.降低信息不对称程度和保理融资的业务风险

某银行此前曾开展“客户在银行间迁徙驱动因素”调查，对668家企业的总经理及财务总监进行问卷及访谈调研。结果显示，客户在银行间迁徙的十大驱动因素中，排名前三位的分别是贷款利率低、贷款手续简便、融资额度大。可见，满足融资需求仍然是目前国内众多企业主流的核心诉求。据此合理推测，就卖方客户而言，保理业务所能提供的四项服务中，最引起其关注、契合其真实需求的是融资服务。

而保理商开展保理融资服务，最大的障碍来自信息不对称。卖方经营状况的真实客观性、买方企业经营的稳定性、贸易回款的确定性、买卖双方交易的真实性等等，无一不在挑战着保理商的智慧和勇气。相关历史数据表明，保理业务最大的风险产生于虚假交易。而借助“大数据”技术支持，可有效将一些传统上习惯于用“差不多”思维、通过主观判断的信贷信息，转变成为建立在完整数据支持的、基于客观事实的决策。

2.精确定位目标客户，使批量获客成为可能

在供应链管理上有这么一个逻辑：供应条链上每一个环节都能获利，但一定会有、也只会有一个信息集中点。谁能抢占这个点谁就能主导整个供應链的运作，并从中获得更大的效益。海量的交易数据，意味着大量的买卖方、大量的交易信息聚集交汇。

在数据样本足够大、数据类型足够丰富、数据来源真实可靠的基础上，保理商可快速获得高价值信息，进而集中锁定特定客户群，有针对性地批量获客。并且，在数据支持下建立特定的风险评估模型，更有助于对业务整体风险的防控。

3.通过系统构建，优化保理业务流程。

众所周知，由于保理业务与买卖双方交易流程紧密关联，因此一直属于专业性较强、操作成本较高的银行业务，也容易因操作瑕疵而引致相关风险。由于大数据是建立在网络信息化、云计算的基础之上的，依存于各类信息系统平台中，因此建立相应业务互联系统，进行端口对接和数据实时交互成为必然选择。

以系统操作替代传统的手工业务操作，不仅可以优化升级服务手段、降低业务操作成本，更可藉此最大程度地避免因人为因素导致的操作瑕疵，有效优化保理业务的流程。

4.业务重新定位选择，对小、快、频应收账款实行保理服务覆盖

如上所述，以现有银行标准，大量小、快、频应收账款往往无法有效纳入保理融资服务范畴，导致该类应收账款一直处于“睡眠”状态。而想要盘活市场中巨额“睡眠”应收账款，保理商必须从降低业务成本、提升操作效率着手，寻找思路上的突破。

而借助“大数据”类信息平台，保理商可在客户授信审查、业务真实性判断、风险分析、监测预警等方面进行大幅成本优化，并依靠系统简化操作环节，提高业务的标准化、自动化程度，从而实现传统保理服务短板弥补，以创新的服务模式激活大量的“沉睡应收账款”，开创全新的保理业务蓝海。

从金融业的发展历程来看，其一直都是经营风险的特殊行业，保理融资业务也不例外，而风险本身对业务的开展既是机遇，也是挑战。新技术潮流必将对保理业务的未来发展产生深远的影响。

参考文献：

[1]李侠.我国发展国际保理业务存在的问题及对策建议[J]对外经贸实务，2009（8）

[2]王捷.国际贸易融资业务创新研究——制度约束与解决途径 [D]天津财经大学，2013

作者简介：

4.关于大数据治理的研究与分析篇四

2016-05-01

1数据治理的背景和现状...............................................................................1

1.1数据治理背景...............................................................................................1 1.2数据治理现状...............................................................................................2

2数据治理策略.............................................................................................2

2.1数据治理要素...............................................................................................3 2.2数据治理策略...............................................................................................3

3元数据管理.................................................................................................5

3.1元数据的定义...............................................................................................5 3.2为什么要进行元数据管理..............................................................................6 3.3数据模型标准化............................................................................................7 3.4标准化体系(数据定义&模型设计)...................................................................7

4主数据........................................................................................................8

4.1主数据的定义...............................................................................................8 4.2为什么要作主数据管理.................................................................................8 4.3如何做好主数据管理.....................................................................................9 4.4主数据实施流程............................................................................................9 4.5主数据管理体系..........................................................................................10

5数据质量管理...........................................................................................10

5.1数据质量问题.............................................................................................10

I 5.2组织架构设计.............................................................................................11 5.3数据质量治理流程......................................................................................11 5.4数据治理管理方法......................................................................................12

1数据治理的背景和现状

1.1数据治理背景

随着网络和信息技术的不断普及，人类产生的数据量正在呈指数级增长。大约每两年翻一番，根据监测，这个速度在2020 年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。

大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长。信息数据的单位由TB-PB-EB-ZB的级别暴增。这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴。如何管理和使用这些数据，逐渐成为一个新的领域，于是大数据的概念应运而生。

图1 数据治理背景图

1.2数据治理现状

大数据的快速发展，使它成为IT领域的又一大新兴产业。据中央财经大学中国经济管理研究院博士张永力估算，国外大数据行业约有1000亿美元的市场，而且每年都以10%的速度在增长，增速是软件行业的两倍。我国2012年大数据市场规模大约4.7亿元，2013年增速将达到138%，达到11.2亿元，产业发展潜力非常巨大。我国大数据飞速发展的背后存在诸多的问题：相关利益交织，协调难;方案规划容易，落地困难;过度依赖技术工具;对于数据没有明确区分。

图2 数据现状分析图

2数据治理策略

2.1数据治理要素

图3 数据治理要素分析图

2.2数据治理策略

 第一步：落实合适的人员负责治理。

任何成功的数据治理计划的第一个步骤就是，要在本企业找到CEO可以授权的人，然后让该人负责项目的具体实施。没有什么能取代强有力的领导人。

数据治理是涉及人事的一个难题，这需要在许多不同的利益相关者之间达成共识。因而，在本企业里面选定这样的领导人是一项重要工作。治理官员一旦选定下来，就要成立由企业的利益相关者组成的治理委员会，制订监管政策、向CEO及董事会报告进度。

第二步：调查清楚所处环境。

一旦选定了领导小组，就要调查当前情形，并清查不同部门在不同领域的当前最佳实践。领导小组需要越过独立系统看待问题，而企业数据治理评估方法对这项工作来说必不可少。这有助于比较本企业的数据治理计划目前处于什么状态，并且提供了一份路线图以便确定以后的目标。

第三步：制订数据治理策略。

数据治理评估之后，治理委员会就应当考虑制订远景，希望公司的数据治理实践在接下来的几年达到何种目标，根据这种需求为未来制订远景。委员会应当向后规划，并且制订切合实际的里程碑和项目计划来填补相关的缺口。具体办法就是制订关键绩效指标来跟踪进度，并且向CEO和董事会提交报告来证实成果。

第四步：算出数据价值。

估算数据价值。要是公司不知道数据的价值，它们就无法提高、保护或者评估数据对账本底线的价值。数据不是一种普通商品，而是像水龙头里出来的水--对生命至关重要，又往往被人们认为是理所当然的。你要是不知道某物的价格，就无法算出它的价值。

如果你想算出数据的价值，就要根据用户权限和IT服务的效用，为数据建立内部市场。当本企业的每个人都在直接付费获取IT服务和数据时，数据的价值就成了公司价目表上的一部分。

第五步：算出风险概率。

知道数据在过去是如何使用和滥用的，这有助于了解数据在将来会如何被危及和披露。每家企业都有一些原因，如一些事件和损失在独立系统、层次体系和商业报告中消失。这些数据已经可供使用，却没有被大多数企业所使用。收集这些数据，与其意义联系起来，并研 4 究长期的损失趋势，这可以帮助任何企业把风险管理转变成基于事实的商业智能方法，从而可分析过去事件，预测未来损失，改变当前的政策要求，成为未来改善风险缓解策略。

第六步：密切关注控制措施的效果。

数据治理在很大程度上涉及企业的组织行为。企业每天在变化，因而它们的数据、价值及风险也在迅速变化。遗憾的是，大多数企业每年对自己只评估一次。要是公司无法改变组织控制措施来满足每天或者每周出现的需求，也就谈不上变化治理。

图4 数据治理实施建议图

3元数据管理

3.1元数据的定义

技术元数据是存储关于数据仓库系统技术细节的数据，是用于开发和管理数据仓库使用的数据，它主要包括以下信息：数据仓库结构的描述，包括仓库模式、视图、维、层次结构和导出数据的定义，以及数据集市的位置和内容;业务系统、数据仓库和数据集市的体系结构和模式。

业务元数据从业务角度描述了数据仓库中的数据，它提供了介于使用者和实际系统之间的语义层，使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息：使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公式和报表的信息;具体包括以下信息：企业概念模型：这是业务元数据所应提供的重要的信息，它表示企业数据模型的高层信息、整个企业的业务概念和相互关系。

3.2为什么要进行元数据管理

图5 数据管理分析图

3.3数据模型标准化

图6 数据模型示意图

3.4标准化体系(数据定义&模型设计)

标准化体系：一定范围内的标准按其内在联系形成的科学的有机整体。标准化体系它规定了质量方针、目标、职责和程序，并通过建立相关体系进行过程管理、质量策划、质量控制、质量保证和质量改进。

图7 标准化体系示意图

4主数据

4.1主数据的定义

企业主数据分散存储在企业各系统内，是对企业至关重要的核心业务实体的数据，比如客户、合作伙伴、员工等。

4.2为什么要作主数据管理

主数据管理(MDM，Master Data Management)描述了一组规程、技术和解决方案，这些规程、技术和解决方案用于为所有利益相关方(如用户、应用程序、数据仓库、流程以及贸易伙伴)创建并维护业务数据的一致性、完整性、相关性和精确性。

主数据管理的关键就是“管理”。主数据管理不会创建新的数据或新的数据纵向结构。相反，它提供了一种方法，使企业能够有效地管理存储在分布系统中的数据。主数据管理使用现有的系统，它从这些系统中获取最新信息，并提供了先进的技术和流程，用于自动、准确、及时地分发和分析整个企业中的数据，并对数据进行验证。

图8 数据管理原因分析图

4.3如何做好主数据管理

通过单一平台上成熟的多领域MDM集中主数据的管理，从而消除点对点集成，简化您的结构，降低维护成本，改进数据治理。Informatica MDM(主数据管理)能够通过以下步骤帮助企业成功进行多领域主数据管理：

1.建模：用灵活的数据模型定义任意类型的主数据

2.识别：快速匹配和准确识别重复项目

3.解决：合并以创建可靠、唯一的真实来源

4.联系：揭示各类主数据之间的关系

5.治理：创建、使用、管理和监控主数据

4.4主数据实施流程

图9 数据管理实施流程图

4.5主数据管理体系

图10 主数据管理体系流程图

5数据质量管理

5.1数据质量问题

·数据的值域

·数据的定义

·数据的完整性

·数据的有效性

·业务规则

·结构完整性

·数据转换

·数据流

5.2组织架构设计

图11 架构分析图

5.3数据质量治理流程

图12 数据质量治理流程图

5.4数据治理管理方法

建立合理的数据管理机构、制定数据质量管理机制、落实人员执行责任、保障组织间高效的沟通、持续监控数据应用过程和领导强有力的督促是保障企业数据质量的关键。

5.快速消费品大数据市场营销的研究篇五

大数据时代新的市场营销研究方法使“无干扰”真实还原消费过程成为可能，智能化的信息处理技术使低成本、大样本的定量调研成为现实，这将推动消费行为及消费心理研究达到一个新的高度，帮助快速消费品企业更为精准地捕捉商机。

大数据时代的市场营销研究方法

1、基于互联网进行市场营销调研提高了效率，降低了成本。

网络调研具有传统调研方法无可比拟的便捷性和经济性。快速消费品企业在其门户网站建立市场营销调研板块，再将新产品邮寄给消费者，消费者试用后只要在网站上点击即可轻松完成问卷填写，其便利性大大降低了市场营销调研的人力和物力投入，也使得消费者更乐于参与市场营销调研。同时，网络调研的互动性使得企业在新产品尚处于概念阶段即可利用3D拟真技术进行产品测试，通过与消费者互动，让消费者直接参与产品研发，从而更好地满足市场营销需求。

2、挖掘网络社交平台信息成为研究消费态度及心理的新手段。

脸谱、QQ、微博、微信等社交平台已日渐成为新生代消费群体不可或缺的社交工具，快速消费品的消费者往往有着极高的从众性，因此针对社交平台的信息挖掘成为研究消费潮流趋势的新手段。例如，通过微博评论可以统计分析消费者对某种功能型产品的兴趣及偏好，这对研究消费态度及心理有非常大的帮助。更重要的是，这类信息属于消费者主动披露，与访谈形式的被动挖掘相比信息的真实性更高。

郝泽霖——思维管理专家原西门子高级讲师

10余年中外企业管理实战经历，曾在中国人保、西门子、加多宝、大田、茹梦等多家中外知名企业担当HR经理、营销总监、大区经理、高级讲师等不同职位

精通思维分析、心理学及各种营销工具，能够将培训方法落地，让企业能够顺利实施。个人管理经验丰富，管理团队数千人，培训学员上万人。

现任天下伐谋咨询独家签约讲师，思维管理学院院长

3、移动终端提供了实时、动态的消费者信息。

随着3G网络及智能手机普及，市场营销研究已渗透到移动终端领域。大量的手机APP应用（例如二维码扫描等）为实时采集消费信息提供了可能性，移动终端的信息分析在购买时点、产品渗透率及回购率、奖励促销效果评估等方面将发挥不可估量的作用。

4、零售终端信息采集系统帮助企业了解市场营销。

目前，PC-POS系统在零售终端得到了广泛的应用，只要扫描商品条形码，消费者购买的商品名称、规格、购进价、零售价、购买地点等信息就可以轻松采集。通过构建完整的零售终端信息采集系统，快速消费品企业可以掌握商业渠道的动态信息，适时调整营销策略。

智能化信息采集、储存及分析

1、超大容量的数据仓库。

数据仓库具有容量大、主题明确、高度集成、相对稳定、反映历史变化等特点，可以有效地支撑快速消费品企业进行大数据研究与应用。数据仓库可以更有效地挖掘数据资源，并可以按照日、周、月、季、年等周期提供分析报表，有助于营销人员更有效地制定营销战略。

2、专业、高效的搜索引擎。

旅游搜索、博客搜索、购物搜索、在线黄页搜索等专业搜索引擎已经得到了广泛应用，快速消费品企业可以根据自己的特点构建专业化的搜索引擎，对相关的企业信息、产品信息、消费者评价信息、商业服务信息等数据进行智能化检索、分类及搜集，形成高度专业化、综合性的商业搜索引擎。

3、基于云计算的数学分析模型。

市场营销研究的关键是洞察消费者需求，基于云计算的数学分析模型可以将碎片化信息还原为完整的消费过程信息链条，更好地帮助营销人员研究消费行为及消费心理。这些碎片化的信息包括消费者在不同时间、不同地点、不同网络应用上发布的消费价值观信息、购买信息、商品评论信息等。基于云计算的智能化分析，一方面可以帮助市场营销研究人员对消费行为及消费心理进行综合分析，另一方云计算成本低、效率高的特点非常适合快速消费品企业数据量庞大的特性。

传统的市场营销研究包括定性研究及定量研究，以座谈会为主的定性研究受制于主持人的访谈技巧，以街头拦截访问为主的定量研究虽然以严谨的抽样理论为基础，但同样不能完全代表总体的客观情况。而大数据时代革命性的调研方法为市场营销研究人员提供了以“隐形人”身份观察消费者的可能性，超大样本量的统计分析使得研究成果更接近市场营销的真实状态。

6.大数据方向的研究生篇六

摘要：随着云计算、RFID无线射频识别和在线社交网络等新兴技术的发展，数据呈现爆炸式的增长，这标志着大数据时代的到来。本文针对传统环境下高校图书馆服务中的若干问题，并结合一些图书馆的服务现状，探讨高校读者群体在大数据视角下的个性化需求，以便更好地为读者提供服务。

关键词：大数据；图书馆；优化服务

随着cyberspace的兴起，云计算、物联网、社交网和计算机技术的广泛应用，数据生成越来越快，需处理的数据爆炸式增长，国际数据公司的数据宇宙研究报告称：2011年全球被创建和复制的数据总量为1.8ZB，已经进入大数据时代[1，2，3]。数据统计显示，每隔2年，全球数据总量会增长一倍，并预测到2020年，全球将拥有35ZB的数据量。大数据，也称巨量数据，指的是数据量极其巨大（由TB跃升到PB级，甚至ZB级）、需要全新的数据处理模式才能进行处理的信息资产。大数据具有如下特点：（1）体量巨大（volume）呈爆炸式增长（2）类型繁多（variety）（3）要求处理速度（velocity）快（4）价值密度低（value）传统环境下高校图书馆的服务情况

（一）传统环境下高校图书馆数据资源的组织结构

传统环境下图书馆的资源主要是文献资源，而且主要是纸质版，如光盘和磁带等。近十年里，许多高校图书馆的纸质文献采购量逐渐减少，绝大部分经费用于购买数据库，使得数据库里的资源呈指数级增长。借还书主要采用光电式感应技术（需光电感应扫描仪、纸质条码和索书号），其中几台检索机用于检索图书，几十台电脑构成电子阅览室。阅览室门口和图书馆门口有门禁检测系统和Opac系统或ILASS系统等图书服务系统。这些资源整合的数据和系统产生的数据都是结构化的数据[1]。

（二）传统环境下高校图书馆的服务模式

马克思在资本论里面认为：服务是使物品的使用价值得到发挥。类似的，图书馆服务可以认为是使图书馆资源（包括电子文献资源、场所资源和人力资源等）的使用价值得到发挥。自1990年便有国内学者在《中国图书情报工作实用大全》中将图书馆服务定义为：图书馆为了发挥入藏图书资料和其他资源条件的作用、广泛传播信息并满足社会信息需求而向图书馆使用者提供设施和条件的一切活动。美国图书馆学会将图书馆服务定义为：图书馆为了满足其某种目标群而从事的各种活动和提供的各种计划的一个类属词。

传统环境下，高校图书馆的主要服务为文献借阅服务、光盘借阅服务、文献或光盘上架顺架工作、打印扫描服务、图书查询服务、文献检索服务、新书荐购服务、新书通报服务、论文查重服务、毕业生的离校手续服务、留言建议咨询服务、新生培训和图书修补工作以及图书逾期费用缴纳等。

近十几年里，许多高校的图书馆由闭架式借阅转入开架式借阅，由手写的卡片式转换成光电感应式条码扫描仪刷卡号以及文献条码号的借书还书等。由于条码识别错误、条码数据错误或操作失误（经常需手动输入读者证号和文献条码号，稍不注意就会出现错误），误还误借现象屡屡发生。图书馆工作人员在给读者借还书时需认真核对每一个数据，馆员付出繁重的劳动，读者的满意度却不高。

大数据环境下的高校图书馆服务优化策略

（一）大数据环境下数据资源的变化

对图书、期刊、报纸、声像资料和电子期刊等信息资源进行集成比较容易，因为它们大多数是结构化的数据。用户信息资源相对复杂，包括用户的年龄、性别、爱好、教育背景、知识结构、用户的检索习惯和阅读习惯等。这些信息数据[2，3]大多是半结构化数据或非结构化的数据。通过借助大数据的一些新研究成果，并运用现有的无线通信设备，对多种类型的数据进行整合，高校图书馆可以更好地为读者提供服务。

（二）大数据环境下高校图书馆服务模式的变化

许多高校图书馆有了自助借还机和图书定位系统，借阅与归还可以由读者自主操作，从而一线服务工作人员从刷条码、检查借阅数据和充磁消磁等机械的劳动中解脱出来，轻松愉悦地服务于读者。从根本上以人为本，高校图书馆得以大幅度提升服务质量，并发掘更多读者需求。移动图书馆与微信图书馆的使用，便于读者把图书馆带在身边。

1.RFID无线射频系统的应用

RFID无线射频识别技术[4]，是非接触式自动识别的一种。无线射频识别系统通常由智能标签（射频标签）和阅读设备组成。借还书与防盗侦测均利用RFID。借还书时图书中的智能标签被自动注记为已借或已还。读者还可以使用自助借还书机完成借还书手续，管理员只需指导答疑。服务台工作站可以处理如图书延期和数据更改等。RFID无线电波式防盗侦测门十分稳定，同时检测率高，可以很容易地找出藏在衣物或公文包内的未借图书并提示给工作人员。馆员进行图书盘点、顺架和定位时，只需将便携式智能标签读取器在图书架上移动，并且可同时读取多个标签，这极大地提高了工作效率。图书定位后读者查书找书极为方便准确。采用RFID无线射频识别技术后，读者能自助借书还书、自助缴纳图书逾期费和自助打印扫描等，馆员只需指导提示解答疑惑，服务质量大幅度提升。图书能定位，书在馆里的具体位置精确到哪一个书架的哪一层，找书变得方便简单。门禁系统报警有文献数据提示，只需温馨提醒看着完成操作。随书光盘既可借阅也可网上下载，联创自助打印、扫描、缴纳逾期与赔偿费用只要刷一卡通，非常便捷。在线QQ咨询留言，随时解决馆内外读者疑问。移动图书馆随时随地查书检索资料、图书续借和纸质图书的电子版本阅读。微信图书馆可以及时了解图书馆动态、新书通报、借阅查询以及阅读交流与分享。

2.移动图书馆的应用

移动图书馆[5]是指面向移动用户提供的以智能手机、Ipad、PDA等移动终端设备为载体，通过无线接入的方式访问图书馆资源、阅读电子书、查询书目和接收图书馆服务信息的一种服务方式。移动图书馆一般通过用户下载安装移动图书馆客户端的方式来实现。通过移动图书馆服务，用户可以使用各种移动设备，随时随地获取图书馆资源和服务，包括：馆藏查询、借阅信息查询、图书到期催还、图书预约、图书荐购、图书馆书目到馆通知，讲座通知，在移动终端上直接浏览和获取图书、期刊、论文等电子文献的全文，进行视频资料点播，查阅在线资料等，移动设备可以享受到通过PC机能够享受到的所有服务。

3.微信图书馆的应用

微信图书馆，是指通过腾讯微信公众平台，来实现与图书馆自动化系统的对接，以实现基本的图书馆功能。微信在读者中的普及度很高，这为微信图书馆的推广提供了很好的平台，读者特别希望通过微信实时收到与自己切实相关的各种信息，并且希望通过微信与馆员进行实时咨询，快速解决问题。微信图书馆的服务内容更侧重与读者的交互，线咨询与互动，消息推送等。在平台上进行文献传递。

（三）大数据环境下读者服务方式的变化

基于共性需求的图书馆服务模式：在“大数据时代”的背景下，传统的WAP网络网站通信服务、移动式的网络电子书服务、移动短信通信服务等较为原始的电子移动服务已无法满足广大图书馆用户的需求。如今，大多数用户均希望能够获取更加先进、智能、物美价廉的移动电子服务。而正是这些用户的不断追求，才使得更加便捷、快速、智能、优惠的大数据移动服务应运而生。如：移动互联图书馆管理系统、移动定位服务系统、移动多媒体服务系统、移动专家咨询系统、移动用户增值管理系统等移动数据服务均是“大数据时代”背景下扩大用户群以及提升用户使用范围的强有力的措施。

1.个性化服务的环境需求

图书馆自身主要是从机制上改变，就是图书馆馆员要改变服务的意识，不能再以自己为中心为用户提供服务，而是要面向用户的信息需求来提供服务。图书馆通过加强信息资源管理和人员管理来促进和完善管理机制，从而改善图书馆的信息服务体系，具体可以通过培训，激励等措施来实现。另一方面从用户方面着手，图书馆可以通过各种方式让用户积极参与到数字图书馆信息服务中。加强用户和图书馆员的交流，这样图书馆员就可以更加直观的了解用户的信息需求，针对用户的信息需求为用户提供信息资源。通过用户参与图书馆信息服务的方式，可以使用户和图书馆建立良好的互动关系，真正实现图书馆为用户提供个性化的服务。

2.个性化定制推送服务

个性化信息定制推送服务是以用户为中心的信息服务。这种信息服务是建立在对用户的信息的挖掘和分析的基础上，用户的信息包括用户的基本信息如性别、年龄、教育背景、知识结构、兴趣爱好和行为信息（如检索工具的使用和经常搜索的网站等信息），实现用户个性化信息推送服务。这就需要分散在某个领域或者相关的几个领域的知识以主题为标准对知识进行分类、整合和集成。在个性化定制服务中根据特定的用户信息需求，可以为用户提供定制的Web浏览页面、信息频道或信息栏目；也可按照特定用户预先选定的知识门类、学科专业、信息内容等信息需求方向，?用智能软件和人工干预相结合的方法，快速组织与定制检索式，把有针对性，专业性信息资源定时发送给特定的用户。专业教学产业园是高校图书馆的特色文献资源，主要面向高校师生的信息资源个性化需求，将科研信息、教学信息和数字化资源信息整合在一起，把教学实施过程中产生的信息资源和图书馆的数字化信息资源进行集成，展现出高校的数字图书馆参与教学、跟踪教学、服务教学的作用。用户登陆后通过导航获取教学参考资源、中外文电子期刊资源、电子图书资源及网络相关的学科站点资源。用户还可以根据个人的兴趣和需求实现专业期刊的定制、特定期刊的定制、电子图书的定制和中外文数据库中期刊论文的定制[21]。系统会自动将实时更新的动态信息通过Web技术提供给用户浏览，并通过电子邮件进行推送。中文期刊论文定制是系统基于对用户的信息进行挖掘分析出用户的个性化信息需求为用户提供定制表单，通过在线资源管理系统或个人电子邮件推送到用户的手中。同时保证读者信息的安全，保护读者隐私。

结束语

大数据时代，随着RFID无线射频技术、移动图书馆、微信图书馆的使用，高校图书馆的服务质量随着建设发展而提升，读者满意度有很大提高。同时，数据资源海量化、多样化、快速化和价值化的体现，高校图书馆必须依靠大数据处理平台，挖掘数据资源价值，制定科学管理章程，对读者需求做出准确的判断和预测，从而更好地提供高效、经济、安全、适合率高和个性化的智慧型服务。

参考文献

7.大数据方向的研究生篇七

1 大数据的相关概述

1. 1 大数据的定义

所谓的大数据, 本着不同的角度往往有着不同的定义, 一般而言, 大数据主要是容量相对较大的一种数据资源, 由于有着相对规模巨大的资料涉及量, 进而难以借助于相关的软件工具对其数据进行合理性的管理和汲取。就其实质性而言, 大数据往往有着巨大的数量和复杂的结构, 但是同样也有着较多类型的数据集合。

1. 2 大数据的特点

大数据不仅仅有着巨大的数据量和多样化的数据类型, 同时也有着较低密度和较大价值的视频, 在对数据处理的过程中又有着相对较快的速度。大数据在实际形成过程中, 其数据类型逐渐的升级, 进而使得当前的数据量越来越大, 随着互联网的大量普及, 网络数据以及其事业单位数据在实际的演化形成过程中, 更加的注重数据的基本结构类型。同时当前的网络数据往往又有着一定的媒体数据和日志数据, 其类型相对来说比较纷繁, 没有一定的规律可循。当前的大数据中不仅仅有着较低的密度组成, 同时也有着较大的经济价值, 但是在对数据进行收集处理的过程中往往存在相对较大的潜在价值。当前大数据在对信息进行处理的过程中, 往往有着较快的处理速度, 进而对海量的数据进行综合性的分析处理, 并将巨大价值的信息和产品服务加以获取, 这一过程的实现进而使得当前的大数据往往有着相对较深刻的洞察力。

2 旅游数据挖掘

2. 1 数据挖掘的定义

所谓的数据挖掘, 就其技术角度而言, 在某种程度有事对数据的知识的一种发现, 在对大量数据、有噪声以及模糊数据进行提取的过程中, 从根本上将有潜在价值的信息加以提取。数据挖掘的过程中往往需要相关决策的支持, 进而实现对大量数据的自动性分析, 并对其数据进行合理性的归纳处理, 对潜在模式加以挖掘进而为相关数据的搜集提供必要性的决策支持。

数据挖掘的过程中, 从其商业角度而言, 数据挖掘相对来说主要是一种相对崭新的一种商业性的信息处理技术, 通过对商业, 例如说旅游行业, 在对旅游行业相关的信息加以处理时, 借助于某种信息技术, 对海量信息进行相关的抽取、转化以及分化和模式化处理的过程中, 进而对旅游行业相关信息知识的决策性信息加以提取, 从根本上实现数据自发式的旅游商业性的模式。

总而言之, 数据挖掘作为一种综合性的信息处理技术, 往往涉及多个学科的相关技术, 不仅仅包括数据库的相关技术、统计学知识以及神经网络等相关具体知识, 同时也包括一些数据可视化和信息检索功能, 从根本上实现对数据的综合性处理和挖掘。而基于旅游数据挖掘的过程中, 在对多个角度加以采取, 并实现信息决策的控制和信息之间的管理, 进而从根本上为信息的查询提供必要性的决策支持。

2. 2 旅游数据挖掘的技术

数据挖掘技术不仅仅包括信息的关联性分析、信息序列模式的分析、信息的分类以及聚类等, 同时也实现对信息异常的检测。而旅游数据的挖掘, 主要是对关联分析加以采用, 并对旅游的相关信息进行实时搜索, 并对出现概率最高的模式加以采用, 通过对其进行聚类和分类, 对旅游数据的相似性进行分析, 并存放相似的信息, 进而为相关的决策者的决策提供必要性的支持。

3 旅游大数据及挖掘在旅游业应用的必要性

随着时代经济的飞速发展以及科技的进步, 现代化大数据的应用越来越广泛, 而当前国内旅游业也在飞速发展着, 当前旅游业对于大数据的应用有着越来越高的重视度, 以至于旅游业中的相关管理部门逐渐的关注大数据的实际应用情况和当前的研究现状。

旅游行业在飞速发展的同时, 基于网络时代发展的今天, 旅游网站的精准设计往往需要对大数据技术加以应用, 进而为当前游客旅游提供必要性的帮助, 对最佳的旅游景点进行推荐。现如今, 旅游行业中旅游网站的数据多达5亿页, 其旅游网站的网页不仅仅包括Hopper, 同时也保罗一些社交旅游网站和酒店整合搜索引擎等。通过对相关的形成进行记录, 并做好平台的分享设计, 加强其游客和旅游行业相关负责人之间联系, 从根本上保证了旅游行业的全面快速发展。

基于大数据下的信息多元化发展的今天, 游客仅仅借助于网站, 对想要去的旅游场地进行点击, 将会自动弹出相关和旅游有关的吃、喝、住、行等生活必需, 同时其产品在实际的选择过程中, 更是有着海量的信息, 往往需要游客自行选择和自行判断。

同时旅游大数据及挖掘在旅游行业的应用, 通过借助于百度, 对数据信息进行及时的搜索和引擎, 这一数据的提供不仅仅保证了当前旅游企业良好的营销发展, 同时对于当前旅游行业社团队的监测以及景区人数的监测等提供了一定的积极作用。

总而言之, 旅游大数据及挖掘在旅游业中的广泛应用, 不仅仅为现代化旅游企业的飞速发展提供了有利的促进作用, 同时对于人们对旅游信息的科学化搜集和掌握也提供了一定的便利, 不仅仅对客流的趋向有着准确的预知性, 同时对于游客的喜好也有着直接性的掌握, 并对现代化旅游公共服务的改善有着极其有利的作用。因此旅游大数据及挖掘在旅游业的应用有着一定的必要性。

4 旅游大数据及挖掘在旅游行业的应用

旅游大数据及挖掘在旅游行业中的应用过程中, 不仅仅实现了对隐藏信息的挖掘, 同时也为现代化旅游业的发展提供了重要的价值信息, 其应用的过程中具体体现如下:

4. 1 对有价值的旅游信息加以挖掘

挖掘有价值的旅游信息的过程中, 大数据通过对游客对旅游网站日志的点击率进行分析, 并分析用户较为常见的一种浏览行为, 进而对游客较为感兴趣的旅游目标进行掌握和搜集。结合大数据挖掘的信息, 旅游管理相关部门就要对旅游信息网站进行优化设计, 并尽可能地保证期网站的优化设计和游客的实际需求有着一定的吻合度, 并保证现行的旅游服务更优质和更全面。

4. 2 对潜在旅游客户挖掘

在对潜在旅游客户进行收集的过程中, 通过对数据进行聚类性的分析, 并结合游客的一些访问记录, 对游客的相关知识进行综合性的分析和总结, 及时地关注和搜集潜在客户的喜好, 并将客户最感兴趣的旅游信息加以推荐。

4. 3 旅游路线的优化

旅游大数据及挖掘在旅游行业应用的过程中, 通过挖掘游客对旅游线路和目的地的访问情况, 并进行综合性的分析, 进而对最具有市场潜力的旅游路线加以选择, 进而合理地规划好相关性的旅游路线, 对旅游网站的结构进行动态性的处理, 并将网站的粘性有效增加, 进而将网站的访问量全面提高。

4. 4 旅游项目和目的地的推荐

旅游大数据及挖掘在旅游行业的引用中, 借助于数据挖掘, 对不旅游项目和目的地有着一定的推荐作用, 通过对涵盖所有目的地的旅游数据库创建, 并借助于数据挖掘工具, 对客户的行为和兴趣爱好进行分析, 并形成不同类型的旅游服务方案, 集合游客的实际旅游爱好, 对最佳的旅游项目和其目的地进行推荐, 尽可能地将旅游客户的满意度全面提高。

总而言之, 旅游行业作为一项经济性、复杂性以及庞大性的社会活动, 在对大数据与挖掘进行综合利用的工程中, 从根本上实现了当前旅游产业的有效管理, 不仅仅将旅游产业的科学发展和现代化建设推进, 同时也为旅游行业的全面发展提供了优质的服务。旅游大数据与挖掘在旅游行业的应用中, 更要对国家级旅游大数据发展战略加以制定, 并保证各级旅游管理部门对智慧旅游平台加以建设, 及时地收集和掌握游客的喜好转变, 保证旅游信息的实时性和有效性。同时旅游大数据与挖掘在旅游产业的应用中, 更要做好大量信息的分析和挖掘处理, 加强旅游企业内部的信息管理, 将企业内部的数据化程度全面提高, 对内管理程序进行优化处理, 加强对客户信息的搜集, 进而全方位地积累客户的数据, 对有价值的旅游信息进行宣传。

5 结论

随着时代经济的飞速发展, 旅游大数据与挖掘技术同样也在蓬勃发展着, 而当前旅游市场的竞争日益激烈, 为了更好地保证旅游企业有着更好的市场发展前景, 现代化旅游企业更要做好旅游大数据的信息处理工作, 并对其有效信息进行挖掘, 进而获取具有价值意义的信息, 争取更多的市场发展机会, 合理地配置旅游资源的相关系统, 不断地寻找潜在客户, 进而结合潜在客户的要求, 对个性化的旅游服务提供, 全面推动旅游行业的飞速发展。

摘要：近些年来, 随着时代经济的飞速发展以及科学技术的日新月异, 旅游行业逐渐蓬勃发展逐渐引领当今时代发展的潮流。同时, 当前大数据时代的来临也是当今媒体关注的热门话题之一。对于如何在旅游行业中应用旅游大数据始终是旅游行业领域研究的焦点之一。本文在对旅游大数据与挖掘及其在旅游行业的应用方向研究的同时, 首先对大数据和旅游数据挖掘作了主要的概述, 并分析了旅游大数据与挖掘在旅游行业应用中的必要性及其具体的应用, 最后探讨总结了旅游大数据与挖掘在旅游行业的应用方向。

关键词：旅游大数据,挖掘,旅游行业,应用方向

参考文献

[1]彭亚发, 谢小兰.应用数据挖掘技术提升金华地区旅游业核心竞争力的研究[J].电脑开发与应用, 2013 (3) :7-10.

[2]郭鑫.旅游大数据与挖掘分析研究[J].电脑知识与技术, 2013 (14) :3215-3216.

[3]罗成奎.大数据技术在智慧旅游中的应用[J].旅游纵览 (下半月) , 2013 (8) :59-60.

[4]邓冰.基于大数据挖掘的北京地区自行车旅游研究[J].公路交通科技 (应用技术版) , 2014 (7) :299-302.

[5]吴英鹰.大数据背景下旅游企业网络营销的创新——基于AISAS消费者行为分析[J].中国商贸, 2013 (35) :107-108.

8.大数据方向的研究生篇八

关键词：大数据知识服务知识库数据清洗非清洁数据清洁度

中图分类号： G302；TP391 文献标识码： A 文章编号： 1003-6938（2013）05-0016-06

1 引言

随着以微博、社交网络等为代表的新型信息发布方式的不断涌现，人类社会的数据种类和规模正以前所未有的速度在不断地增加和累积，大数据时代正式到来[1]。在大数据环境下探讨知识服务，不再局限在传统的文献服务，而必须同步数据的爆发式增长与社会化趋势，将视角瞄准大量的碎片化信息、用户行为、用户关系，并将焦点汇聚在由此产生的实时数据、非结构化数据及机器数据。知识服务的内涵，将随着大数据的驱动而深刻发生变化，它将帮助一个组织更好地调用内部、外部以及公共信息，并进行数据分析，做出前瞻性的数据判断。

美通社最新发布的《大数据市场：2012至2018年全球形势、发展趋势、产业分析、规模、份额和预测》报告指出，2012年全球大数据市场产值为63亿美元，预计2018年该产值将达483亿。2012年，美国政府拨款2亿美元启动“大数据研究和发展倡议”计划。IBM、微软、Google等国外IT巨头早已嗅到了“大数据时代”的商机，这些国际巨头借助自己拥有领先技术和丰富资源，以及稳定的大客户群，实力雄厚，率先涉足。

我国互联网数据中心（IDC）对中国大数据技术和服务市场2012～2016年的预测与分析指出：该市场规模将会从2011年的7760万美元增长到2016年的6.17亿美元，未来5年的复合增长率达51.4%，市场规模增长近7倍。在国内，大数据正在引起越来越多的企业关注。不但阿里巴巴、腾讯等把大数据当成近期的重点项目。作为国内互联网产业的发源地和创新高地，中关村也在抢抓大数据发展机遇，着手布局大数据产业。

学术界、工业界甚至政府机构都已经开始密切关注大数据问题，并对其产生了浓厚的兴趣。大数据是新一代信息技术的集中反映，表现在数据从简单的处理对象转变为一种基础性资源，大数据的规模效应正在给数据存储、管理以及数据分析带来了极大的挑战，知识管理方式上的变革正在酝酿和发生。如何有效存储、管理、组织和更新大规模的数据，如何有效利用存储的数据进行推理获取知识并求解问题，这也是目前图书情报领域一个重要研究课题，正如Google的首席经济学家Hal Varian所说[2]，数据是广泛可用的，所缺乏的是从中提取出知识的能力。由此，可以认为数据收集的根本目的是根据需求从数据中提取有用的知识，并将其应用到具体的领域之中。大数据环境下，更需要高效的知识提取手段，使得大数据源源不断提供有用的知识，而非知识被“淹没”在大数据中。在“数据海洋”中对大数据进行知识提取，最有可能的手段是讓大数据“缩水”，祛除一些噪声数据，对剩下的那些蕴含所需知识的数据进行提取，这也是进行知识管理的前提，更是知识服务的基础。

而在大数据环境下，要做好数据分析并以此做出数据判断的基础工作是数据清洗。大数据的维度包含了数量、多样性、速度、精确性等，在如此大维度中不可避免的存在着粗糙的、不合时宜的数据，如何将这些非清洁数据有效转化成高质量的干净数据，涉及到知识组织中的数据清理。数据的质量体现出数据的价值，更是知识服务水平的保障。数据清洗的最终目的就是提高数据的质量。

2 相关研究综述

系统科学理论对知识组织研究过程中一些问题和现象进行了科学的阐释和有效地引导。借助控制论（Control Theory）可为实现知识服务提供理论支持，具体而言过程化的控制思想对数据加工处理环节的数据质量控制、加工处理环节的时间、进度等控制，为知识组织工程的时间、进度和质量的控制提供了有效地理论支撑。在系统科学理论的指导下，就可从控制论角度出发采用数据清洗手段解决在知识组织过程中数据的质量控制、数据和知识生产流程控制等难题，并能基于控制论基本原理解决知识组织过程中大量复杂问题。

在数据清洗问题上，王曰芬教授[3]领衔的研究团队就从问题产生的背景和国内外研究现状进行了系统的综述研究，并给出数据清洗的定义和对象且说明了数据清洗的基本原理、模型，以及分析相关算法和工具，进一步给出了数据清洗评估方法。他们的成果对今后数据清洗的研究奠定了基础。曹建军等[4]认为数据清洗是数据质量研究的起点，从数据质量的角度明确数据清洗的作用，并提出了数据清洗的一般系统框架，该框架具备了柔性、可扩展性、交互性好、松耦合的特点。叶焕倬等[5]研究了相似重复数据清理方法，重点对检测和清除算法按照算法类型及相关改进思路进行分类综述，值得注意的是他们的视野已关注到将知识和语义的概念引入到数据清理框架中。王宏志等[6]的研究在一定程度上容忍非清洁数据的存在，侧重研究包含非清洁数据的数据库管理技术，提出了非清洁数据的表示方法，支持非清洁数据的数据操作，这样的非清洁数据模型包括一个以关系操作为核心的操作代数，可以有效地支持非清洁数据的各种该应用。而介于清洁数据与非清洁数据中间的不确定数据，周傲英教授等[7]注意到数据的不确定性普遍存在并且表现形式多种多样，提出了针对不确定数据的数据模型运用排序、剪枝等启发式技术设计新型算法，进一步综述了数据模型、数据预处理与集成、存储与索引、查询处理等方面的工作。张岩等[8]的研究中，给出了衡量数据质量的方法，并且可根据用户对结果质量的需求给出达到一定质量的查询结果。叶鸥等[9]的研究瞄准中文数据清洗问题产生的背景、国内外研究现状与研究热点，突出了中文数据清洗基本原理、模型及算法并着重阐明了中文数据清洗的方法，也总结中文数据清洗研究的不足，并对中文数据清洗的研究及应用进行了展望。

nlc202309030515

已有的研究成果，对本文展开数据清洗的研究在模型、技术、方法奠定了基础，控制论又从知识服务方向提供了从事数据清洗的理论指导。现阶段，针对数据清洗的研究不多，从知识服务的角度探究数据清洗的研究成果更少。而大数据引来了国内外越来越多的关注，逐渐发展成国民经济中一个重要产业，标志性的特征就是：①数据种类和规模正以前所未有的速度在不断地增加和累积；②数据分析的深度需求与知识服务广泛整合的鸿沟在拉大。在如此大数据的环境下，以知识服务为目的，深入研究数据清洗，将面临的问题：一方面是在知识组织过程中很多非清洁的数据是很难被彻底清洗干净；另一方面，对非清洁数据的清洗可能造成部分知识的丢失或失真；再一方面，知识库中信息更新频繁，要同步执行非清洁数据的辨识与清洗将极大影响知识库系统的效率，以致知识组织的过程低效。

针对面临的问题，本文从容忍非清洁数据存在的研究视角试图解决从包含非清洁数据的知识库中获取满足清洁度要求的查询结果的问题，也就是要给出非清洁数据的清洁度的描述。而非清洁来自两个方面，一方面是数据本身的非清洁，表现特征是数据的错误、不准确、不完整；另一方面是数据间的非清洁，表现特征是数据的重复、冗余、不一致。针对非清洁的两个方面，本文的研究工作将从元组上添加清洁度来描述数据清洁度，以此实现非清洁数据的清洁度的描述。

3 大数据对数据清洗的基础性需求

大数据不仅数量大，而且是异构和多媒体的。在大数据环境下探讨知识服务的解决方案、实现途径和方法，以及实现知识服务涉及到的技术问题。首先在宏观层面明确大数据对实现知识服务的要求，其次在技术实现层面找到支持数据处理、信息分析和知识服务涉及的基础性突破，即数据清洗。

3.1 大数据对知识服务的要求

大数据的价值在于提炼其中隐藏在数据中的规律和有关知识，它对知识服务的要求集中体现在两个方面：首先是大数据环境下的数据整合与规划。大数据不仅仅是容量大、内容丰富，而且其结构是异构的，数据产生的速度也是飞速的，数据中蕴含的知识也是无法衡量的。数据的繁杂、良莠不齐，使数据的利用效率受到影响。通过整合与规划提高数据的利用效率、提升数据的使用价值；其次数据的知识关联与组织。孤立的数据价值低，也只能完成传统的信息服务。针对大数据的知识服务必须将数据进行关联，使之能够为解决问题直接提供知识。通过分析知识组织的关联机制，构建以知识服务为目标的知识地图，确保从传统的信息服务能够上升到知识服务层面。

3.2 知识服务对数据清洗的需求

在知识组织过程中，知识库“吸收”数据且“供给”知识，最终目的是为知识服务提供满足应用所要求的合适的查询结果，数据是知识的基础，数据质量决定了知识的价值，而数据质量问题是由非清洁数据造成的。为此，知识服务若要实现高端的服务水平，基础在于知识组织，瓶颈在于数据清洗。数据清洗的目的是检测数据本身的非清洁和数据间的非清洁，剔除或者改正它们，以提高数据的质量。知识服务不仅需要分析非清洁数据的各种类型不一致、不精确、错误、冗余、过时等的解决方案，更需要追溯非清洁数据的形成源头，如：①数据本身来源不清洁导致的非清潔数据，例如数据采集和录入的精确；②数据模式的不清洁和信息集成中模式不匹配导致的非清洁数据；③数据的查询请求本身是不清洁的，导致获取了非清洁的查询结果。最终结合不同来源与不同类型，反馈修正解决方案使之能配合知识表示效用，以及在提高知识服务水平的同时，保障知识服务的效率。

4 数据清洗的基本框架模型

以一个非清洁数据的片段为例，如表1所示，可以很容易判断：①不完整的数据有：（ID：3、字段：City）“BJ”；②错误的数据有：（ID：6、字段：Name）“Mal-Mart”；③冗余的数据：（ID：1、3、6）表示同一个实体。

对非清洁数据，数据清洗的框架模型分5个部分逐步进行，整个框架如图1所示。

4.1 准备

包括需求分析、大数据类别分析、任务定义、小类别方法定义、基本配置，以及基于以上工作获得数据清洗方案等。通过需求分析明确知识库系统的数据清洗需求，大数据类别分析将大数据归类以便同类数据进行分析，任务定义要明确具体的数据清洗任务目标，小类别方法定义确定某类非清洁数据合适的数据清洗方法，基本配置完成数据接口等的配置，要形成完整的数据清洗方案，并整理归档。上述案例，可以看出表1描述的是超市的相关信息。

4.2 检测

对数据本身及数据间的预处理检测包括相似重复记录、不完整记录、逻辑错误、异常数据等，并且对检测结果进行统计，全面获得的数据质量信息，并将相关信息整理归档。上述案例（表1）检测出存在有：①不完整的数据、②错误的数据、③冗余的数据。

4.3 定位

对检测结果的归档信息进行数据质量进行评估，获得非清洁数据的定位并进行数据追踪分析，分析非清洁数据及由此可能的知识表示的影响，分析产生非清洁的根本原因；进而确定数据质量问题性质及位置，给出非清洁的修正方案，并将相关信息归档。根据定位分析情况，可能需要返回“检测”阶段，进一步定位需要修正数据的位置。上例中非清洁数据片段的位置：（ID：3、字段：City）、（ID：6、字段：Name）、（ID：1、3、6）。

4.4 修正

在定位分析的基础上，对检测出的非清洁数据进行修正，包括非清洁数据标记、不可用数据删除、重复记录合并、缺失数据估计与填充等，并对数据修正过程进行存储管理。上例中在定位后，修正上述三类数据，经过修正后，得到如表2所示数据片断。

4.5 验证

对修正后的数据与任务定义的符合性进行比对验证，如果结果与任务目标不符合，则做进一步定位分析与修正，甚至返回“准备”中调整相应准备工作。表2反映出经过一轮修正后的数据片断，与表1相比部分不完整的数据、错误的数据、冗余的数据得到了清洗，但清洗过后的数据显然还不完美，依然有明显不一致的地方。

nlc202309030515

5 基本框架模型的局限

实际大数据应用中，前面提出的基本模型具有局限性：首先，大数据通常是异构且碎片化的，多数情况下这些类型的非清洁数据是难以被彻底清洗干净的；其次，对非清洁数据的清洗可能会造成蕴含知识的损失，以致知识的失真；最后，对于知识库频繁更新，同步执行非清洁数据的辨识和清洗将极大地减低系统的效率。

再如上例中，从表1到表2，在一定程度是进行了数据清洗，但深入观察可以发现（ID：6、字段：Name）“Walmart”虽然不存在拼写错误，但表示方式与其他的“Wal-Mart”并不一致，还有（字段：Phn）的表示也不一致，这些不一致的地方阅读者容易理解，而机器很难“理解”。也就是，经过一轮的数据清洗，出现了知识内涵一致的元组（“Walmart”与“Wal-Mart”），却存在表示字符上的差异，这是否意味着需要进一步进行数据清洗？如果由机器进行更细腻的数据清洗，必然将出现一部分信息的丢失或失真，并且带来机器计算上的负担。因此，数据清洗是必要的，但清洗过后，依然存在非清洁数据也是必然的。

从上述分析可以看出，非清洁数据的辨识与清洗很难保证彻底消除非清洁数据，特别大数据的多维度性，给清洗带来了困难，且随着清洗的细腻程度逐步提高，知识库系统的运行性能将逐步降低伴随将逐步丢失数据中蕴藏的信息，不能快速有效地解决非清洁数据带来的问题。为此，大数据的存在，需要在一定程度上容忍非清洁数据的存在。这样，研究管理包含非清洁数据的知识库系统成为了重要的问题，其核心在于如何从包含非清洁数据的知识库中得到满足应用所要求清洁度的查询结果。

6 非清洁数据的清洁度的机制

6.1 清洁度获取

清洁度本质上反应的是数据质量。目前，清洁度定义可以用两种方法描述：一种是概率的方法，即将元组清洁度定义为该元组准确的概率；另一种是相对误差的方法，即定义元组对于真实值的相对误差。其中应用最为广泛的是概率的方法。如表1中，可以判断元组1、3和6表示同一个实体，因此，可以合并这3条元组，根据这个数据片段只能判断“Name”取值更可能为“Wal-Mart”，但机器无法完全排除“Mal-Mart”，为了描述每个可能取值的质量，赋予每个值一个概率值，表示该值的清洁度。如“Wal-Mart”在同一个实体3条元组出现了2次，则清洁度为2/3，从而得出该条实体各元组的清洁度，如表3所示。

在实际应用中，元组的清洁度可以通过人工或者自动的方法获取，主要来源包括：

（1）人工添加。最直接的方法是由用户根据领域知识和数据的来源添加数据的清洁度。这种方法的问题在于，当数据量很大时，需要大量的人力。

（2）属性清洁度组合。由于一些属性的清洁度是可以预知的，比如在科学统计数据库中描述某仪器采回数据的关系，模式为（Time，Value），其中：Value 列来源于数据采集设备，该设备的相对误差是知道的；而 Time列是在采样时由系统添加，可以看成清洁的列。因此，该关系中元组的清洁度定义为 Value 列的清洁度。

（3）模式转换。在信息集成中，在数据之间进行模式转换会产生清洁度的损失，在一些信息集成方法中会给出模式转换时数据的损失，经过归一化以后，该损失可以用作表示数据清洁度。

（4）信息提取。信息提取的过程中，一些技术会根据原始数据的特点或者机器学习的方法求得某数据属于某元组概率或者准确率，这个值可用作数据清洁度的描述。

（5）实体识别。当前，有很多实体识别的方法将数据集合划分成为实体，通过描述同一实体的不同元组之间的不一致性来描述实体的清洁度。

以上多种方法在一些应用中是可以结合使用的，根据本模型的特点，在结合使用时，元组的清洁度应为多来源清洁度的乘积。一方面使得元组的清洁度满足取值在[0，1]之间；另一方面，这样的方法体现了多种清洁度的复合。例如信息提取系统中，首先进行信息提取，然后进行实体识别，则最终结果的清洁度可以定义为信息提取步骤的清洁度与实体识别步骤清洁度的乘积。

6.2 操作的实现策略

通过在每个关系中添加描述清洁度的列（如表3），现有的關系数据库系统可以对本模型所描述的数据进行管理。然而，现有关系数据库中的管理机制不足以支持所有的操作。考虑到随着操作的进行数据清洁度是递减的，因此根据查询的需求，在操作执行的过程中某些环节需要过滤掉清洁度不可能满足查询要求的中间结果，这样可以减小中间结果的数据量，从而加速查询的处理。例如，对于如果查询要求结果中每条元组的清洁度在 0.5 以上，则在查询处理的过程中可以过滤掉清洁度小于 0.5 的中间结果，因为由这些中间结果生成最终结果的清洁度一定小于 0.5。

6.3 基于阀值的相似连接算法

相似连接是在两个元组集合中选择出满足相似性下界（阀值）的元组对。目前已经有很多衡量相似性的方法：编辑距离、Hamming距离、杰卡德相似度以及余弦相似度等。本小节考虑的是基于编辑距离的相似连接。对于给定的两个字符串r和s，r和s的编辑距离ed（r，s）是指从r变为s所需要的最少的编辑操作（包括：删除、插入和替换）次数。如表4中，ed（Wal-Mart，Mal-Mart）=1，ed（80103389，010-80103389）=4。在实体关系数据库中，属性值可能含有多个取值，本书对相似连接算法给出如下定义。

定义1：相似连接。给定两个属性值集合R和S及编辑距离阀值k，R和S的相似连接是指选出所有的属性值组合（r，s），其中r∈R，s∈S，而且r和s满足至少存在一组可能取值r1和s2。它们的编辑距离ed（r1，s2）≤k。

以表4为例，给出两个集合R和S。若编辑距离阀值k设为3，则对应相似连接结果仅为（r1，s1）与（r2，s2），因为ed（Wal-Mart，Mal-Mart）=1≤3，ed（Jerry Strauss，Jerry Strauss）=0≤3。其余相似连接中（r2，s1）、（r1，s2）显然其编辑距离均超过阀值3，表5给出了连接结果。

nlc202309030515

其中，第二条元组（ID=2），ed（Jerry Smith，Jerry Strauss）>3、ed（Jerry Smith，Jeff Strauss）>3，故第二条元组对应清洁度为1/5*2/5+1/5*3/5=0.2。

在实际关系数据库中，所有可能值都有对应的清洁度，所以，所有相似连接结果也都会有一个清洁度，表示该结果的质量，如表5结果所示，而在实际应用中，我们只对清洁度比较高的结果感兴趣，对于那些较低清洁度的结果可以忽略。

定义2：基于阀值的相似连接。给定两个属性值集合R和S及编辑距离阀值k和清洁度阀值α， R和S的阀值相似连接是指选出所有的属性值组合（r，s），其中r∈R，s∈S，而且r和s连接结果的清洁度不低于α。

上例中，如果清洁度阀值α设为0.3，表5中两个集合R和S的阀值的相似连接结果不再是（r1，s1）与（r2，s2），因为第二条元组对应清洁度为1/5*2/5+1/5*3/5=0.2，该结果不满足清洁度阀值要求。

基于阀值的相似连接算法的特点是当编辑距离阀值k较大且清洁度阀值较小时，连接结果大小将接近于n2（n是连接集合的大小），反之连接结果集比较大。

6.4 清洁度的机制的研究不足

目前关于非清洁数据的清洁度机制的研究成果非常少，汇聚在图书情报领域的成果更少。而事实上，知识来源于数据的提炼，大数据大维度与碎片化中蕴含了丰富的知识内涵。上一节的探讨，只描述了清洁度机制的框架，研究也還停留在数据本身的处理，而清洁度机制是一项复杂的研究，还有深入优化的研究空间。譬如，将清洁度机制与知识的语义距离结合，如ed（Wal-Mart，Mal-Mart）=1，ed（80103389，010-80103389）=4，虽然存在编辑距离，其实它们都是同一个知识点，进一步的研究将涉及到是先进行知识的语义距离计算还是先进行清洁度计算，或者两者并行计算，这将是图书情报领域又一个难点。

7 结语

大数据时代的到来给知识服务带来了变革，迫使其将碎片化信息、社会化的信息提炼成描述用户行为、用户关系，并能解决问题的知识。为此，本文从大数据的研究背景下提出了对知识服务的要求，并面向知识服务，数据清洗的过程又是大数据环境下的瓶颈。给出了数据清洗的基本框架模型及其局限性，针对大数据的多维度性，在元组上增加了清洁度的描述，基于此研究了应对大数据环境下的非清洁数据的清洁度机制。

通过研究也发现了不足，下一步针对大数据的数据清洗将从知识的概念层次性入手，能体现知识之间的语义交叉这样更适用于大数据的大维度，根据知识的概念层次，通过消除知识的重复应用，建立原子知识序列，优化了用户的请求，减少了对知识库扫描的次数，从而提高了数据清洗效率。

参考文献：

[1]孟小峰，慈祥.大数据管理：概念、技术与挑战[J].计算机研究与发展，2013，50（1）：146-169.

[2]The Economist.Data，data，everywhere-A special report on managing information[EB/OL].[2013-04-26].http：//www.economist.com/node/15557443.

[3]王曰芬，章成志.数据清洗研究综述[J].现代图书情报技术，2007，（12）：50-56.

[4]曹建军，刁兴春，陈爽.数据清洗及其一般性系统框架[J].计算机科学，2012，39（11）：207-211.

[5]叶焕倬，吴迪.相似重复记录清理方法研究综述[J].现代图书情报技术，2010，（9）：56-66.

[6]王宏志，李建中，高宏.一种非清洁数据库的数据模型[J].软件学报，2012，23（3）：539-549.

[7]周傲英，金澈清，王国仁等.不确定性数据管理技术研究综述[J].计算机学报，2009，32（1）：1-16.

[8]张岩，杨龙，王宏志.劣质数据库上阈值相似连接结果大小估计[J].计算机学报，2012，35（10）：2159-2168.

[9]叶鸥，张璟，李军怀.中文数据清洗研究综述[J].计算机工程与应用，2012，48（14）：121-129.

作者简介：蒋勋（1980-），男，南京大学信息管理学院博士后，无锡城市职业技术学院电子信息工程系讲师，研究方向：知识工程与信息智能处理；刘喜文（1983-），男，南京大学信息管理学院博士研究生，研究方向：本体技术。