数据挖掘与知识发现(讲稿7-神经网络挖掘)

2024-07-28

数据挖掘与知识发现(讲稿7-神经网络挖掘)(共2篇)

1.数据挖掘与知识发现(讲稿7-神经网络挖掘) 篇一

知识管理与知识挖掘在情报研究工作中的实现

【正文】

1 传统环境下的情报研究工作

情报研究工作在我国通常被称为情报分析研究或者情报调研,是指针对特定的领域或主题,收集、积累相关文献、数据,加以整理、分析和研究,最终根据用户的需要提出分析研究结果或报告的全过程。从工作内容的性质来看,它实际上包括情报收集和情报分析两部分,即情报→研究。在传统的文献信息环境下,我国的情报研究工作主要依托于图书馆或其他文献机构,是有其特定的历史背景的。在这种环境的限制下,一个情报分析研究人员或机构一般只限于对某一个或某几个主题领域进行研究。因为基于传统的文献信息环境和技术条件,我们无法获得及时而广泛的文献信息,也没有整理和加工大量信息的手段,更不能满足对信息进行深加工的分析和研究性要求。

但是,在新的IT技术和因特网环境下,情报研究工作已经突破传统的基于文献信息源进行编译、汇编、综述的工作方式,而大量运用网络信息资源和零次情报,并且引进文献计量、调查统计、逻辑分析和数学模型等新的研究分析方法,用户对其成果也更加要求研究性和预测性了。

发达国家的发展历程表明,情报研究工作对国家的发展具有重要的战略作用,是综合国力的重要体现。近年来,我国的情报分析研究机构针对国家的各方面决策与管理工作需求,开展了多层次的研究和服务,完成了很多重要的情报分析研究任务和课题,为提高我国的决策和管理水平发挥了重要作用。但是,相对于目前的社会发展状况,我们的情报研究工作也存在着诸多问题,这些问题如果不能迅速解决,将大大影响情报分析研究机构的发展。

1)情报工作的低效。主要表现为不能有效地利用网络获取信息,不能通过多媒体表达研究成果,特别是在对已有的情报研究成果和信息资源进行管理和共享等方面大大落后于现有信息技术水平,难以形成快速反应能力。例如,情报收集与积累仍没有实现从资料卡片向数据库的基本转变,使得一个情报分析研究机构内部同时或先后的不同课题之间尚不能正式实现对资料、信息和成果的共享和复用,不仅造成了资源和时间上的巨大浪费,更增加了研究人员协作和管理的.难度,从而使情报研究工作难以摆脱被人诟病的“小作坊”模式而形成真正的规模。

2)研究方式的落后。当今的经济、社会和科学课题已经日益融为一体,且研究内容日益细化和深入,但我们的情报研究工作由于环境和条件的限制,研究范围有很大的局限,资料编译和汇编工作仍然占据了我们的大部分工作内容,真正有一定研究深度的综述性报道比较少,就更谈不上利用各种新研究方法系统深入地进行分析工作了。此外,由于研究人员间缺乏资源共享,造成情报分析研究工作各自为战、因人而异,工作成果的稳定性和可信度降低,再加之其他信息机构日益激烈的竞争,这种情况严重地影响了情报分析研究机构的发展和用户对我们的支持。

2 实现对情报研究的知识管理

面对严重落后于时代的局面,情报分析研究机构的主要对策应该是,根据情报研究工作的特点和需求,把情报研究工作的网络环境和技术手段提高到目前先进的IT技术水平,更主要的是结合先进的知识管理思想来设计情报研究知识管理系统并贯彻新的情报研究工作模式。这也是许多情报研究用户依据知识经济的时代背景对情报分析研究机构提出的要求。20世纪90年代以来,在知识经济大发展的促进下,西方发达国家的管理学界很快地经历了从信息管理到信息资源管理,再到知识管理的观念转变。而企业界更是将知识管理理论

[1][2][3][4][5]

2.数据挖掘与知识发现(讲稿7-神经网络挖掘) 篇二

随着企业间竞争的日益加剧, 企业不得不采取更加柔性、敏捷的战略, 来以客户为中心进行产品设计、研发、生产与服务, 使得以客户为中心的关系管理成为企业管理战略的新范式。企业识别出有价值的客户, 并将资源更多地投入到对该部分客户的保持上, 成为了客户关系管理的核心理念。显而易见, 识别出企业的价值客户, 成为了企业这种新范式战略成功实施的先决条件与关键步骤。

当前的企业已普遍地建立起管理信息系统, 可以收集到大量有关的客户数据。可以利用数据挖掘工具对这些客户数据进行分析与萃取, 可以提炼出价值客户的自然属性特征以及购买行为特性等隐含信息, 将这些有价值的信息在企业范围内传播、共享, 并用于营销策略的制定上, 从而完成了从繁杂的客户数据到特殊情境下的客户信息, 再到有价值的客户知识的转移过程。可以看出在这个过程中, 数据挖掘担当着客户知识发现的工具。实际上, 数据挖掘中的聚类分析、粗糙集、神经网络等具体方法已经被广泛应用到客户知识发现上[1,2,3]。本文侧重于利用数据挖掘中的判定树归纳法与RBF神经网络来进行客户知识的发现, 从而归纳出反映价值客户特征的客户属性, 并建立起价值客户的识别准则。这不仅为企业集中优势资源进行价值客户保持提供了科学的指导, 也为企业甄别性地获取新客户及将满足价值客户属性的潜在价值客户发展成为价值客户提供依据。

1 价值客户特征属性的归纳

以往关于价值客户的相关研究, 通常集中在价值客户的识别上, 客户的全生命周期价值 (即客户当前以及将来所产生的货币利益的净现值) 往往被作为参考的基准[4,5]。目前已有多种计算和预测客户全生命周期价值的方法[6,7,8], 但据此来进行价值客户识别大多无法归纳出反映价值客户特征的客户属性, 而这对于企业了解价值客户特征、甄别性地获取新客户以及将满足该类客户属性的潜在价值客户发展成为价值客户具有非常重要的指示意义。

本文利用数据挖掘中的判定树法对价值客户特征属性进行归纳, 挖掘出有益于企业营销的客户知识。该过程可以大体分为以下几个部分:构造客户数据集市;数据处理;目标类相关属性集的建立;构建分类模型。

1.1 构造客户数据集市

(1) 识别出企业的价值客户

企业的客户数据库通常将所有客户的交易记录及客户相应信息汇总在一起, 并没有将价值客户与非价值客户的数据进行相应地区分。因此, 有必要首先识别出数据库中哪些客户才是企业的价值客户。在学术研究及实践过程中, 通常以客户全生命周期价值作为识别企业价值客户的基准。因此, 本文选择生命周期已经结束的客户作为研究样本SC, 通过计算这些客户的全生命周期价值 (以下简记为CLV) 来进行客户价值的排序 (CLV的计算方法见式1) , 并根据某种规则 (如80/20法则) 确定出相应比例的企业价值客户。根据价值客户的识别结果, 在客户数据库中增加“价值客户”这样一个新的客户属性。

其中, t表示第t个时间单元, T为客户生命周期的时间长度, d为折现因子, P (t) 为客户在第t个时间单元为企业创造的利润。

(2) 建立客户的数据集合

从原有的企业客户数据库中抽取出与研究样本SC相对应的所有客户记录, 对缺省及异常数据进行相应的处理, 建立客户的数据样本集。由于企业数据仓库中的每位客户的信息都是由一系列客户属性所构成, 这些属性可能非常庞杂, 可将其大体分为客户的自然属性 (如姓名、性别、年龄、收入、联系方式等) 与客户行为属性 (如最近一次购买距今的间隔时间、购买频率、支付方式等) 两大类。

1.2 数据处理

(1) 客户属性的删除与概化:

对于具有大量不同值的某个客户属性, 若该客户属性没有定义概念分层, 或其较高层概念可用其他客户属性表示时, 应删除该客户属性;若该客户属性定义了概念分层, 可以用高层概念替换低层概念。

(2) 连续客户属性值的离散化

对于数值型的连续客户属性值, 首先根据客户属性值的大小进行排序, 然后设定相应的阈值将客户属性域划分为各个区间, 用区间的标号来代替实际的客户属性值。

1.3 目标类相关属性集的建立

如果利用所有的客户属性来进行类描述 (本文中, 新增的属性——“价值客户”作为目标类, 或称之为类标号属性) 显然是很繁琐的, 维数过多甚至会造“维数灾难”。因此, 可以利用属性相关性分析将与目标类不相关或弱相关的客户属性排除在类描述过程之外, 筛选出目标类的相关客户属性集。

属性相关分析的基本思想是计算某种度量, 用于量化属性与目标类的相关性。本文选择信息增益分析技术作为属性的选择度量, 选取具有最高信息增益 (或最大熵压缩) 的属性作为当前节点的测试属性, 使得对结果划分中的样本分类所需的信息量最小, 并反映划分的最小随机性[9]。其具体方法如下:设Ss个数据训练样本的集合, 每个样本的类标号均为已知。假定类标号属性具有m个不同值, 可对应定义m个不同类Ci (i=1, …, m) 。设S包含siCi类样本 (其中si是类Ci中的样本数) , 则一个任意样本属于类Ci的概率为si/s, 对一个给定的样本分类所需的期望信息可由下式给出:

设属性A具有v个不同值{a1, a2, …, av}。可用属性AS划分为v个子集{S1, S2…Sv};其中Sj包含S中的这样一些样本, 它们在属性A上具有值aj。若选A作为测试属性, 则这些子集对应于由包含集合S的节点生长出来的分枝。设sij是子集Sj中类Ci的样本数, 则由A划分成子集的熵或期望信息由下式给出:

其中项S1j++SmjS充当第j个子集的权, 并且等于子集中的样本个数除以S中的样本总数。期望信息 (熵) 越小, 子集划分的纯度越高。对于给定的子集Sj, I (s1j, s2j, …, smj) 由下式给出:

其中, sij|Sj|Sj中的样本属于类Ci的概率。

将在A上分枝所获得的信息增益定义为:

Gain (A) =I (s1, s2…sm) -E (A) (5)

Gain (A) 就是由于知道属性A的值而导致的熵的期望压缩。通过计算每个属性的信息增益, 选择具有最高信息增益的属性作为给定集合S的测试属性。另外, 可以设定相应的阈值 (可参阅文献[10]) , 将低于该阀值的冗余属性剔除, 从而建立起数据集合S的目标类的相关属性集。

1.4 构建分类模型

(1) 利用判定树归纳进行分类

判定树是一个树结构, 它的每个非叶节点表示在一个属性上的测试, 每个分枝代表一个测试输出, 而每个叶节点代表类或类分布。如前所述, 在树的每个节点上使用信息增益度量选择测试属性。在选定测试属性后就可进行判定树归纳, 其基本算法是贪心算法, 以自顶向下递归的方式构造判定树。算法的基本描述如下:

①判定树以代表训练样本的单个节点开始。②若样本均在同一个类, 则该节点成为树叶, 并用该类标记。③否则, 根据信息增益选择能最好地划分样本的属性作为该节点的测试属性。④对测试属性的每个已知值创建一个分枝, 并据此划分样本。⑤算法使用同样的过程, 递归地形成每个划分上的样本判定树。当一个属性出现在一个节点上, 则在该节点的任何后代就不必考虑。⑥当下列三个条件中的任何一个成立时, 停止递归划分:a.给定节点的所有样本属于同一类;b.没有剩余属性可以用来进一步划分样本 (此时使用多数表决, 将给定的节点转换成树叶, 并用训练集中多数所在的类标记它) ;c.分枝没有样本 (此时以训练集中的多数类创建一个树叶) 。

(2) 由判定树提取分类规则

提取判定树表示的知识, 并以IF-THEN形式的分类规则表示。对从根到树叶的每条路径创建一个规则, 沿着给定路径上每个“属性——值”对形成规则前件 (“IF”部分) 的合取项。叶节点包含对是否为价值客户进行预测, 形成规则后件 (“THEN”部分) 。

2 基于RBF神经网络的CLV预测

由前面所述可知, 在价值客户特征属性的归纳过程中, 本文已完成了对生命周期已经结束的客户的CLV计算, 对于仍处于生命周期某阶段的客户甚至企业的新客户来说, 如何准确地预测其CLV呢?虽然根据判定树所提取的价值客户分类规则可以判断出这些客户是否为企业的价值客户, 但由于该方法受限于类标号属性值的离散化, 因此仍然无法准确地确定CLV, 而这是将价值客户或非价值客户进一步细分的根本依据。

因此, 本文提出了基于径向基神经网络 (简称RBF神经网络) 的CLV预测方法, 如图1所示。该方法将训练样本的CLV作为神经元的输出变量, 将判定树所归纳出的反映训练样本客户特征的客户属性作为神经元的输入变量, 通过对神经网络的训练, 使其具备预测CLV的功能。图中S1与S2为中间隐层与输出层的神经元数, 由于本论文仅将CLV作为输出变量, 因此S2的值为1。

3 价值客户特征属性归纳及CLV预测的示例

3.1 数据处理及训练数据集的构建

从某企业的客户数据库中选取生命周期已经结束的客户作为样本, 利用公式 (1) 进行CLV计算并进行排序, 将CLV最大的20%比例的客户视为企业以往的价值客户, 并将“是否为价值客户”记录在所增加的“价值客户”这样一个新的客户属性中。建立起关于这些样本客户的数据集市, 使其包含着类标号属性 (即“价值客户”属性) 及客户的以下具体属性:

客户的自然属性。包括5个具体的客户属性:姓名, 性别, 年龄, 收入, 联系方式。

客户的行为属性。包括2个具体的客户属性:购买频率, 现金或信用卡的支付方式。

对构建的数据集市进行数据预处理。由于姓名及联系方式属性存在大量不同值, 且无法进行概念分层, 故将它们剔除掉。对年龄、收入、购买频率属性进行离散化, 所划分的区间及对应的描述值分别为:

年龄。划分区间为:25岁及以下, (25岁, 45岁) , 45岁及以上;所对应的描述值分别为:青年, 中年, 老年。

收入。划分区间为:月收入800元及以下, (月收入800元, 月收入2000元) , 月收入2000元及以上;所对应的描述值分别为:低收入, 中收入, 高收入。

购买频率。划分区间为:1年购买2次及以下, (1年购买2次, 1年购买6次) , 1年购买6次及以上;所对应的描述值分别为:很少购买, 一般购买, 经常购买。

通过预处理得到广义关系表, 从中随机抽取20个客户数据元组组成训练数据集, 如表1所示, 其他客户数据元组作为测试数据集。

3.2 相关属性集的建立

类标号属性“价值客户”有两个不同的值 (即{是, 否}) , 因此对应两个不同的类 (m=2) , 假设与其相对应的类分别为C1、C2。从表1的训练数据集中可以得出C1有5个样本, C2有15个样本。利用公式 (2) 可得训练集分类所需的期望信息为:

I (s1, s2) = I (5, 15) =-5/20*log2 (5/20) -15/20*log2 (15/20) =0.811。

计算每个属性的熵, 如对于收入属性:

低收入:s11=0 s21=6 I (s11, s21) =0

中收入:s12=1 s22=7 I (s12, s22) =0.544

高收入:s13=4 s23=2 I (s13, s23) =0.918

由该属性划分成子集的熵为:E (收入) =6/20*I (s11, s21) +8/20*I (s12, s22) +6/20*I (s13, s23) =0.493, 因此这种划分的信息增益是:Gain (收入) =I (s1, s2) -E (收入) =0.318。类似地可以计算出按其它属性划分的信息增益:Gain (性别) =0.009, Gain (年龄) =0.086, Gain (购买频率) =0.24, Gain (支付方式) =0.163。将属性相关性的阈值设定为0.01, 则将与类标号属性弱相关的“性别”属性剔除掉, 就得到了相关属性集。

3.3 判定树及价值客户识别规则的产生

收入在属性中有最高的信息增益, 故将其作为判定树根节点的测试属性, 并对于每个属性值引出一个分支, 选择信息增益次高的属性为下一级节点的测试属性, 这样递归的构造出判定树, 经过剪枝, 最终如图2所示。

根据图2的价值客户的判定树, 从根到树叶的每条路径都可以创建一个规则, 总共可以建立价值客户识别的8条规则, 以下仅列出其中一条, 其它略。

IF收入=“高” AND支付方式=“信用卡” THEN 价值客户=“是”

针对训练数据集, 利用判定树方法建立起的价值客户识别规则可以对测试集中的客户进行价值识别。需要说明的是, 为了便于计算及描述, 示例中仅抽取了20个客户数据元组作为训练数据集, 而客户属性类别较多, 所以使得模型的识别误差较大, 这里仅仅作示范说明作用。在实际当中, 我们抽取了500个客户数据元组作为训练数据集, 利用判定树归纳出的价值客户识别规则对测试集中的420个客户进行了价值识别, 其准确率高达84%, 说明了该方法通过归纳价值客户特征属性来进行价值客户识别是比较有效的。

3.4 预测CLV的系统仿真

同样以上面500个客户数据元组作为训练数据集, 将相关属性集中的客户属性 (收入、购买频率、支付方式、年龄) 作为输入矢量中的4个变量, 计算出的CLV值作为输出变量, 高斯函数作为神经元的变换函数。通过对图1结构的RBF神经网络进行训练 (使用的软件为MATLAB6.0, 隐层神经元的数目选为自动确定) , 对测试集中的420条记录进行系统仿真检验, 结果CLV预测的相对误差仅为3.26%, 说明该CLV预测模型具有较高的预测精度。

4 结论

本文利用数据挖掘中的判定树归纳法对客户数据库进行分析, 提炼出价值客户的自然属性特征及购买行为特性等重要的隐含信息, 对于了解价值客户特性及分析其购买行为具有指示意义。与通过计算客户全生命周期价值来进行价值客户识别不同, 本文所建立起的价值客户识别准则方法便捷、表现形式直观, 并可以对可为该领域的相关研究提供借鉴。此外, 本文将判定树方法归纳出的客户特征属性及CLV分别作为径向基神经网络的输入、输出变量, 构建起准确预测CLV的模型, 实证结果表明模型具有较强的适用性及较高的预测精度。

摘要:采用数据挖掘中的判定树法归纳出反映价值客户特征的客户属性, 相应地建立起价值客户的识别规则, 并将提炼出的客户属性作为神经元的输入, 构建起基于径向基神经网络的CLV预测模型。最后结合实例对所构建的方法进行了应用说明, 为价值客户识别与特征描述及CLV的预测提供了一种新思路。

关键词:客户知识,价值客户,客户生命周期价值,判定树归纳,径向基网络

参考文献

[1]王红军, 陈庆新, 陈新, 郑德涛.基于效用分析的客户聚类方法研究[J].计算机集成制造系统, 2003, 9 (3) .

[2]邹鹏, 李一军, 叶强.客户利润贡献度评价的数据挖掘方法[J].管理科学学报, 2004, 7 (1) .

[3]胡理增, 薛恒新, 于信阳.以客户终身价值为准则的客户重要程度识别系统[J].系统工程理论与实践, 2005 (11) .

[4]REINARTZ W J, KUMAR V.The Impact of Customer RelationshipCharacteristics on Profitable Lifetime Duration[J].Journal of Mar-keting, 2003, 67 (1) .

[5]RUSTR T, LEMON K N, ZEITHAML V A.Return on Marketing:Using Customer Equity to Focus Marketing Strategy[J].Journal ofMarketing, 2004, 68 (1) .

[6]DWYER R F.Customer Lifetime Valuation to Support Marketing De-cision Making[J].Journal of Direct Marketing, 1997 (11) .

[7]BERGER P D, NASR N I.Customer Lifetime Value:MarketingModels and Applications[J].Journal of Interactive Marketing, 1998 (12) .

[8]陈明亮.客户全生命周期利润预测方法的研究[J].科研管理, 2003, 24 (4) .

[9]HAN J WI, KAMBER M.Data Mining Concepts and Techniques[M].San Mateo:Morgan Kaufmann Publishers Inc, 2001.

上一篇:2017学生会成立大会主席发言稿下一篇:中国矿业大学第42期大学生高级党课培训班结业考试试题