当前位置:研发设计首页 >> 管理信息化 >> 客户关系管理 >> 基于数据挖掘技术的CRM系统中客户行为
基于数据挖掘技术的CRM系统中客户行为
2016-02-25 19:15:07  作者:葛淑杰  来源:互联网
  •   引 言   随着信息技术与网络化经济快速发展,商业模式发生了根本性变化。很多行业所提供的产品和服务日益商品化,企业产品同质化倾向越来越强,市场竞争越来越激烈,同时客户对产品和服务的质量、个性化 ...

  引 言

  随着信息技术与网络化经济快速发展,商业模式发生了根本性变化。很多行业所提供的产品和服务日益商品化,企业产品同质化倾向越来越强,市场竞争越来越激烈,同时客户对产品和服务的质量、个性化和价值的要求越来越高。在这种环境下,建立和维持良好的客户关系成为企业取得竞争优势的最重要基础。这就需要企业完整掌握客户信息,准确把握客户要求,快速响应个性化需求,提供便捷购买渠道和良好服务,提高客户满意度和忠诚度。在这样的前提下,客户关系管理(CRM)应运而生。这也是企业管理理念从传统以产品、销售中心的客户关系向以客户满意为中心的客户关系转变的必然结果,建立以客户为中心的管理体系是关系到企业生存与发展的战略决策。

  1 客户关系管理整体架构

  CRM是通过收集、加工和处理涉及客户行为的大量信息,确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个体下一步的消费行为,然后以此为基础,对所识别出来的消费群体进行特定内容的定向营销,提高了营销效果,为企业带来更多的利润。

  客户关系管理架构从整体上来说,包括三个层面的应用,分别是客户接入、业务流程管理以及决策支持。其中客户接入是利用电子商务、呼叫中心等与客户互动及快速响应;业务流程管理是实现市场、销售、服务等部门的全程量化管理及工作自动化;决策支持是利用数据仓库躬致据挖掘技术提供支持。

  2 数据挖掘

  2.1 数据挖掘概念

  数据挖掘就是从大量的、不完全的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又潜在有用的信息和知识的过程,数据挖掘过程一般由3个阶段组成:数据准备、数据挖掘以及解释评估。数据挖掘是整个知识发现过程的一个步骤,是由一些特定的数据挖掘算法组成,其功能和目的是:在可以接受的计算效率的限制条件下,生成一个事实(F)的模式表达(E)的计算或列举。数据挖掘主要通过分类、回归、聚类以及关联等方法来实现,本文所用的数据挖掘技术为分类挖掘。

  分类的直观含义是基于训练集形成一个模型,训练集中的类标签是已知的,使用该模型对新的数据进行预测,确定给定数据属于哪一类标签。分类的目的是发现一个模型去预测目标函数的值,该模型的结果可能的形式包括代数表达式、决策树、神经网络、一个复杂的算法、或者上述方法的联合。

  2.2 客户关系管理系统中数据挖掘过程

  随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。但是在CRM系统中真正具有更深层次的数据处理的系统还不多,如目前的数据库系统只能完成数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。所以,企业决策者希望CRM系统在提供有效管理大量客户信息的同时,能够对其进行更高层次的分析,进一步发现隐藏于客户信息表中的、潜在有用的信息和知识,最大限度地反映企业客户的某种规律性,找出有价值的信息,从而指导商业行为,这个过程即C蹦系统中的数据挖掘。在CRM系统中数据挖掘的过程可以如图1。

  

newmaker.com

  图1 CRM系统中数据挖掘的过程

  3 数据选择与预处理

  本文的数据取自惠通电脑销售实业总公司近几年的销售记录。该公司数据仓库中保存了数万条的数据信息。但是,用户感兴趣的常常只是数据仓库的一个子集。因此不加区分地挖掘整个数据仓库是不现实的。另外,现实世界的数据一般是含噪声的、不完全的和不一致的。采用数据预处理可以改进数据质量,从而有助于提高挖掘过程的精度和性能。在关系数据库中,选择相关的数据集并进行数据预处理不仅使得挖掘更有效,而且能够产生更有意义的规则。

  3.1 属性相关性分析

  在对数据仓库进行数据挖掘时,其中大部分属性与挖掘任务不相关,是冗余的,遗漏相关属性或留下不相关属性都是有害的,不相关或冗余的属性增加了数据量,可能会减慢挖掘进程,降低系统性能。然而,对于用户来说,确定哪些维,属性应当包含在类特征分析中则不是一件简单的事情,所以应当引进相应的方法进行属性相关性分析,以过滤掉统计上不相关或弱相关的属性。

  3.2 属性相关性分析方法

  为了保证输入量与输出量之间有一定的相关度,可以用信息增益来考察属性间的相关性。1948年,香农(C.E.Shannon)提出了信息论,并对信息量(Information)和熵(Entorpy)进行了定义。

  熵实际上是系统信息量的加权平均,也就是系统的平均信息量,信息增益指标的原理就取自信息论。

  设指向N的训练集为S,其中包含m个不同的类,他们区分了不同的类Ci(for i=1,…,m)。设si是S中属于类Ci的记录的个数。那么分裂之前,系统的总熵:

  I(s1,s2,…,sm)=-Σ(i=1 to m)pi log2(pi)

  容易看出,总熵是属于各个类的记录的信息量的加权平均。

  设属性A是带有v个不同值的属性{a1,a2,…,av),A可以把S分成v个子集{S1,S2,…,Sv},其中Sj={x︱x∈S & xA=aj)。如果A被选为测试属性,那么这些子集就表示从代表集合S的出发的所有树枝。设Sij表示在Sj中类为Ci的记录个数。这时按A的每个属性值(更一般的是取A的一个子集)进行分裂,分裂后的系统总熵为:

  E(A)=Σ(j=1 to v)((s1j+s2j+…+smj)/s)*I(s1j+s2j+…+smj)

  总熵E(A)是各个子集信息量的加权平均。对N用属性A分类后的信息增益为:

  Gain(A)=I(s1,s2,…,sm)-E(A)

  在相关性分析方法中,可以计算定义S中样本的每个属性的信息增益,设用于识别弱相关性的属性相关阈值为a0,若属性的信息增益小于该阈值则被认为是弱相关的,应删除。

  3.3 面向属性归纳

  在CRM系统的数据仓库中记录着有关客户购买商品的描述信息表,表内容包括了客户购买的产品、时间、地点、年龄和客户收入等。对于每一个客户的购买行为可以按照概念树进行描述,并用基本概念树的知识进行归纳,基本概念树其实是一个元组合并的处理过程,即数据的预处理。其基本思想是:(1)一个属性的较具体的值被该属性的概念树中的父节点所代替(这个过程又称为属性的概化);(2)对相同元组进行合并,构成更宏观的元组,并计算宏元组所覆盖的元组数目;如果数据库中宏元组数目仍然很大,那么用这个属性的概念树中更一般的父节点取替代,最终生成覆盖面广、数量少的宏元组。

  利用决策树对概念树进行定义后,就可以将数据库中所有概念定义的数据汇集到一个数据集中,这时利用元组合并的原理对数据集的数据条件属性值依其概念树进行概化,并对宏元组进行合并,直到宏元组的数目满足要求为止。

  4 UPTree分类挖掘

  目前分类挖掘使用的技术包括:决策树分类,贝叶斯分类,神经网络分类等等,其中决策树分类则是使用最广泛的一种分类方法,它具有相对比较快的学习速度,能够转换成容易理解的分类规则的特点。本文以SLIQ分类算法为基础,对其进行了一定的改进和优化,称其为UPTree分类算法。

  4.1 UPTree算法的设计

  UPTree算法采用预排序、广度优先的方法构造决策树,在决策树生成的时候同步进行修剪工作。预排序减少了对数值字段进行排序消耗的时间,广度优先使得对当前树中所有叶子节点分割的都是在同一遍历中完成的。

  UPTree的数据结构是使用若干驻留磁盘的属性表和单个驻留主存的类表。每一个属性具有一个属性表,由RID(记录标识符)建立索引。每个元组由一个从每个属性表的一个表目到类表的一个表目(存放给定元组的类标号)的链接表示,而类表表目链接到它在判断树中对应的叶子节点,如图2。

  

newmaker.com

  图2 UPTree使用的属性和类表

  4.2 UPTree的分割指标盖

  区别于一般的决策树,UPTree对属性选择采用了gini指标,gini指标能够适用于种类字段和数值字段。对每个节点都需要先计算最佳分裂方案,然后执行分裂。

  如果集合T分成两部分N1和N2,割的gini就是:

  

newmaker.com

  提供最小gini就被选择作为分裂的标准(对于每个属性都要遍历所有可以的分割方法)。

  对于数值型连续字段(numeric attribute)分裂的形式A≤v。所以,可以先对数值型字段排序,假设排序后的结果为v1,v2,…,vn,因为分裂只会发生在两个节点之间,所以有n-1种可能性。通常取中点(vi+vi+1)/2作为分裂点。从小到大依次取不同的split point,取Information Gain指标最大(gini最小)的一个就是分裂点。

  对于离散型字段(categorical attribute),设S(A)为A的所有可能的值,分裂测试将要取遍S的所有子集S’。寻找当分裂成S’和S-S’两块时的gini指标,取到gini最小的时候,就是最佳分裂方法。

  4.3 UPTree算法的流程

  

newmaker.com

  算法的控制结构是一个队列。这个队列存放当前的所需进行分裂的叶子节点,这是为了控制广度优先搜索的需要。当队列为空时,说明所有的叶子都已经被处理过。这时建树算法结束。其结果存放在三个表中,第一个表存放决策树整个叶子节点信息;第二个表存放分割字段是离散型字段的时候,分割的信息;第三个表存放各个节点中不同类别的分布情况。

  4.4 分类规则的提取与分析

  决策树分类算法的一个最大优点就是可以容易提取决策树表示的分类规则,并以IF-THEN形式表现。每个叶子节点都创建一条规则,每个分割都成为一个规则中的一个条件(IF部分),叶子节点包含类预测,形成规则后件(Then部分)。IF-THEN规则易于理解。

  沿着由根节点到叶节点的路径,可以将决策树信息转换成IF-THEN分类规则。根据本文的挖掘结果,现仅列举其中2条规则加以说明:

  (1)IF income=“>1000”AND age=“middle”AND province=“sandong” THEN brand=“LianXiang”。

  该规则表明购买“联想”品牌的客户特征为高收入、中年人、分布在山东省。这样销售商可以在山东省大量引入“联想”品牌电脑。

  (2)IF age=“<25”AND brand=“sanxing”AND color=“white”THEN gain=“high”

  该规则表明能给企业带来较大利润的是客户年龄小于25岁,品牌是三星,颜色为兰色。这样销售商可以针对25岁以下的人进行定向销售“三星”品牌的电脑。

  5 结 论

  通过在CRM系统实施数据挖掘算法,可以有效地利用客户信息资源,挖掘有利于企业决策经营的信息,得出了客户行为的一些特征和规律,并对这些特征和规律进行了分析与描述。为企业提升竞争力,更加科学地指导企业行为奠定了基础。



版权所有:智造网 京ICP证100778号 京公网安备110102003025 虚假新闻举报电话:010-88379107