[数据分析] 数据挖掘技术在销售、营销与客户关系管理中的应用概览
序言
本篇起源于我最近看的一本好书,是Gordon Linoff
和Michael Berry
所著的Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management, Third Edition
。本书从数据挖掘在商业应用中的生态聊起,先介绍了营销和客户关系管理的一些基本原理,然后介绍了通过数据挖掘技术实现这些原理的基本方法,最后分章节介绍了每一个常见的数据挖掘技术的技术细节与应用案例。
虽然第三版作为这本书的最新版也是2011年出版,但其中大部分技术技巧都没有过时,并且在读的过程中给了我很多灵感,在这里把我在这本书中前三章不涉及技术细节的部分学习到的一些内容和我的一些灵感做一些笔记记录。
正文
我在本篇中会根据书中的顺序,分别将书中前三章的关键内容做一些总结。其中第一章中数据挖掘的项目循环
部分主要是介绍数据挖掘工作的大致流程;第二章营销和客户关系管理
主要介绍一些商业方面的知识;第三章数据挖掘过程
则是开始尝试将第二章内容与数据挖掘技术做联系,是一个总结性的概览章节。
数据挖掘的项目循环
一个初出茅庐的技术人员很有可能犯的一个问题就是过于纠结技术问题,沉醉于使用最新的技术或获得最好的模型评分,但需要注意的是这并不是正确处理商业问题的态度,数据挖掘良性循环的重点在于获得好的商业结果
,而在应用过某次数据挖掘结果后产生的数据集又可以被用来更新改进下一次的数据挖掘,这就是数据挖掘的良性循环。
一个完整的数据挖掘项目循环应该包括三步:
-
识别业务机会
。商业活动中的许多普通的业务流程都蕴藏着数据挖掘的机会,例如设计产品介绍、规划营销活动、理解客户流失原因、评价营销结果、分配营销预算等。这些普通的商业活动都可以被使用数据挖掘技术优化实行,最后达到增加收益或减少成本的效果。除此之外,还有对过去业务的一些总结度量也可以产生一些有趣的数据挖掘课题,例如分析什么类型的客户会响应以往的营销活动、最好的客户住在哪里、流失的客户有什么特征等。通常与业务专家沟通聊天,会是获得这些课题灵感的最直接的方式。
-
挖掘数据并将结果转换为可操作的信息
。要再次强调的是,数据挖掘只是工具,最终的目的一定是使数据中隐藏的信息对业务产生正面影响。通常业务实践中的数据挖掘任务会遇到各种各样的问题与阻碍,例如数据格式不统一、数据缺失值多、法律影响(例如保险拒绝赔付时要有法律依据,而不能说因为我的模型说你可能有骗保风险)、组织因素(例如一些业务部门不愿意在没有奖励的情况下改变传统做法)等等。而这些因素在短期内可能都很难被改变,因此我们在进行某个数据挖掘项目时真正面对的问题不是“如何获得最理想的结果?”,而是“以现有的资源和数据,如何挖掘数据以帮助业务?”。
-
采取行动并评估结果
这一步在原书中被分成两步,但我认为其实他们的内容是一致的,就是为了获得数据挖掘项目的结果反馈。因为所有的模型都有假设,例如基于过去的数据做出的对未来的预测模型就假设了未来会重复历史。而事实上可能这些假设不成立,或者其变化不能被忽视。这就导致数据分析师必须对项目的结果进行评估以得知项目是否可以应该长期运行或将结果用以改进模型。实现的方法可以通过设置不同的对照组来判定项目结果,例如对于我们之前做的保险价格优化模型来说,我们可以分四组测试客户的流失率,第一组
目标组(Target Group)
对模型标识的价格敏感客户进行不加价处置,第二组控制组(Control Group)
对模型标识的非敏感客户(但需要加价的)进行不加价处理,第三组对照组(Holdout Group)
对模型标识的价格敏感客户照旧加价,第四组模型化对照组(Modeled Holdout Group)
对模型标识的非价格敏感客户照旧加价。对这四组客户的流失率进行对比就可以得到加价与否对模型界定的价格敏感/不敏感客户对客户流失率的影响,进而得出模型对识别价格敏感客户并挽回流失客户的效率。
营销和客户关系管理
营销和客户关系管理本身也是一门学问,因此我们除了要了解数据挖掘的技术细节以外,也应该知道一些业务方面的知识。这一块在原书的第二章被集中讨论,我也觉得这一章对我本人的启发是最大的,因此我会在这一段中根据原书的结构仔细讲讲营销和客户关系管理的一些内容。
客户生存周期
客户关系管理中的一个重要概念就是客户生存周期(Customer Lifecycle)
,处于不同生存周期的客户的心态与需求都是有较大的区别的,因此客户生存周期的每个阶段都为我们的客户关系管理和数据挖掘提供了机会,而我们关注的客户生存周期其实可以分为两类。
第一类是客户个人生存周期
。每一个客户不论是企业还是个人或家庭,他们对产品的需求都会随着时间推移发生变化,例如公司从创业阶段往后可能会面临收购、倒闭、或是稳定增长;而个人则可能因为升学、结婚、换工作等造成生活环境、地理位置、生活习惯的大幅改变,进而影响他们的商业或个人需求。但实践中,我们可能较少需要关注客户的个人生存周期,其原因主要是及时识别或预测客户的周期转换事件困难。但知道客户个人生存周期对其需求决策有影响让我们可以针对性收集反映客户所处生存周期的数据,例如年龄、婚姻状况、收入水平、工作年资等等,这些信息将对于区分不同客户的共性有非常大的帮助。
第二类则是客户关系生存周期
。这是通常企业在进行客户关系管理时更加关注的客户生存周期,对每一个企业来说他的客户关系都可以经过5个主要阶段:
- 目前还不是客户的目标市场中的
潜在客户
,这类客户可能是任何人,公司没有这些人的任何信息。 响应者
是表现出一定兴趣的客户,例如表达过愿意接受市场营销信息的已有客户,通过互联网搜索过相关产品的客户等。新客户
是指已经开始合作的响应者,从保险市场来看既是新保单的持有者。老客户
是持续合作的新客户,可以根据消费能力和意愿分为高价值、高潜力和低价值客户。流失客户
是已经离开的客户,他们可能是自愿流失(被竞争者争取到或对现有产品不满意)、强制流失(无能力支付账单)或预期流失(可能因搬家或年龄超标已经是不能服务的客户)。
企业在处理与处在不同客户关系生存周期的关系时,会根据客户关系的特性采取不同的客户关系管理手段,例如将潜在客户转为响应者是获取
客户的手段;将响应者转化为新客户的客户激活
的手段;通过关系管理
尽力将新客户保留(retention)
为老客户;并将自愿流失的客户赢回(winback)
为老客户。详细来说每一个阶段:
客户获取
客户获取(Customer Acquisition)
是吸引潜在客户,并把他们转化为客户的过程。这通常通过广告、口碑以及定向营销来完成,而数据挖掘则可以在这个过程中发挥重要作用。最主要的方法是通过了解潜在客户的特征构建响应模型(responding model)
,在目标市场中寻找最可能响应的客户群体,尤其是将模型应用至直接邮寄和电话销售等运营成本较高的营销活动中,用最小的成本达到最大的收益。其他也有一些应用场景如选择合适的通信渠道(通过鼓励媒体宣扬公司的正面消息或电视/网页广告),挑选适当的宣传信息(除了将性价比产品推荐给价格敏感的客户外,还要避免广告词引导高价值客户向低价值转变)。
客户激活
客户激活
的过程既是客户从响应者转变为新客户的过程。在有些业务流程中客户激活可能非常简单,只需输入数项信息即可网上激活,但也有些业务需要复杂的审批流程,例如银行的授信、保险的核保等。在这个过程中,数据挖掘可以帮助的地方不多,但也有。例如有一些客户可能因为他们认为流程过于复杂而在激活过程中流失,通过特别收集这部分客户的信息或反馈,使用决策树等方法发现导致他们流失的关键特征从而帮助改进业务流程。除此之外,根据这本书作者的经验,客户激活过程中的初始信息也是后期其他数据挖掘模型中对于预测客户长期行为的重要特征。
客户关系管理
客户关系管理
的主要目标是提高客户留存率并提高客户价值。主要活动有:
追加销售(up-selling)
,使客户购买高端产品和服务,保险中可能就是提升保障范围和额度。交叉销售(cross-selling)
,拓宽客户关系,使客户购买公司提供的其他产品或服务。使用激励(usage stimulation)
,激励客户使用产品或服务,例如信用卡公司通过广告刺激客户使用信用卡消费。- 客户价值计算,为每个客户指定一个预期价值,并以此判断客户是否有潜在发展空间,以及匹配可以用于该客户的营销预算。
对于那些提供许多产品和服务的公司而言,让客户获得尽可能少的最有价值的信息也是非常重要的。因为客户可能并不喜欢选择,如果他们接二连三地收到自己不感兴趣的错误营销内容,会导致他们对营销信息失去兴趣。因此要尽可能向每个客户重点介绍他们可能会感兴趣的少数几个产品信息,而这就是数据挖掘可以帮助的地方。另一方面,交叉销售和追加销售的时间也是其成功的重要因素之一,例如我推断人们可能不喜欢额外的行动,因此如果在他们续保时进行交叉销售,可能会使成功率和用户体验更高,而我可以通过分析交叉销售的在保单不同时间段的成功率来评估我的判断是否具有实际价值。
而对于保留客户提高留存率方面,通常有两种方法。一种是对比短时间离开的客户与长时间保留的客户的区别,另一种方法则是直接对客户的保留时间进行生存分析,预计特定客户的保留时间。从而针对留存时间短的客户特征进行针对性的保留活动。
赢回
将已经流失的客户重新吸引回来的过程就是赢回(winback)
,具体的操作方法可能包括向有价值的客户提供激励措施、产品、以及价格促销等。比起数据分析来,赢回往往更依靠业务策略,但数据挖掘可以帮助分析确定客户离开的主要原因,尤其是当可用数据中有客户的服务投诉和其他行为时。而赢回客户的策略则可以根据所分析出的离开原因来针对性地进行。这本书中特别提到有些公司设置有专门的拯救团队(save team)
,可能类似于我现在公司的Retention team
,这些团队除了会尽力与试图离开的客户沟通以留住他们以外,还应该完成获取客户实际离开原因的工作,这些信息对未来保留其他客户非常有价值。
客户关系的性质
除了客户的生存周期以外,客户关系管理还要关注的一个维度是业务中企业与客户关系的性质。基于不同的客户关系性质,所能做的关系管理手段也有所不同。客户关系分为基于订阅
的关系和基于事件
的关系。以电话公司的业务为例,当客户使用公共电话亭打电话,或购买了一张可以使用固定分钟数的预付费电话卡时,这类客户与电话公司之间的关系就是基于事件的关系,电话公司与他们的这一部分客户几乎没有直接联系。而当客户需要购买一张带有不定期限的手机合约时,他们与电话公司形成了一对一的合约关系,这就是基于订阅的关系,在这类关系中电话公司拥有其客户的详细信息,因此也可以提供更加有指向性的客户关系管理手段。
通常当业务性质以基于事件
的关系占主导时,公司通常需要通过电视或网页广告、病毒营销等方式获取目标市场的不特定的多数人群中的潜在客户,在这些情况下公司对营销的分析工作主要集中于产品、地理和时间,这是从基于事务的业务中所能了解的为数不多的信息。当然也有一些情况的例外,例如药厂与其零售客户之间也是基于事件的关系,但药厂可以通过向医生营销的方法来达到增进业务的目的。而另一方面,基于订阅
的客户关系中企业则有更多了解客户并与客户交互的机会。
数据挖掘过程
这一部分是原书第三章的内容,主要是覆盖数据挖掘概览性的技术过程,介绍了第一章中项目循环的第一二步,即识别问题(如何把业务问题转化为数据挖掘问题)和将数据转换为信息(假设检验、模型构建、模式发现)。同时这一章也会介绍一些数据挖掘在实践中会出现的一些常见问题。
可能出现的问题
数据挖掘是从数据中提取信息以促进未来的业务发展或最优决策的工具,而数据挖掘的最佳实践一定要避免两个主要问题:一是学习的东西不真实
;二是学习的东西真实但没有价值
。好的数据挖掘师应该能识别并避免犯下这些错误。
学习的东西不真实
学习到错误的东西比学习到无用的东西更可怕,因为有时数据挖掘的模型会给人一种可靠的感觉,因为它是从大量数据中用科学的方法推论出来的,但这种可靠感可能非常具有欺骗性。数据源的错误或者数据处理过程中产生差错都可能破坏或者隐藏数据中藏有的重要信息。导致学习的结果不真实的主要原因有以下三个:
模型揭示的模式(patterns)可能不代表任何规则。
这个错误的最重要代表之一可能就是星座:人们仰望星空,从繁多的星星中寻找他们的规律,并且试图给与每个规律一个名字和含义,甚至衍生出了占星术这样的技术。但事实上这些模式本身可能并没有揭示任何的自然规则,只是模型过拟合(overfitting)
的结果,这些模式可能只是偶然出现并不能代表它一直会出现。所以当数据挖掘模型找到一些人们凭经验难以解释的规则时,就要小心了。模型集可能不反映相关的总体。
出于现实的原因,我们做任何统计或者数据挖掘的时候都一定要注意一个假设的成立与否:挑选的样本是否是总体的无偏代表。有一些危险的实践比如通过客户调查的数据来评估公司所有客户的表现就是不公允的,因为会回复客户调查的客户可能是具有特定特点的群体,并不能代表所有客户。数据的详细程度有误。
原书中举了一个例子,是说作者在某家电话公司做数据挖掘顾问时曾经被告知过一个发现:客户在离开前的那个月使用量通常会下降。但作者最后发现这就是数据详细度出现问题导致的结论不真实的情况,因为电话公司是根据每个月的平均通话时长来确定客户的电话使用量,但事实是客户可能在8月中旬某一天忽然停止使用电话,这个数据在月平均时长的图表上表现出来就是9月份停止服务的客户在8月的使用量只有平时月份的一半,但这个结论是没有任何实际意义的。
学习的东西真实但没用
虽然不如学习到不真实的东西那么危险,但是学习到没用的东西是更常见的错误。主要有以下两类:
学习的东西众所周知。
数据挖掘的意义在于发现人类不能发现或难以发现的隐藏信息,但通常在数据分析中,许多表现最强的模式都是众所周知的事情。例如过了退休年龄的人不会响应退休储蓄的优惠计划;生活在华盛顿的客户不会接受香港地区的活动邀请;感恩节前火鸡的销量会比平时高等。学习的东西不可用。
数据挖掘曾经揭示过一些真实且先前未知的关系,但最后却难以使用。书中给的几个例子包括客户的信用信息可能对未来的保险索偿具有一定的预测性,但监管机构可能会禁止基于这种信息所做出的承保决定。或在寿险领域,有一些人种可能更容易收到某些疾病的困扰,但显然这个特征不能成为给他们增加保费的原因。其实中国内地也有犯过类似的错误,即所谓的“大数据杀熟”,互联网公司可能根据客户的手机型号、单量等信息调整商品价格至客户的底线,但这种价格歧视很容易就会被发现,并且使公司声誉收到损伤。
数据挖掘的类型
讲完了数据挖掘需要注意的事项,接下来讲一讲数据挖掘可能出现的一些主要任务类型。强调一遍数据挖掘的两个主要目的:1.是产生得分或结论以辅助决策 2.是洞察事物之间的联系。
原书中这一部分的描写我认为逻辑性不够强,我在这里稍微整理一下,以我认为合理的顺序依次讲讲不同类型的数据挖掘的用处和用法。
探索性数据分析(Exploratory Data Analysis)
我之前写过一篇专门讲如何使用R做探索性数据分析的文章,正如其名中的“探索性”一词所述,探索性分析是没有特定目的性的,因为通常在拿到一份用来做数据挖掘任务的原数据集后我们需要了解原数据的组成和一些概览。这时我们通常会使用一系列的图表来剖析数据的不同维度可能蕴含的一些信息。在很多公司中分析员们使用Excel透视表(Pivot table)
或Tableau
所构建的BI模型实际上就是探索性数据分析的主要内容。它的缺陷也非常明显,因为构建某个分析需要人为依靠常识去判断尝试,而且由于手动性的特点,这种分析很难达到挖掘深藏在多个特征下的信息的目的。更多的是为之后的数据挖掘工作提供一些可能的方向或指导。
分类(Classification)
原书中把分类任务分为了二元分类(Binary classification)
和多元分类(Multiclass classification)
,但在我看来这两者并没有本质区别。唯独某些模型如支持向量机或逻辑回归等可能更适合二元分类的任务,但事实上现在这些模型也都有适用于多分类任务的算法。在使用层面,我们可以使用二元分类模型将保险客户分为续保客户和不续保客户,或者信用卡公司将持卡客户按其特征分为滑雪客户和不滑雪客户以针对性地对某个客户群体进行营销活动。而多元分类模型地适用范围就更广了:信用卡公司可以将信贷申请者分类为高中低三类风险人群;识别具有欺诈风险的保险索赔;基于自由文本的描述指定其对应的行业代码和职务名称等。分类的本质就是在给定的类中将所有的记录逐一划分到每一个分类。(或者也可以通过模型划分分类的过程区别几个分类特征的差异)
评估(Valuation)
前面的分类任务是用来处理离散的输出结果,而评估则是用来得到某个连续变量的值
。例如估计某个家庭的收入总额,估计客户的生存周期数值,估计某人响应活动的概率,估算客户违约的风险等。有时我们可以根据评估模型给出的估计值来做出决策,例如某个客户的预计价值高于公司给予每个客户的平均营销成本,那么我们就可以对这个客户拿出额外的成本进行针对性营销,而相反如果某个客户的预计价值低于营销成本,那么我们可以考虑不对该客户进行营销从而节省成本。
发现集群、关联及相关组(Clustering and Association)
这类任务主要是用于寻找数据中存在的联系
,属于无监督机器学习模型(Unsupervised machine learning)
。所谓无监督即是说不需要已有的“正确”
数据集作为指导,因为分类模型和评估模型作为有监督的机器学习模型的一大特点既是需要在已有数据中存在正确的数据集才可进行训练,而无监督机器学习模型是依靠每条记录的自然联系分组在一起,每个分组的意义都需要由分析师自己根据分组的特点决定。
发现集群的方法可以将市场中的客户事先划分成不同的集群,并作为其他数据挖掘工具的起点。而关联规则挖掘则可以找出哪些商品通常会被连同其他商品一同被购买,可以被用来做为交叉销售的依据。
A/B Test
与前面的机器学习算法不同,A/B检验是统计学的方法,其基本原理是统计学中的假设检验(Hypothesis Testing)
,即以统计学的方法确定某个假设是否有显著性的理由被拒绝或接受。而A/B检测的原理则是构建AB两种方案,对比其产生的区别,通过判断两种方案所得结论是否有显著性区别来决定两种方案的使用。通常A/B检测被用来测试微小的决策调整的效果,例如信用卡公司测试新授信方案时将逾期率与旧授信逻辑比较以获得新授信方案是否对旧授信方案有显著改善的结论。
数据挖掘的实例
在这里我会介绍一些书中提到的具体的营销或客户关系管理的实际问题,并给出一些可能的数据挖掘解决方案。
选择最佳广告位置
有一家公司需要寻找最佳的广告位置,以从潜在客户中获得最优质量的客户,一种可能的方法是:
- 使用现有客户特征和地理特征如年龄、性别、职业、婚姻状况、社区特征等特征剖析现有优质客户,并将结果特征作为优质客户的模板。
- 将优质客户的特征模板作为潜在广告的最佳受众。
- 估计每个可能的广告场所受众与潜在客户模板的距离得分,距离最近也即相似度最高的场所即为最佳广告场所。
确定向客户提供的最佳产品
下一个向客户大力推销的产品是什么?这个问题是在许多行业都会发生的交叉销售的例子。针对这个问题有几种不同的解决办法,例如之前提过的关联规则挖掘,而当可管理的产品数量不多时,有一个好办法是为每款产品建立一个单独的模型,从而可以对每个客户给定每款产品的得分,而客户的最佳推销产品就是对他来说分数最高的产品。
- 对于每款产品,构建一个二元分类模型来估计客户对该产品的倾向,并将已有该产品的客户倾向设置为0。
- 使用这些倾向得分设计为每个客户指定最佳产品的决策过程,例如获得最高期望利润或最高成功概率等。
- 选择得分最高的产品推荐给客户。
另一种可能的办法是对持有产品的客户数据进行聚类,并查看每个聚类集群中哪些产品占主导地位,可以把某款产品在聚类中的必力作为该聚类对产品的倾向得分。
发现分店的最佳位置
新的分店应该开在哪里,解决这个问题的指导思想应该是找到一组关于地区的解释变量来预测一家分店的绩效。可能的方法有:
- 使用地区的地理或环境特性建立一个模型来估计某个分店的绩效指标。
- 把模型应用到侯选位置,以获得最高得分的位置。
可供使用的解释变量可能包括驾驶距离内的人口数量、驾驶距离内竞争对手的数量、以及地区人口素质特征等等。
根据未来利润划分客户
假设我们以客户在一年中产生的总收益或净收益来定义利润,那么我们可以基于客户在下一年的预期盈利能力来对他们进行划分。一个简单的模型方法是将去年同一时间的客户特征与其在今年的利润收益作为数据训练模型,并以此模型预计现有客户在未来一年可能产生的收益,以此收益来划分客户的等级。
减少暴露于违约的风险
此业务问题的目标是在仍有时间采取措施降低风险暴露之时检测出违约信号并预警。一种方法是以违约为目标分类建立二元分类模型,以历史客户的资料对他们三个月后违约的数据进行建模,以此得到客户三月内违约的风险指数模型,可以采取的措施有例如对高违约风险的信用卡客户降低其信贷额度至合理水平。
另一种改进的方法是将违约的概率与违约的数额结合,在上面这个模型的基础上使用所有逾期数据产生一个欠款数额的模型,并以概率和数额相乘计算预期的亏损值。
还有一种可行的方法是使用生存模型对客户可能会违约的时间进行估计,在数据集中包含所有的客户,他们的业务开始时间、结束时间、以及是否违约。以此模型估算客户的违约时间。当我们使用这个模型对现有客户进行评估时,如果发现某些客户的违约时间在不久的将来,即可以采取行动降低风险暴露。
提高客户留存
有几种可能的提高客户留存的方法:
- 发现离开风险最高的客户,并鼓励他们留下来。
- 量化改进操作的价值,从而使客户继续保留。
- 确定哪些获取客户的方法会带来更好的客户。
- 确定哪些客户无益,并让他们离开。
我在第17篇文章中介绍的续保价格优化模型就是其中的第一种方法,总的来说就是构建二元分类模型从而发现导致客户流失的原因并以此为着手点改善操作,提升客户留存率。
检测欺诈性索赔
如果我们已经有一个标注有"欺诈行为"标签的数据集,那么这个问题就与前面的所有二元分类模型一样,使用数据集制作一个可以判断索赔案件的欺诈可能性的模型,并将模型应用至所有索赔案件,并对模型给出高诈骗性标签的案件进行额外审查。
如果没有可用的数据集,我们依然可以使用聚类分析,将所有赔案依其数据性质聚合分组,其中大量数据记录会被聚为几类,他们可能代表的是不同性质的正常索赔。我们需要额外关注的是其他的小的聚类,需要关注这些聚类为何与其他聚类产生区别,从中可能获取一些关于欺诈行为的特征或线索。
针对不同目标任务的技术
我们有许多不同的数据挖掘技术,而他们都有各自的特性及优缺点,根据这些区别他们所适用的任务也各有不同,需要根据以下任务特征来选择合适的数据挖掘技术:
- 任务是否有明确的目标数据集决定使用分类模型或聚类、探索性分析。
- 目标数据类型决定使用离散的分类模型或连续的估值模型或计算概率的二元分类模型。
- 输入数据的类型决定使用回归模型、神经网络等运用数字输入且对缺失值敏感的模型或使用决策树、朴素贝叶斯等使用离散输入数据并不需要处理缺失值的模型。
- 任务的可能收益决定是否使用一些准备成本较高的模型如遗传算法。
- 模型是否需要可解释性来决定使用决策树、回归模型等可以直观看见输入值对输出影响的模型或使用随机森林、神经网络等精度更高但过程难以解释的"黑箱模型"。
原书中还给出了一张适用于不同任务类型的数据挖掘算法的表格。
任务 | 最适合 | 也考虑 |
---|---|---|
分类和预测 | 决策树、逻辑回归、神经网络 | 相似度模型、表查询模型、最近邻模型、朴素贝叶斯模型 |
评估 | 线性回归、神经网络 | 回归树、最近邻模型 |
二元响应 | 逻辑回归、决策树、神经网络 | 相似度模型、表查询模型、最近邻模型、朴素贝叶斯模型 |
发现集群和模式 | 任何聚类算法 | 关联规则 |
最后
我在这篇文章中总结了Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management, Third Edition
一到三章的主要内容,其内容也是极具概括性的,但这些内容对于一个技术人员理解商业问题,并将商业问题转换为技术问题有非常强的启发性
。这本书全书正文600余页共有21章,其后的每一章都对应了一个数据挖掘技术的详细使用方法和案例
,非常推荐所有在数据挖掘技术的商业应用领域的朋友们学习参考。
[第20篇]