有关数据科学其在客户细分中的应用毕业论文写作资料-论文写作网

简介:关于数据客户方面的论文题目、论文提纲、数据客户论文开题报告、文献综述、参考文献的相关大学硕士和本科毕业论文。

数据客户论文范文

一、引言
二、数据科学和第四范式
cf客户端数据异常:北风网实战淘宝网客户端开发第八讲： ListView的数据分页存取的原理分析及实现
三、数据进化驱动数据科学产生和发展
(一)统计学
(二)数据科学在统计学之外的发展
(三)数据导向：算法和模型
四、应用数据科学的客户细分研究
(一)聚类分析
(二)人工神经网络
(三)文本挖掘
五、结论

许获迪1,江小蕾2

（1．北京银行博士后科研工作站,北京 100033； 2．北京工商大学经济学院, 北京 100048）

【摘要】数据科学是从数据中提取知识的新兴学科,在科学研究的“第四范式”兴起的背景下被正式提出.用于商业决策和科学研究的数据产生了根本性的变化,其特征从原来主流的抽样、结构化、小规模发展到全数据、半结构和非结构化、大规模,驱动数据科学发展成为既包含传统统计方法,又包含数据挖掘、文本挖掘、过程挖掘和大数据等新兴技术的交叉学科.客户细分是典型的数据导向的商业和研究领域,数据科学在其中的应用表明,该学科所包含的各种方法,能够成功提取复杂的客户相关数据中蕴含的信息和知识,能够解决客户细分的可行性、有效性、精确性问题,为客户细分研究和商业实践提供良好的技术支撑和决策支持.

【关键词】数据科学；客户细分；应用情况

【中图分类号】F22

【文献标识码】B

【收稿日期】2015-07-08

【作者简介】许荻迪(1983-),女,湖南长沙人,司职于北京银行博士后科研工作站.研究方向：国际贸易、金融；

江小蕾(1989-),女,山东烟台人,北京工商大学经济学院硕士研究生.研究方向：金融.

一、引言

数据产生、搜集、存储和处理方式的进化催生了数据爆炸时代,需要一门专门研究数据的各种类型、状态、属性,组织形式、变化方式和规律的科学,揭示自然界和人类行为现象和规律,为科学研究提供一种新的方法,为商业智能提供新的支撑.因此,数据科学的概念提出之后,迅速在商业和研究领域引起重视,应用越来越广泛.

客户细分(customer segmentation)是指根据客户属性划分的客户集合.客户作为企业最为重要的战略性资源之一,其需求的满足关系着企业生存、壮大和永续发展,为了满足异质性的客户需求,制定相应的差异化管理策略,企业广泛应用客户细分理论作为重要管理工具,该工具甚至已成为全球使用率最高的10大管理工具之一.有效的客户数据分析是客户细分成功的关键.在客户细分实践中,制约其发挥作用的因素已不再是客户数据信息量的不足,而是对客户信息资源潜在价值的挖掘不够充分.数据科学能够处理各种类型和规模的数据,充分利用数据中蕴含的信息提取出有利于商业决策和科学研究的知识,非常适用于客户细分这一依赖数据导向的领域.

二、数据科学和第四范式

“数据科学”(Data Science)起初叫“datalogy”.最初在1966年由Peter Naur提出.1996年,International Federa-tionof Classification Societies(IFCS)国际会议召开,数据科学一词首次出现在会议(Data Science,classification,andrelat-edmethods)标题里.数据科学的概念于20世纪在学术界引起广泛重视.2002年,国际科学理事会：数据委员会科学和技术(CODATA)开始出版数据科学杂志.2003年,美国哥伦比亚大学开始发布数据科学杂志,主要内容涵盖统计方法和定量研究中的应用.

概括而言,数据科学就是从数据中提取知识.根据Naur(1960)的观点,数据科学或称数据学是计算机科学的一个替代性称谓.1998年,C.F.JefiWu在题为“统计学等于数据科学吗?”的演讲中,建议将统计学改名为数据科学.但是这种字面上的转换,并没有将数据科学确立为一个独立的学科.Cleveland(2001）首次将数据科学作为一个独立的学科提出时,将数据科学表述为统计学加上它在计算技术方面的扩展.魏瑾瑞(2014)认为数据科学的理论基础是统计学,数据科学可以看作是统计学在研究范围（对象）和分析方法上不断扩展的结果.朱扬勇(2011)则认为,数据科学目前只是多个相关学科“拼接”起来的一个新兴学科,尚未形成完整的学科框架体系.

cf客户端数据异常:北风网实战淘宝网客户端开发第八讲： ListView的数据分页存取的原理分析及实现

从以上观点可以看出,数据科学是一门新兴的交叉学科,其真正的发展起步未久,正处在迅猛发展阶段.事实上,第四范式即数据密集型科学的提出,极大促成了数据科学的正式提出和发展.20世纪90年代中期,已故图灵奖得主格雷(Jim Gray提出了科学研究的“第四范式(the fourth paradigm)”——数据密集型科学.不同于实验、理论、计算这三种范式,“第四范式”下,需要“将计算用于数据,而非将数据用于计算”,这种观点实际上是将数据科学从计算科学中单独区别开来了.鄂维南院士(2013)也提到“大数据在科学领域的表现是数据科学的兴起,数据科学将成为科研体系中的重要组成部分,并逐渐达到与物理、化学、生命科学等自然科学分庭抗礼的地位”.

三、数据进化驱动数据科学产生和发展

如前所述,数据科学中的数据处理和分析方法是在不同学科领域中分别发展起来的,包括数学、统计和信息科技领域中的多种技术和理论,例如：信号过程、随机模型、机器学习、统计学习、计算机编程、数据工程、模式识别和学习、可视化、预测技术、不确定性模型、数据仓库和高性能计算.数据科学特别关注扩展到大数据的方法,不过普遍认为数据科学并仅限于研究大数据.总之,为了从数据中提取更多的信息和知识,许多新的技术随着数据特征的演化,被不断纳入到数据科学的范畴中.

(一)统计学

正如有些研究者认为数据科学是在统计学的基础上发展而来的,统计学是数据科学包含的技术中最早的一类.1900年之前,统计学还未作为独立学科分离出来,当时处理的数据主要是全国范围的普查登记造册,一般是一些简单的数据汇总和比较.大约在1920-1960年期间,统计学的关注焦点逐渐缩聚在小规模数据（样本）,产生了经典的统计方法,即统计推断；以及现代意义上的统计调查,即抽样调查.随后,统计方法得以广泛应用,并得到了快速发展.统计学处理的数据是抽样得来的、结构化的、相对小规模的.

(二)数据科学在统计学之外的发展

真正意义上的现代统计学是从处理小数据、不完美的实验等这类现实问题发展起来的,而数据科学则是由于另一类现实问题而兴起—全数据、半结构和非结构、大规模记录中蕴含的信息需要被充分挖掘从而产生更大价值.

1．全数据：数据挖掘

随着数据化时代的到来,针对需要研究的问题常常可以得到数据总体,数据收集方式的改变直接淡化了样本的意义.现代统计分析方法的核心是抽样推断（参数估计和假设检验）,即在观察了样本的情况下如何去推断总体.

然而在全数据的情况下,推断就失去了原有的价值.例如一个公司的数据库中可能有所有员工和客户的资料,去年所有业务的记录等.年度业务的平均值不再需要通过统计推断得到,而是可以通过直接计算全体数据的平均值,此时观测到的值也就是估计参数.同时,数据的数量增长可以带来质量提升,即所谓的“大量的数据胜于好的算法”.更何况在某些情况下,例如社会网络数据,抽样本身是存在困难的.

因此,在能够获得全数据的情况下,使用数据的全体是更为可取的.数据挖掘作为一种能够处理全数据的方法,在很多情形下,使得模型的发现更为容易,从而成为数据科学中一类重要的方法.继数据挖掘之后,另一个能处理全数据的技术是大数据方法,在维克托·迈尔一舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中提出,大数据指不用随机分析法（抽样调查）这样的捷径,而采用所有数据进行分析.

2．多类型：文本挖掘和过程挖掘

尽管各类数据处理技术的目标都在于从数据中提取信息和知识,然而这些技术所能处理的数据范围不一样.数据本身是一个很宽泛的概念,包括结构化、半结构化和非结构化等类型.结构化数据即传统的关系数据模型、行数据,存储于数据库,可用二维表结构表示.半结构化数据即自描述,数据结构和内容混杂在一起,例如XML、HTML等,可用树、图（数学中的定义是什么）等模型表示.非结构化数据指各种文档、图片、视频／音频等,无法用数学模型表示.

统计学研究的数据虽然类型丰富,但都需要在前期进行结构化处理,例如,统计学所使用的类别数据、有序数据等定性数据,定距数据、定比数据等定量数据,都是结构化数据.

文本挖掘、过程挖掘等数据技术能够处理以文本、操作记录等形式存在的社交信息、地理位置信息、行为习惯信息、偏好信息等各种维度的信息,从而最大程度上利用以前无法利用的记录对人类行为数据进行分析,使得能够分析的数据范围迅速扩大.数据科学通过纳入这些新的数据处理技术,使得能处理的数据范围更为宽泛,不仅包括这些传统的结构型数据,而且还包括统计学无法处理的文本、图像、视频、音频、网络日志等非结构型和半结构型数据.总体而言,数据科学对于数据结构的要求大大降低了.

3．大规模：大数据

随着技术的进步,人类开始可以巨细无遗地记录一切可以记录的数据,数据规模急剧增大,数据量实现了从GB级到PB级的跨越,人类进入大数据时代.大数据又称为巨量数据(bigdata,megadata),呈现出4V特点：Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值),是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产.

由于无法确定哪些数据是绝对无用的,选择部分数据进行删除的风险要大于存储大量数据的成本.既然难以通过删除缩小数据量,传统的关系数据库又不具备应付数据量急速膨胀的伸缩性和扩展性,也不具备快速、有弹性地对大数据进行查询、计算、统计分析的能力,需要发展新的技术以专门处理大数据.

大数据技术包含更高效率的存储工具,具备显著的伸缩性和扩展性,可以很好地适应数据量的快速膨胀,可以通过简单增加计算机来无限地扩充存储能力；也包括高级查询语言,对现实中的数据格式具有弹性和适应性（非固定格式）,并能在可容忍的时间范围内完成一系列数据处理过程.由于大数据分析能够解决其他技术没能提供解决方案的海量数据存储和计算的可行性和有效性问题,该技术被充实到了数据科学中.

(三)数据导向：算法和模型

数据导向在第四范式的浪潮下,已经被越来越多的研究者和管理者所认同.但是数据导向仍然有基于模型与基于算法两种声音,基于模型的方法假定数据背后存在某种生成机制,其基本观点是,得到的模型不仅要正确（即可解释性强）,而且要准确（即外推预测能力强）.

基于算法的方法认为复杂的现实世界无法用数学公式来刻画,对于现实中复杂的、高维的、非线性的数据集,不设置具体的数学模型,不进行函数机制的探讨,对数据也不做相应的限制性假定.在很多应用场合,算法模型得到的是针对具体问题的解,并不是统计意义上的推断解.算法模型的可解释性较弱,但是对数据分布结构的限制性假定更少,而且在计算效率上有很大的优势,可扩展性也更强.

20世纪80年代中期以来,算法模型随着计算机技术的迅猛发展而得到快速成长,然而很大程度上是在统计学这个领域之外“悄然”进行的,比如人工神经网络、支持向量机、决策树、随机森林等机器学习和数据挖掘方法.算法模型以其天生与计算机的相容性,越来越受到学界的广泛重视.数据导向的、基于算法的数据分析方法成为无法回避的一个重要趋势.

四、应用数据科学的客户细分研究

客户细分与数据有着天然的紧密联系,科学准确地细分客户需要依靠数据,同时,企业在当前的技术环境下,又能够提供大量的、各种类型的、关于客户的全数据.采用数据科学中各项技术,能够从不同角度充分利用这些数据中蕴含的信息,立体完整地勾勒出每一种客户群体的各项特征.

目前比较典型的应用于客户细分的数据科学技术有聚类分析、人工神经网络、文本挖掘等,应用这些技术可实现不同内容、维度和侧重点的客户细分,研究结论对商业实践有很好的参考作用.

(一)聚类分析

聚类分析是将数据对象依据其特征分组成若干个类或簇的一种数据挖掘技术.簇是一组数据对象的集合,同一个簇中的对象彼此相似,不同簇中的对象彼此相异.许多国外研究都将聚类分析应用于客户细分研究.Fer-reira Lope(2009)强调联合分析和聚类分析在客户细分中的优势,通过聚类分析了解消费者偏好,并据此将客户分组,制定更有针对性的营销策略.Simunaniemi A-M等(2013)采用半结构式问卷调查方法,运用两步聚类分析法对消费者的饮食习惯进行分析,对客户集群进行基于T检验及卡方检验的比较,证实聚类分析能够有针对性的对消费群进行健康和营养指导.O.Dzobo等(2014)介绍了在电力系统领域客户细分所具备的价值,采用层次聚类技术从电力产业的经济规模、经济活动以及能源消费方面对客户进行细分并进行了案例分析.Henriet-teM n ller等(2014)c201为电力系统稳定性分析建立了多维度客户细分模型,采用规模、经济活动、能源消费量三个变量将客户依照其负荷特性进行细分,对南非和瑞典数据的分析表明,该模型相对传统客户细分模型的有效性体现在对于客户停电损失(CIC)最终估计的离差减小了.

国内学者对聚类分析在客户细分研究中的应用也进行了一些探索.季月江和吕佳(2009)主要分析了K-means算法及其在客户细分中的应用,并指出客户价值、消费特征和人口特征这三个维度是客户细分的主要内容.吴军英和辛锐(2010)基于K-means算法和基于密度的DBSCAN算法的优点和不足提出了改进的DBSK算法,使得算法对全局参数依赖性降低,并应用该算法进行客户细分.熊云波(2008)认为客户细分是客户关系管理的核心,并运用聚类分析技术对零售业客户进行客户细分的实证研究.徐昆(2014)改进了K-means算法,参考RFM模型设立指标对客户进行细分,并通过编程优化K-means算法宏程序,对快速消费品的销售历史数据进行了实证分析,以实现资源的优化配置.

(二)人工神经网络

人工神经网络(Artificial Neural Network)是一种类似于大脑神经网络结构和功能的数学模型.它是由一系列的处理单元利用适当的方式互连而成的一个非线性信息处理系统.该方法是一种人工智能算法,也是一种数据挖掘技术,具有自适应性、自组织性、容错性等特征,能够快速、准确实现智能化分析,并对未来做出预测和评价,在模式识别、数据处理及自动化控制等多个领域的应用都取得了良好效果.

国外很多研究将人工神经网络方法应用于客户细分.Ali,J．和Rao,C.P．(2010)在信息处理和通信技术不断改进的基础上探索更加有效的市场细分的方法,并详细阐述了神经网络模型的可行性.Kauko,T．等(2002)采用两种神经网络模型——自组织映射(SOM)及学习矢量量化(LVQ)模型对芬兰赫尔辛基的房地产市场进行细分,发现客户更关心地理位置和房屋种类,房屋论文范文反而是较少被考虑的因素.Derrick S.Boone和Michelle Roehm(2002)基于模糊人工神经网络分析技术,采用真实数据检验会员聚类准则,在现有方法的基础上确定目标市场细分区间,并验证不同市场细分的优势.Velu,C.M．和Kashwan,K.R.(2015）基于人工神经网络的智能模型,采用目标市场客户的实际交易数据,研究客户的消费行为并将客户进行分类.

国内许多学者对神经网络方法进行了改进,并将其应用于客户细分研究.陈伯成(2004)对自组织神经网络在客户分类中的应用进行了探讨,在讨论客户细分相关概念的基础上,给出一种基于SOM客户分类方法,并根据综合指标的计算和各个指标的相对结果将客户分类,进行模拟计算.施扬(2007)应用自组织特征映射SOM的人工神经网络模型对客户高维数据进行训练,得到的分类模型能够对商业银行CRM系统在线实时输入的客户信息进行有效分类.秦昌磊和薛亚菲(2010)采用自有神经网络(SOM)建立银行客户细分模型.汤亚玲等(2014)L33将遗传算法与BP神经网络结合用于对银行客户分类进而对客户购买银行产品的行为进行预测,发现基于自适应的遗传神经网络方法能够更快更高效分类银行客户.

(三)文本挖掘

文本挖掘也称为文本数据挖掘或文本知识发现,是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息.直观地说,当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称为文本挖掘.文本挖掘的基本思想是首先将文本进行切分,进行信息抽取,将非结构化文本数据利用分类、聚类、关联分析技术转化为结构化数据,然后根据结构化数据发现、获取信息之间的关系,并进行趋势预测.文本挖掘作为数据挖掘的热门领域受到了政府、商业和研究机构的广泛关注,但该方法应用于客户细分研究才刚刚起步,具有重大的发展潜力.

国外研究者将文本挖掘技术应用于客户细分,着重研究了客户蕴藏于文本中的态度、情感、观点等内容.Parkj.等(2014)使用文本挖掘识别“纤维肌痛临床特征患者(FM)”网上发布的内容,对医疗客户进行细分.通过识别、分析FM网站有关记录的词性、词频、语法及短语,获得FM客户的关键词.关键词显示,疼痛是FM患者最关注的问题：疼痛部位主要在肌肉、腿、脖子、后背、关节及肩膀等位置；疼痛症状可分为“严重”、“长期”、“经常”三类,同时可能伴随痉挛.客户还关注医疗服务和其他帮助,并且希望病痛尽量少地影响职业和人际关系.研究结果表明,通过文本挖掘可以客观地了解FM客户关注的问题并对其进行细分.Sun等(2015)指出,为YouTube和Flicker等社会媒体网站的客户提供适当的个性化推送内容变得越来越有挑战性,而文本挖掘能够有效地应对这一挑战.协同过滤(OCCF)方法通过整合在线情感文本来建立细分和推荐模型,能够改善传统推荐模式过于依赖优先等级并且经常遇到数据稀缺性的问题.该研究结合推断的情绪反馈信息和OCCF模型,开发了新的社交媒体推荐模型SA_OCCF,对网站客户进行细分和针对性内容推送,研究结果表明该推荐模型比OCCF更加有效.OdedNetzer等(2012)提出,在Web2.0时代,对于博客、论坛、聊天工具所记载的用户想法、信念以及经验形成大量文本数据,可通过文本挖掘方法,结合语义网络分析,从中搜集分析客户对竞争对手产品的态度,将其转化成市场结构及竞争格局相关信息.

国内研究者采用文本挖掘进行客户细分,主要发掘客户特性和行为偏好.胡雨晴(2014)针对短文本数据,研究文本数据的维数约减方法和基于文本聚类的客户细分问题,发现了关注人群的分布情况以及不同的客户行为偏好.庞观松(2013)提出,客户的社会关系网的兴趣爱好信息对客户特征描述具有重要意义,该研究采用微博平台文本数据,探索了社会关系特性在客户细分中的作用,将客户个论文范文社会特性两个方面结合生成客户特性描述文本.

五、结论

数据科学是从数据中提取知识的新兴学科,在科学研究的“第四范式”兴起的背景下被正式提出.用于商业决策和科学研究的数据产生了根本性的变化,其特征从原来主流的抽样、结构化、小规模发展到全数据、半结构和非结构化、大规模,驱动数据科学发展成为既包含传统统计方法,又包含数据挖掘、文本挖掘、过程挖掘和大数据等新兴技术的交叉学科.同时,在数据导向的思想下,数据科学也体现出从偏重模型到偏重算法的趋势.

客户细分是典型的数据导向的商业和研究领域,数据科学在其中的应用表明,该学科所包含的各种方法,能够成功提取复杂的客户相关数据中蕴含的信息和知识,能够解决客户细分的可行性、有效性、精确性问题,为客户细分研究和商业实践提供良好的技术支撑和决策支持.

【责任编辑：王凤娟】

总结：主要论述了数据客户论文范文相关参考文献文献

cf客户端数据异常引用文献: