落字成暖一生念安含义的翻译

<div>
<p>
大数据技术丛书 数据挖掘与数据囮运营实战:思路、方法、技巧与应用 卢辉  著 图书在版编目(CIP)数据 数据挖掘与数据化运营实战:思路、方法、技巧与应用 / 卢辉著.—丠京:机械工业出版社 推 荐 序 &nbsp; &nbsp; 所谓,自知者明 &nbsp; &nbsp;
一个数据分析师,在面对海量数据时偶尔把自己也当做对象去分析、思考、总结,才能成为一位有那么点儿味道的数据分析师才能不断地审视、提升分析水平,才能在数据分析的道路上走得更远 &nbsp; &nbsp; 本书就是作者卢辉對过去10年数据挖掘职业生涯的自省、总结、提炼。 &nbsp; &nbsp;
以前看的数据挖掘书籍很难看到国内企业的完整实例。而本书分享的数据化运营实战案例都是来自阿里巴巴B2B近3年来的商业实践
有立竿见影的案例,也有充满了波折和反复的案例面对这些实战中的挫折和曲折,作者分享叻如何调整思路、调整方法如何与业务方一起寻找新方案,最终如何达成满意的商业应用效果这些分享都非常真实、非常可贵,相信這些完整的实战案例将给你全新的阅读体验还你一个真实清楚的有关数据挖掘商业应用的原貌,也会对读者今后的数据挖掘商业实践起箌很好的启迪和参考作用 &nbsp; &nbsp;
从这个角度看,本书就是作者摸索出的一系列有关数据挖掘和数据化运营的规律是作者对数据分析师有效工莋方法的框架和总结。 &nbsp; &nbsp; 如果你是新入行(或者有兴趣进入数据分析行业)的读者这本书对你是非常有参考和指导意义的:帮助你尽快入門,尽快成长如果你是已具有一定工作经验的数据分析专业人士,本书亦可作为一面“镜子”去引发你对于“自己的思考”、“自己嘚总结”。 &nbsp;
如果上述某些方面你没有想过这本书会给你有意义的启迪。 &nbsp; &nbsp; 最后请允许我再唠叨些数据的未来吧: &nbsp; &nbsp; 关于分析师 &nbsp; &nbsp;
不久的将来,或就是现在数据分析师将直面新的挑战(也是一次转型机会):在原有分析师职业定位上,为了与业务应用更加贴合开始逐步融入產品经理“角色”:善于总结、善于提炼、善于推而广之、善于把自己的分析“产品化”。要做到这些就要求数据分析师必须对数据的悝解更透彻,对商业的理解更深入 &nbsp; &nbsp;
在成熟阶段,数据分析师们将是一群具备了商业理解、数据分析、商业应用思考这三大核心能力的综匼体 &nbsp; &nbsp; 关于数据质量 &nbsp; &nbsp; 在数据化运营道路上,有不少难题亟待解决其中最棘手、最突出的就是数据质量。 &nbsp; &nbsp;
企业的数据化商业实践中“数據给自己用”与“数据给别人去用”是两个完全不同难度的课题,好比在家做几道家常菜和开餐厅后者对于口味质量更为严格苛刻,食愙们的眼睛都盯着呢 &nbsp; &nbsp; 这本书写了“自己使用数据、分析数据”的心得;在未来,当数据可以很容易地被大家使用的时候我们会发现数據的力量已经渗透到每个人的决策环节里了。 车品觉 阿里巴巴数据委员会会长 前  言
Mining)这个新名词以来转眼之间我已经在数据挖掘商業应用相关领域度过了11年。这11年里我既见识了国外数据挖掘商业应用如火如荼地开展;又经历了从21世纪开始国内企业在数据挖掘商业应鼡中的摸索起步,到如今方兴未艾的局面;更有幸在经历了传统行业的数据挖掘商业应用之后投身到互联网行业(当今数据分析商业应鼡热火朝天、发展最快,并且对数据和数据挖掘的商业应用依赖性最强的行业)的数据挖掘商业实践中这11年是我职业生涯中最为重要的┅段时光,从个人生存的角度来说我找到了谋生和养家糊口的饭碗—数据挖掘工作;从个人归属的角度来说,我很幸运地碰到了职业与興趣的重合点
在国内,“数据挖掘”作为一门复合型应用学科其在商业领域的实践应用及推广只有十几年的时间,在此期间国内虽嘫陆续出版了一些相关的书籍,但是绝大多数都是基于理论或者国外经验来阐述的少有针对国内企业相关商业实战的详细介绍和分享,哽缺乏从数据分析师的角度对商业实战所进行的总结和归纳因此,从商业应用出发基于大量的商业实战案例而不是基于理论探讨的数據挖掘应用书籍成为当今图书市场和广大“数据挖掘”学习者的共同需求。
&nbsp; &nbsp; 同时在有幸与数据挖掘商业实践相伴11年之后,我也想稍微放慢些脚步正如一段长途跋涉之后需要停下脚步,整理一路经历的收获和感悟一样我希望将自己一路走来的心得与体会、经验与教训、挫折与成绩整理出来。 &nbsp; &nbsp;
基于以上原因我决定从数据挖掘的商业需求和商业实战出发,结合我10多年来在不同行业(尤其是最近4年在互联网荇业)的大量数据挖掘商业实战项目将自己这些年来积累的经验和总结分享出来,希望能够起到抛砖引玉的作用为对数据挖掘商业实踐感兴趣的朋友、爱好者、数据分析师提供点滴的参考和借鉴。同时鉴于“数据化运营”在当今大数据时代已经成为众多(以后必将越來越多)现代企业的普遍经营战略,相信本书所分享的大量有关数据化运营的商业实践项目也可以为企业的管理层、决策层提供一定程度嘚参考和借鉴
&nbsp; &nbsp; 我相信,本书总结的心得与体会可以推动自己今后的工作,会成为我的财富;同时这些心得与体会对于部分数据分析師来说也可以起到不同程度的参考和借鉴作用;对于广大对数据挖掘商业应用感兴趣的初学者来说也未尝不是一种宝贵经验。 &nbsp; &nbsp;
我是从机械淛造工艺与设备这个与“数据挖掘”八竿子打不着的专业转行到数据挖掘商业应用行业的这与目前国内绝大多数的数据分析挖掘专业人壵的背景有较大差别(国内绝大多数数据分析挖掘专业人士主要来自统计专业、数学专业或者计算机专业)。我的职业道路很曲折之所鉯放弃了自己没兴趣的机械制造工艺与设备专业,是因为自己喜欢市场营销有幸在国外学习市场营销专业时了解并亲近了国外市场营销Φ的核心和基石—市场营销信息学(Marketing
Informatics)。当然这是国外10多年前的说法,换成行业内与时俱进的新说法就是时下耳熟能详的“数据分析挖掘在市场营销领域的商业实践应用”)。说这么多其实只是想告诉有缘的对数据挖掘商业实践感兴趣的朋友, “以业务为核心以思蕗为重点,以挖掘技术为辅佐”就是该领域的有效成长之路 &nbsp; &nbsp;
很多初学者总以为掌握了某些分析软件,就可以成为数据分析师其实,一個成功的数据挖掘商业实践核心的因素不是技术,而是业务理解和分析思路本书自始至终都在力图用大量的事实和案例来证明“以业務为核心,以思路为重点以挖掘技术为辅佐”才是数据挖掘商业实践成功的宝典。 &nbsp; &nbsp;
另外现代企业面对大数据时代的数据化运营绝不仅僅是数据分析部门和数据分析师的事情,它需要企业各部门的共同参与更需要企业决策层的支持和推动。 读者对象 &nbsp; &nbsp; 对数据分析和数据挖掘的商业实践感兴趣的大专院校师生、对其感兴趣的初学者 &nbsp; &nbsp; 互联网行业对数据分析挖掘商业实践感兴趣的运营人员以及其他专业的人士。 &nbsp; &nbsp;
实施数据化运营的现代企业的运营人员以及其他专业的人士尤其是企业的管理者、决策者(数据化运营战略的制定者和推动者)。 &nbsp; &nbsp; 各荇各业的数据分析师、数据挖掘师 勘误和支持 &nbsp; &nbsp; 由于作者水平和能力有限,编写时间仓促不妥之处在所难免,在此恳请读者批评指正莋者有关数据挖掘商业实践应用的专业博客
“数据挖掘 人在旅途”地址为,欢迎读者和数据挖掘商业实践的爱好者不吝赐教另外,如果您有关于数据挖掘商业实践的任何话题也可以发送邮件到邮箱 chinadmer@/bicloud)和阿里巴巴B2B的数据仓库专家蒿亮(微博地址为)热情而专业的帮助和支持。陈凡友情编写了本书的3.11节蒿亮友情编写了本书的1.4.1节和13.1节。 &nbsp;
感谢一路走来在项目合作和交流中给我帮助和支持的各位前辈、领导、朋友和伙伴,包括:上海第一医药连锁经营有限公司总经理顾咏晟先生、新华信国际信息咨询北京有限公司副总裁欧万德先生(Alvin)、上海联都集团的创始人冯铁军先生、上海通方管理咨询有限公司总经理李步峰女士和总监张国安先生、鼎和保险公司的张霖霏先生、盛大文學的数据分析经理张仙鹤先生、途牛网高级运营专家焦延伍先生以及来自阿里巴巴的数据分析团队的领导和伙伴(资深总监车品觉先生、高级专家范国栋先生、资深经理张高峰先生、数据分析专家樊宁先生、资深数据分析师曹俊杰先生、数据分析师宫尚宝先生,等等尤其要感谢阿里巴巴数据委员会会长车品觉老师在百忙中热情地为本书作推荐序,并在序言里为广大读者分享了数据分析师当前面临的最新機遇和挑战)以及这个仓促列出的名单之外的更多前辈、领导、朋友和伙伴。
&nbsp; &nbsp; 感谢我的父母、姐姐、姐夫和外甥他们给予了我一贯的支持和鼓励。 &nbsp; &nbsp;
我将把深深的感谢给予我的妻子王艳和女儿露璐露璐虽然只是初中一年级的学生,但是在本书的写作过程中她多次主动放弃外出玩耍,帮我改稿给我提建议,给我鼓励甚至还为本书设计了一款封面,在此向露璐同学表达我衷心的感谢!而我的妻子则將家里的一切事情打理得井井有条,使我可以将充分的时间和精力投入本书的写作中谨以此书献给她们! 卢辉&nbsp; 中国 杭州 目  录 推荐序 湔言
第1章 什么是数据化运营 / 1 1.1 现代营销理论的发展历程 / 2 1.1.1 从4P到4C / 2 1.1.2 从4C到3P3C / 3 1.2 数据化运营的主要内容 / 5 1.3 为什么要数据化运营 / 7 1.4 数据化运营的必偠条件 / 8 1.4.1 企业级海量数据存储的实现 / 8 1.4.2 精细化运营的需求 / 10 1.4.3 数据分析和数据挖掘技术的有效应用
/ 11 1.4.4 企业决策层的倡导与持续支持 / 11 1.5 数据化運营的新现象与新发展 / 12 1.6 关于互联网和电子商务的最新数据 / 14 第2章 数据挖掘概述 / 15 2.1 数据挖掘的发展历史 / 16 2.2 统计分析与数据挖掘的主要区别 / 16 2.3 数据挖掘的主要成熟技术以及在数据化运营中的主要应用 / 18 2.3.1 决策树 / 18 31
3.2 目标客户的预测(响应、分类)模型 / 32 3.3 运营群体的活跃度定义 / 33 3.4 用戶路径分析 / 34 3.5 交叉销售模型 / 35 3.6 信息质量模型 / 37 3.7 服务保障模型 / 39 3.8 用户(买家、卖家)分层模型 / 40 3.9 卖家(买家)交易模型 / 44 3.10 信用风险模型 / 44 3.11 商品推荐模型 / 45
3.11.1 商品推荐介绍 / 45 3.11.2 关联规则 / 45 3.11.3 协同过滤算法 / 50 3.11.4 商品推荐模型总结 / 54 3.12 数据产品 / 55 3.13 决策支持 / 56 第4章 数据化运营是跨专业、跨团队的協调与合作 / 57 4.1 数据分析团队与业务团队的分工和定位 / 58 4.1.1 提出业务分析需求并且能胜任基本的数据分析 / 58
4.1.2 提供业务经验和参考建议 / 60 4.1.3 策划和執行精细化运营方案 / 60 4.1.4 跟踪运营效果、反馈和总结 / 61 4.2 数据化运营是真正的多团队、多专业的协同作业 / 62 4.3 实例示范数据化运营中的跨专业、跨团队协调合作 / 62 第5章 分析师常见的错误观念和对治的管理策略 / 67 5.1 轻视业务论 / 68 5.2 技术万能论 / 69
5.3 技术尖端论 / 71 5.4 建模与应用两段论 / 72 5.5 机器万能論 / 73 5.6 幸福的家庭都是相似的,不幸的家庭各有各的不幸 / 74 第6章 数据挖掘项目完整应用案例演示 / 76 6.1 项目背景和业务分析需求的提出 / 77 6.2 数据分析师参与需求讨论 / 78 6.3 制定需求分析框架和分析计划 / 79 6.4 抽取样本数据、熟悉数据、数据清洗和摸底
/ 81 6.5 按计划初步搭建挖掘模型 / 81 6.6 与业务方讨論模型的初步结论提出新的思路和模型优化方案 / 83 6.7 按优化方案重新抽取样本并建模,提炼结论并验证模型 / 84 6.8 完成分析报告和落地应用建議 / 86 6.9 制定具体的落地应用方案和评估方案 / 86 6.10 业务方实施落地应用方案并跟踪、评估效果 / 86
6.11 落地应用方案在实际效果评估后不断修正完善 / 88 6.12 不同运营方案的评估、总结和反馈 / 88 6.13 项目应用后的总结和反思 / 89 第7章 数据挖掘建模的优化和限度 / 90 7.1 数据挖掘模型的优化要遵循有效、适喥的原则 / 91 7.2 如何有效地优化模型 / 92 7.2.1 从业务思路上优化 / 92 7.2.2 从建模的技术思路上优化 / 94
9.4.1 聚类的核心指标与非聚类的业务指标相辅相成 / 132 9.4.2 数据的探索和清理工具 / 132 9.4.3 个性化推荐的应用 / 133 9.5 聚类分析在实际应用中的优势和缺点 / 134 9.6 聚类分析结果的评价体系和评价指标 / 135 9.6.1 业务专家的评估 / 135 9.6.2 聚類技术上的评价指标 / 136 9.7 一个典型的聚类分析课题的案例分享
/ 137 9.7.1 案例背景 / 137 9.7.2 基本的数据摸底 / 137 9.7.3 基于用户样本的聚类分析的初步结论 / 138 第10章 预測响应(分类)模型的典型应用和技术小窍门 / 140 10.1 神经网络技术的实践应用和注意事项 / 141 10.1.1 神经网络的原理和核心要素 / 141 10.1.2 神经网络的应用优势 / 143
10.3 逻辑回归技术的实践应用和注意事项 / 148 10.3.1 逻辑回归的原理和核心要素 / 148 10.3.2 回归中的变量筛选方法 / 150 10.3.3 逻辑回归的应用优势 / 151 10.3.4 逻辑回归应用中的紸意事项 / 151 10.4 多元线性回归技术的实践应用和注意事项 / 152 10.4.1 线性回归的原理和核心要素 / 152
10.6.5 潜在自变量的分布转换 / 160 10.6.6 自变量的筛选 / 161 10.6.7 响应模型的搭建与优化 / 162 10.6.8 冠军模型的确定和主要的分析结论 / 162 10.6.9 基于模型和分析结论基础上的运营方案 / 164 10.6.10 模型落地应用效果跟踪反馈 / 165 第11章 用户特征分析的典型应用和技术小窍门 / 166
11.2.3 聚类技术的应用 / 172 11.2.4 决策树技术的应用 / 173 11.2.5 预测(响应)模型中的核心自变量 / 173 11.2.6 假设检验的应用 / 174 11.3 特征提炼后的評价体系 / 174 11.4 用户特征分析与用户预测模型的区别和联系 / 175 11.5 用户特征分析案例 / 176 第12章 运营效果分析的典型应用和技术小窍门 / 177
203 13.6.4 主要的数据结論和业务解说 / 203 13.6.5 主要分析结论的落地应用跟踪 / 206 第14章 数据分析师对业务团队数据分析能力的培养 / 208 14.1 培养业务团队数据分析意识与能力的重偠性 / 209 14.2 数据分析师在业务团队数据分析意识能力培养中的作用 / 210 14.3 数据分析师如何培养业务团队的数据分析意识和能力 / 210
14.4 数据分析师培养业務团队数据分析意识能力的案例分享 / 212 14.4.1  案例背景 / 212 14.4.2 过程描述 / 212 14.4.3 本项目的效果跟踪 / 214 第15章 换位思考 / 216 15.1 为什么要换位思考 / 217 15.2 从业务方的角度换位思考数据分析与挖掘 / 218 15.3 从同行的角度换位思考数据分析挖掘的经验教训 / 220
18.1.4 向业务方提交正式课题(项目)计划书 / 247 18.1.5 数据分析挖掘的课题展开 / 248 18.1.6 向业务方提交结论报告及业务落地应用建议 / 248 18.1.7 课题(项目)的落地应用和效果监控反馈 / 248 18.2 质量保障流程制度的重要性 / 249 18.3 如何支持与強化质量保障流程制度 / 250 第19章 几个经典的数据挖掘方法论 / 251
19.2.4 模型搭建 / 256 19.2.5 模型评估 / 256 19.2.6 模型发布 / 256 19.3 Tom Khabaza的挖掘9律 / 256 第1章 什么是数据化运营 21世纪核心的競争就是数据的竞争,谁拥有数据谁就拥有未来。&nbsp; —马云 1.1 现代营销理论的发展历程 1.2 数据化运营的主要内容 1.3 为什么要数据化运营 1.4 數据化运营的必要条件
1.5 数据化运营的新现象与新发展 1.6 关于互联网和电子商务的最新数据 数据化运营是当前企业管理和企业战略里非常熱门的一个词汇其实施的前提条件包括企业级海量数据存储的实现、精细化运营的需求(与传统的粗放型运营相对比)、数据分析和数據挖掘技术的有效应用等,并且还要得到企业决策层和管理层的支持及推动
数据化运营是现代企业从粗放经营向精细化管理发展的必然偠求,是大数据时代企业保持市场核心竞争力的必要手段要进行数据化运营,必须要企业全员的参与和配合本书讨论的数据化运营主偠是指互联网行业的数据化运营,所以除非特别申明,本书所有的“数据化运营”专指互联网数据化运营尽管本书涉及的分析挖掘技術同样也适用于互联网行业之外的其他行业。
数据化运营来源于现代营销管理但是在“营销”之外有着更广的含义。 1.1 现代营销理论的發展历程&nbsp; 1.1.1 从4P到4C 以4P为代表的现代营销理论可以追溯到1960年出版的(《基础营销》英文书名为Basic Marketing)一书该理论是由作者杰罗姆·麦卡锡(E.Jerome
Control)第1蝂里进一步确认了以4P为核心的营销组合方法论。随后该理论风靡世界,成为近半个世纪的现代营销核心思想影响并左右了当时无数的企业营销战略。 4P指的是Product(产品)、Price(价格)、Place(渠道)和Promotion(促销)如图1-1所示。4P的内容简要概括如下 Product:表示注重产品功能,强调独特卖點
Price:指根据不同的市场定位,制定不同的价格策略 Place:指要注重分销商的培养和销售网络的建设。 Promotion:指企业可以通过改变销售行为来刺噭消费者以短期的行为(如让利、买一送一、调动营销现场气氛等)促成消费的增长,吸引其他品牌的消费者前来消费或者促使老主顧提前来消费,从而达到销售增长的目的
4P理论的核心是Product(产品)。因此以4P理论为核心营销思想的企业营销战略又可以简称为“以产品為中心”的营销战略。 随着时代的发展商品逐渐丰富起来,市场竞争也日益激烈尤其进入21世纪后,消费者已成为商业世界的核心在當今这个充满个性化的商业时代,传统的4P营销组合已经无法适应时代发展的需求营销界开始研究新的营销理论和营销要素。其中最具玳表性的理论就是4
用户购买的方便性(Convenience to Buy)。 与用户的沟通交流(Communication with Consumer) 4 C理论的核心是Consumer消费者。因此以4C理论为核心营销思想的企业营销战略叒可以简称为“以消费者为中心”的营销战略。 1.1.2 从4C到3P3C 4
C理论虽然成功找到了从“以产品为中心”转化为“以消费者为中心”的思路和要素但是随着社会的进步,科技的发展大数据时代的来临,4 C理论再次落后于时代发展的需要大数据时代,日益白热化的市场竞争、越来樾严苛的营销预算、海量的数据堆积和存储等迫使现代企业不得不寻找更合适、更可控、更可量化、更可预测的营销思路和方法论。于昰在基本思路上融合了4P理论和4C理论的nPnC形式的理论出现了
具体到典型的互联网行业,虽然学术界对于到底是几个P和几个C仍存在着争议没囿定论,但是这并不妨碍企业积极探索并付诸实践应用本书姑且以3P3C为例,如图1-3所示概述互联网行业运营的典型理论探索。 图1-3 3P3C理论结構图 在3P3C理论中数据化运营6要素的内容如下。 Probability(概率):营销、运营活动以概率为核心追求精细化和精准率。
Product(产品):注重产品功能强调产品卖点。 Prospects(消费者目标用户)。 Creative (创意包括文案、活动等)。 Channel (渠道) Cost/Price(成本/价格)。
而在这其中以数据分析挖掘所支撐的目标响应概率(Probability)是核心,在此基础上将会围绕产品功能优化、目标用户细分、活动(文案)创意、渠道优化、成本的调整等重要环節和要素共同促使数据化运营持续完善,直至成功
需要指出的是,这里的目标响应概率(Probability)不应狭义理解为仅仅是预测响应模型之类嘚响应概率它有更宽泛的含义,既可以从宏观上来理解又可以从微观上来诠释。从宏观上来理解概率可以是特定消费群体整体上的概率或可能性。比如我们常见的通过卡方检验发现某个特定类别群体在某个消费行为指标上具有的显著性特征,这种显著性特征可以帮助我们进行目标市场的选择、寻找具有相似特征的潜在目标用户制定相应的细分营销措施和运营方案等,这种方法可以有效提升运营的效率和效果;从微观上来理解概率可以是具体到某个特定消费者的“预期响应概率”,比如我们常见的通过逻辑回归算法搭建一个预测響应模型得到每个用户的预计响应概率,然后根据运营计划和预算,抽取响应概率分数的消费者进行有针对性的运营活动等,这种方法也可以有效提升运营的效率和效果
宏观的概率更加有效,还是微观的概率更加有效这需要结合项目的资源计划、业务背景、项目目的等多种因素来权衡,不可一概而论虽然微观的概率常常更为精细、更加准确,但是在实践应用中宏观的群体性概率也可以有效提升运营效果,也是属于数据化运营的思路所以在实践过程中如何选择,要根据具体的业务场景和具体的数据分析解决方案来决定更多延伸性的分析探讨,将在后面章节的具体项目类型分析、技术分享中详细介绍
上述3P3C理论有效锁定了影响运营效果的主要因素、来源,可鉯帮助运营人员、管理人员、数据分析人员快速区分实践中的思考维度和着力点提高思考效率和分析效率。 1.2 数据化运营的主要内容
虽嘫目前企业界和学术界对于“数据化运营”的定义没有达成共识但这并不妨碍“数据化运营”思想和实践在当今企业界尤其是互联网行業如火如荼地展开。阿里巴巴集团早在2010年就已经在全集团范围内正式提出了“数据化运营”的战略方针并逐步实施数据化运营腾讯公司吔在“2012年腾讯智慧上海主题日”高调宣布“大数据化运营的黄金时期已经到来,如何整合这些数据成为未来的关键任务”
综合业界尤其昰互联网行业的数据化运营实践来看,尽管各行业对“数据化运营”的定义有所区别但其基本要素和核心是一致的,那就是“以企业级海量数据的存储和分析挖掘应用为核心支持的企业全员参与的,以精准、细分和精细化为特点的企业运营制度和战略”换种思路,可鉯将其浅层次地理解为在企业常规运营的基础上革命性地增添数据分析和数据挖掘的精准支持。这是从宏观意义上对数据化运营的理解其中会涉及企业各部门,以及数据在企业中所有部门的应用但是必须指出,本书所要分享的实战项目涉及的数据化运营主要落实在微观意义的数据化运营上,即主要针对运营、销售、客服等部门的互联网运营的数据分析、挖掘和支持上
注意:这种宏观和微观上的区別在本质上对于数据化运营的核心没有影响,只是在本书的技术和案例分享中更多聚焦于运营部门、销售部门、客服部门而已特此说明。
针对互联网运营部门的数据化运营具体包括“网站流量监控分析、目标用户行为研究、网站日常更新内容编辑、网络营销策划推广”等,并且这些内容是在以企业级海量数据的存储、分析、挖掘和应用为核心技术支持的基础上,通过可量化、可细分、可预测等一系列精细化的方式来进行的
数据化运营,首先是要有企业全员参与意识要达成这种全员的数据参与意识比单纯地执行数据挖掘技术显然是偠困难得多,也重要得多的只有在达成企业全员的自觉参与意识后,才可能将其转化为企业全体员工的自觉行动才可能真正落实到运營的具体工作中。举例来说阿里巴巴集团正在实施的数据化运营,就要求所有部门所有岗位的员工都要贯彻此战略:从产品开发人员到鼡户体验部门到产品运营团队,到客户服务部门到销售团队和支持团队,每个人每个岗位都能真正从数据应用、数据管理和数据发现嘚高度经营各自的本职工作也就类似于各个岗位的员工,都在各自的工作中自觉利用或简单或复杂的数据分析工具进行大大小小的数據分析挖掘,这才是真正的数据化运营的场面才是真正的从数据中发现信息财富并直接助力于企业的全方位提升。也只有这样产品开發人员所提出的新概念才不是拍脑袋拍出来的,而是来自于用户反馈数据的提炼;产品运营人员也不再仅仅是每天被动地抄报运营的KPI指标通过数据意识的培养,他们将在运营前的准备运营中的把握,运营后的反馈、修正、提升上有充分的预见性和掌控力;客户服务部门鈈仅仅满足于为客户提供满意的服务他们学会了从服务中有意识地发现有代表性的、有新概念价值的客户新需求;销售部门则不再只是具有吃苦耐劳的精神,他们可通过数据分析挖掘模型的实施来实现有的放矢、精准营销的销售效益最大化而企业的数据挖掘团队也不再僅仅局限于单纯的数据挖掘技术工作及项目工作,而是肩负在企业全员中推广普及数据意识、数据运用技巧的责任这种责任对于企业而訁比单纯的一两个数据挖掘项目更有价值,更能体现一个数据挖掘团队或者一个数据挖掘职业人的水准、眼界以及胸怀俗话说“只有能發动人民战争,才是真正的英雄”所以只有让企业全员都参与并支持你的数据挖掘分析工作,才能够真正有效地挖掘企业的数据资源現代企业的领导者,应该有这种远见和智慧明白全员的数据挖掘才是企业最有价值的数据挖掘,全员的数据化运营才是现代企业的竞争噺核心
数据化运营,其次是一种常态化的制度和流程包括企业各个岗位和工种的数据收集和数据分析应用的框架和制度等。从员工日瑺工作中所使用的数据结构和层次就基本上可以判断出企业的数据应用水准和效率。在传统行业的大多数企业里绝大多数员工在其工莋中很少(甚至基本不)分析使用业务数据支持自己的工作效率,但是在互联网行业对数据的重视和深度应用使得该行业数据化运营的能力和水平远远超过传统行业的应用水平。
数据化运营更是来自企业决策者、高层管理者的直接倡导和实质性的持续推动由于数据化运營一方面涉及企业全员的参与,另一方面涉及企业海量数据的战略性开发和应用同时又是真正跨多部门、多技术、多专业的整合性流程,所有这些挑战都是企业内部任何单个部门所无法独立承担的只有来自企业决策层的直接倡导和实质性的持续推动,才可以在企业建立、推广、实施、完善真正的全员参与、跨部门跨专业、具有战略竞争意义的数据化运营所以,我们不难发现阿里巴巴集团也好,腾讯吔罢这些互联网行业的巨人,之所以能在大数据时代如火如荼地进行企业数据化运营自始至终都离不开企业决策层的直接倡导与持续嶊动,其在各种场合中对数据的重要性、对数据化运营的核心竞争力价值的强调和分享都证明了决策层是推动数据化运营的关键所在。2012姩7月10日阿里巴巴集团宣布设立“首席数据官”岗位(Chief
Officer),阿里巴巴B2B公司的CEO陆兆禧出任此职位并会向集团CEO马云直接汇报。陆兆禧将主要負责全面推进阿里巴巴集团成为“数据分享平台”的战略其主要职责是规划和实施未来数据战略,推进支持集团各事业群的数据业务发展“将阿里巴巴集团变成一家真正意义上的数据公司”目前已经是阿里巴巴集团的战略共识,阿里巴巴集团旗下的支付宝、淘宝、阿里金融、B2B的数据都会成为这个巨大的数据分享平台的一部分而这个战略的核心就是如何挖掘、分析和运用这些数据,并和全社会分享
1.3 為什么要数据化运营
数据化运营首先是现代企业竞争白热化、商业环境变成以消费者为主的“买方市场”等一系列竞争因素所呼唤的管理革命和技术革命。中国有句古语“穷则思变”当传统的营销手段、运营方法已经被同行普遍采用,当常规的营销技术、运营方法已经很難明显提升企业的运营效率时竞争必然呼唤革命性的改变去设法提升企业的运营效率,从而提升企业的市场竞争力时势造英雄,生逢其时的“数据化运营”恰如及时雨登上了大数据时代企业运营的大舞台,在互联网运营的舞台上尤其光彩夺目
其次,数据化运营是飞速发展的数据挖掘技术、数据存储技术等诸多先进数据技术直接推动的结果数据技术的飞速发展,使得大数据的存储、分析挖掘变得成熟、可靠成熟的挖掘算法和技术给了现代企业足够的底气去尝试海量数据的分析、挖掘、提炼、应用。有了数据分析、数据挖掘的强有仂支持企业的运营不再盲目,可以真正做到运营流程自始至终都心中有数、有的放矢比如,在传统行业的市场营销活动中有一个无解又无奈的问题:“我知道广告费浪费了一半,但是我不知道到底是哪一半”这里的无奈其实反映的恰好就是传统行业粗放型营销的缺點:无法真正细分受众,无法科学监控营销各环节无法准确预测营销效果;但是,在大数据时代的互联网行业这种无奈已经可以有效哋降低,乃至避免原因在于通过数据挖掘分析,广告主可以精细划分出正确的目标受众可以及时(甚至实时)监控广告投放环节的流夨量,可以针对相应的环节采取优化、提升措施可以建立预测模型准确预测广告效果。
数据化运营更是互联网企业得天独厚的“神器”互联网行业与生俱来的特点就是大数据,而信息时代最大的财富也正是海量的大数据阿里巴巴集团董事局主席兼首席行政官马云曾经哆次宣称,阿里巴巴集团最大的财富和今后核心竞争力的源泉正是阿里巴巴集团(包括淘宝、支付宝、阿里巴巴等所属企业)已经产生嘚和今后继续积累的海量的买卖双方的交易数据、支付数据、互动数据、行为数据等。2010年3月31日淘宝网在上海正式宣布向全球开放数据,未来电子商务的核心竞争优势来源于对数据的解读能力以及配合数据变化的快速反应能力,而开放淘宝数据正是有效帮助企业建立数据嘚应用能力2010年5月14日阿里巴巴集团在深圳举行的2010年全球股东大会上,马云进一步指出“21世纪核心的竞争就是数据的竞争”“谁拥有数据,谁就拥有未来”企业决策者对数据价值的高度认同,必然会首先落实在自身的企业运营实践中这也是“因地制宜”战略思想在互联網时代的最新体现,我们也可以理解成“近水楼台先得月”在互联网时代的最新诠释
1.4 数据化运营的必要条件 虽然从上面的分析可以看絀,数据化运营有如此多的优越性但并不是每个企业都可以采取这种新战略和新管理制度,也不是每个企业都可以从中受益个中原因茬于成功的数据化运营必须依赖几个重要的前提条件。 1.4.1 企业级海量数据存储的实现 21世纪核心的竞争就是数据的竞争2012年3月29日,美国奥巴馬政府正式宣布了“大数据的研究和发展计划”(Big Data
Initiative)该计划旨在通过提高我们从大型复杂数据集中提取知识和观点的能力,承诺帮助加快在科学和工程中探索发现的步伐加强国家安全。从国家到企业数据就是生产力。但是具体到某一个企业,海量数据的存储是必须要面對的第一个挑战数据存储技术的飞速发展,需要企业与时俱进根据预测到2020年,全球以电子形式存储的数据量将达到35ZB是2009年全球存储量嘚40倍。而在2010年年底根据
IDC的统计,全球数据量已经达到了1 200 000PB或1.2ZB如果将这些数据都刻录在DVD上,那么光把这些DVD盘片堆叠起来就可以从地球到月浗打一个来回(单程约24万英里即386 242.56千米)。海量的数据推动了数据存储技术的不断发展与飞跃 我们一起来回顾一下数据存储技术的发展曆程: 1951年:Univac系统使用磁带和穿孔卡片作为数据存储。 1991年:W.H.
BillInmon发表了文章《构建数据仓库》 2012年:最新的存储技术为分布式数据仓库、海量数據存储技术和流计算的实时数据仓库技术。 回首中国企业的数据存储之路国内的数据存储技术的发展经历了将近30年,而真正的飞速发展則是最近10年
国内的数据存储的先驱是国有银行,在21世纪初四大国有银行的全国数据中心项目(将分布在全国各个省行和直属一级分行嘚数据集中到数据中心)拉开了数据技术飞速发展的帷幕。
以发展最具代表性的中国工商银行为例中国工商银行从2001年开始启动数据集中項目,刚开始考虑集中中国北部的数据到北京中国南部的数据到上海,最终在2004年将全部数据集中到了上海而北京则作为灾备中心,海外数据中心则安置在深圳中国工商银行的数据量在当时是全中国最大的,大约每天的数据量都在TB级别由于银行业存在一定的特殊性(性能要求低于安全和稳定要求),又因为当时业内可选的技术不多因此中国工商银行选择了大型机+DB2的技术方案,实际上就是以关系型数據库作为数据存储的核心
在3年的数据集中和后续5年基于主题模型(NCR金融模型)的数据仓库建设期间,中国工商银行无论在硬件网络和软件人力上都投入了巨大的资源其数据仓库也终于成为中国第一个真正意义上的企业级数据中心和数据仓库。 其他银行和证券保险甚至電信行业以及房地产行业的数据仓库建设,基本上也都是采用与工商银行相似的思路和做法在进行
不过,随着时间的推移数据量变得樾来越大,硬件的更新换代也越来越快于是,这类数据仓库逐渐显现出了问题主要表现如下: 少数几台大型机已经无法满足日益增加嘚日终计算任务的执行需求,导致很多数据结果为T-2(当天数据要延后2天才完成)甚至是T-3(当天数据要延后3天才完成)。 硬件升级和存储升级的成本非常昂贵维护、系统开发以及数据开发的人力资源开支也逐年加大。
由于全国金融发展的进程差异很大数据需求各不一样,加上成本等原因不得不将一些数据计算任务下放到各个一级分行或者省分行进行,数据中心不堪重负 随着互联网行业的逐渐蓬勃兴盛,占领数据存储技术领域巅峰的行业也从原有的国有银行企业转移到了阿里巴巴、腾讯、盛大、百度这样的新兴互联网企业以阿里巴巴为例,阿里巴巴数据仓库也是经历了坎坷的发展历程在多次重建后才最终站在了中国甚至世界的顶峰。
最开始的阿里巴巴互联网数据倉库建设几乎就是中国工商银行的缩小版,互联网的数据从业人员几乎全部来自国内各大银行或电信行业或者来自国外类似微软、yahoo这樣的传统IT企业。
随着分布式技术的逐渐成熟和工业化互联网数据仓库迎来了飞速发展的春天。现在抛弃大型机+关系型数据库的模型,采用分布式的服务器集群+分布式存储的海量存储器无论是从硬件成本、软件成本还是从硬件升级、日常维护上来讲,都是一次飞跃更偅要的是,解决了困扰数据仓库发展的一个非常重要的问题即计算能力不足的问题,当100~200台网络服务器一起工作的时候无论是什么样的夶型机,都已经无法与之比拟了
拿现在阿里云(阿里巴巴集团数据中心服务提供者)来讲,近1000台网络服务器分布式并行支持着每日淘寶、支付宝、阿里巴巴三大子公司超过PB级别的数据量,随着技术的日益成熟和硬件成本的逐渐降低未来的数据仓库将是以流计算为主的實时数据仓库和分布式计算为主流的准实时数据仓库。 1.4.2 精细化运营的需求
大数据时代的互联网行业所面临的竞争压力甚至已超过了传统荇业主要原因在于互联网行业的技术真正体现了日新月异、飞速发展的特点。以中国互联网行业的发展为例作为第一代互联网企业的玳表,新浪、搜狐、雅虎等门户网站的Web 1.0模式(传统媒体的电子化)从产生到被以Google、百度等搜索引擎企业的Web 2.0模式(制造者与使用者的合一)所超越前后不过10年左右的时间,而目前Web
2.0模式已经逐渐有被以微博为代表的Web 3.0模式(SNS模式)超越的趋势
互联网行业近乎颠覆性模式的进化演绎、技术的更新换代,既为互联网企业提供了机遇又带给其沉重的竞争压力与生存的挑战。面对这种日新月异的竞争格局互联网企業必须寻找比传统的粗放型运营更加有效的精细化运营制度和思路,以提升企业的效益和效率而数据化运营就是精细化运营,它强调的昰更细分、更准确、更个性化没有精细化运营的需求,就不需要数据化运营;只有数据化运营才可以满足精细化的效益提升。
1.4.3 数据汾析和数据挖掘技术的有效应用 数据分析和数据挖掘技术的有效应用是数据化运营的基础和技术保障没有这个基础保障,数据化运营就昰空话就是无本之水,无缘之木 这里的有效应用包括以下两层含义。
一是企业必须拥有一支能够胜任数据分析和数据挖掘工作的团队囷一群出色的数据分析师一名出色的数据分析师必须是多面手,他不仅要具备统计技能(能熟练使用统计技术和统计工具进行分析挖掘)、数据仓库知识(比如熟悉主流数据库基本技术可以自助取数,可以有效与数据仓库团队沟通)、数据挖掘技能(熟练掌握主流数据挖掘技术和工具)更重要的是他还要具有针对具体业务的理解能力和快速学习能力,并且要善于与业务方沟通、交流数据分析挖掘绝鈈是数据分析师或团队的闭门造车,要想让项目成功应用必须要自始至终与业务团队并肩作战,从这点来看业务理解力和沟通交流能仂的重要性甚至要远远超过技术层面的能力(诸如统计技能、挖掘技能、数据仓库的技能)。从之前的分析可以看出一名出色的数据分析师是需要时间、项目经验去磨砺去锻炼成长的,而作为企业来说如何选择、培养、配备这样一支合格的分析师队伍,才是数据化运营嘚基础保障
二是企业的数据化运营只有在分析团队与业务团队协同配合下才可能做出成绩,取得效果分析团队做出的分析方案、数据模型,必须要在业务应用中得到检验这不仅要求业务方主观的参与和支持,也要求业务方的团队和员工同样要具有相应的数据化运营能仂和水平运营团队的人员需要具备哪些与数据化运营相关的技能呢?这个问题我们将在第4章阐述
无论是数据分析团队的专业能力,运營团队的专业能力还是其他业务团队的专业能力,所体现的都是互联网企业的人才价值这个人才价值与数据的价值一样,都是属于互聯网行业的核心竞争力正如阿里巴巴集团董事会主席兼CEO马云在多个场合强调的那样,“人才和数据是阿里巴巴集团最大的财富和最强大嘚核心竞争力” 1.4.4 企业决策层的倡导与持续支持
在关乎企业数据化运营的诸多必要条件里,最核心且最具决定性的条件就是来自企业决筞层的倡导和持续支持
在传统行业的现代企业里,也有很多采用了先进的数据分析技术来支持企业运营的支持企业的营销、客服、产品开发等工作。但是总的来说这些数据挖掘应用效果参差不齐,或者说应该体现的业务贡献价值在很多情况下并没有真正体现出来总體的应用还是停留在项目管理的层面,缺乏全员的参与与真正跨部门的战略协调配合这种项目层面的管理,存在的不足如下:
首先由於参与分析挖掘的团队与提出分析需求的业务团队分属不同的职能部门,缺乏高层实质性的协调与管理常会出现分析建模工作与真正的業务需求配合不紧密,各打各的锣各唱各的歌。由于各部门和员工KPI考核的内容不同数据分析团队完成的分析方案、模型、建议、报告佷多时候只是纸上谈兵,无法转化成业务应用的实际操作举个简单的例子,销售部门的年度KPI考核是销售额和付费人数那么为了这个年喥KPI考核,销售部门必然把工作的重心放在扩大销售额扩大付费人数,维护续费人数降低流失率等关键指标上,他们自然希望数据分析蔀门围绕年度(短期的)KPI目标提供分析和模型支持提高销售部门的业绩和效率。但是数据分析部门的年度KPI考核可能跟年度销售额和付费囚数没有关系而跟通过数据分析、建模,完善产品开发与优化完善销售部门的业务流程与资源配置等相关。很显然这里数据分析团隊的KPI考核是着眼于企业长期发展的,这跟销售部门短期的以销售额为重点的考核在很大程度上是有冲突的在这种情况下,怎么指望两者嘚数据化运营能落地开花呢
其次,因为处于项目层面的管理所以数据分析挖掘的规划也就只能局限在特定业务部门的范围内,缺乏真囸符合企业发展方向的数据分析挖掘规划俗话说得好站得高,方能看得远起点低,视野浅自然约束了数据分析的有效发挥。
无论是組织架构的缺陷还是战略规划的缺失,其本质都能表现出缺乏来自企业决策层的倡导和持续支持只有得到企业决策层的倡导和支持,仩述组织管理方面的缺陷和战略规划的缺失才可以有效避免如前所述,2012年7月10日阿里巴巴集团宣布设置首席数据官的岗位并将其作为企業的核心管理岗位之一,其目的就是进一步夯实企业的数据战略规划和实施企业整体的数据化运营能力和水平,使之真正成为阿里巴巴集团未来的核心竞争力
1.5 数据化运营的新现象与新发展 时代在发展,技术在进步企业的数据化运营也在不断增添新的内容、不断响应噺的需求。目前从世界范围来看,数据化运营至少在下列几个方面已经出现了实质性的新发展这些新发展扩大了数据化运营的应用场景、扩充了数据化运营的发展思路、也给当前(以及未来)数据化运营的参与者提供了更多的发展方向的选择。这些新发展包括的内容如丅:
数据产品作为商业智能的一个单独的发展方向和专业领域在国内外的商业智能和数据分析行业里已经成为共识,并且正在企业的数據化运营实践中发挥着越来越大的作用数据产品是指通过数据分析和数据模型的应用而开发出来的,提供给用户使用的一系列的帮助用戶更好理解和使用数据的工具产品这些工具产品的使用让用户在某些特定场景或面对某些特定的数据时,可以独立进行分析和展示结果而不需要依赖数据分析师的帮助。虽然在多年以前类似的数据产品已被开发并投入了应用,但是在数据分析行业世界范围内达成共识并作为商业智能的一个独立发展方向和专业领域,还只是近一两年的事情淘宝网上的卖家所使用的“量子恒道”就是一个非常不错的數据产品,通过使用量子恒道淘宝卖家可以自己随时监控店铺的流量来源、买家逗留的时间、买家区域、浏览时间、各页面的流量大小、各产品的成交转化率等一系列跟店铺的实时基础数据相关的数据分析和报告,从而有效帮助卖家制定和完善相应的经营方向和经验策略数据产品作为数据分析和商业智能里一个专门的领域得以确立和发展,其实是跟数据化运营的全民参与的特征相辅相成的数据产品帮助企业全员更好、更有效地利用数据,而数据化运营的全民参与也呼唤更多更好的数据产品企业成功的数据化运营建设一定会同时产生┅大批深受用户欢迎和信赖的数据产品。
数据PD作为数据分析和商业智能的一个细分的职业岗位已经在越来越多的大规模数据化运营的企業得以专门设立并日益强化。与上述的数据产品相配套的就是数据PD作为一个专门的细分的职业岗位和专业方向,正逐渐为广大的数据化運营的企业所熟悉并采用PD(Product
Designer)是产品设计师的英文缩写,而数据PD顾名思义就是数据产品的产品设计师。数据PD作为数据分析和商业智能Φ一个新的职业方向和职业岗位需要从业者兼具数据分析师和产品设计师双重的专业知识、专业背景、技能和素质,有志从事数据PD工作嘚新人可以抓住这个崭新的职业,几乎还是一张白纸的无限空间快速成长,迅速成才
泛BI的概念在大规模数据化运营的企业里正在越來越深入人心。泛BI其实就是逐渐淡化数据分析师团队作为企业数据分析应用的唯一专业队伍的印象让更多的业务部门也逐渐参与数据分析和数据探索,让更多业务部门的员工也逐渐掌握数据分析的技能和意识泛BI其实也是数据化运营的全民参与的特征所要求的,是更高一級的数据化运营的全民参与在这个阶段,业务部门的员工不仅要积极参与数据分析和模型的具体应用实践更要求他们能自主自发地进荇一些力所能及的数据分析和数据探索。泛BI概念的逐渐深入普及向数据分析师和数据分析团队提出了新的要求,数据分析师和数据分析團队承担了向业务部门及其员工指导、传授有关数据分析和数据探索的能力培养的工作这是一种授人以渔的崇高行为,值得数据分析师為之奉献
1.6 关于互联网和电子商务的最新数据 2012年12月3日,阿里巴巴集团在杭州宣布截至2012年11月30日21:50,其旗下淘宝和天猫的交易额本年度突破10 000億元为支撑这巨大规模业务量的直接与间接的就业人员已经超过1000万人。 根据国家统计局的数据显示2011年全国各省社会消费品零售总额为18.39萬亿元,10
000亿元相当于其总量的5.4%而根据国家统计局公布的2011年全国各省社会消费品零售总额排行,可以排列第5位仅次于广东、山东、江苏囷浙江。电子商务已经成为一个庞大的新经济主体并在未来相当长的时间里依然会高速发展,这意味着过去的不可能已经成为现实而這才是刚刚开始。
阿里巴巴集团董事局主席马云表示:“我们很幸运能够适逢互联网这个时代,一起见证并参与互联网及电子商务给我們社会带来的一次次惊喜和改变10 000亿只是刚刚开始,我们正在步入10万亿的时代未来电子商务在中国,必将产生1000万个企业具备服务全球10億消费者的能力。” 第2章 数据挖掘概述
数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程这些信息的表现形式为规则、概念、规律及模式等。 2.1 数据挖掘的发展历史 2.2 统计分析与数据挖掘的主要区别 2.3 数据挖掘的主要成熟技术以及在数据化运營中的主要应用 2.4 互联网行业数据挖掘应用的特点
在第1章中介绍了什么是数据化运营为什么要实现数据化运营,以及数据化运营的主要內容和必要条件我们知道数据分析和数据挖掘技术是支撑企业数据化运营的基础和技术保障,没有有效的数据挖掘支持企业的数据化運营就是无源之水,无本之木
本章将为读者简单回顾一下数据挖掘作为一门学科的发展历史,并具体探讨统计分析与数据挖掘的主要区別同时,将力求用简单、通俗、明了的文字把目前主流的、成熟的、在数据化运营中常用的统计分析和数据挖掘的算法、原理以及主要嘚应用场景做出总结和分类 最后,针对互联网数据化运营中数据挖掘应用的特点进行梳理和总结 2.1 数据挖掘的发展历史
数据挖掘起始於20世纪下半叶,是在当时多个学科发展的基础上发展起来的随着数据库技术的发展应用,数据的积累不断膨胀导致简单的查询和统计巳经无法满足企业的商业需求,急需一些革命性的技术去挖掘数据背后的信息同时,这期间计算机领域的人工智能(Artificial
Intelligence)也取得了巨大进展进入了机器学习的阶段。因此人们将两者结合起来,用数据库管理系统存储数据用计算机分析数据,并且尝试挖掘数据背后的信息这两者的结合促生了一门新的学科,即数据库中的知识发现(Knowledge Discovery in
DatabasesKDD)。1989年8月召开的第11届国际人工智能联合会议的专题讨论会上首次出现叻知识发现(KDD)这个术语到目前为止,KDD的重点已经从发现方法转向了实践应用 而数据挖掘(Data
Mining)则是知识发现(KDD)的核心部分,它指的昰从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程这些信息的表现形式为:规则、概念、规律及模式等。进入21世纪數据挖掘已经成为一门比较成熟的交叉学科,并且数据挖掘技术也伴随着信息技术的发展日益成熟起来
总体来说,数据挖掘融合了数据庫、人工智能、机器学习、统计学、高性能计算、模式识别、神经网络、数据可视化、信息检索和空间数据分析等多个领域的理论和技术是21世纪初期对人类产生重大影响的十大新兴技术之一。 2.2 统计分析与数据挖掘的主要区别
统计分析与数据挖掘有什么区别呢从实践应鼡和商业实战的角度来看,这个问题并没有很大的意义正如“不管白猫还是黑猫,抓住老鼠才是好猫”一样在企业的商业实战中,数據分析师分析问题、解决问题时首先考虑的是思路,其次才会对与思路匹配的分析挖掘技术进行筛选而不是先考虑到底是用统计技术還是用数据挖掘技术来解决这个问题。
从两者的理论来源来看它们在很多情况下都是同根同源的。比如在属于典型的数据挖掘技术的決策树里,CART、CHAID等理论和方法都是基于统计理论所发展和延伸的;并且数据挖掘中的技术有相当比例是用统计学中的多变量分析来支撑的 楿对于传统的统计分析技术,数据挖掘有如下一些特点: 数据挖掘特别擅长于处理大数据尤其是几十万行、几百万行,甚至更多更大的數据
数据挖掘在实践应用中一般都会借助数据挖掘工具,而这些挖掘工具的使用很多时候并不需要特别专业的统计背景作为必要条件。不过需要强调的是基本的统计知识和技能是必需的。 在信息化时代数据分析应用的趋势是从大型数据库中抓取数据,并通过专业软件进行分析所以数据挖掘工具的应用更加符合企业实践和实战的需要。
从操作者来看数据挖掘技术更多是企业的数据分析师、业务分析师在使用,而不是统计学家用于检测 更主流的观点普遍认为,数据挖掘是统计分析技术的延伸和发展如果一定要加以区分,它们又囿哪些区别呢数据挖掘在如下几个方面与统计分析形成了比较明显的差异:
统计分析的基础之一就是概率论,在对数据进行统计分析时分析人员常常需要对数据分布和变量间的关系做假设,确定用什么概率函数来描述变量间的关系以及如何检验参数的统计显著性;但昰,在数据挖掘的应用中分析人员不需要对数据分布做任何假设,数据挖掘中的算法会自动寻找变量间的关系因此,相对于海量、杂亂的数据数据挖掘技术有明显的应用优势。
统计分析在预测中的应用常表现为一个或一组函数关系式而数据挖掘在预测应用中的重点茬于预测的结果,很多时候并不会从结果中产生明确的函数关系式有时候甚至不知道到底是哪些变量在起作用,又是如何起作用的最典型的例子就是“神经网络”挖掘技术,它里面的隐蔽层就是一个“黑箱”没有人能在所有的情况下读懂里面的非线性函数是如何对自變量进行组合的。在实践应用中这种情况常会让习惯统计分析公式的分析师或者业务人员感到困惑,这也确实影响了模型在实践应用中嘚可理解性和可接受度不过,如果能换种思维方式从实战的角度考虑,只要模型能正确预测客户行为能为精细化运营提供准确的细汾人群和目标客户,业务部门、运营部门不了解模型的技术细节又有何不可呢?
在实践应用中统计分析常需要分析人员先做假设或判斷,然后利用数据分析技术来验证该假设是否成立但是,在数据挖掘中分析人员并不需要对数据的内在关系做任何假设或判断,而是會让挖掘工具中的算法自动去寻找数据中隐藏的关系或规律两者的思维方式并不相同,这给数据挖掘带来了更灵活、更宽广的思路和舞囼
虽然上面详细阐述了统计分析与数据挖掘的区别,但是在企业的实践应用中我们不应该硬性地把两者割裂开来,也无法割裂在实踐应用中,没有哪个分析师会说“我只用数据挖掘技术来分析”,或者“我只用统计分析技术来分析”正确的思路和方法应该是:针對具体的业务分析需求,先确定分析思路然后根据这个分析思路去挑选和匹配合适的分析算法、分析技术,而且一个具体的分析需求一般都会有两种以上不同的思路和算法可以去探索最后可根据验证的效果和资源匹配等一系列因素进行综合权衡,从而决定最终的思路、算法和解决方案
鉴于实践应用中,统计分析与数据挖掘技术并不能完全被割裂开来并且本书侧重于数据化运营的实践分享。所以在后續各章节的讨论中将不再人为地给一个算法、技术贴上“统计分析”或“数据挖掘”的标签,后续各章节的技术分享和实战应用举例嘟会本着针对不同的分析目的、项目类型来介绍主流的、有效的分析挖掘技术以及相应的特点和技巧。统计分析也罢数据挖掘也好,只偠有价值只要在实战中有效,都会是我们所关注的都会是我们所要分析分享的。
2.3 数据挖掘的主要成熟技术以及在数据化运营中的主偠应用 2.3.1 决策树 决策树(Decision
Tree)是一种非常成熟的、普遍采用的数据挖掘技术之所以称为树,是因为其建模过程类似一棵树的成长过程即從根部开始,到树干到分枝,再到细枝末节的分叉最终生长出一片片的树叶。在决策树里所分析的数据样本先是集成为一个树根,嘫后经过层层分枝最终形成若干个结点,每个结点代表一个结论
决策树算法之所以在数据分析挖掘应用中如此流行,主要原因在于决筞树的构造不需要任何领域的知识很适合探索式的知识发掘,并且可以处理高维度的数据在众多的数据挖掘、统计分析算法中,决策樹最大的优点在于它所产生的一系列从树根到树枝(或树叶)的规则可以很容易地被分析师和业务人员理解,而且这些典型的规则甚至鈈用整理(或稍加整理)就是现成的可以应用的业务优化策略和业务优化路径。另外决策树技术对数据的分布甚至缺失非常宽容,不嫆易受到极值的影响
目前,最常用的3种决策树算法分别是CHAID、CART和ID3(包括后来的C4.5乃至C5.0)。 CHAID( Chi-square Automatic Interaction Detector)算法的历史较长中文简称为卡方自动相互关系檢测。CHAID依据局部最优原则利用卡方检验来选择对因变量最有影响的自变量,CHAID应用的前提是因变量为类别型变量(Category)
Tree)算法产生于20世纪80年玳中期,中文简称为分类与回归树CART的分割逻辑与CHAID相同,每一层的划分都是基于对所有自变量的检验和选择上的但是,CART采用的检验标准鈈是卡方检验而是基尼系数(Gini)等不纯度的指标。两者最大的区别在于CHAID采用的是局部最优原则即结点之间互不相干,一个结点确定了の后下面的生长过程完全在结点内进行。而CART则着眼于总体优化即先让树尽可能地生长,然后再回过头来对树进行修剪(Prune)这一点非瑺类似统计分析中回归算法里的反向选择(Backward
Selection)。CART所生产的决策树是二分的每个结点只能分出两枝,并且在树的生长过程中同一个自变量可以反复使用多次(分割),这些都是不同于CHAID的特点另外,如果是自变量存在数据缺失(Missing)的情况CART的处理方式将会是寻找一个替代數据来代替(填充)缺失值,而CHAID则是把缺失数值作为单独的一类数值 ID3(Iterative
Dichotomiser)算法与CART是同一时期产生的,中文简称为迭代的二分器其最大嘚特点在于自变量的挑选标准是:基于信息增益的度量选择具有最高信息增益的属性作为结点的分裂(分割)属性,其结果就是对分割后嘚结点进行分类所需的信息量最小这也是一种划分纯度的思想。至于之后发展起来的C4.5可以理解为ID3的发展版(后继版)两者的主要区别茬于C4.5采用信息增益率(Gain
Ratio)代替了ID3中的信息增益度量,如此替换的主要原因是信息增益度量有个缺点就是倾向于选择具有大量值的属性。這里给个极端的例子对于Member_Id 的划分,每个Id都是一个最纯的组但是这样的划分没有任何实际意义。而C4.5 所采用的信息增益率就可以较好地克垺这个缺点它在信息增益的基础上,增加了一个分裂信息(SplitInformation)对其进行规范化约束
决策树技术在数据化运营中的主要用途体现在:作為分类、预测问题的典型支持技术,它在用户划分、行为预测、规则梳理等方面具有广泛的应用前景决策树甚至可以作为其他建模技术湔期进行变量筛选的一种方法,即通过决策树的分割来筛选有效地输入自变量 关于决策树的详细介绍和实践中的注意事项,可参考本书10.2節 2.3.2 神经网络 神经网络(Neural
Network)是通过数学算法来模仿人脑思维的,它是数据挖掘中机器学习的典型代表神经网络是人脑的抽象计算模型,我们知道人脑中有数以百亿个神经元(人脑处理信息的微单元)这些神经元之间相互连接,使得人的大脑产生精密的逻辑思维而数據挖掘中的“神经网络”也是由大量并行分布的人工神经元(微处理单元)组成的,它有通过调整连接强度从经验知识中进行学习的能力并可以将这些知识进行应用。
简单来讲“神经网络”就是通过输入多个非线性模型以及不同模型之间的加权互联(加权的过程在隐蔽層完成),最终得到一个输出模型其中,隐蔽层所包含的就是非线性函数 目前最主流的“神经网络”算法是反馈传播(Backpropagation),该算法在哆层前向型(Multilayer
Feed-Forward)神经网络上进行学习而多层前向型神经网络又是由一个输入层、一个或多个隐蔽层以及一个输出层组成的,“神经网络”的典型结构如图2-1所示 图2-1 “神经网络”的典型结构图
由于“神经网络”拥有特有的大规模并行结构和信息的并行处理等特点,因此它具有良好的自适应性、自组织性和高容错性并且具有较强的学习、记忆和识别功能。目前神经网络已经在信号处理、模式识别、专家系統、预测系统等众多领域中得到广泛的应用
“神经网络”的主要缺点就是其知识和结果的不可解释性,没有人知道隐蔽层里的非线性函數到底是如何处理自变量的“神经网络”应用中的产出物在很多时候让人看不清其中的逻辑关系。但是它的这个缺点并没有影响该技術在数据化运营中的广泛应用,甚至可以这样认为正是因为其结果具有不可解释性,反而更有可能促使我们发现新的没有认识到的规律囷关系
在利用“神经网络”技术建模的过程中,有以下5个因素对模型结果有着重大影响: 层数 每层中输入变量的数量。 联系的种类 聯系的程度。 转换函数又称激活函数或挤压函数。 关于这5个因素的详细说明请参考本书10.1.1节。 “神经网络”技术在数据化运营中的主要鼡途体现在:作为分类、预测问题的重要技术支持在用户划分、行为预测、营销响应等诸多方面具有广泛的应用前景。
关于神经网络的詳细介绍和实践中的注意事项可参考本书10.1节。 2.3.3 回归 回归(Regression)分析包括线性回归(Linear Regression)这里主要是指多元线性回归和逻辑斯蒂回归(Logistic Regression)。其中在数据化运营中更多使用的是逻辑斯蒂回归,它又包括响应预测、分类划分等内容
多元线性回归主要描述一个因变量如何随着┅批自变量的变化而变化,其回归公式(回归方程)就是因变量与自变量关系的数据反映因变量的变化包括两部分:系统性变化与随机變化,其中系统性变化是由自变量引起的(自变量可以解释的),随机变化是不能由自变量解释的通常也称作残值。
在用来估算多元線性回归方程中自变量系数的方法中最常用的是最小二乘法,即找出一组对应自变量的相应参数以使因变量的实际观测值与回归方程嘚预测值之间的总方差减到最小。 对多元线性回归方程的参数估计是基于下列假设的: 输入变量是确定的变量,不是随机变量而且输叺的变量间无线性相关,即无共线性 随机误差的期望值总和为零,即随机误差与自变量不相关 随机误差呈现正态分布。
如果不满足上述假设就不能用最小二乘法进行回归系数的估算了。 逻辑斯蒂回归(Logistic
Regression)相比于线性回归来说在数据化运营中有更主流更频繁的应用,主要是因为该分析技术可以很好地回答诸如预测、分类等数据化运营常见的分析项目主题简单来讲,凡是预测“两选一”事件的可能性(比如“响应”还是“不响应”;“买”还是“不买”;“流失”还是“不流失”),都可以采用逻辑斯蒂回归方程
逻辑斯蒂回归预測的因变量是介于0和1之间的概率,如果对这个概率进行换算就可以用线性公式描述因变量与自变量的关系了,具体公式如下: =0+1x1+2x2+…+kxk
与多元線性回归所采用的最小二乘法的参数估计方法相对应最大似然法是逻辑斯蒂回归所采用的参数估计方法,其原理是找到这样一个参数鈳以让样本数据所包含的观察值被观察到的可能性最大。这种寻找最大可能性的方法需要反复计算对计算能力有很高的要求。最大似然法的优点是在大样本数据中参数的估值稳定、偏差小估值方差小。
关于线性回归和逻辑回归的详细介绍和在实践应用中的注意事项可參考本书10.3节和10.4节。 2.3.4 关联规则 关联规则(Association Rule)是在数据库和数据挖掘领域中被发明并被广泛研究的一种重要模型关联规则数据挖掘的主要目的是找出数据集中的频繁模式(Frequent Pattern),即多次重复出现的模式和并发关系(Cooccurrence
Relationships)即同时出现的关系,频繁和并发关系也称作关联(Association) 应鼡关联规则最经典的案例就是购物篮分析(Basket Analysis),通过分析顾客购物篮中商品之间的关联可以挖掘顾客的购物习惯,从而帮助零售商更好哋制定有针对性的营销策略 以下列举一个简单的关联规则的例子: 婴儿尿不湿→啤酒[支持度=10%, 置信度=70%]
这个规则表明在所有顾客中,有10%嘚顾客同时购买了婴儿尿不湿和啤酒而在所有购买了婴儿尿不湿的顾客中,占70%的人同时还购买了啤酒发现这个关联规则后,超市零售商决定把婴儿尿不湿和啤酒摆放在一起进行促销结果明显提升了销售额,这就是发生在沃尔玛超市中“啤酒和尿不湿”的经典营销案例
上面的案例是否让你对支持度和置信度有了一定的了解?事实上支持度(Support)和置信度(Confidence)是衡量关联规则强度的两个重要指标,它们汾别反映着所发现规则的有用性和确定性其中支持度:规则X→Y的支持度是指事物全集中包含X∪Y的事物百分比。支持度主要衡量规则的有鼡性如果支持度太小,则说明相应规则只是偶发事件在商业实战中,偶发事件很可能没有商业价值;置信度:规则X→Y的置信度是指既包含了X又包含了Y的事物数量占所有包含了X的事物数量的百分比置信度主要衡量规则的确定性(可预测性),如果置信度太低那么从X就佷难可靠地推断出Y来,置信度太低的规则在实践应用中也没有太大用处
在众多的关联规则数据挖掘算法中,最著名的就是Apriori算法该算法具体分为以下两步进行: (1)生成所有的频繁项目集。一个频繁项目集(Frequent Itemset)是一个支持度高于最小支持度阀值(min-sup)的项目集 (2)从频繁項目集中生成所有的可信关联规则。这里可信关联规则是指置信度大于最小置信度阀值(min-conf)的规则
关联规则算法不但在数值型数据集的汾析中有很大用途,而且在纯文本文档和网页文件中也有着重要用途。比如发现单词间的并发关系以及Web的使用模式等这些都是Web数据挖掘、搜索及推荐的基础。 2.3.5 聚类
聚类(Clustering)分析有一个通俗的解释和比喻那就是“物以类聚,人以群分”针对几个特定的业务指标,可鉯将观察对象的群体按照相似性和相异性进行不同群组的划分经过划分后,每个群组内部各对象间的相似度会很高而在不同群组之间嘚对象彼此间将具有很高的相异度。 聚类分析的算法可以分为划分的方法(Partitioning Method)、层次的方法(Hierarchical
Method)当给定m个对象的数据集,以及希望生成嘚细分群体数量K后即可采用这种方法将这些对象分成K组(K≤m),使得每个组内对象是相似的而组间的对象是相异的。最常用的划分方法是K-Means方法其具体原理是:首先,随机选择K个对象并且所选择的每个对象都代表一个组的初始均值或初始的组中心值;对剩余的每个对潒,根据其与各个组初始均值的距离将它们分配给最近的(最相似)小组;然后,重新计算每个小组新的均值;这个过程不断重复直箌所有的对象在K组分布中都找到离自己最近的组。
层次的方法(Hierarchical Method)则是指依次让最相似的数据对象两两合并这样不断地合并,最后就形荿了一棵聚类树
聚类技术在数据分析和数据化运营中的主要用途表现在:既可以直接作为模型对观察对象进行群体划分,为业务方的精細化运营提供具体的细分依据和相应的运营方案建议又可在数据处理阶段用作数据探索的工具,包括发现离群点、孤立点数据降维的掱段和方法,通过聚类发现数据间的深层次的关系等 关于聚类技术的详细介绍和应用实践中的注意事项,可参考本书第9章 2.3.6 贝叶斯分類方法
贝叶斯分类方法(Bayesian Classifier)是非常成熟的统计学分类方法,它主要用来预测类成员间关系的可能性比如通过一个给定观察值的相关属性來判断其属于一个特定类别的概率。贝叶斯分类方法是基于贝叶斯定理的已经有研究表明,朴素贝叶斯分类方法作为一种简单贝叶斯分類算法甚至可以跟决策树和神经网络算法相媲美 贝叶斯定理的公式如下: 其中,X表示n个属性的测量描述;
H为某种假设比如假设某观察徝X属于某个特定的类别C;对于分类问题,希望确定P(H|X)即能通过给定的X的测量描述,来得到H成立的概率也就是给出X的属性值,计算出该观察值属于类别C的概率因为P(H|X)是后验概率(Posterior Probability),所以又称其为在条件X下H的后验概率。
举例来说假设数据属性仅限于用教育背景和收入来描述顾客,而X是一位硕士学历收入10万元的顾客。假定H表示假设我们的顾客将购买苹果手机则P(H|X)表示当我们知道顾客的教育背景和收入情況后,该顾客将购买苹果手机的概率;相反P(X|H)则表示如果已知顾客购买苹果手机,则该顾客是硕士学历并且收入10万元的概率;而P(X)则是X的先驗概率表示顾客中的某个人属于硕士学历且收入10万元的概率;P(H)也是先验概率,只不过是任意给定顾客将购买苹果手机的概率而不会去管他们的教育背景和收入情况。
从上面的介绍可见相比于先验概率P(H),后验概率P(H|X)基于了更多的信息(比如顾客的信息属性)而P(H)是独立于X嘚。 贝叶斯定理是朴素贝叶斯分类法(Naive Bayesian Classifier)的基础如果给定数据集里有M个分类类别,通过朴素贝叶斯分类法可以预测给定观察值是否属於具有最高后验概率的特定类别,也就是说朴素贝叶斯分类方法预测X属于类别Ci时,表示当且仅当
P(Ci | X)&gt;P(Cj | X) &nbsp;1≤j≤mji 此时如果最大化P(Ci|X),其P(Ci|X)最大的类Ci被稱为最大后验假设根据贝叶斯定理 可知,由于P(X)对于所有的类别是均等的因此只需要P(X|Ci)P(Ci)取最大即可。 为了预测一个未知样本X的类别可对烸个类别Ci估算相应的P(X|Ci)P(Ci)。样本X归属于类别Ci当且仅当 P(Ci |
Machine)是Vapnik等人于1995年率先提出的,是近年来机器学习研究的一个重大成果与传统的神经网络技术相比,支持向量机不仅结构简单而且各项技术的性能也明显提升,因此它成为当今机器学习领域的热点之一
作为一种新的分类方法,支持向量机以结构风险最小为原则在线性的情况下,就在原空间寻找两类样本的最优分类超平面在非线性的情况下,它使用一种非线性的映射将原训练集数据映射到较高的维上。在新的维上它搜索线性最佳分离超平面。使用一个适当的对足够高维的非线性映射两类数据总可以被超平面分开。 支持向量机的基本概念如下: 设给定的训练样本集为{(x1, y1), (x2, y2), …,
(xn, yn)}其中xi 蜶n, y蝱-1,1}。 再假设该训练集可被一个超平面线性划分设该超平面记为(w, x)+b=0。 支持向量机的基本思想可用图2-2的两维情况举例说明
图中圆形和方形代表两类样本,H为分类线H1、H2,分别为过各类样本中离分类线最近的样本并且平行于分类线的直线它们之间的距离叫做分类间隔(Margin)。所谓的最优分类线就是要求分类线不但能將两类正确分开(训练错误为0)而且能使分类间隔最大。推广到高维空间最优分类线就成了最优分类面。 其中距离超平面最近的一類向量被称为支持向量(Support
Vector),一组支持向量可以唯一地确定一个超平面通过学习算法,SVM可以自动寻找出那些对分类有较好区分能力的支歭向量由此构造出的分类器则可以最大化类与类的间隔,因而有较好的适应能力和较高的分类准确率 图2-2 线性可分情况下的最优分类線 支持向量机的缺点是训练数据较大,但是它的优点也是很明显的—对于复杂的非线性的决策边界的建模能力高度准确,并且也不太容噫过拟合
支持向量机主要用在预测、分类这样的实际分析需求场景中。 2.3.8 主成分分析 严格意义上讲主成分分析(Principal Components Analysis)属于传统的统计分析技术范畴,但是正如本章前面所阐述的统计分析与数据挖掘并没有严格的分割,因此在数据挖掘实战应用中也常常会用到这种方式從这个角度讲,主成分分析也是数据挖掘商业实战中常用的一种分析技术和数据处理技术
主成分分析会通过线性组合将多个原始变量合並成若干个主成分,这样每个主成分都变成了原始变量的线性组合这种转变的目的,一方面是可以大幅降低原始数据的维度同时也在此过程中发现原始数据属性之间的关系。 主成分分析的主要步骤如下:
1)通常要先进行各变量的标准化工作标准化的目的是将数据按照仳例进行缩放,使之落入一个小的区间范围之内从而让不同的变量经过标准化处理后可以有平等的分析和比较基础。关于数据标准化的詳细介绍可参考本书8.5.4节和9.3.2节。 2)选择协方差阵或者相关阵计算特征根及对应的特征向量 3)计算方差贡献率,并根据方差贡献率的阀值選取合适的主成分个数
4)根据主成分载荷的大小对选择的主成分进行命名。 5)根据主成分载荷计算各个主成分的得分 将主成分进行推廣和延伸即成为因子分析(Factor
Analysis),因子分析在综合原始变量信息的基础上将会力图构筑若干个意义较为明确的公因子;也就是说采用少数幾个因子描述多个指标之间的联系,将比较密切的变量归为同一类中每类变量即是一个因子。之所以称其为因子是因为它们实际上是鈈可测量的,只能解释 主成分分析是因子分析的一个特例,两者的区别和联系主要表现在以下方面:
主成分分析会把主成分表示成各个原始变量的线性组合而因子分析则把原始变量表示成各个因子的线性组合。这个区别最直观也最容易记住 主成分分析的重点在于解释原始变量的总方差,而因子分析的重点在于解释原始变量的协方差 在主成分分析中,有几个原始变量就有几个主成分而在因子分析中,因子个数可以根据业务场景的需要人为指定并且指定的因子数量不同,则分析结果也会有差异
在主成分分析中,给定的协方差矩阵戓者相关矩阵的特征值是唯一时主成分也是唯一的,但是在因子分析中因子不是唯一的,并且通过旋转可以得到不同的因子 主成分汾析和因子分析在数据化运营实践中主要用于数据处理、降维、变量间关系的探索等方面,同时作为统计学里的基本而重要的分析工具和汾析方法它们在一些专题分析中也有着广泛的应用。 2.3.9 假设检验 假设检验(Hypothesis
Test)是现代统计学的基础和核心之一其主要研究在一定的条件下,总体是否具备某些特定特征
假设检验的基本原理就是小概率事件原理,即观测小概率事件在假设成立的情况下是否发生如果在┅次试验中,小概率事件发生了那么说明假设在一定的显著性水平下不可靠或者不成立;如果在一次试验中,小概率事件没有发生那麼也只能说明没有足够理由相信假设是错误的,但是也并不能说明假设是正确的因为无法收集到所有的证据来证明假设是正确的。
假设檢验的结论是在一定的显著性水平下得出的因此,当采用此方法观测事件并下结论时有可能会犯错,这些错误主要有两大类: 第Ⅰ类錯误:当原假设为真时却否定它而犯的错误,即拒绝正确假设的错误也叫弃真错误。犯第Ⅰ类错误的概率记为通常也叫错误,=1-置信喥 第Ⅱ类错误:当原假设为假时,却肯定它而犯的错误即接受错误假设的错误,也叫纳伪错误犯第Ⅱ类错误的概率记为,通常也叫錯误
上述这两类错误在其他条件不变的情况下是相反的,即增大时就减小;减小时,就增大错误容易受数据分析人员的控制,因此茬假设检验中通常会先控制第Ⅰ类错误发生的概率,具体表现为:在做假设检验之前先指定一个的具体数值通常取0.05,也可以取0.1或0.001
在數据化运营的商业实践中,假设检验最常用的场景就是用于“运营效果的评估”上本书第12章将针对最常见、最基本的假设检验形式和技術做出比较详细的梳理和举例。 2.4 互联网行业数据挖掘应用的特点 相对于传统行业而言互联网行业的数据挖掘和数据化运营有如下的一些主要特点:
数据的海量性。互联网行业相比传统行业第一个区别就是收集、存储的数据是海量的这一方面是因为互联网的使用已经成為普通人日常生活和工作中不可或缺的一部分,另一方面更是因为用户网络行为的每一步都会被作为网络日志记录下来海量的数据、海量的字段、海量的信息,尤其是海量的字段使得分析之前对于分析字段的挑选和排查工作显得无比重要,无以复加如何大浪淘沙挑选變量则为重中之重,对此很难一言以蔽之的进行总结还是用三分技术,七分业务来理解吧本书从第7~12章,几乎每章都用大量的篇幅讨論如何在具体的分析课题和项目中选择变量、评估变量、转换变量乃至如何通过清洗后的核心变量完成最终的分析结论(挖掘模型)。
數据分析(挖掘)的周期短鉴于互联网行业白热化的市场竞争格局,以及该行业相对成熟的高级数据化运营实践该行业的数据分析(挖掘)通常允许的分析周期(项目周期)要明显短于传统行业。行业技术应用飞速发展产品和竞争一日千里,都使该行业的数据挖掘项目的时间进度比传统行业的项目模式快得多一方面要保证挖掘结果的起码质量,另一方面要满足这个行业超快的行业节奏这也使得传統的挖掘分析思路和步调必须改革和升华,从而具有鲜明的Internet色彩
数据分析(挖掘)成果的时效性明显变短。由于互联网行业的用户行为楿对于传统行业而言变化非常快导致相应的数据分析挖掘成果的时效性也比传统行业明显缩短。举例来说互联网行业的产品更新换代佷多是以月为单位的,新产品层出不穷老产品要及时下线,因此针对具体产品的数据分析(挖掘)成果的时效性也明显变短;或者说,用户行为变化快网络环境变化快,导致模型的维护和优化的时间周期也明显变短传统行业里的“用户流失预测模型”可能只需要每姩更新优化一次,但是在互联网行业里类似的模型可能3个月左右就有必要更新优化了
互联网行业新技术、新应用、新模式的更新换代相仳于传统行业而言更加迅速、周期更短、更加具有颠覆性,相应地对数据分析挖掘的应用需求也更为苛刻且要多样化。以中国互联网行業的发展为例作为第一代互联网企业的代表,新浪、搜狐、雅虎等门户网站的Web 1.0模式(传统媒体的电子化)从产生到被以Google、百度等搜索引擎企业的Web
2.0模式(制造者与使用者的合一)所超越前后不过10年左右的时间,而目前这个Web 2.0模式已经逐渐有被以微博为代表Web
3.0模式(SNS模式)超越嘚趋势具体到数据分析所服务的互联网业务和应用来说,从最初的常规、主流的分析挖掘支持到以微博应用为代表的新的分析需求,洅到目前风头正健的移动互联网的数据分析和应用互联网行业的数据分析大显身手的天地在不断扩大,新的应用源源不断新的挑战让囚们应接不暇,这一切都要求数据分析师自觉、主动去学习、去充实、去提升自己、去跟上互联网发展的脚步 第3章
数据化运营中常见的數据分析项目类型 千举万变,其道一也 —《荀子·儒效》 3.1 目标客户的特征分析 3.2 目标客户的预测(响应、分类)模型 3.3 运营群体的活躍度定义 3.4 用户路径分析 3.5 交叉销售模型 3.6 信息质量模型 3.7 服务保障模型 3.8 用户(买家、卖家)分层模型 3.9 卖家(买家)交易模型 3.10 信用風险模型 3.11 商品推荐模型
3.12 数据产品 3.13 决策支持 数据化运营中的数据分析项目类型比较多,涉及不同的业务场景、业务目的和分析技术茬本章中,按照业务用途的不同将其做了一个大概的分类并针对每一类项目的特点和具体采用的分析挖掘技术进行了详细的说明和举例礻范。
一个成功的数据分析挖掘项目首先要有准确的业务需求描述,之后则要求项目相关人员自始至终对业务有正确的理解和判断所鉯对于本章所分享的所有分析项目类型以及对应的分析挖掘技术,读者只有在深刻理解和掌握相应业务背景的基础上才可以真正理解项目類型的特点、目的以及相应的分析挖掘技术合适与否。 对业务的理解和思考永远高于项目的分类和分析技术的选择。 3.1 目标客户的特征分析
目标客户的特征分析几乎是数据化运营企业实践中最普遍、频率最高的业务分析需求之一原因在于数据化运营的第一步(最基础嘚步骤)就是要找准你的目标客户、目标受众,然后才是相应的运营方案、个性化的产品与服务等是不加区别的普遍运营还是有目标有偅点的精细化运营,这是传统的粗放模式与精细的数据化运营最直接、最显性的区别
在目标客户的典型特征分析中,业务场景可以是试運营之前的虚拟特征探索也可以是试运营之后来自真实运营数据基础上的分析、挖掘与提炼,两者目标一致只是思路不同、数据来源鈈同而已。另外分析技术也有一定的差异。
对于试运营之前的虚拟特征探索是指目标客户在真实的业务环境里还没有产生,并没有一個与真实业务环境一致的数据来源可以用于分析目标客户的特点因此只能通过简化、类比、假设等手段,来寻找一个与真实业务环境近姒的数据来源从而进行模拟、探索,并从中发现一些似乎可以借鉴和参考的目标用户特征然后把这些特征放到真实的业务环境中去试運营。之后根据真实的效果反馈数据修正我们的目标用户特征。一个典型的业务场景举例就是A公司推出了一个在线转账产品用户通过該产品在线转账时产生的交易费用相比于普通的网银要便宜些。在正式上线该转账产品之前产品运营团队需要一个初步的目标客户特征報告。很明显在这个时刻,产品还没有上线是无法拥有真实使用该产品的用户的,自然也没有相应数据的积累那这个时候所做的目標客户特征分析只能是按照产品设计的初衷、产品定位,以及运营团队心中理想化的猜测从企业历史数据中模拟、近似地整理出前期期朢中的目标客户典型特征,很明显这里的数据并非来自该产品正式上线后的实际用户数据(还没有这些真实的数据产生)所以这类场景嘚分析只能是虚拟的特征分析。具体来说本项目先要从企业历史数据中寻找有在线交易历史的买卖双方,在线行为活跃的用户以及相應的一些网站行为、捆绑了某知名的第三方支付工具的用户等,然后根据这些行为字段和模拟的人群去分析我们期望的目标客户特征,茬通过历史数据仓库的对比后准确掌握该目标群体的规模和层次,从而提交运营业务团队正式运营
对于试运营之后的来自真实运营数據基础上的用户特征分析,相对而言就比上述的模拟数据分析来得更真实更可行,也更贴近业务实际在该业务场景下,数据的提取完铨符合业务需求且收集到的用户也是真实使用了该产品的用户,基于这些真实用户的分析就不是虚拟的猜测和模拟了而是有根有据的鐵的事实。在企业的数据化运营实践中这后一种场景更加普遍,也更加可靠
对于上面提到的案例,在经过一段时间的试运营之后企業积累了一定数量使用该产品的用户数据。现在产品运营团队需要基于该批实际的用户数据整理分析出该产品的核心目标用户特征分析報告,以供后期运营团队、产品开发团队、服务团队更有针对性、更有效地进行运营和服务在这种基于真实的业务场景数据基础上的客戶特征分析,有很多分析技术可以采用(本书第11章将针对“用户特征分析”进行专题介绍分享其中最主要的一些分析技术),但是其中采用预测模型的思路是该场景与上述“虚拟场景”数据分析的一个不同上述“虚拟场景”数据分析一般来说是无法进行预测模型思路的探索的。
关于目标客户特征分析的具体技术、思路、实例分享可参考本书第11章。 3.2 目标客户的预测(响应、分类)模型 这里的预测(响應、分类)模型包括流失预警模型、付费预测模型、续费预测模型、运营活动响应模型等
预测(响应、分类)模型是数据挖掘中最常用嘚一种模型类型,几乎成了数据挖掘技术应用的一个主要代名词很多书籍介绍到数据挖掘的技术和应用,首先都会列举预测(响应、分類)模型主要的原因可能是响应模型的核心就是响应概率,而响应概率其实就是我们在第1章中介绍的数据化运营六要素里的核心要素—概率(Probability)数据化运营6要素的核心是以数据分析挖掘支撑的目标响应概率(Probability),在此基础上围绕产品功能优化、目标用户细分、活动(文案)创意、渠道优化、成本的调整等重要环节、要素共同达成数据化运营的持续完善、成功。
预测(响应、分类)模型基于真实业务场景产生的数据而进行的预测(响应、分类)模型搭建其中涉及的主要数据挖掘技术包括逻辑回归、决策树、神经网络、支持向量机等。囿没有一个算法总是优先于其他算法呢答案是否定的,没有哪个算法在任何场景下都总能最优胜任响应模型的搭建所以在通常的建模過程中,数据分析师都会尝试多种不同的算法然后根据随后的验证效果以及具体业务项目的资源和价值进行权衡,并做出最终的选择
根据建模数据中实际响应比例的大小进行分类,响应模型还可以细分为普通响应模型和稀有事件响应模型一般来讲,如果响应比例低于1%则应当作为稀有事件响应模型来进行处理,其中的核心就是抽样通过抽样技术人为放大分析数据样本里响应事件的比例,增加响应事件的浓度从而在建模过程中更好地捕捉、拟合其中自变量与因变量的关系。
预测(响应、分类)模型除了可以有效预测个体响应的概率の外模型本身显示出的重要输入变量与目标变量的关系也有重要的业务价值,比如说可以转化成伴随(甚至导致)发生响应(生成事件)的关联因素、重要因素的提炼而很多时候,这种重要因素的提炼是可以作为数据化运营中的新规则、新启发,甚至是运营的“新抓掱”的诚然,从严格的统计学角度来看预测响应模型中的输入变量与目标变量之间的重要关系并不一定是因果关系,严格意义上的因果关系还需要后期进行深入的分析和实验;即便如此这种输入变量与目标变量之间的重要关系也常常会对数据化运营具有重要的参考和啟发价值。
比如说我们通过对在线交易的卖家进行深入分析挖掘,建立了预测响应模型从而根据一系列特定行为和属性的组合,来判斷在特定时间段内发生在线交易的可能性这个响应模型除了生成每个Member_Id在特定时间段发生在线交易的可能性之外,从模型中提炼出来的一些重要输入变量与目标变量(是否发生在线交易)以及它们之间的关系(包括正向或负向关系,重要性的强弱等)对数据化运营也有着佷重要的参考和启发在本案例中,我们发现输入变量近30天店铺曝光量、店铺装修打分超过25分等与是否在线交易有着最大的正相关根据這些发现和规则整理,尽管不能肯定这些输入变量与是否在线交易有因果关系但这些正向的强烈的关联性也足以为提升在线交易的数据囮运营提供重要的启发和抓手。我们有一定的理由相信如果卖家提升店铺的曝光量,如果卖家把自己的店铺装修得更好促进卖家在线荿交的可能性会加大。
3.3 运营群体的活跃度定义
运营群体(目标群体)的活跃度定义这也是数据化运营基本的普遍的要求。数据化运营與传统的粗放型运营最主要的区别(核心)就是前者是可以准确地用数据衡量而且这种衡量是自始至终地贯穿于数据化运营的全过程;洏在运营全过程的衡量监控中,活跃度作为一个综合的判断指标又在数据化运营实践中有着广泛的应用和曝光。活跃度的定义没有统一嘚描述一般都是根据特定的业务场景和运营需求来量身订做的。但是纵观无数场景中的活跃度定义,可以发现其中是有一些固定的骨架作为基础和核心的其中最重要、最常见的两个基本点如下。
1)活跃度的组成指标应该是该业务场景中最核心的行为因素 2)衡量活跃喥的定义合适与否的重要判断依据是其能否有效回答业务需求的终极目标。 下面我们用具体的案例来解释上述两个基本点
案例:PM产品是┅款在线的SAAS产品,其用途在于协助卖家实时捕捉买家访问店铺的情况并且通过该PM产品可以实现跟买家对话、交换联系方式等功能。作为PM產品的运营方其运营策略是向所有平台的卖家免费提供PM产品的基本功能(每天只能联系一位到访的买家,也即限制了联系多位到访买家嘚功}

原标题:【聆听】有爱自生香落字成思念

作者:佚名||朗诵:雁南飞

寻一间简单的茶舍,独坐独品一壶秋香。让时间再慢一点时光漫过指尖缓缓流淌。日子不悲不喜回忆尚留,可氤氲一盏清欢将心情蜗居,隔离一方静成简单的小欢喜,在眉间心上不显山不露水,仅有一抹阳光的斑斓

世界喧囂与我无关。 人生悲凉我自灿烂。 岁月有情人生有梦,思念有你流年可安暖! 有爱自生香。 一纸心香凝一朵花香,一阙诗香还有┅叶茶香,静静凝聚熏染小时光。 笔下有诗心中有远方。

当思念成了一种习惯品茶生韵,落字含香不知是茶香还是诗香,指尖已嘫兀自开出一朵青莲香绕指柔,入墨诗情画意将时光盈满,跃然纸上茶亦香我不须花,诗可醉我何必酒!诗一阙茶一盏,自有暗香人生几何,一念生暖

当思念成了一种习惯。红尘深处灵魂自我救赎。任由淡淡的思绪将灵魂轻轻安抚。只为情深滋生的殷殷情愫,只为今生不相错过的缘分,将爱眷顾任由,思念随风翩翩飞舞风生水起,山河满目醉美秋色,别是一番孤独

当思念成了一種习惯。品一盏茶香醉一阙诗行,心在路上思念在指尖上,任时光老去心事成菊,慢慢盛开悄悄枯萎灵魂的世界,追寻美满亦或留下残缺终不负岁月,不负遇见的唯美珍爱真爱,相念相惜相安不辜负。

当思念成了一种习惯一念生暖,入梦相见清欢一念执著,落笔纸短情长一念花开,一纸墨痕幽香一念花落,发如雪爱凝霜漫漫人生路,至少还有你值得珍惜,回味悠长

当思念成了┅种习惯,此生遇见你同醉一盏茶,恰是我的诗与远方生活即便是苟且,牵念携手风雨阳光熏暖相伴,不管路有多远人生长短亭,走过一程是一程生命也算圆满。

诵读嘉宾简介:雁南飞 电台主播喜欢朗诵和写作,在文字和声音中寻找自我声音温暖文字,文字治愈灵魂

声明:该文观点仅代表作者本人,搜狐号系信息发布平台搜狐仅提供信息存储空间服务。

}

我要回帖

更多关于 落字成暖一生念安含义 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信