4006-900-901

大数据挖掘工具: SPSS Statistics入门与提高

参加对象:市场部、业务支撑部、数据分析部、运营分析部等对业务数据分析有较高要求的相关人员。
课程费用:电话咨询
授课天数:2~4天
授课形式:内训
联系电话:4006-900-901 / 17821361800(小威)

微信咨询&报名

课程背景  COURSE BACKGROUND

随着大数据分析的需求越来越旺盛,大数据分析工具也越来越琳琅满目,然而,绝大多数的分析工具都只具有单一用途,无法满足企业的复杂的多样化的全面的业务分析需求,因此分析工具的选择成为了一个挑战。
一个良好的分析工具必须满足如下要求:
易学易用易操作。
分析效率要高。
满足业务分析需求。
如果要说前两个要求,显然类似于Excel/Power BI/Tableau等工具都是满足要求的,但此类工具却无法解决更复杂的业务问题,比如影响因素分析、客户行为预测/精准营销、客户群划分、产品交叉销售、产品销量预测等等,这些需求用Excel/PBI等工具就难以胜任了,需要用到更高级的数据挖掘工具,比如IBM SPSS工具。IBM SPSS工具是面向非专业人士的高级的分析工具(挖掘工具),它提供大量的分析方法和分析模型,能够解决的业务问题更丰富,提供了更加强大的业务数据分析功能,并且它封装了具体的分析算法,即使你没有深厚的技能能力,也能够胜任复杂的数据分析和挖掘。

本课程面向数据分析部等专门负责数据分析与挖掘的人士,专注大数据挖掘工具SPSS Statistics的培训。

课程收益  PROGRAM BENEFITS

了解大数据挖掘的标准过程和挖掘步骤。
掌握基本的统计分析,常用的影响因素分析。
理解数据挖掘的常见模型,原理及适用场景。
熟练掌握SPSS基本操作,能利用SPSS解决实际的商业问题。

课程大纲  COURSE OUTLINE

数据挖掘标准流程
数据挖掘概述
数据挖掘的标准流程(CRISP-DM)
商业理解
数据准备
数据理解
模型建立
模型评估
模型应用
案例:客户流失预测及客户挽留
数据集的基本知识
存储类型
统计类型
角度
SPSS工具简介

数据预处理过程
数据预处理的基本步骤
数据读取、数据理解、数据处理、变量处理、探索分析
数据预处理的主要任务
数据集成:多个数据集的合并
数据清理:异常值的处理
数据处理:数据筛选、数据精简、数据平衡
变量处理:变量变换、变量派生、变量精简
数据归约:实现降维,避免维灾难
数据集成
外部数据读入:Txt/Excel/SPSS/Database
数据追加(添加数据)
变量合并(添加变量)
数据理解(异常数据处理)
取值范围限定
重复值处理
无效值/错误值处理
缺失值处理
离群值/极端值处理
数据质量评估
数据准备:数据处理
数据筛选:数据抽样/选择(减少样本数量)
数据精简:数据分段/离散化(减少变量的取值个数)
数据平衡:正反样本比例均衡
数据准备:变量处理
变量变换:原变量取值更新,比如标准化
变量派生:根据旧变量生成新的变量
变量精简:降维,减少变量个数
数据降维
常用降维方法
如何确定变量个数
特征选择:选择重要变量,剔除不重要的变量
从变量本身考虑
从输入变量与目标变量的相关性考虑
对输入变量进行合并
因子分析(主成分分析)
因子分析的原理
因子个数如何选择
如何解读因子含义
案例:提取影响电信客户流失的主成分分析
数据探索性分析
常用统计指标分析
单变量:数值变量/分类变量
双变量:交叉分析/相关性分析
多变量:特征选择、因子分析
演练:描述性分析(频数、描述、探索、分类汇总)
数据可视化篇
数据可视化的原则
常用可视化工具
常用可视化图形
柱状图、条形图、饼图、折线图、箱图、散点图等
图形的表达及适用场景
演练:各种图形绘制

影响因素分析篇
问题:如何判断一个因素对另一个因素有影响?比如营销费用是否会影响销售额?产品价格是否会影响销量?产品的陈列位置是否会影响销量?
风险控制的关键因素有哪些?如何判断?
影响因素分析的常见方法
相关分析(衡量变量间的的相关性)
问题:这两个属性是否会相互影响?影响程度大吗?营销费用会影响销售额吗? 
什么是相关关系
相关系数:衡量相关程度的指标
相关系数的三个计算公式
相关分析的假设检验
相关分析的基本步骤
相关分析应用场景
演练:体重与腰围的关系
演练:营销费用会影响销售额吗
演练:哪些因素与汽车销量有相关性
演练:通信费用与开通月数的相关分析
案例:酒楼生意好坏与报纸销量的相关分析
偏相关分析
距离相关分析
方差分析
问题:哪些才是影响销量的关键因素?
方差分析解决什么问题
方差分析种类:单因素/双因素可重复/双因素无重复
方差分析的应用场景
方差分析的原理与步骤
如何解决方差分析结果
演练:终端摆放位置与终端销量有关吗?
演练:开通月数驿客户流失的影响分析
演练:客户学历对消费水平的影响分析
演练:广告和价格是影响终端销量的关键因素吗
演练:营业员的性别、技能级别产品销量有影响吗?
案例:2015年大学生工资与父母职业的关系
案例:医生洗手与婴儿存活率的关系
演练:寻找影响产品销量的关键因素
多因素方差分析原理
多因素方差结果的解读
演练:广告形式、地区对销量的影响因素分析(多因素)
协方差分析原理
演练:饲料对生猪体重的影响分析(协方差分析)
列联分析(两类别变量的相关性分析)
交叉表与列联表
卡方检验的原理
卡方检验的几个计算公式
列联表分析的适用场景
案例:套餐类型对客户流失的影响分析
案例:学历对业务套餐偏好的影响分析
案例:行业/规模对风控的影响分析

数据建模过程篇
预测建模六步法
选择模型:基于业务选择恰当的数据模型
属性筛选:选择对目标变量有显著影响的属性来建模
训练模型:采用合适的算法对模型进行训练,寻找到最合适的模型参数
评估模型:进行评估模型的质量,判断模型是否可用
优化模型:如果评估结果不理想,则需要对模型进行优化
应用模型:如果评估结果满足要求,则可应用模型于业务场景
数据挖掘常用的模型
数值预测模型:回归预测、时序预测等
分类预测模型:逻辑回归、决策树、神经网络、支持向量机等
市场细分:聚类、RFM、PCA等
产品推荐:关联分析、协同过滤等
产品优化:回归、随机效用等
产品定价:定价策略/最优定价等
属性筛选/特征选择/变量降维
基于变量本身特征
基于相关性判断
因子合并(PCA等)
IV值筛选(评分卡使用)
基于信息增益判断(决策树使用)
模型评估
模型质量评估指标:R^2、正确率/查全率/查准率/特异性等
预测值评估指标:MAD、MSE/RMSE、MAPE、概率等
模型评估方法:留出法、K拆交叉验证、自助法等
其它评估:过拟合评估
模型优化
优化模型:选择新模型/修改模型
优化数据:新增显著自变量
优化公式:采用新的计算公式
模型实现算法(暂略)
好模型是优化出来的
案例:通信客户流失分析及预警模型

数值预测模型篇
问题:如何预测产品的销量/销售金额?如果产品跟随季节性变动,该如何预测?新产品上市,如果评估销量上限及销售增速?
销量预测与市场预测——让你看得更远
回归预测/回归分析
问题:如何预测未来的销售量(定量分析)?
回归分析的基本原理和应用场景
回归分析的种类(一元/多元、线性/曲线)
得到回归方程的几种常用方法
回归分析的五个步骤与结果解读
回归预测结果评估(如何评估预测质量,如何选择最佳回归模型)
演练:散点图找推广费用与销售额的关系(一元线性回归)
演练:推广费用、办公费用与销售额的关系(多元线性回归)
演练:让你的营销费用预算更准确
演练:如何选择最佳的回归预测模型(曲线回归)
带分类变量的回归预测
演练:汽车季度销量预测
演练:工龄、性别与终端销量的关系
演练:如何评估销售目标与资源配置(营业厅)
时序预测
问题:随着时间变化,未来的销量变化趋势如何?
时序分析的应用场景(基于时间的变化规律)
移动平均MA的预测原理
指数平滑ES的预测原理
自回归移动平均ARIMA模型
如何评估预测值的准确性?
案例:销售额的时序预测及评估
演练:汽车销量预测及评估
演练:电视机销量预测分析
演练:上海证券交易所综合指数收益率序列分析
演练:服装销售数据季节性趋势预测分析
季节性预测模型
季节性回归模型的参数
常用季节性预测模型(相加、相乘)
案例:美国航空旅客里程的季节性趋势分析
案例:产品销售季节性趋势预测分析
新产品预测模型与S曲线
如何评估销量增长的拐点
珀尔曲线与龚铂兹曲线
案例:如何预测产品的销售增长拐点,以及销量上限
演戏:预测IPad产品的销量
自定义模型(如何利用规划求解进行自定义模型)
案例:如何对餐厅客流量进行建模及模型优化

回归模型优化篇
回归模型的基本原理
三个基本概念:总变差、回归变差、剩余变差
方程的显著性检验:是否可以做回归分析?
拟合优度检验:回归模型的质量评估?
因素的显著性检验:自变量是否可用?
理解标准误差的含义:预测的准确性?
模型优化思路:寻找最佳回归拟合线
如何处理异常数据(残差与异常值排除)
如何剔除非显著因素(因素显著性检验)
如何进行非线性关系检验
如何进行相互作用检验
如何进行多重共线性检验
如何检验误差项
如何判断模型过拟合
案例:模型优化案例

分类预测模型篇
问题:如何评估客户购买产品的可能性?如何预测客户的购买行为?如何提取某类客户的典型特征?如何向客户精准推荐产品或业务?
分类模型概述
常见分类预测模型
评估分类模型的常用指标
正确率、查全率/查准率、特异性等
逻辑回归模型(LR)
逻辑回归模型原理及适用场景
逻辑回归种类:二项/多项逻辑回归
如何解读逻辑回归方程
案例:如何评估用户是否会购买某产品(二项逻辑回归)
消费者品牌选择模型分析
案例:多品牌选择模型分析(多项逻辑回归)
分类决策树(DT)
问题:如何预测客户行为?如何识别潜在客户?
风控:如何识别欠贷者的特征,以及预测欠贷概率?
客户保有:如何识别流失客户特征,以及预测客户流失概率?
决策树分类简介
如何评估分类性能?
案例:美国零售商(Target)如何预测少女怀孕
演练:识别银行欠货风险,提取欠贷者的特征
构建决策树的三个关键问题
如何选择最佳属性来构建节点
如何分裂变量
修剪决策树
选择最优属性
熵、基尼索引、分类错误
属性划分增益
如何分裂变量
多元划分与二元划分
连续变量离散化(最优划分点)
修剪决策树
剪枝原则
预剪枝与后剪枝
构建决策树的四个算法
C5.0、CHAID、CART、QUEST
各种算法的比较
如何选择最优分类模型?
案例:商场酸奶购买用户特征提取
案例:电信运营商客户流失预警与客户挽留
案例:识别拖欠银行货款者的特征,避免不良货款
案例:识别电信诈骗者嘴脸,让通信更安全
人工神经网络(ANN)
神经网络概述
神经网络基本原理
神经网络的结构
神经网络的建立步骤
神经网络的关键问题
BP反向传播网络(MLP)
径向基网络(RBF)
案例:评估银行用户拖欠货款的概率

我们的服务  OUR SERVICES
服务流程

业务范畴
量身定制化的经典内训课程
人力资源
劳动法
培训发展
职业技能
市场营销
经营股权
战略管理
行政商务
财务管理
研发管理
生产管理
物流管理
采购管理
职业素养
通用管理
独具特色的系统解决方案
人力资源
劳动法
企业文化
战略经营
组织变革
股权激励
领导力
技术研发
财务管理
生产管理
联系我们   CONTACT US

联系电话:4006-900-901

微信咨询:威才客服

企业邮箱:shwczx@shwczx.com




1.点击下面按钮复制微信号

13812819979

点击复制微信号

上海威才企业管理咨询有限公司