4006-900-901

Python实现大数据挖掘技术培训

参加对象:业务支持部、IT系统部、大数据系统开发部、大数据分析中心、网络运维部等相关技术人员。
课程费用:电话咨询
授课天数:2~5天
授课形式:内训
联系电话:4006-900-901 / 17821361800(小威)

微信咨询&报名

课程背景  COURSE BACKGROUND

Python已经成为数据分析和数据挖掘的首选语言,作为除了Java、C/C++/C#外最受欢迎的语言。
本课程基于Python工具来实现大数据的数据分析和数据挖掘项目。基于业务问题,在数据挖掘标准过程指导下,采用Python分析工具,实现数据挖掘项目的每一步操作,从数据预处理、数据建模、数据可视化,到最终数据挖掘结束,帮助学员掌握Python用于数据挖掘,提升学员的数据化运营及数据挖掘的能力。

课程收益  PROGRAM BENEFITS

全面掌握Python语言以及其编程思想。
掌握常用扩展库的使用,特别是数据挖掘相关库的使用。
学会使用Python完成数据挖掘项目整个过程。
掌握利用Python实现可视化呈现。
掌握数据挖掘常见算法在Python中的实现。

课程大纲  COURSE OUTLINE

数据对象基本操作
目的:掌握数据集结构及基本处理方法,进一步巩固Python语言
数据挖掘常用扩展库介绍
Numpy数组处理支持
Scipy矩阵计算模块
Matplotlib数据可视化工具库
Pandas数据分析和探索工具
StatsModels统计建模库
Scikit-Learn机器学习库
Keras深度学习(神经网络)库
Gensim文本挖掘库
数据集构建
Index, Series, DataFrame对象
手工构建(创建索引、序列、数据集)
读取文件(CSV文件、Excel文件)
读取数据库
数据集保存(CSV、Excel)
数据集基本操作
基本属性访问
shape,ndim,index,columns,values,empty,size
数据类型处理:查看、修改、转换
排序
排序依据:标题、索引、字段
排序顺序:升序、降序
自定义排序:按标题、索引、字段、有序类别变量排序
基本访问
行访问、列访问、值访问
访问方式:标签、位置
访问类型:单行列、多行列、连续行列
布尔数组访问
字段管理、新增、删除、修改、替换、移位
数据筛选:条件筛选、多值筛选、筛选空值/非空值
演练:用Python实现数据的基本访问

大数据预处理
目的:掌握数据预处理的基本环节,以及Python的实现。
预处理任务
数据清洗
数据集成
数据处理
变量处理
数据清洗
重复值处理
重复字段、重复标题、重复索引
处理方式:查找、删除、修改
错误值处理
查找错误值
置空/删除
重新编码/替换
离群值处理:
检测标题:3σ准则,IQR准则,K均值
处理方式:查找、置空、截尾、缩尾
基于K均值的离群值检测
缺失值处理:
查找、删除
插补(固定值/均值/向下填充/向上填充/插入法/拉格朗日)
数据集成
数据追加
变量合并(连接类型)
数据处理
数据筛选
数据抽样
简单抽样(有放回、无放回)
分层抽样
离散化/分箱
等宽
等频
自定义间隔
K均值
变量处理
处理方式:变量变换、变量派生
规范化:min-max /mean-std/exp-max
哑变量化
案例:用Python实现数据预处理

数据可视化处理
目的:掌握作图扩展库,实现数据可视化
统计基础
数值变量:描述统计
类别变量:分类计数
分类统计:分类汇总
常用的Python作图库
Matplotlib库
Pygal库
各种图形的画法
柱状图
直方图
饼图
折线图
散点图

演练:用Python库作图来实现产品销量分析,并可视化
影响因素分析/特征选择
目的:掌握判断事物间相关性的常用方法,熟悉建模前如何进行属性筛选/特征选择,以实现降维的目的。
影响因素分析常用方法
相关分析
相关分析原理
相关系数公式种类
Pearson相关系数
Spearman等级相关系数
Kendall等级相关系数
方差分析
方差分析原理
方差分析种类
单因素方差分析
多因素方差分析
协方差分析
列联分析/卡方检验
列联分析原理
计数与期望值
卡方检验公式
主成分分析:降维
PCA方法原理

回归预测模型实战
常用数值预测的模型
通用预测模型:回归模型
季节性预测模型:相加、相乘模型
新产品预测模型:珀尔曲线与龚铂兹曲线
回归分析概念
常见回归分析类别
回归分析常见算法
普通最小二乘法OLS
岭回归(RR)
套索回归Lasso
ElasticNet回归
回归模型的评估
判定系数R^2
平均误差率MAPE
分类预测模型实战
常见分类预测的模型与算法
如何评估分类预测模型的质量
正确率、查准率、召回率、F1
ROC曲线
逻辑回归分析模型
逻辑回归的原理
逻辑回归建模的步骤
案例:用sklearn库实现银行贷款违约预测
决策树模型
决策树分类的原理
决策树的三个关键问题
决策树算法与实现
案例:电力窃漏用户自动识别
决策树算法
最优属性选择算法:ID3、ID4.0、ID5.0
连续变量分割算法
树剪枝:预剪枝、后剪枝
人工神经网络模型(ANN)
神经网络概述
神经元工作原理
常见神经网络算法(BP、LM、RBF、FNN等)
案例:神经网络预测产品销量
支持向量机(SVM)
SVM基本原理
维灾难与核心函数
案例:基于水质图像的水质评价
贝叶斯分析
条件概率
常见贝叶斯网络

聚类分析(客户细分)实战
客户细分常用方法
聚类分析(Clustering)
聚类方法原理介绍及适用场景
常用聚类分析算法
聚类算法的评价
案例:使用SKLearn实现K均值聚类
案例:使用TSNE实现聚类可视化
RFM模型分析
RFM模型,更深入了解你的客户价值
RFM模型与市场策略
案例:航空公司客户价值分析

关联规则分析实战
关联规则概述
常用关联规则算法
Apriori算法
发现频繁集
生成关联规则
FP-Growth算法
构建FP树
提取规则
时间序列分析
案例:使用apriori库实现关联分析
案例:中医证型关联规则挖掘

案例实战
客户流失预测和客户挽留模型
银行欠贷风险预测模型

结束:课程总结与问题答疑。

我们的服务  OUR SERVICES
服务流程

业务范畴
量身定制化的经典内训课程
人力资源
劳动法
培训发展
职业技能
市场营销
经营股权
战略管理
行政商务
财务管理
研发管理
生产管理
物流管理
采购管理
职业素养
通用管理
独具特色的系统解决方案
人力资源
劳动法
企业文化
战略经营
组织变革
股权激励
领导力
技术研发
财务管理
生产管理
联系我们   CONTACT US

联系电话:4006-900-901

微信咨询:威才客服

企业邮箱:shwczx@shwczx.com




1.点击下面按钮复制微信号

13812819979

点击复制微信号

上海威才企业管理咨询有限公司