统计产品与服务解决方案
引言
1.数据分析职位介绍
- 职位设置区别
- 数据分析师(偏向宏观,决策依据)
- 数据挖掘工程师(偏向个体,偏技术)
- 知识体系区别
- 数据库:SQL
- 统计学:侧重描述统计、参数估计和统计推断
- 数据挖掘统计:数据总结、分类和回归、聚类分析、关联分析
- 工具区别
- 工具类:SQL、SPSS、STATS、Excel、Matleb、SAS
- 语言类:R、Python
2.SPSS软件基础
- SPSS软件概述:斯坦福三个研究生写的,后成立同名公司
- Statistical Package for the Social Science,社会科学统计软件包
- 2000年改名为Statistical Product and Service Solutions,同级产品和服务解决方案
- SPSS是世界三大同级分析软件之一,2009年IBM以12亿美金收购SPSS公司
- 和其他软件比较
数据的组织和管理
1.数据分类
- 按照数据存储格式
- 数字
- 字符串
- 日期时间
- 按代表的事物特征
- 数值型
- 名义型
- 定序型
- 按照数据角色
- 变量名
- 变量类型、列宽、小数点
- 变量名标签
- 变量值表情
- 缺失数据
- 计量尺度
- 变量角色
3.数据的导入和编辑
- 术语:个案和变量
- 从文件导入数据
- 录入数据
- 修改数据
4.数据合并
- 横向合并
- 纵向合并
假设检验
1.假设检验概述
- 什么是假设检验
- 假设检验的目的
- 两种误差:系统误差,随机误差
- 假设检验执行步骤
- 简历要检验的假设,确定检验水准
- 选择并计算适宜的统计量
- 确定P值,做出推断
2.t分布和t检验
- t分布的特点
- 单峰,以0为中心,左右对称
- 分布形态和样本数量n有关
- n -> ∞时,逼近标准正态曲线
- t曲线不是一条曲线,而是一簇曲线
- t检验是基于t分布的比较平均数的检验方法
3.单样本t检验实例解析
【分析】-【比较平均值】-【单样本T检验】
4.两独立样本t检验实例解析
【分析】-【比较平均值】-【独立样本T检验】
5.配对样本t检验实例解析
【分析】-【比较平均值】-【配对样本T检验】
数据的基本统计分析
1.数据的集中趋势
- 均值
- 中位数
- 分位数
- 众数
2.数据的离散趋势
- 极差
- 四分位距
- 方差和标准差
- 标准分数(Z分数)
- Z=(X-X平均)/s
- 大于等于3则说明异常
- 变异系数=标准差/均值
3.数据的分布形态
- 偏态系数(左偏分布<0,对称分布=0,右偏分布>0,看尾巴)
- 峰态系数(正态分布=0,尖顶峰>0,平顶峰<0)
4. 频数分析和描述统计实例解析
- 数据的分布表
- 频数
- 百分比
- 有效百分比(去掉缺失值)
- 累积百分比
- 绘制统计图
- 柱状图,饼图,直方图
- 各种统计量
【分析】-【描述统计】-【频率】/【描述】
【数据】-【拆分文件】 #分组统计
5.交叉步(列联表)分析实例解析
- 交叉表中的各项指标
- 交叉表分析的思想和结果解读
【分析】-【描述统计】-【交叉表格】
【数据】-【加权个案】 #加权拓展
卡方检验
相关性分析概述
##1.相关性分析概述
- 函数关系——对于的确定关系
- 统计关系:线性和非线性关系
- 线性关系:正线性关系、负线性关系
- 相关关系不是因果关系
- 相关关系的可视化
2.线性关系的量化指标
- Pearson相关系数:两个数值变量间的相关性
- 相关系数=X和Y的协方差/(X的方差·Y的方差)^1/2
- X的样本方差=求和(x-x平均)^2/(n-1)
- 协方差=求和(x-x平均)(y-y平均)/(n-1)
- 相关系数特点
- 取值在[-1,1],|相关系数r|越趋近于1则相关性越强
- 对称性,x和y、y和x相等
- r值与x和y尺度无关
- 线性关系不是因果关系
- 相关性强弱
- |r|>0.8 高度相关
- 0.5>|r|>0.8 中度相关
- 0.3>|r|>0.5 低度相关
- |r|<0.3 相关程度极弱,可视为不相关
- 相关系数的检验
3.相关性分析实例解析
【分析】-【相关】-【双相关】
数据方差分析
1.方差分析概述
- 方差分析的基本思想
把数据的全部变异——总变异分解成两个或多个组成部分,再做分析 - 方差分析的术语
观测变量、控制变量、控制变量的水平 - 方差分析的应用
两组或两组以上均数是否相等
两个或多个元素的交互作用
回归方程的线性假设检验
2.方差分析原理
- 总方差:反应全部个体的变异情况
SS总=求和i求和j(Xij-X平均)^2
v总=N-1 (自由度) - 组内方差
各组组内个体之间的变异
属于随机误差 - 组间方差
各组均数和总均数的差异
除了随机误差,还可能有系统误差 - F值
3.单因素方差分析实例解析
【分析】-【比较均值】-【单因素方差分析】
一元线性回归概述
1.一元线性回归概述
- 概念介绍:只涉及到一个变量的回归,自变量和因变量之间是线性关系
自变量、因变量 - 回归模型
- 回归系数的含义
- 回归系数的检验
- 回归方程的检验
2.一元线性回归的原理
- 最小二乘法
因变量的变化来自于两个方面:自变量取值变化,自身因素(随机误差) - 回归系数的检验
T检验 - 回归方程的检验
方差分析
SST总平方和=SSR回归平方和+SSR残差平方和 - 决定系数
反应模型的解释能力
反应回归直线的拟合程度
决定系数平方根等于相关系数
R^2=SSR/SST
- 决定系数
3.一元线性回归实例解析
【分析】-【回归】-【线性】