0%

SPSS 学习笔记

统计产品与服务解决方案


引言

1.数据分析职位介绍

  • 职位设置区别
    • 数据分析师(偏向宏观,决策依据)
    • 数据挖掘工程师(偏向个体,偏技术)
  • 知识体系区别
    • 数据库:SQL
    • 统计学:侧重描述统计、参数估计和统计推断
    • 数据挖掘统计:数据总结、分类和回归、聚类分析、关联分析
  • 工具区别
    • 工具类:SQL、SPSS、STATS、Excel、Matleb、SAS
    • 语言类:R、Python

2.SPSS软件基础

  • SPSS软件概述:斯坦福三个研究生写的,后成立同名公司
    • Statistical Package for the Social Science,社会科学统计软件包
    • 2000年改名为Statistical Product and Service Solutions,同级产品和服务解决方案
    • SPSS是世界三大同级分析软件之一,2009年IBM以12亿美金收购SPSS公司
  • 和其他软件比较

数据的组织和管理

1.数据分类

  • 按照数据存储格式
    • 数字
    • 字符串
    • 日期时间
  • 按代表的事物特征
    • 数值型
    • 名义型
    • 定序型
  • 按照数据角色
    • 输入
    • 输出

      2.定义数据结构

  • 变量名
  • 变量类型、列宽、小数点
  • 变量名标签
  • 变量值表情
  • 缺失数据
  • 计量尺度
  • 变量角色

3.数据的导入和编辑

  • 术语:个案和变量
  • 从文件导入数据
  • 录入数据
  • 修改数据

4.数据合并

  • 横向合并
  • 纵向合并

假设检验

1.假设检验概述

  • 什么是假设检验
  • 假设检验的目的
  • 两种误差:系统误差,随机误差
  • 假设检验执行步骤
    • 简历要检验的假设,确定检验水准
    • 选择并计算适宜的统计量
    • 确定P值,做出推断

2.t分布和t检验

  • t分布的特点
    • 单峰,以0为中心,左右对称
    • 分布形态和样本数量n有关
    • n -> ∞时,逼近标准正态曲线
    • t曲线不是一条曲线,而是一簇曲线
  • t检验是基于t分布的比较平均数的检验方法

3.单样本t检验实例解析

【分析】-【比较平均值】-【单样本T检验】

4.两独立样本t检验实例解析

【分析】-【比较平均值】-【独立样本T检验】

5.配对样本t检验实例解析

【分析】-【比较平均值】-【配对样本T检验】

数据的基本统计分析

1.数据的集中趋势

  • 均值
  • 中位数
  • 分位数
  • 众数

2.数据的离散趋势

  • 极差
  • 四分位距
  • 方差和标准差
  • 标准分数(Z分数)
    • Z=(X-X平均)/s
    • 大于等于3则说明异常
  • 变异系数=标准差/均值

3.数据的分布形态

  • 偏态系数(左偏分布<0,对称分布=0,右偏分布>0,看尾巴)
  • 峰态系数(正态分布=0,尖顶峰>0,平顶峰<0)

4. 频数分析和描述统计实例解析

  • 数据的分布表
    • 频数
    • 百分比
    • 有效百分比(去掉缺失值)
    • 累积百分比
  • 绘制统计图
    • 柱状图,饼图,直方图
  • 各种统计量

【分析】-【描述统计】-【频率】/【描述】

【数据】-【拆分文件】 #分组统计

5.交叉步(列联表)分析实例解析

  • 交叉表中的各项指标
  • 交叉表分析的思想和结果解读

【分析】-【描述统计】-【交叉表格】

【数据】-【加权个案】 #加权拓展

卡方检验

相关性分析概述

##1.相关性分析概述

  • 函数关系——对于的确定关系
  • 统计关系:线性和非线性关系
  • 线性关系:正线性关系、负线性关系
  • 相关关系不是因果关系
  • 相关关系的可视化

2.线性关系的量化指标

  • Pearson相关系数:两个数值变量间的相关性
    • 相关系数=X和Y的协方差/(X的方差·Y的方差)^1/2
    • X的样本方差=求和(x-x平均)^2/(n-1)
    • 协方差=求和(x-x平均)(y-y平均)/(n-1)
  • 相关系数特点
    • 取值在[-1,1],|相关系数r|越趋近于1则相关性越强
    • 对称性,x和y、y和x相等
    • r值与x和y尺度无关
    • 线性关系不是因果关系
  • 相关性强弱
    • |r|>0.8 高度相关
    • 0.5>|r|>0.8 中度相关
    • 0.3>|r|>0.5 低度相关
    • |r|<0.3 相关程度极弱,可视为不相关
  • 相关系数的检验

3.相关性分析实例解析

【分析】-【相关】-【双相关】

数据方差分析

1.方差分析概述

  • 方差分析的基本思想
    把数据的全部变异——总变异分解成两个或多个组成部分,再做分析
  • 方差分析的术语
    观测变量、控制变量、控制变量的水平
  • 方差分析的应用
    两组或两组以上均数是否相等
    两个或多个元素的交互作用
    回归方程的线性假设检验

2.方差分析原理

  • 总方差:反应全部个体的变异情况
    SS总=求和i求和j(Xij-X平均)^2
    v总=N-1 (自由度)
  • 组内方差
    各组组内个体之间的变异
    属于随机误差
  • 组间方差
    各组均数和总均数的差异
    除了随机误差,还可能有系统误差
  • F值

3.单因素方差分析实例解析

【分析】-【比较均值】-【单因素方差分析】

一元线性回归概述

1.一元线性回归概述

  • 概念介绍:只涉及到一个变量的回归,自变量和因变量之间是线性关系
    自变量、因变量
  • 回归模型
  • 回归系数的含义
  • 回归系数的检验
  • 回归方程的检验

2.一元线性回归的原理

  • 最小二乘法
    因变量的变化来自于两个方面:自变量取值变化,自身因素(随机误差)
  • 回归系数的检验
    T检验
  • 回归方程的检验
    方差分析
    SST总平方和=SSR回归平方和+SSR残差平方和
    • 决定系数
      反应模型的解释能力
      反应回归直线的拟合程度
      决定系数平方根等于相关系数
      R^2=SSR/SST

3.一元线性回归实例解析

【分析】-【回归】-【线性】

欢迎关注我的其它发布渠道