缺失值处理
1.删除法:适用于缺失值占比少的
2.插补法
①用众数,平均值和中值,视函数图像而定
②回归法
③极大似然估计:
(1)根据总体的分布,建立似然函数
(2) 当 L 关于 可微时,(由微积分求极值的原理)可由方程组
定出
,称以上方程组为似然方程.因为 L 与
有相同的极大值点,所以
也可由方程组
定出
,称以上方程组为对数似然方程;
就是所求参数
的极大似然估计量。当总体是离散型的,将上面的概率密度函数
,换成它的分布律
这样看起来似乎有些抽象,那可以看看下面那个例子。通俗理解请点击这里
可以看到,这里的p就是参数,而这个似然函数其实是概率函数,如果求导便会发现P(H,T,p)是随着p的增大而增大。
在一般情况下,计算参数可以用期望最大值来计算。
import math
w = 2.0/3 #最大概率
h = 49 #正面次数
t = 31 #反面次数
数据变换
将不同的数据转换成同一个标准和规格是十分重要的
标准化
离差标准化:
缺陷:当有新数据加入时,可能导致max和min的变化,需要重新定义
z-score 标准化(zero-meannormalization)
而并非所有数据标准化的结果都映射到[0,1]区间上,其中最常见的标准化方法就是Z标准化;也是SPSS中最为常用的标准化方法,也叫标准差标准化,变成均值为0,方差为1
- z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。\
- spss默认的标准化方法就是z-score标准化。
- 用Excel进行z-score标准化的方法:在Excel中没有现成的函数,需要自己分步计算,其实标准化的公式很简单。
步骤如下:
1.求出各变量(指标)的算术平均值(数学期望)xi和标准差si ;
2.进行标准化处理:
zij=(xij-xi)/si
其中:zij为标准化后的变量值;xij为实际变量值。
3.将逆指标前的正负号对调。
标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。
归一化方法
离散化
将连续的数据分成若干段。
语义转换
用整数数据来替换字符串的数据
数据统计
在matlab中,标准差:std(x) 方差:var(x) 极差:range(x)
偏度:统计数据分布偏斜方向和程度的度量,$v_i$>0为右偏态,$v_i$<0是左偏态
定义:
其中 分别表示二阶和三阶中心矩
峰度:衡量偏离正态分布的尺度,正态分布的峰度为3,若比3大,这说明有沉重的尾巴
在matlab中,偏度:skewness(x) 峰度:kurtosis(x)
分布统计
分布函数:随机变量最重要的概率特征,分布函数可以完整地描述随机变量的统计规律,并且决定随机变量的一切其他概率特征。
设X为连续型随机变量,其密度函数为,则有
数据可视化
参考链接:
https://www.jianshu.com/p/fa73a07cd750
百度百科