day1数据预处理

无标签

发布日期: 2020-07-13

更新日期: 2020-12-10

文章字数: 880

阅读时长: 3 分

阅读次数:

缺失值处理

1.删除法：适用于缺失值占比少的

2.插补法

①用众数，平均值和中值，视函数图像而定

②回归法

③极大似然估计：

(1)根据总体的分布，建立似然函数

(2) 当 L 关于可微时，(由微积分求极值的原理）可由方程组定出，称以上方程组为似然方程.因为 L 与有相同的极大值点，所以也可由方程组定出，称以上方程组为对数似然方程；就是所求参数的极大似然估计量。当总体是离散型的，将上面的概率密度函数，换成它的分布律

这样看起来似乎有些抽象，那可以看看下面那个例子。通俗理解请点击这里

可以看到，这里的p就是参数，而这个似然函数其实是概率函数，如果求导便会发现P(H,T,p)是随着p的增大而增大。

在一般情况下，计算参数可以用期望最大值来计算。

import math
w = 2.0/3  #最大概率
h = 49  #正面次数
t = 31  #反面次数

数据变换

将不同的数据转换成同一个标准和规格是十分重要的

标准化

离差标准化：

缺陷：当有新数据加入时，可能导致max和min的变化，需要重新定义

z-score 标准化(zero-meannormalization)

而并非所有数据标准化的结果都映射到[0,1]区间上，其中最常见的标准化方法就是Z标准化；也是SPSS中最为常用的标准化方法，也叫标准差标准化，变成均值为0，方差为1

z-score标准化方法适用于属性A的最大值和最小值未知的情况，或有超出取值范围的离群数据的情况。\
spss默认的标准化方法就是z-score标准化。
用Excel进行z-score标准化的方法：在Excel中没有现成的函数，需要自己分步计算，其实标准化的公式很简单。

步骤如下：
1.求出各变量（指标）的算术平均值（数学期望）xi和标准差si ；
2.进行标准化处理：
zij=（xij－xi）/si
其中：zij为标准化后的变量值；xij为实际变量值。
3.将逆指标前的正负号对调。
标准化后的变量值围绕0上下波动，大于0说明高于平均水平，小于0说明低于平均水平。

归一化方法

离散化

将连续的数据分成若干段。

语义转换

用整数数据来替换字符串的数据

数据统计

在matlab中，标准差：std(x) 方差：var(x) 极差：range(x)

偏度：统计数据分布偏斜方向和程度的度量，$v_i$>0为右偏态，$v_i$<0是左偏态

定义：

其中分别表示二阶和三阶中心矩

峰度：衡量偏离正态分布的尺度，正态分布的峰度为3，若比3大，这说明有沉重的尾巴

在matlab中，偏度：skewness(x) 峰度：kurtosis(x)

分布统计

分布函数：随机变量最重要的概率特征，分布函数可以完整地描述随机变量的统计规律，并且决定随机变量的一切其他概率特征。

设X为连续型随机变量，其密度函数为，则有

数据可视化

参考链接：

https://www.jianshu.com/p/fa73a07cd750

百度百科

http://blog.guke.cf/posts/34ffafde/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源古客 !

无标签

评论

上一篇

Lingo笔记一

2020-07-19 数模

下一篇

Latex简单入门

Latex简单入门

2020-07-12 数模