# 数据挖掘前的准备工作
在数据变换前,需要对数据进行筛选,然后进行数据探索和相关性分析,接着选择算法模型,然后针对算法模型对数据进行数据变换,从而完成数据挖掘前的准备工作。
# 数据变换的四种常见方法
1、数据平滑 去除数据噪声,将连续数据离散化。主要是用分箱、聚类和回归方式等算法进行数据平滑。
2、数据聚集 个人理解就是对数据聚合。 对数据进行汇总,比如常见的使用sql的聚合函数。
3、数据概化 个人理解就是数据维度抽象。 将数据由较低的概念抽象成为较高的概念,减少数据复杂度,即用更高的概念替代更低的概念。比如说上海、杭州、深圳、北京可以概化为中国。
4、数据规范化 常用方法:min-max规范化、Z-score规范化、按小数定标规范化。
5、属性构造 人个理解就是根据需要加字段。
# 数据规范化的几种方法
1、Min-Max规范化 将原始数据变换到[0,1]的空间中。 公式:新数值=(原数值-极小值)/(极大值-极小值)
2、Z-score规范化 对不同级别的数据按相同标准来进行比较。 公式: 新数值 = (原数值-均值)/标准差
3、小数定标规范化 不知道作用是干啥?
# Python 的 SciKit-Learn 库
是一个机器学习库,封装了大量的机器学习算法,比如分类、聚类、回归、降维等。另外,它还包括了上面说的数据变换模块。