过滤法总结

常用的基于过滤法的特征选择,包括方差过滤,基于卡方,F检验和互信息的相关性过滤 , 先使用方差过滤,然后使用互信息法来捕捉相关性,不过了解各种各样的过滤方式也是必要的。

说明 超参数的选择
VarianceThreshold 方差过滤,可输入方差阈值,返回方差大于 阈值的新特征矩阵 看具体数据究竟是含有更多噪 声还是更多有效特征 一般就使用0或1来筛选 也可以画学习曲线或取中位数 跑模型来帮助确认
SelectKBest 用来选取K个统计量结果最佳的特征,生成 符合统计量要求的新特征矩阵 看配合使用的统计量
chi2 卡方检验,专用于分类算法,捕捉相关性 追求p小于显著性水平的特征
f_classif F检验分类,只能捕捉线性相关性 要求数据服从正态分布 追求p小于显著性水平的特征
f_regression F检验回归,只能捕捉线性相关性 要求数据服从正态分布 追求p小于显著性水平的特征
mutual_info_classif 互信息分类,可以捕捉任何相关性 不能用于稀疏矩阵 追求互信息估计大于0的特征
mutual_info_regression 互信息回归,可以捕捉任何相关性 不能用于稀疏矩阵 追求互信息估计大于0的特征
Update time: 2020-05-23

results matching ""

    No results matching ""