跳转至

6.继续特征学习

互信息

面对一个数据集成百上千个特征,该从哪里开始呢?使用feature utility metric构建排名,衡量特征与目标之间关联大小的函数。然后,我们可以选择一小部分最有用的feature进行初步开发

互信息从不确定性的角度描述关系。两个量之间的互信息(MI)是衡量一个量的知识在多大程度上减少另一个量的不确定性的量度。如果我们知道某项feature的值,那么我们对目标预测的信心会有多大?

样例

alt text 上图可以看到,互信息能够检测任何类型的关系,即使是cosine函数。

在scikitlearn库里,有对于实数的mutual_info_regression函数和对于离散值的mutual_info_classif