标签搜索

目 录CONTENT

文章目录

决策树模型(2)特征选择

沙漠渔溏 / 2024-03-26 23:51:00 / 共计2,630 字
温馨提示:
本文最后更新于 2024-03-26,若内容或图片失效,请留言反馈。部分素材来自网络,若不小心影响到您的利益,请联系我们删除。

特征选择

特征选择问题

特征选择顾名思义就是对特征进行选择性截取,剔除掉冗余特征。这样能够减少决策树的复杂度。

比如在上面两图中,左图通过年龄来对样本进行分类,而右图通过工作对特征进行分类,二者究竟孰好孰坏,这是需要进行比较的。一个非常直接的想法就是仅用选择的特征去训练模型,然后得出用各个特征的准确率。但是显然这样做过于繁琐与复杂,通常特征选择的准则是信息增益或信息增益比。

信息增益与信息增益比

信息增益描述了在得知已知信息(特征X)的情况下能够使得类别Y的信息的不确定性减少的程度。比如说,在不知道任何样本的特征信息情况下,我们知道Y的不确定性程度为0.7,现在你知道了样本的某个特征\(x_i\),那么假设Y的不确定性程度减少为0.5,那么所得的信息增益即为0.2,这表示特征x对减少Y的不确定性程度的贡献。
在上面的例子中,我们提到了重要的两点,第一个是Y的不确定性程度,第二个是Y在X为某个特征时的不确定性程度。那么该怎么计算它们?

熵是反应随机变量不确定性的度量。假设随机变量\(X\)的概率分布为

\[P(X=x_i)=p_i, i = 1,2,\cdots,n \]

那么其熵的定义为

\[H(X)=H(P) = -\sum_{i=1}^n p_i \mathrm{log}p_i \]

那么当随机变量\(X\)只能取0, 1时,其熵为

\[H(P) = -p\mathrm{log}p-(1-p)\mathrm{log}(1-p) \]

显然当\(p\)为0时或1时熵恰好为0,此时表明熵最小,说明随机变量\(X\)很稳定,若\(p\)为0.5,则熵对应最大,表明随机变量\(X\)很不确定,因为它取0或取1的概率相等,具有很大的不确定性。

条件熵

条件熵表示在已知随机变量\(X\)的条件下随机变量\(Y\)的不确定性。它通过下式定义

\[H(Y|X) = \sum_{i=1}^np_iH(Y|X=x_i) \]

其中\(p_i=P(X=x_i)\)

信息增益

信息增益表示特征\(X\)给定的情况下对\(Y\)的不确定性减少的程度,因此需要知道原本\(Y\)的熵和给定\(X\)后的熵,由下式给出

\[g(Y,X)=g(D,A)=H(D)-H(D|A) \]

其中

\[H(D)=-\sum_{k=1}^K\frac{|C_k|}{|D|}\mathrm{log}\frac{C_k}{D} \]

\[H(D|A)=\sum_{i=1}^n\frac{|D_i|}{|D|}H(D_i|A=a_i)=-\sum_{i=1}^n\frac{|D_i|}{|D|}\sum_{k=1}^K\frac{|D_{ik}|}{|D_i|}\mathrm{log}\frac{|D_{ik}|}{|D_i|} \]

其中\(D\)表示训练数据集,\(A\)表示所选特征。
通过上面的公式我们就可以计算出每个特征的信息增益啦,也就可以其进行排序,优先选择大的。


⚠ 文章源地址: https://www.cnblogs.com/hywang1211/p/18097624.html 转载请注明出处