信息熵公式的详细解释和计算示例

信息熵公式的详细解释和计算示例

信息熵的定义公式:

E(D)=−∑k=1Ypklog⁡pk

E(D) = - \sum_{k=1}^Y p_k \log p_k

E(D)=−k=1∑Y​pk​logpk​

公式的详细解释:

E(D)E(D)E(D):这是数据集 DDD 的信息熵(Entropy)。信息熵是用来衡量数据的不确定性的指标,特别是当数据需要划分成不同类别时,信息熵表示了每个类别数据分布的均匀性。如果一个分类中所有数据都属于同一类,信息熵会很小;反之,若分类中数据分布较为均匀,则信息熵会较大。

pkp_kpk​:这是数据集中属于第 kkk 类的样本所占的概率。假设数据集中总共有 YYY 个类别,每个类别对应的概率为 pkp_kpk​,且 ∑k=1Ypk=1\sum_{k=1}^Y p_k = 1∑k=1Y​pk​=1。比如在一个分类任务中,如果有 3 个类别,分别占比为 0.5,0.3,0.20.5, 0.3, 0.20.5,0.3,0.2,那么这就是这些类别对应的 pkp_kpk​ 值。

log⁡pk\log p_klogpk​:这是类别 kkk 的对数概率。对数函数用于计算信息熵中的每个类别的权重。因为信息熵是衡量不确定性的,取对数是为了放大较小概率类别的影响,从而更好地反映不确定性。

∑k=1Y\sum_{k=1}^Y∑k=1Y​:这个符号表示对所有类别进行求和。信息熵需要考虑数据集中每个类别的概率分布,所以我们将所有类别的贡献加起来。

负号:前面的负号是因为 log⁡pk\log p_klogpk​ 通常是负数,而信息熵是一个非负数,因此我们加上负号使其为正数。

信息熵的作用:

信息熵的核心作用 是衡量数据的混乱程度。在决策树算法中,信息熵通常用于衡量某个特征的分割效果。如果某个特征的划分能够使数据更加纯(即熵更低),那么这个特征就是一个好的划分标准。熵的值越大,表示数据越混乱、分布越均匀,类别之间没有明显的区别。熵的值越小,表示数据分布得越纯,分类效果越好。

例子:

假设有一个分类任务,数据集 DDD 包含 10 个样本,分为 3 类,类别 A、B、C 的样本数量分别是 5、3、2。那么每个类别的概率 pkp_kpk​ 可以计算如下:

类别 A 的概率:pA=510=0.5p_A = \frac{5}{10} = 0.5pA​=105​=0.5类别 B 的概率:pB=310=0.3p_B = \frac{3}{10} = 0.3pB​=103​=0.3类别 C 的概率:pC=210=0.2p_C = \frac{2}{10} = 0.2pC​=102​=0.2

根据公式 7-2,信息熵 E(D)E(D)E(D) 的计算过程为:

E(D)=−(pAlog⁡pA+pBlog⁡pB+pClog⁡pC)

E(D) = - \left( p_A \log p_A + p_B \log p_B + p_C \log p_C \right)

E(D)=−(pA​logpA​+pB​logpB​+pC​logpC​)

E(D)=−(0.5log⁡0.5+0.3log⁡0.3+0.2log⁡0.2)

E(D) = - \left( 0.5 \log 0.5 + 0.3 \log 0.3 + 0.2 \log 0.2 \right)

E(D)=−(0.5log0.5+0.3log0.3+0.2log0.2)

我们现在计算各项的对数值(以 2 为底):

log⁡0.5=−1\log 0.5 = -1log0.5=−1log⁡0.3≈−1.737\log 0.3 \approx -1.737log0.3≈−1.737log⁡0.2≈−2.322\log 0.2 \approx -2.322log0.2≈−2.322

代入公式:

E(D)=−(0.5×(−1)+0.3×(−1.737)+0.2×(−2.322))

E(D) = - \left( 0.5 \times (-1) + 0.3 \times (-1.737) + 0.2 \times (-2.322) \right)

E(D)=−(0.5×(−1)+0.3×(−1.737)+0.2×(−2.322))

E(D)=−(−0.5−0.5211−0.4644)

E(D) = - \left( -0.5 - 0.5211 - 0.4644 \right)

E(D)=−(−0.5−0.5211−0.4644)

E(D)=1.4855

E(D) = 1.4855

E(D)=1.4855

因此,该数据集的熵 E(D)≈1.49E(D) \approx 1.49E(D)≈1.49。这个值表示该数据集的混乱程度,数值越接近 0,说明分类越纯;数值越大,说明数据越混乱、不确定性越高。

总结:

信息熵公式 E(D)E(D)E(D) 衡量了数据集分类的不确定性。通过熵的大小,可以判断一个特征划分的好坏,熵越小说明划分越好。在决策树算法中,常用信息增益来选择分裂特征,而信息增益正是基于熵的减少量。

相关推荐

御纯金的黄金保值吗(御纯金的黄金回收多少钱一克)
字義比較

字義比較

07-19 👁 7903
【演示新手教程】如何设置PPT页面尺寸