$purity$
在文档聚类中,$purity$表述为正确聚类的文档数占总文档数的比例:
\begin{equation}
purity(\Omega, C) = \frac{1}{N}\sum_k \max_j \left| \omega_k \cap c_j \right|
\tag{1}
\end{equation}
其中$\Omega = \left\{ \omega_1, \omega_2, \cdots, \omega_k \right\}$聚类集合,$\omega_k$表示第$k$个聚类;$C = \left\{ c_1, c_2, \cdots, c_j \right\}$表示文档集合,$c_j$表示第$j$个文档。$N$表示文档总数。
在文档聚类中,$purity$的指标存在固有问题,即其不能对退化的聚类方法给出正确的评价。
加入聚类算法单独把每篇文档单独聚成一类,那么聚类算法会认为所有文档都正确分类,故而有$purity=1$。然而这不是我们想要的结果。