tl; dr
discrete
在执行异常检测时,推荐的处理数据的方法是什么?categorical
在执行异常检测时,推荐的处理数据的方法是什么?- 该答案建议使用离散数据仅过滤结果。
- 也许用观察的机会代替类别值?
介绍
这是我第一次在此处发布信息,因此,如果在格式或使用正确的定义方面在技术上似乎不正确,那么我很想知道应该使用什么代替。
向前。
我最近参加了Andrew Ng 的机器学习课程
对于异常检测,我们已经教过如何确定给定特征/变量在数据集中的正态/高斯分布参数,然后在给定特定条件下确定一组选定的训练示例/观测值的概率高斯分布,然后取特征概率的乘积。
方法
选择我们认为可以解释所讨论活动的特征/变量: { x 1,x 2,… ,x i }
适合高斯的参数对于每个特征: σ2=1
对于每个训练样例,,计算: p (X )= Ñ Π Ĵ = 1个 p (X Ĵ ; μ Ĵ,σ 2 Ĵ)
然后,给定:y = { 1,我们将其标记为异常()
这为我们提供了确定示例是否需要进一步检查的方法。
我的问题
对于连续变量/功能,这似乎很好,但不处理离散数据。
什么虚拟变量,例如性别标志的特征,可能是所谓的[IsMale]
,可以是值?为了考虑虚拟特征,我们将使用二项分布代替来计算p (x )吗?
那么诸如汽车颜色之类的分类数据呢?虽然我们可以将颜色映射到数值,例如
问题:(更新时间:2015-11-24)
是否有另一种方法可以完全考虑到我在这里可以进一步研究/学习的内容?discrete
在执行异常检测时,推荐的处理数据的方法是什么?categorical
在执行异常检测时,推荐的处理数据的方法是什么?
编辑:2017-05-03
- 该答案建议使用离散数据仅过滤结果。
- 也许用观察的机会代替类别值?