具有虚拟功能(和其他离散/分类功能)的异常检测
tl; dr discrete在执行异常检测时,推荐的处理数据的方法是什么? categorical在执行异常检测时,推荐的处理数据的方法是什么? 该答案建议使用离散数据仅过滤结果。 也许用观察的机会代替类别值? 介绍 这是我第一次在此处发布信息,因此,如果在格式或使用正确的定义方面在技术上似乎不正确,那么我很想知道应该使用什么代替。 向前。 我最近参加了Andrew Ng 的机器学习课程 对于异常检测,我们已经教过如何确定给定特征/变量在数据集中的正态/高斯分布参数,然后在给定特定条件下确定一组选定的训练示例/观测值的概率高斯分布,然后取特征概率的乘积。xixi{x_i} 方法 选择我们认为可以解释所讨论活动的特征/变量: { x 1,x 2,… ,x i }xixix_i{x1,x2,…,xi}{x1,x2,…,xi}\{x_1, x_2,\dots,x_i\} 适合高斯的参数对于每个特征: σ2=1μj=1m∑i=1mx(i)jμj=1m∑i=1mxj(i)\mu_j = \frac{1}{m}\sum_{i = 1}^m x_j^{(i)} σ2=1m∑i=1m(x(i)j−μj)2σ2=1m∑i=1m(xj(i)−μj)2\sigma^2 = \frac{1}{m}\sum_{i = 1}^m (x_j^{(i)} - \mu_j)^2 对于每个训练样例,,计算: p (X )= Ñ Π Ĵ = 1个 p (X Ĵ …