统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

7
在朴素贝叶斯(Naive Bayes)中,当我们在测试集中有未知单词时,为什么还要打扰Laplace平滑?
我今天正在阅读朴素贝叶斯分类法。我在Parameter Estimation的标题下加上了1 smoothing进行了阅读: 令指代一个类(例如正或负),而令指代一个标记或单词。cccwww 用于最大似然估计是P(w|c)P(w|c)P(w|c)count(w,c)count(c)=counts w in class ccounts of words in class c.count(w,c)count(c)=counts w in class ccounts of words in class c.\frac{count(w,c)}{count(c)} = \frac{\text{counts w in class c}}{\text{counts of words in class c}}. 这种估计可能会产生问题,因为它会使单词未知的文档的概率为。解决此问题的常用方法是使用拉普拉斯平滑。P(w|c)P(w|c)P(w|c)000 令V为训练集中的单词集合,向单词集合添加一个新元素(未知)。UNKUNKUNK 定义P(w|c)=count(w,c)+1count(c)+|V|+1,P(w|c)=count(w,c)+1count(c)+|V|+1,P(w|c)=\frac{\text{count}(w,c) +1}{\text{count}(c) + |V| + 1}, 其中表示词汇表(训练集中的单词)。VVV 特别是,任何未知单词的概率都为 1count(c)+|V|+1.1count(c)+|V|+1.\frac{1}{\text{count}(c) + |V| + 1}. 我的问题是:为什么我们要完全不理会Laplace平滑处理?如果我们在测试集中遇到的这些未知单词的概率显然几乎为零,即,将它们包括在模型中有什么意义?为什么不忽略它们并删除它们呢? …

5
处理稀有事件的逻辑回归策略
我想研究有限人群中的罕见事件。由于我不确定哪种策略最合适,因此我很高兴获得与该问题相关的技巧和参考,尽管我知道它已被广泛涵盖。我只是真的不知道从哪里开始。 我的问题是一门政治学,我的人口有限,有515,843条记录。它们与具有513,334个“ 0”和2,509个“ 1”的二进制因变量关联。我可以将我的“ 1”称为罕见事件,因为它们仅占人口的0.49%。 我有一组大约10个独立变量,我想建立一个模型来解释“ 1”的存在。像我们许多人一样,我阅读了King&Zeng在2001年发表的有关罕见事件校正的文章。他们的方法是使用案例控制设计来减少“ 0”的数量,然后对截距进行校正。 但是,这篇文章说,如果我已经收集了整个人群的数据,那么就不需要King&Zeng的论证了,这就是我的情况。因此,我必须使用经典的logit模型。对我来说不幸的是,尽管我获得了很好的显着系数,但是我的模型在预测方面完全没有用(无法预测99.48%的“ 1”)。 在阅读King&Zeng的文章之后,我想尝试一种案例控制设计,并且只选择10%的“ 0”和所有“ 1”。在几乎相同的系数下,该模型能够预测应用于全部人口的“ 1”的几乎三分之一。当然,有很多假阳性。 因此,我有三个问题想问你: 1)如果在您完全了解人口信息后,King&Zeng的方法是可取的,那么为什么他们会在文章中了解人口信息的情况下证明自己的观点呢? 2)如果我在logit回归中具有好的系数和微不足道的系数,但是预测能力很差,这是否意味着这些变量所解释的变化没有意义? 3)处理罕见事件的最佳方法是什么?我阅读了有关King的重新登录模型,Firth的方法,确切的登录等信息。我必须承认,我在所有这些解决方案中都迷失了。

3
维中两个随机单位向量的标量积的分布
如果和是中的两个独立的随机单位矢量(均匀分布在单位球面上),它们的标量积(点积)的分布是什么吗?xx\mathbf{x}yy\mathbf{y}RDRD\mathbb{R}^Dx⋅yx⋅y\mathbf x \cdot \mathbf y 我猜想随着的分布迅速增长(?)成为均值为零的正态值,并且在较高维度方差减小但是对于\ sigma ^ 2(D)?DDDlimD→∞σ2(D)→0,limD→∞σ2(D)→0,\lim_{D\to\infty}\sigma^2(D) \to 0,σ2(D)σ2(D)\sigma^2(D) 更新资料 我进行了一些快速模拟。首先,为D = 1000生成10000对随机单位向量,D=1000D=1000D=1000很容易看到它们的点积分布完全是高斯分布(实际上对于D=100D=100D=100,它已经是高斯分布了),请参见左侧的子图。其次,对于从1到10000的每个DDD(以递增的步长),我生成了1000对并计算了方差。对数-对数图显示在右侧,很明显公式很容易被1 / D近似1/D1/D1/D。请注意,对于D=1D=1D=1和D=2D=2D=2此公式甚至可以给出准确的结果(但我不确定以后会发生什么)。

4
使用标准偏差检测离群值
在这里提出我的问题之后,我想知道是否有赞成或反对使用标准偏差检测异常值的观点(例如,任何大于2个标准偏差的数据点都是异常值)。 我知道这取决于研究的背景,例如,一个48公斤的数据点在研究婴儿体重的过程中肯定是一个例外,而不是在研究成年人体重的过程中。 离群值是许多因素(例如数据输入错误)的结果。就我而言,这些过程是可靠的。 我想我要问的问题是:使用标准偏差是检测异常值的可靠方法吗?
27 outliers 

1
将相似度矩阵转换为(欧式)距离矩阵
在随机森林算法中,Breiman(作者)构造相似矩阵如下: 将所有学习示例发送到森林中的每棵树上 如果两个示例落在同一片叶子上,则相似矩阵中的对应元素增加1 用树数归一化矩阵 他说: 情况n和k之间的接近度形成矩阵{prox(n,k)}。从它们的定义可以很容易地看出,该矩阵是对称的,正定的并且在1上有界,对角线元素等于1。由此得出,值1-prox(n,k)是欧几里得中的平方距离维数空间不大于案例数。资源 在他的实现中,他使用sqrt(1-prox)(其中prox是相似矩阵)将其转换为距离矩阵。我想这与上面引用的“欧氏空间中的平方距离”有关。 有人可以解释为什么为什么在欧几里得空间中1-prox是平方距离,以及为什么他使用平方根来获得距离矩阵吗?

2
k倍交叉验证中的方差估计
K折交叉验证可用于估计给定分类器的泛化能力。我是否可以(也应该)从所有验证运行中计算出汇总的方差,以便更好地估计其方差? 如果没有,为什么? 我发现了在交叉验证运行中确实使用汇总标准差的论文。我还发现有论文明确指出,对于验证方差没有统一的估计。但是,我也发现了一些论文,这些论文显示了一些泛化误差的方差估计量(我仍在阅读并尝试理解这一点)。人们在实践中实际上做什么(或举报)? 编辑:当使用CV来衡量粗略的分类错误(即,一个样本已正确标记或未标记;例如,真或假)时,谈论合并方差可能没有任何意义。但是,我所说的是我们估计的统计量确实定义了方差的情况。因此,对于给定的倍数,我们最终可以得到统计值和方差估计值。丢弃此信息并仅考虑平均统计数据似乎是不正确的。虽然我知道我可以使用自举方法构建方差估计,但是(如果我不是很错的话)这样做仍然会忽略倍数方差,仅考虑统计估计(并且需要更多的计算能力)。

3
美白总是好吗?
机器学习算法的常见预处理步骤是数据白化。 进行白化似乎总是一件好事,因为它会使数据不相关,从而简化了建模。 什么时候不建议美白? 注意:我指的是数据的去相关。

1
广义估计方程和GLMM有什么区别?
我正在使用logit链接在3级不平衡数据上运行GEE。这与混合效果(GLMM)和logit链接的GLM有什么不同(就我得出的结论和系数的含义而言)? 更多详细信息:观察结果是单次bernoulli试验。它们分为教室和学校。使用R。按需省略NA。6个预测变量也包括交互项。 (我不是要让孩子们抬头看他们是否抬头。) 我倾向于对系数进行比对。两者的含义是否相同? 关于GEE模型中的“边际均值”,我的内心深处潜藏着一些东西。我需要向我解释一下。 谢谢。


2
在for循环中生成变量名列表,然后为其分配值
我想知道是否有一种简单的方法可以使用for循环生成变量列表并提供其值。 for(i in 1:3) { noquote(paste("a",i,sep=""))=i } 在上面的代码中,我尝试创建a1,a2,a3,其分配到的值1,2,3。但是,R给出一个错误信息。谢谢你的帮助。
27 r 

5
有99个百分点还是100个百分点?它们是一组数字,还是指向单个数字的分隔线或指针?
有99个百分点还是100个百分点?它们是数字组,分隔线还是指向单个数字的指针? 我想同样的问题将适用于四分位数或任何分位数。 我已经读到,给定n个项目,特定百分位数(p)处的数字的索引为 i = (p / 100) * n 这对我来说意味着有100个百分位数..因为假设您有100个数字(i = 1至i = 100),则每个数字都有一个索引(1至100)。 如果您有200个数字,那么将有100个百分位数,但每个百分数都是两个数字组成的组。或100个分频器(不包括最左或最右分频器'cos),否则您将获得101个分频器。或指向单个数字的指针,因此第一个百分位数将引用第二个数字(1/100)* 200 = 2,而第百个百分位数将引用第200个数字(100/100)* 200 = 200 我有时听说有99个百分位。 谷歌显示了一个牛津词典,它用百分位数表示:“可以根据特定变量的值的分布将总体分为100个相等的组。” “随机变量的99个中间值中的每个中间值将频率分布分为100个这样的组。” 维基百科说“第20个百分位是可以找到20%的观察值的值”,但实际上是指“可以找到20%的观察值以下或等于该值的值”,即“其中20个百分率的值值的%等于<=”。如果只是<而不是<=,则根据该推理,第100个百分位数将是一个值,低于该值可能会找到该值的100%。我已经听说过,不能有百分之一百的说法,因为您不能有一个数字,该数字下有100%的数字。但是我认为也许您无法拥有百分位数的说法是不正确的,并且基于这样的错误,即百分位数的定义涉及<= not <。(或> =不是>)。因此,百分之一百将是最终数字,并且>
27 quantiles 

2
方差和均方误差之间有什么区别?
我很惊讶以前没有问过这个问题,但是我找不到关于stats.stackexchange的问题。 这是计算正态分布样本方差的公式: ∑(X−X¯)2n−1∑(X−X¯)2n−1\frac{\sum(X - \bar{X}) ^2}{n-1} 这是用于在简单的线性回归中计算观测值的均方误差的公式: ∑(yi−y^i)2n−2∑(yi−y^i)2n−2\frac{\sum(y_i - \hat{y}_i) ^2}{n-2} 这两个公式有什么区别?我可以看到的唯一区别是MSE使用。因此,如果这是唯一的区别,为什么不将它们都称为方差,而将其具有不同的自由度呢?n−2n−2n-2
27 variance  error 



4
概率符号
在许多书籍和论文中常用的符号和在含义上有什么区别?P(z;d,w)P(z;d,w)P(z;d,w)P(z|d,w)P(z|d,w)P(z|d,w)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.