统计和大数据

3

为了简单起见，假设我正在研究垃圾邮件/非垃圾邮件的经典示例。我有一组20000封电子邮件。在这些邮件中，我知道2000是垃圾邮件，但没有任何非垃圾邮件的例子。我想预测其余18000个垃圾邮件是否为垃圾邮件。理想情况下，我要寻找的结果是电子邮件为垃圾邮件的概率（或p值）。在这种情况下，我可以使用哪种算法做出明智的预测？目前，我正在考虑一种基于距离的方法，该方法可以告诉我电子邮件与已知垃圾邮件的相似程度。我有什么选择？更笼统地说，我可以使用监督学习方法吗？或者我是否必须在训练中包含负面案例才能做到这一点？我是否仅限于无监督学习方法？那么半监督方法呢？

21 machine-learning predictive-models unsupervised-learning supervised-learning semi-supervised

2

为不平衡数据的逻辑回归增加权重

我想用不平衡的数据（9：1）对逻辑回归建模。我想尝试glmR函数中的weights选项，但是我不确定100％会做什么。可以说我的输出变量是c(0,0,0,0,0,0,0,0,0,1)。现在我想给“ 1”增加10倍的重量。所以我给出权重的论点weights=c(1,1,1,1,1,1,1,1,1,1,1,10)。当我这样做时，将在最大似然计算中考虑它。我对吗？错误分类“ 1”比错误分类“ 0”仅差10倍。

21 regression logistic classification unbalanced-classes weighted-data

1

我只是发明了一种用于分析ROC曲线的贝叶斯方法吗？

前言这是一个很长的帖子。如果您正在重新阅读本文档，请注意，尽管背景材料保持不变，但我已经修改了问题部分。此外，我相信我已经设计出解决该问题的方法。该解决方案显示在帖子的底部。感谢CliffAB指出我的原始解决方案（从该帖子中编辑；请参阅该解决方案的编辑历史）必定产生了偏差估计。问题在机器学习分类问题中，评估模型性能的一种方法是通过比较ROC曲线或ROC曲线下的面积（AUC）。但是，据我观察，对ROC曲线的可变性或AUC的估计很少进行讨论。也就是说，它们是根据数据估算的统计信息，因此存在一些与之相关的错误。表征这些估计中的误差将有助于表征，例如，一个分类器是否确实优于另一个分类器。为了解决这个问题，我开发了以下方法（称为ROC曲线的贝叶斯分析）。我对这个问题的思考有两个主要观察结果： ROC曲线由来自数据的估计数量组成，并且适合贝叶斯分析。 ROC曲线是通过将真实的阳性率对于假阳性率绘制而成的，每个假性率本身都是根据数据估算的。我考虑和函数，用于从B对A类进行排序的决策阈值（随机森林中的树票，SVM中距超平面的距离，逻辑回归中的预测概率等）。改变决策阈值值将返回和不同估计值。此外，我们可以考虑˚F P - [R （θ ）Ť P ř ˚F P - [R θ θ Ť P ř ˚F P ř Ť P - [R （θ ）Ť PŤPR （θ ）TPR(θ)TPR(\theta)FPR （θ ）FPR(θ)FPR(\theta)ŤP[RTPRTPRFP[RFPRFPRθθ\thetaθθ\thetaŤP[RTPRTPRFP[RFPRFPRŤPR （θ ）TPR(θ)TPR(\theta)在一系列的伯努利试验中估计成功的可能性。实际上，TPR定义为它也是成功且总试验中二项式成功概率的MLE 。TPTP+FN>0ŤPŤP+ Fñ，TPTP+FN,\frac{TP}{TP+FN},ŤPTPTPŤP+ Fñ> 0TP+FN>0TP+FN>0 因此，通过将和的输出视为随机变量，我们面临着一个估计二项式实验成功概率的问题，在该二项式实验中，成功和失败的数目是确切已知的（给定通过，，和，我假设都是固定的）。按照惯例，仅使用MLE，并假设TPR和FPR对于特定值是固定的˚F P - [R （θ ）Ť P …

21 machine-learning bayesian sampling roc auc

1

自举与贝叶斯自举在概念上？

我在理解贝叶斯自举过程是什么以及与常规自举有何不同时遇到了麻烦。而且，如果有人可以提供直观/概念性的评论并进行比较，那将很棒。让我们举个例子。假设我们有一个[1,2,5,7,3]的数据集X。如果我们多次采样替换来创建等于X大小的样本（所以[7,7,2,5,7]，[3,5,2,2,7]等），那么我们计算每个的均值，是样本均值的自举分布吗？贝叶斯引导分布是什么？以及如何以相同方式完成其他参数（方差等）的贝叶斯自举分布？

21 bayesian sampling bootstrap

2

置信区间的覆盖范围以及常规估计

假设我正在尝试使用某种正则化估计从一些高维数据中估计大量参数。正则化器在估计中引入了一些偏差，但这仍然是一个很好的权衡，因为方差的减少应足以弥补这一不足。当我想估计置信区间时（例如使用拉普拉斯逼近法或自举法），问题就来了。具体来说，我的估算偏差会导致我的置信区间覆盖不良，这使得难以确定我的估算器的频繁性。我已经找到了一些讨论此问题的论文（例如“基于Edgeworth展开的岭回归中的渐近置信区间”），但是数学大多超出了我的理解。在链接的论文中，方程式92-93似乎为通过岭回归进行正则化的估计值提供了校正因子，但我想知道是否存在适用于一系列不同正则化器的良好程序。即使是一阶校正也将非常有帮助。

21 confidence-interval bias regularization ridge-regression coverage-probability

2

通用数据集的数据增强技术？

在许多机器学习应用程序中，所谓的数据增强方法已允许构建更好的模型。例如，假设训练集包含张猫和狗的图像。通过旋转，镜像，调整对比度等，可以从原始图像生成其他图像。100100100 对于图像，数据扩充相对简单。但是，假设（例如）一个训练集包含样本和代表不同事物的数百个连续变量。数据扩充似乎不再那么直观。在这种情况下该怎么办？100100100

21 machine-learning predictive-models dataset independence data-augmentation

1

何时将Poisson，几何和负二项式GLM用于计数数据？

在GLM框架内（8个GLM分布中只有3个用于计数数据），我试图为自己布局适合何时使用哪种回归类型（几何，泊松，负二项式）和计数数据。我已阅读了有关负二项式和泊松分布的文章。何时将Poisson，几何和负二项式GLM用于计数数据？到目前为止，我有以下逻辑：它计数数据吗？如果是，均值和方差不相等吗？如果是，则为负二项式回归。如果否，则泊松回归。零通胀吗？如果是，则零泊松或零负二项式。问题1似乎没有明确指示何时使用。有什么可以告知该决定的信息吗？据我了解，一旦您切换到ZIP，平均方差等于假设就可以放宽了，因此它再次与NB非常相似。问题2几何族适用于此？在决定是否在回归中使用几何族时，我应该问数据什么样的问题？问题3我看到人们一直在交换负二项式和泊松分布，而不是几何形状，因此我猜想何时使用它会有明显不同。如果是这样，那是什么？ PS：如果人们想评论/调整它以便进行讨论，我已经制作了一个（根据评论可能过于简化）图表（可编辑）。

21 generalized-linear-model negative-binomial count-data poisson-regression zero-inflation

2

为什么为了估计回归线，残差的正态“根本不重要”？

Gelman and Hill（2006）在第46页上写道：通常最不重要的回归假设是误差呈正态分布。实际上，出于估计回归线的目的（与预测单个数据点相比），假设正态性一点也不重要。因此，与许多回归教科书相比，我们不建议对回归残差的正态性进行诊断。盖尔曼和希尔似乎没有进一步解释这一点。盖尔曼和希尔正确吗？如果是这样，则：为什么“根本不重要”？为什么既不重要也不完全不相关？为什么在预测单个数据点时残差的正态性很重要？ Gelman，A.，＆Hill，J.（2006）。使用回归和多层次/层次模型进行数据分析。剑桥大学出版社

21 regression residuals assumptions

2

Granger和Pearl的因果关系框架之间的主要区别是什么？

最近，我浏览了几篇有关格兰杰因果关系的论文和在线资源。简短浏览相应的Wikipedia文章给我的印象是，该术语指的是时间序列（或更普遍地说，是随机过程）的因果关系。此外，阅读这篇不错的博客文章在如何看待这种方法上造成了另外的困惑。我对因果关系一无所知，因为我对该概念的模糊理解包括部分常识，常识，对潜在变量建模和结构方程模型（SEM）的一些了解，以及从Judea Pearl在因果关系-不是他的书，而是更多地根据Pearl（2009）的一篇有趣的综述论文，出于某种原因，令人惊讶的是，它根本没有提到格兰杰因果关系。在这种情况下，我想知道格兰杰因果关系是否比时间序列（随机）框架更笼统，如果基于结构因果模型，它是否与Pearl的因果关系有什么关系（共性和差异）（据我了解，SCM反过来又是基于直接无环图（DAG）和反事实。看来，格兰杰因果关系可以归类为一个通用的方法，以因果推理的动态系统，考虑存在动态因果模型（DCM）方法（Chicharro＆Panzeri，2014）。但是，我担心的是，是否可以（如果可以，如何）比较这两种方法，其中一种是基于随机过程分析的，而另一种则不是。更笼统地说，您认为在单个综合因果关系框架内（作为不同观点）考虑所有当前存在的因果关系理论的明智的高级方法（如果可能的话）？这个问题在很大程度上是由于我试图阅读Chicharro和Panzeri（2014）的一篇出色而全面的论文，并且回顾了加州大学伯克利分校的一个有趣的因果推理课程（Petersen＆Balzer，2014）。参考文献 Chicharro，D.，＆Panzeri，S.（2014年）。因果推理算法，用于分析大脑区域之间的有效连通性。《神经信息学前沿》（8）（64）。doi：10.3389 / fninf.2014.00064取自http://journal.frontiersin.org/article/10.3389/fninf.2014.00064/pdf Pearl，J.（2009年）。统计中的因果推断：概述。统计调查，3，96-146。doi：10.1214 / 09-SS057取自http://projecteuclid.org/download/pdfview_1/euclid.ssu/1255440554 Petersen，M.和Balzer，L.（2014年）。因果推理简介。加州大学伯克利分校。[网站]取自http://www.ucbbiostat.com

21 stochastic-processes causality granger-causality

3

破碎的棍子最大碎片的分布（间距）

随机将长度为均匀地分成片段。最长片段的长度分布是什么？k+1k+1k+1 更正式地说，让为IID，让为关联的订单统计信息，即我们简单地订购以这样的方式来处理样本。令。(U1,…Uk)(U1,…Uk)(U_1, \ldots U_k)U(0,1)U(0,1)U(0,1)(U(1),…,U(k))(U(1),…,U(k))(U_{(1)}, \ldots, U_{(k)})U(1)≤U(2)≤,…,≤U(k)U(1)≤U(2)≤,…,≤U(k)U_{(1)} \leq U_{(2)} \leq, \ldots , \leq U_{(k)}žķ= 最大（U（1 ），U（2 ）− U（1 ），… ，U(k)−U(k−1),1−U(k))Zk=max(U(1),U(2)−U(1),…,U(k)−U(k−1),1−U(k))Z_k = \max \left(U_{(1)}, U_{(2)}-U_{(1)}, \ldots, U_{(k)} - U_{(k-1)}, 1-U_{(k)}\right) 我对Z_k的分布感兴趣ZkZkZ_k。矩，渐近结果或k \ uparrow \ infty的近似值k↑∞k↑∞k \uparrow \infty也很有趣。

21 distributions uniform order-statistics dirichlet-distribution maximum

1

解释堵塞物逻辑回归的估计

有人可以建议我如何使用博客链接解释逻辑回归的估算值吗？我已在中安装以下模型lme4： glm(cbind(dead, live) ~ time + factor(temp) * biomass, data=mussel, family=binomial(link=cloglog)) 例如，时间估计为0.015。说单位时间死亡率的几率乘以exp（0.015）= 1.015113（每单位时间增加〜1.5％）是否正确？换句话说，在loglog中获得的估计值是否与logit logistic回归一样以对数赔率表示？

21 logistic regression-coefficients

2

这个离散分布有名称吗？

这个离散分布有名称吗？对于i∈1...Ni∈1...Ni \in 1...N f(i)=1N∑Nj=i1jf(i)=1N∑j=iN1jf(i) = \frac{1}{N} \sum_{j = i}^N \frac{1}{j} 我从以下内容中发现了此分布：我有按实用程序功能排列的项目的列表。我想随机选择其中一项，偏向列表的开头。因此，我首先均匀地选择介于1和N之间的索引j。然后，我在索引1和j之间选择一个项目。我相信这个过程会导致上述分布。NNNjjjNñNjjj

21 probability terminology discrete-data distributions

3

内曼·皮尔森引理

我从Mood，Graybill和Boes 撰写的《统计理论概论》一书中阅读了Neyman–Pearson引理。但是我还不了解引理。谁能用简单的话向我解释这个引理？它说明了什么？ Neyman-Pearson Lemma：令是的随机样本，其中是两个已知值和，并且固定。X1,…,XnX1,…,XnX_1,\ldots,X_nf(x;θ)f(x;θ)f(x;\theta)θθ\thetaθ0θ0\theta_0θ1θ1\theta_10<α<10<α<10<\alpha<1 让 k∗k∗k^*是正的常数和C∗C∗C^*是的一个子集XX\mathscr X满足：Pθ0[(X1,…,Xn)∈C∗]=α(1)(1)Pθ0[(X1,…,Xn)∈C∗]=α \tag 1 P_{\theta_0}[(X_1,\ldots,X_n)\in C^*] = \alpha λ=L(θ0;x1,…,xn)L(θ1;x1,…,xn)=L0L1≤k∗if (x1,…,xn)∈C∗(2)(2)λ=L(θ0;x1,…,xn)L(θ1;x1,…,xn)=L0L1≤k∗if (x1,…,xn)∈C∗\tag 2 \lambda=\frac{L(\theta_0;x_1,\ldots,x_n)}{L(\theta_1;x_1,\ldots,x_n)} = \frac{L_0}{L_1} \le k^*\quad \text{if } (x_1,\ldots,x_n)\in C^* andλ≥k∗ if (x1,…,xn)∈C¯∗andλ≥k∗ if (x1,…,xn)∈C¯∗\text{and}\quad \lambda\ge\quad k^* \text{ if } (x_1,\ldots,x_n)\in \bar C^* 然后将试验γ∗γ∗\gamma^*对应于临界区域C∗C∗C^*是一个最有力的尺寸的测试αα\alpha的H0:θ=θ0H0:θ=θ0\mathscr H_0:\theta=\theta_0与H1:θ=θ1H1:θ=θ1\mathscr H_1:\theta=\theta_1 用言语表达，我了解到这两个标准（1）P [拒绝零假设| 原假设为真] =显着性水平 …

21 hypothesis-testing self-study references inference likelihood-ratio

2

分位数回归中的R平方

我正在使用分位数回归来找到我数据的90％的预测变量。我正在R中使用该quantreg软件包进行此操作。我如何确定分位数回归的，这将指示预测变量解释了多少可变性？r2r2r^2 我真正想知道的是：“我能用什么方法来解释多少可变性？”。P值的显着性水平在命令输出中可用：summary(rq(formula,tau,data))。我怎样才能得到健康？

21 r-squared quantile-regression

3

从感知器规则到梯度下降：具有S型激活函数的感知器与逻辑回归有何不同？

本质上，我的问题是在多层感知器中，感知器具有S形激活功能。因此，在更新规则Ÿ计算公式为y^y^\hat{y} y^=11+exp(−wTxi)y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)} 那么，这种“ S型”感知器与逻辑回归有何不同？我要说的是一个单层乙状结肠感知等效于逻辑回归的意义上，二者使用ÿ = 1y^=11+exp(−wTxi)y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)}更新规则中为 1 + exp （− w T x i）。此外，这两个返回sign(y^=11+exp(−wTxi))sign⁡(y^=11+exp⁡(−wTxi))\operatorname{sign}(\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)})在预测。但是，在多层感知器中，与逻辑回归和单层感知器相比，使用S形激活函数来返回概率，而不是通断信号。我认为“感知器”一词的用法可能有点含糊，所以让我根据对单层感知器的当前理解提供一些背景知识：经典感知器规则首先，是F. Rosenblatt的经典感知器，其中具有阶跃函数： Δwd=η(yi−yi^)xidyi,yi^∈{−1,1}Δwd=η(yi−yi^)xidyi,yi^∈{−1,1}\Delta w_d = \eta(y_{i} - \hat{y_i})x_{id} \quad\quad y_{i}, \hat{y_i} \in \{-1,1\} 更新权重 wk:=wk+Δwk(k∈{1,...,d})wk:=wk+Δwk(k∈{1,...,d})w_k := w_k + \Delta w_k \quad \quad (k \in \{1, ..., d\}) …

21 logistic classification neural-networks gradient-descent perceptron