统计和大数据

3

你和我决定玩一个游戏，大家轮流掷硬币。第一位总共翻转10个头的玩家将赢得比赛。自然，关于谁应该先走有一个争论。此游戏的模拟结果显示，前一个掷骰的玩家比第二个掷骰的玩家赢6％（第一个掷骰的玩家大约有53％的时间获胜）。我有兴趣对此进行建模分析。这不是二项式随机变量，因为没有固定的试验次数（直到有人得到10个脑袋时才翻转）。我该如何建模？它是负二项式分布吗？为了能够重新创建我的结果，这是我的python代码： import numpy as np from numba import jit @jit def sim(N): P1_wins = 0 P2_wins = 0 for i in range(N): P1_heads = 0 P2_heads = 0 while True: P1_heads += np.random.randint(0,2) if P1_heads == 10: P1_wins+=1 break P2_heads+= np.random.randint(0,2) if P2_heads==10: P2_wins+=1 break return P1_wins/N, …

17 probability python binomial negative-binomial

1

为什么Cox比例风险模型中的p值通常比逻辑回归中的p值高？

我一直在学习Cox比例风险模型。我有很多适合逻辑回归模型的经验，因此，为了建立直觉，我一直在比较coxphR“ survival”中使用的模型glm与配合使用的逻辑回归模型family="binomial"。如果我运行代码： library(survival) s = Surv(time=lung$time, event=lung$status - 1) summary(coxph(s ~ age, data=lung)) summary(glm(status-1 ~ age, data=lung, family="binomial")) 我分别获得了0.0419和0.0254年龄的p值。同样，如果我使用性别作为预测因子，则可以选择是否带有年龄。我感到困惑，是因为我认为，拟合模型时考虑到流逝的时间比将死亡视为二进制结果会带来更多的统计能力，而p值似乎与统计能力较小的人一致。这里发生了什么？

17 r logistic survival cox-model power

3

生成单位圆和正方形单元之间有效地分

我想从此处定义的蓝色区域生成样本：天真的解决方案是在单位平方中使用拒绝采样，但这仅提供（〜21.4％）的效率。1 - π/ 41个-π/41-\pi/4 有什么方法可以更有效地采样吗？

17 probability sampling monte-carlo random-generation

4

如何用简单的术语解释辍学正则化？

如果您有半页内容说明辍学，您将如何进行？这项技术背后的原理是什么？

17 neural-networks deep-learning regularization dropout

1

决策树的VC维是多少？

二维拆分k个决策树的VC维是多少？假设模型是CART，并且唯一允许的分割与轴平行。因此，对于一个分割，我们可以在三角形中订购3个点，然后对于这些点的任何标记，我们都可以得到完美的预测（即：破碎点）但是2分割或任何通用k呢？

17 cart vc-dimension

6

是否有一个示例，其中MLE产生了均值的偏差估计？

您能否提供一个偏向均值的MLE估计器的示例？我不是要寻找一个通过违反规则性条件而破坏MLE估计值的示例。我在互联网上看到的所有示例均涉及方差，但似乎找不到与均值相关的任何内容。编辑 @MichaelHardy提供了一个示例，其中在某些建议的模型下，我们使用MLE得到均匀分布平均值的偏差估计。然而 https://zh.wikipedia.org/wiki/Uniform_distribution_（连续）#Estimation_of_midpoint 表明MLE是平均的一致最小无偏估计，显然在另一个提出的模型。在这一点上，对于我来说，如果MLE估计是非常假设的模型依赖的，而不是模型中立的样本均值估计器，那么对MLE估计的含义还不是很清楚。最后，我对估计总体有兴趣，并且并不真正在乎假设模型的参数估计。编辑2 正如@ChristophHanck展示的那样，该模型带有附加信息，但引入了偏差，但未能降低MSE。我们还有其他结果： http://www.maths.manchester.ac.uk/~peterf/CSI_ch4_part1.pdf（P61） http://www.cs.tut.fi/~hehu/SSP/lecture6.pdf（幻灯片2）的http：/ /www.stats.ox.ac.uk/~marchini/bs2a/lecture4_4up.pdf（幻灯片5） “如果存在θ的最有效的无偏估计量ˆθ（即ˆθ是无偏的，并且其方差等于CRLB），则将使用最大似然估计法进行估计。” “此外，如果一个有效的估计存在，它是ML估计”。由于具有免费模型参数的MLE是无偏且有效的，因此根据定义，这是“最大似然估计器”吗？编辑3 @AlecosPapadopoulos在数学论坛上有一个具有Half Normal分布的示例。 /math/799954/can-the-maximum-likelihood-estimator-be-unbiased-and-fail-to-achieve-cramer-rao 它没有像在统一情况下那样锚定其任何参数。我想说这可以解决，尽管他还没有证明均值估计器的偏见。

17 maximum-likelihood mean bias

1

用给定的MLE模拟随机样本

这个交叉验证问题要求模拟一个以固定金额为条件的样本，使我想起了乔治•卡塞拉（George Casella）提出的一个问题。 f(x|θ)f(x|θ)f(x|\theta)(X1,…,Xn)(X1,…,Xn)(X_1,\ldots,X_n)θθ\thetaθ^(x1,…,xn)=argmin∑i=1nlogf(xi|θ)θ^(x1,…,xn)=arg⁡min∑i=1nlog⁡f(xi|θ)\hat{\theta}(x_1,\ldots,x_n)=\arg\min \sum_{i=1}^n \log f(x_i|\theta)对于一个给定的值，有以模拟IID样品一个通用的方法上的MLE的值有条件？θθ\thetaθ（X 1，... ，X Ñ）(X1,…,Xn)(X1,…,Xn)(X_1,\ldots,X_n)θ^(X1,…,Xn)θ^(X1,…,Xn)\hat{\theta}(X_1,\ldots,X_n) 例如，采用分布，位置参数为，密度为如果我们如何以条件来模拟？在此示例中，没有封闭形式的表达式。T5T5\mathfrak{T}_5μμ\muf(x|μ)=Γ(3)Γ(1/2)Γ(5/2)[1+(x−μ)2/5]−3f(x|μ)=Γ(3)Γ(1/2)Γ(5/2)[1+(x−μ)2/5]−3f(x|\mu)=\dfrac{\Gamma(3)}{\Gamma(1/2)\Gamma(5/2)}\,\left[1+(x-\mu)^2/5\right]^{-3}(X1,…,Xn)∼iidf(x|μ)(X1,…,Xn)∼iidf(x|μ)(X_1,\ldots,X_n)\stackrel{\text{iid}}{\sim} f(x|\mu)(X1,…,Xn)(X1,…,Xn)(X_1,\ldots,X_n)μ^(X1,…,Xn)=μ0μ^(X1,…,Xn)=μ0\hat{\mu}(X_1,\ldots,X_n)=\mu_0T5T5\mathfrak{T}_5μ^(X1,…,Xn)μ^(X1,…,Xn)\hat{\mu}(X_1,\ldots,X_n)

17 maximum-likelihood conditional-probability random-variable simulation t-distribution

4

真实数据中是否确实存在“维数诅咒”？

我了解什么是“维数的诅咒”，我做了一些高维优化问题，并且知道了指数可能性的挑战。但是，我怀疑大多数现实数据中是否存在“维数的诅咒” （让我们暂时搁置图像或视频，我正在考虑诸如客户人口统计数据和购买行为数据之类的数据）。我们可以收集具有数千个要素的数据，但是即使要素不可能完全跨越具有数千个维度的空间，这种可能性也很小。这就是为什么降维技术如此流行的原因。换句话说，数据很可能不包含指数级的信息，即，许多要素高度相关，许多要素满足80-20条规则（许多实例具有相同的值）。在这种情况下，我认为像KNN这样的方法仍然可以正常工作。（在大多数书中，“维数的诅咒”说维数> 10可能是有问题的。在他们的演示中，他们在所有维上使用均匀分布，而熵确实很高。我怀疑在现实世界中这种情况是否会发生。）我对真实数据的个人经验是，“维数诅咒”不会过多地影响模板方法（例如KNN），并且在大多数情况下，约100维仍然有效。这对其他人来说是真的吗？（我使用不同行业的真实数据工作了5年，从未见过书中所述的“所有距离对都具有相似的值”。）

17 clustering dimensionality-reduction high-dimensional

3

为什么默认的矩阵范数是频谱范数而不是Frobenius范数？

对于向量范数，L2范数或“欧几里得距离”是广泛使用的直观定义。但是，为什么矩阵的“最常用”或“默认”规范定义是频谱规范，而不是Frobenius规范（类似于矢量的L2规范）？这是否与迭代算法/矩阵幂有关（如果频谱半径小于1，则算法将收敛）？对于诸如“最常用”，“默认”之类的词总是有争议的。上面提到的“默认”一词来自Matlabfunction中的默认返回类型norm。在R矩阵的默认标准是L1常态。两者的是“不自然”，我（对于一个矩阵，它看起来更“自然”做∑i,ja2i,j−−−−−−√∑i,jai,j2\sqrt{\sum_{i,j}a^{2}_{i,j}}喜欢在向量中）。（感谢@usεr11852和@whuber的评论，对于造成的混乱，我们深表歉意。）可能会扩展矩阵规范的用法，这将有助于我了解更多吗？

17 matrix linear-algebra

1

如何处理LASSO中的分类预测变量

我运行的LASSO具有一些分类变量预测变量和一些连续变量预测变量。我对分类变量有疑问。我了解的第一步是将它们分成假人，对它们进行标准化以进行公平的惩罚，然后回归。处理虚拟变量有几种选择：包括每个因素中除一个假人以外的所有假人，将其作为参考水平。虚拟系数的解释是相对于排除的“参考”类别而言的。截距现在是参考类别的平均响应。将每个因素中的变量分组，以便将它们全部排除或全部排除。我相信这就是@Glen_b 在这里建议的内容：通常，是的，您将所有因素放在一起。有几个R软件包可以做到这一点，包括glmnet 包括各个层面，如经@Andrew中号建议在这里：您可能还需要更改默认的对比功能，默认情况下，该功能不使用每个因子的一个级别（处理编码）。但是由于套索罚分，对于可识别性而言，这不再是必需的，并且实际上使所选变量的解释更加复杂。为此，请设置 contr.Dummy <- function(contrasts, ...){ conT <- contr.treatment(contrasts=FALSE, ...) conT } options(contrasts=c(ordered='contr.Dummy', unordered='contr.Dummy')) 现在，无论选择了哪个因子水平，您都可以认为它暗示着这些特定水平相对于所有省略的水平都很重要。在机器学习中，我已经看到这种编码称为“单热编码”。问题：在每种方法下，截距和系数的解释是什么？选择其中之一需要考虑哪些因素？我们是否要对虚拟系数进行缩放，然后将其解释为从关到开的变化？

17 categorical-data regression-coefficients lasso intercept categorical-encoding

2

Jeffreys Priors和方差稳定转换之间的关系是什么？

我维基百科上之前阅读有关杰弗瑞斯：杰弗里斯之前和锯，其各实施例之后，它描述了一个方差稳定转化如何接通杰弗里斯现有成均匀之前。例如，对于伯努利的情况，它表示对于以概率前进的硬币，伯努利试验模型得出，参数的杰弗里斯先验值为：γ∈[0,1]γ∈[0,1]\gamma \in [0,1]γγ\gamma p(γ)∝1γ(1−γ)−−−−−−−√p(γ)∝1γ(1−γ) p(\gamma) \propto \frac{1}{\sqrt{\gamma ( 1-\gamma)}} 然后声明这是一个带有的beta分布。它还指出，如果，则现有的杰弗里中的间隔是均匀的。α=β=12α=β=12\alpha = \beta = \frac{1}{2}γ=sin2(θ)γ=sin2⁡(θ)\gamma = \sin^2(\theta)θθ\theta[0,π2][0,π2]\left[0, \frac{\pi}{2}\right] 我认为该转换是稳定方差的转换。让我感到困惑的是：为什么稳定方差的转换会导致统一的先验？我们为什么还要统一制服？（因为它似乎更容易受到不当行为的影响）总的来说，我不确定为什么要给出平方正弦变换以及起什么作用。有人有什么想法吗？

17 bayesian prior jeffreys-prior

5

了解哪些功能对逻辑回归最重要

我建立了一个逻辑回归分类器，该分类器对我的数据非常准确。现在，我想更好地理解它为什么运行得如此出色。具体来说，我想对哪些功能做出最大的贡献（哪些功能最重要）进行排名，并且理想情况下，量化每个功能对整个模型的准确性有多大的贡献（或类似的东西）。我该怎么做呢？我首先想到的是根据系数对它们进行排名，但是我怀疑这是不对的。如果我有两个同样有用的功能，但是第一个的散布是第二个的十倍，那么我希望第一个的系数要比第二个低。有没有更合理的方法来评估功能的重要性？请注意，我不是要了解功能中的小变化会对结果的可能性产生多大的影响。相反，我试图了解每个功能在使分类器准确无误方面的价值。另外，我的目标不是执行特征选择或构建具有较少特征的模型，而是试图为学习的模型提供一些“可解释性”，因此分类器不仅仅是一个不透明的黑匣子。

17 machine-learning logistic feature-selection importance

1

BIC是否试图找到一个真实的模型？

这个问题是后续工作，还是试图消除关于主题I的可能混淆，以及其他许多问题，涉及AIC和BIC之间的区别，这有点困难。@Dave Kellen在有关此主题的一个非常好的答案中（/stats//a/767/30589）阅读：您的问题暗示AIC和BIC试图回答同一问题，这是不正确的。AIC试图选择最能充分描述未知的高维现实的模型。这意味着现实永远不会在所考虑的候选模型集中。相反，BIC试图在一组候选者中找到TRUE模型。我发现在研究人员沿途建立的模型之一中实例化了现实这一假设很奇怪。对于BIC来说，这是一个真正的问题。在下面的评论中，@ gui11aume，我们读到：（-1）很好的解释，但我想挑战一个断言。@Dave Kellen能否请您参考一下BIC必须包含TRUE模型的想法？我想对此进行调查，因为在本书中作者给出了令人信服的证据，证明事实并非如此。– gui11aume12年5月27日在21:47 似乎该断言来自Schwarz本人（1978），尽管断言不是必需的：同一位作者（如@ gui11aume的链接），我们从他们的文章“多模型推断：在模型选择中理解AIC和BIC”中阅读（伯纳姆和安德森（2004）： BIC的推导是假设存在真实模型，还是更狭义地讲，使用BIC时假设真实模型在模型集中？（Schwarz的推导指定了这些条件。）……答案……不。即，可以在不假设推导基础的模型为真的情况下推导BIC（作为对某个贝叶斯积分的近似的基础）（参见，例如，Cavanaugh和Neath 1999； Burnham和Anderson 2002：293-5）。当然，在应用BIC时，模型集不需要包含表示完整现实的（不存在）真实模型。而且，从BIC选择的模型到targbet模型的概率收敛（在iid样本理想化的情况下）在逻辑上并不意味着该目标模型必须是真实的数据生成分布。因此，我认为值得对此主题进行讨论或澄清（如果需要更多说明）。目前，我们所收到的只是@ gui11aume的评论（谢谢！），该评论针对AIC和BIC之间的差异进行了高度投票。

17 model-selection aic bic

1

在矩阵中添加一行后更新SVD分解

假设我有一个致密的基质的米× Ñ大小，SVD分解甲 = û 小号V ⊤。在我可以计算SVD如下：。AA \textbf{A}m×nm×nm \times nA=USV⊤.A=USV⊤.\mathbf{A}=\mathbf{USV}^\top.Rsvd(A) 如果一个新的个行被添加到(m+1)(m+1)(m+1)，可以计算基于旧一个新的SVD分解（即通过使用 ü，小号和 V），不从头重新计算SVD？AA\mathbf AUU\mathbf USS\mathbf SVV\mathbf V

17 algorithms svd linear-algebra matrix-decomposition numerics

3

R中的glm函数使用哪种优化算法？

可以使用以下代码在R中执行logit回归： > library(MASS) > data(menarche) > glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age, + family=binomial(logit), data=menarche) > coefficients(glm.out) (Intercept) Age -21.226395 1.631968 看来优化算法已经收敛-存在有关费舍尔评分算法的步数的信息： Call: glm(formula = cbind(Menarche, Total - Menarche) ~ Age, family = binomial(logit), data = menarche) Deviance Residuals: Min 1Q Median 3Q Max -2.0363 -0.9953 -0.4900 0.7780 1.3675 Coefficients: …

17 r generalized-linear-model optimization algorithms logit