统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答


3
具有非零渐近方差的渐近一致性-它代表什么?
这个问题以前已经提出过,但是我想问一个具体的问题,试图得出一个可以澄清(和分类)它的答案: 在“穷人的无症状”中, (a)概率收敛为常数的一系列随机变量 与之相反 (b)一系列随机变量,其概率收敛于一个随机变量(因此分布于该变量)。 但是在“智者的渐近”中,我们也可以 (c)一系列随机变量,它们的概率收敛到一个常数,同时在极限处保持非零方差。 我的问题是(从下面我自己的探索性答案中窃取): 我们如何才能理解渐近一致但也具有非零的有限方差的估计量?这种差异反映了什么?它的行为与“通常的”一致估计量有何不同? 与(c)中描述的现象相关的线程(另请参见注释): 一致估计和无偏估计之间有什么区别? /stats/120553/convergence-of-an-estimator-with-infinite-variance 为什么渐近一致估计量在无穷大处没有零方差? 几乎可以确定收敛和极限方差为零

2
统一随机变量作为两个随机变量之和
取自Grimmet和Stirzaker: 证明不可能不是U = X + Y的情况,U=X+YU=X+Y其中UUU在[0,1]上均匀分布,而XXX和YYY是独立且均匀分布的。您不应假定X和Y是连续变量。 一个简单的反证法足够了,其中的情况下XXX,ÿYY假定离散通过认为它总是能够找到一个üuu和ü 'u′u',使得P (û ≤ û + Ù ')≥ P (Ú ≤ Û )P(U≤u+u′)≥P(U≤u)P(U\leq u+u') \geq P(U\leq u)而P (X + ÿ ≤ Ù )= P (X + ý ≤ ü + Ú ')P(X+Y≤u)=P(X+Y≤u+u′)P(X+Y \leq u) = P(X+Y \leq u+u')。 但是,该证明不能扩展到X ,YX,YX,Y绝对连续或奇异连续。提示/评论/评论?

4
相关性的非传递性:性别与大脑大小之间以及大脑大小与智商之间的相关性,但性别与智商之间没有相关性
我在博客上找到了以下解释,我想获得有关相关性的非传递性的更多信息: 我们有以下不争的事实: 平均而言,男性和女性的大脑容量存在差异 智商与大脑大小之间存在相关性。相关系数为0.33,因此相当于智商变异性的10% 从这些前提1和2看来,逻辑上是这样的:女性平均智商比男性低。但这是谬论!在统计中,相关性不是传递的。证明是,您只需要查看智商测试的结果,即可证明男人和女人的智商平均没有差异。 我想更深入地了解这种相关性。 如果智商与大脑大小之间的相关性是0.9(我知道不是(1)),那么推断女性平均智商比男性低会仍然是谬论吗? 拜托,我不是在这里谈论智商(以及测试的局限性),性别歧视,女性刻板印象,自大等(2)。我只想了解谬论背后的逻辑推理。 (1)据我所知并非如此:尼安德特人的大脑比智人的大脑更大,但并不聪明。 (2)我是一个女人,总的来说,我不认为自己,或者其他女人不如男人聪明,我不在乎智商测试,因为什么才是人们的价值所在,而不是基于人的价值。智力能力。 法语原文: 毫无疑问,顽固的杀手iv: 女人与女人之间的差异 气质与体积的关系 相关系数估计为0.33,对应的变量为10% 《预案》第1期和第2期,以“découlerdécouler”的形式进行质问:“ les femmes ont en moyenne un QIinférieuraux hommes”。 Mais c'est une erreur de raisonnement!从统计上看,所有关联都没有和解。拉普里夫(La Preuve),最令人心动的媒体,无意为QI进行测试的人,以及ceux-ci montrent QUE homs et des femmes nediffèrentpas en moyenne。

1
在损失函数之间进行选择以进行二进制分类
我在一个问题域中工作,人们经常报告ROC-AUC或AveP(平均精度)。但是,最近我发现有一些论文可以优化对数损失,而另一些则报告了Hinge Loss。 虽然我了解这些指标的计算方式,但我很难理解它们之间的取舍,而这恰好对我们有好处。 当谈到ROC-AUC与Precision-Recall时,该线程讨论了如何将ROC-AUC最大化视为使用损失优化标准,该标准对“将真实负数至少定为真实正数进行惩罚”(假设更高分数对应于肯定)。此外,与Precision-Recall指标相比,该其他线程还提供了有关ROC-AUC的有用讨论。 但是,对于哪种类型的问题,相对于ROC-AUC,AveP或 Hinge损失,对数丢失是优选的吗?最重要的是,在二元分类的这些损失函数之间进行选择时,应该问什么类型的问题?

3
负二项式GLM与计数数据的对数转换:I型错误率增加
你们中有些人可能已经读过这篇不错的论文: O'Hara RB,Kotze DJ(2010)不要对计数数据进行对数转换。《生态与进化方法》 1:18–122。克利克。 在我的研究领域(生态毒理学)中,我们正在处理重复性较差的实验,并且GLM并未得到广泛使用。因此,我进行了类似于O'Hara&Kotze(2010)的模拟,但是模拟了生态毒理学数据。 功率模拟: 我模拟了一个有一个对照组()和5个治疗组()的阶乘设计的数据。处理1中的丰度与对照()相同,处理2-5中的丰度是对照中的丰度的一半()。对于模拟,我改变了样本大小(3、6、9、12)和对照组的丰度(2、4、8,...,1024)。从具有固定色散参数()的负二项式分布中提取丰度。使用负二项式GLM和高斯GLM +对数转换的数据生成并分析了100个数据集。μ 1 - 5 μ 1 = μ Ç μ 2 - 5 = 0.5 μ C ^ θ = 3.91μCμc\mu_cμ1 - 5μ1−5\mu_{1-5}μ1个= μCμ1个=μC\mu_1 = \mu_cμ2 - 5= 0.5 μCμ2-5=0.5μC\mu_{2-5} = 0.5 \mu_c角= 3.91θ=3.91\theta = 3.91 结果符合预期:GLM具有更大的功效,尤其是在采样的动物不多的情况下。 代码在这里。 类型I错误: 接下来,我看了一眼错误。如上所述进行模拟,但是所有组具有相同的丰度()。μC= μ1 - …

4
什么是独立背后的直觉和,?
我希望有人提出一个论点,解释为什么随机变量 和( 具有标准正态分布的在统计上是独立的。MGF技术很容易证明这一事实,但是我发现这非常违反直觉。Y1=X2−X1Y1=X2−X1Y_1=X_2-X_1Y2=X1+X2Y2=X1+X2Y_2=X_1+X_2XiXiX_i 因此,如果有任何直觉,我将不胜感激。 先感谢您。 编辑:下标不表示订单统计,而是来自标准正态分布的IID观察值。

2
有多个类别变量时对Beta的解释
我理解是分类变量等于0(或参考组)时的均值的概念,最终解释为回归系数是两个类别的均值之差。即使有> 2个类别,我也会假设每个解释该类别的均值和参考之间的差异。β^0β^0\hat\beta_0β^β^\hat\beta 但是,如果将更多变量引入多变量模型,该怎么办?现在,截距是什么意思,意味着它不能作为两个分类变量的参考?例如性别(M(参考)/ F)和种族(白人(参考)/黑人)都在模型中。是平均仅为白人男性?一个人如何解释其他可能性?β^0β^0\hat\beta_0 作为单独的注释:对比声明是否可作为一种方法来研究效果修改?还是只是看到不同级别的效果()?β^β^\hat\beta

3
优化技术是否映射到采样技术?
从任何通用采样算法中,可以得出一种优化算法。 事实上,为了最大化任意函数,其足以从绘制样品克〜ë ˚F / Ť。对于足够小的T,这些样本将落在函数f的全局最大值(或实践中的局部最大值)附近。F:x → f(x)F:X→F(X)f: \textbf{x} \rightarrow f(\textbf{x})G〜êF/吨G〜ËF/Ťg \sim e^{f/T}ŤŤTFFf 我所说的“采样”是指从给定一个对数似然函数的分布中抽取一个伪随机样本。例如,MCMC采样,Gibbs采样,波束采样等。“优化”是指尝试找到使给定函数的值最大化的参数。 反过来可能吗?给定启发式查找函数或组合表达式的最大值,是否可以提取有效的采样过程? 例如,HMC似乎利用了梯度信息。我们能否构造一个利用类似于BFGS的Hessian近似的采样程序?(编辑:显然是:http : //papers.nips.cc/paper/4464-quasi-newton-methods-for-markov-chain-monte-carlo.pdf)我们可以在组合问题中使用MCTS,我们可以翻译一下吗?进入抽样程序? 背景:采样困难通常是大部分概率分布都位于非常小的区域内。有一些有趣的技术可以找到这样的区域,但是它们并不能直接转化为无偏采样程序。 编辑:我现在有一种挥之不去的感觉,即这个问题的答案在某种程度上等同于等价类#P和NP的相等,使得答案可能是“否”。它确实解释了为什么每种采样技术都会产生优化技术,但反之则不然。


3
为什么贝叶斯统计在统计过程控制中不受欢迎?
我对贝叶斯与频繁主义者辩论的理解是,频繁主义者统计数据: 是(或声称是)客观的 或至少没有偏见 所以不同的研究人员,使用不同的假设仍然可以获得定量可比的结果 贝叶斯统计 声称做出“更好”的预测(即较低的预期损失),因为它可以使用先验知识(在其他原因中) 需要较少的“临时”选择,而由具有现实世界解释的先验/模型选择(至少在原则上)代替它们。 鉴于此,我本以为贝叶斯统计将在SPC中非常流行:如果我是一家工厂老板,试图控制自己的过程质量,那么我将主要关注预期的损失;如果我可以减少这种情况,因为我比竞争对手拥有更多/更好的先验知识,甚至更好。 但是实际上,我所阅读的有关SPC的所有内容似乎都是常客(例如,没有先验分布,所有参数的点估计,关于样本大小,p值的许多临时选择)。 这是为什么?我可以看到为什么在1960年代使用笔和纸完成SPC时,经常性统计数据是更好的选择。但是从那以后为什么没有人尝试过不同的方法呢?

4
训练一个隐马尔可夫模型,多个训练实例
我已根据本教程http://cs229.stanford.edu/section/cs229-hmm.pdf实现了离散HMM 本教程和其他教程经常谈到在给定观察序列的情况下训练HMM。 当我有多个训练序列时会怎样?我是否应该按顺序运行它们,依次训练模型? 另一种选择是将序列连接成一个序列并对其进行训练,但是然后我将进行从一个序列的结尾到下一个序列的开头的状态转换,这是不真实的。

1
如何使用主成分分析来白化数据?
我想将数据转换为使得方差将为1而协方差将为零(即,我想白化数据)。此外,均值应为零。XX\mathbf X 我知道我将通过Z标准化和PCA转换达到目标,但是我应该按什么顺序进行? 我应该补充一点,组成的美白转换应采用。x↦Wx+bx↦Wx+b\mathbf{x} \mapsto W\mathbf{x} + \mathbf{b} 有没有一种类似于PCA的方法,可以完全完成这两个转换并给出上面形式的公式?

2
为什么直接在计算上优化高斯混合很难?
考虑混合高斯的对数似然: l(Sn;θ)=∑t=1nlogf(x(t)|θ)=∑t=1nlog{∑i=1kpif(x(t)|μ(i),σ2i)}l(Sn;θ)=∑t=1nlog⁡f(x(t)|θ)=∑t=1nlog⁡{∑i=1kpif(x(t)|μ(i),σi2)}l(S_n; \theta) = \sum^n_{t=1}\log f(x^{(t)}|\theta) = \sum^n_{t=1}\log\left\{\sum^k_{i=1}p_i f(x^{(t)}|\mu^{(i)}, \sigma^2_i)\right\} 我想知道为什么要直接最大化该方程在计算上很困难?我一直在寻找一个清晰的直觉,以了解为什么它应该如此艰难,或者为什么要对其为何如此艰难做出更严格的解释。这个问题是NP完整的,还是我们还不知道如何解决?这是我们诉诸使用EM(期望最大化)算法的原因吗? 符号: SnSnS_n =训练数据。 x(t)x(t)x^{(t)} =数据点。 θθ\theta =一组参数,指定高斯,其均值,标准偏差以及从每个聚类/类/高斯生成点的概率。 pipip_i =从聚类/类/高斯i生成点的概率。

9
参考要求:广义线性模型
我正在寻找有关广义线性模型的入门级到中级水平的书。理想情况下,除了模型背后的理论外,我希望它包括R或另一种编程语言的应用程序和示例-我听说SAS也是一种流行的选择。我打算自己研究它,因此如果它为自己的练习提供了答案,将会有所帮助。 您可以假设我参加了为期一年的传统微积分和概率论课程。我还熟悉回归分析的基础。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.