Questions tagged «mathematical-statistics»

统计的数学理论,涉及形式定义和一般结果。


1
为治疗组寻找可比的对照组?
我有一个30人的治疗小组(加利福尼亚州30所学校),使用的是数学补​​充软件。通过简单的分析,我想比较我们的治疗组和可比较的对照组之间学生的平均数学增长。加州有许多学校没有使用该软件。我希望对照组包括表现相似的学校(他们的基线分数与治疗学校相近,但误差范围合理)。另外,我希望对照组的样本量是我的治疗量的3倍(这里是90所学校)。在CA的1000余所学校中,有90所学校可供选择。您将如何选择对照组?

3
信息论中心极限定理
信息理论CLT的最简单形式如下: 设X1,X2,…X1,X2,…X_1, X_2,\dots等于均值000和方差111。令fnfnf_n为归一化总和∑ n i = 1 X i的密度∑ni=1Xin√∑i=1nXin\frac{\sum_{i=1}^n X_i}{\sqrt{n}}ϕϕ\phiD(fn∥ϕ)=∫fnlog(fn/ϕ)dxD(fn‖ϕ)=∫fnlog⁡(fn/ϕ)dxD(f_n\|\phi)=\int f_n \log(f_n/\phi) dxnnnD(fn∥ϕ)→0D(fn‖ϕ)→0D(f_n\|\phi)\to 0n→∞n→∞n\to \infty 从某种意义上说,由于Pinsker不等式,这种收敛肯定比文献中公认的收敛,分布收敛和 -metric 收敛“更强”。即,KL散度的收敛意味着分布的收敛和距离的收敛。L1L1L_1(∫|fn−ϕ|)2≤2⋅∫fnlog(fn/ϕ)(∫|fn−ϕ|)2≤2⋅∫fnlog⁡(fn/ϕ)\left(\int |f_n-\phi|\right)^2\le 2\cdot \int f_n \log(f_n/\phi)L1L1L_1 我想知道两件事。 结果什么?D(fn∥ϕ)→0D(fn‖ϕ)→0D(f_n\|\phi)\to 0 难道仅仅是因为在第三段指出,我们说收敛KL散度(的原因,即,)是强?D(fn∥ϕ)→0D(fn‖ϕ)→0D(f_n\|\phi)\to 0 注意:我前段时间在math.stackexchange中问了这个问题,但没有得到任何答案。

3
为什么我得到的信息熵大于1?
我实现了以下函数来计算熵: from math import log def calc_entropy(probs): my_sum = 0 for p in probs: if p > 0: my_sum += p * log(p, 2) return - my_sum 结果: >>> calc_entropy([1/7.0, 1/7.0, 5/7.0]) 1.1488348542809168 >>> from scipy.stats import entropy # using a built-in package # give the same answer >>> entropy([1/7.0, …


1
上UMVUE的存在和选择的估计的在人口
让是从绘制的随机样本人口其中。(X1,X2,⋯,Xn)(X1,X2,⋯,Xn)(X_1,X_2,\cdots,X_n)N(θ,θ2)N(θ,θ2)\mathcal N(\theta,\theta^2)θ∈Rθ∈R\theta\in\mathbb R 我正在寻找的UMVUE 。θθ\theta 联合密度为(X1,X2,⋯,Xn)(X1,X2,⋯,Xn)(X_1,X_2,\cdots,X_n) fθ(x1,x2,⋯,xn)=∏i=1n1θ2π−−√exp[−12θ2(xi−θ)2]=1(θ2π−−√)nexp[−12θ2∑i=1n(xi−θ)2]=1(θ2π−−√)nexp[1θ∑i=1nxi−12θ2∑i=1nx2i−n2]=g(θ,T(x))h(x)∀(x1,⋯,xn)∈Rn,∀θ∈Rfθ(x1,x2,⋯,xn)=∏i=1n1θ2πexp⁡[−12θ2(xi−θ)2]=1(θ2π)nexp⁡[−12θ2∑i=1n(xi−θ)2]=1(θ2π)nexp⁡[1θ∑i=1nxi−12θ2∑i=1nxi2−n2]=g(θ,T(x))h(x)∀(x1,⋯,xn)∈Rn,∀θ∈R\begin{align} f_{\theta}(x_1,x_2,\cdots,x_n)&=\prod_{i=1}^n\frac{1}{\theta\sqrt{2\pi}}\exp\left[-\frac{1}{2\theta^2}(x_i-\theta)^2\right] \\&=\frac{1}{(\theta\sqrt{2\pi})^n}\exp\left[-\frac{1}{2\theta^2}\sum_{i=1}^n(x_i-\theta)^2\right] \\&=\frac{1}{(\theta\sqrt{2\pi})^n}\exp\left[\frac{1}{\theta}\sum_{i=1}^n x_i-\frac{1}{2\theta^2}\sum_{i=1}^nx_i^2-\frac{n}{2}\right] \\&=g(\theta,T(\mathbf x))h(\mathbf x)\qquad\forall\,(x_1,\cdots,x_n)\in\mathbb R^n\,,\forall\,\theta\in\mathbb R \end{align} ,其中和h(\ mathbf x)= 1。h(x)=1g(θ,T(x))=1(θ2π√)nexp[1θ∑ni=1xi−12θ2∑ni=1x2i−n2]g(θ,T(x))=1(θ2π)nexp⁡[1θ∑i=1nxi−12θ2∑i=1nxi2−n2]g(\theta, T(\mathbf x))=\frac{1}{(\theta\sqrt{2\pi})^n}\exp\left[\frac{1}{\theta}\sum_{i=1}^n x_i-\frac{1}{2\theta^2}\sum_{i=1}^nx_i^2-\frac{n}{2}\right]h(x)=1h(x)=1h(\mathbf x)=1 在这里,ggg取决于θθ\theta和x1,⋯,xnx1,⋯,xnx_1,\cdots,x_n到T(x)=(∑ni=1xi,∑ni=1x2i)T(x)=(∑i=1nxi,∑i=1nxi2)T(\mathbf x)=\left(\sum_{i=1}^nx_i,\sum_{i=1}^nx_i^2\right)并且hhh独立于θθ\theta。因此,通过Fisher-Neyman分解定理,二维统计量T(X)=(∑ni=1Xi,∑ni=1X2i)T(X)=(∑i=1nXi,∑i=1nXi2)T(\mathbf X)=\left(\sum_{i=1}^nX_i,\sum_{i=1}^nX_i^2\right)足以满足θθ\theta。 但是,TTT不是一个完整的统计信息。这是因为Ëθ⎡⎣2 (∑我= 1ñX一世)2− (n + 1 )∑我= 1ñX2一世⎤⎦= 2 n (1 + n )θ2- (Ñ + 1 )2 Ñ θ2= 0∀θEθ[2(∑i=1nXi)2−(n+1)∑i=1nXi2]=2n(1+n)θ2−(n+1)2nθ2=0∀θE_{\theta}\left[2\left(\sum_{i=1}^n X_i\right)^2-(n+1)\sum_{i=1}^nX_i^2\right]=2n(1+n)\theta^2-(n+1)2n\theta^2=0\qquad\forall\,\theta …

2
为什么估计量被认为是随机变量?
我对估算器和估算值的理解是:估算器:计算估算值的规则估算:根据估算器从一组数据中计算出的值 在这两个术语之间,如果要求我指出随机变量,我会说估计是随机变量,因为它的值将根据数据集中的样本随机变化。但是我得到的答案是,估计量是随机变量,估计量不是随机变量。这是为什么 ?


2
简单证明吗?
令为独立的标准正态随机变量。有很多(冗长的)证明,表明Z1,⋯,ZnZ1,⋯,ZnZ_1,\cdots,Z_n ∑i=1n(Zi−1n∑j=1nZj)2∼χ2n−1∑i=1n(Zi−1n∑j=1nZj)2∼χn−12 \sum_{i=1}^n \left(Z_i - \frac{1}{n}\sum_{j=1}^n Z_j \right)^2 \sim \chi^2_{n-1} 许多证明都很长,其中一些证明使用归纳法(例如Casella Statistics Inference)。我想知道是否有任何容易证明这一结果的证据。

2
辛普森悖论是否涵盖了所有从隐藏变量撤消的情况?
以下是有关作为“辛普森悖论”存在的“图片证明”提供的许多可视化的问题,以及有关术语的问题。 辛普森悖论是一个相当简单的现象来描述,并给予的(原因数值例子,为什么会发生这种情况是深刻而有趣)。矛盾的是,存在2x2x2列联表(Agresti,分类数据分析),其中边际关联与每个条件关联的方向不同。 也就是说,两个亚群中比率的比较都可以朝一个方向进行,但合并总体中的比率可以朝另一个方向进行。在符号中: 存在使得 a + ba ,b ,c ,d,ē ,˚F,g ^,小时一个,b,C,d,Ë,F,G,Ha,b,c,d,e,f,g,h一个+ bc + d&gt; e + fG+ 小时一个+bC+d&gt;Ë+FG+H \frac{a+b}{c+d} > \frac{e+f}{g+h} 但 和一个C&lt; eG一个C&lt;ËG \frac{a}{c} < \frac{e}{g} bd&lt; fHbd&lt;FH \frac{b}{d} < \frac{f}{h} 在以下可视化中(从Wikipedia)可以准确地表示出这一点: 一小部分是简单地对应的矢量的斜率,并且很容易在该示例中看到,较短乙矢量具有比相应的L矢量更大的斜率,但合并乙向量具有较小比组合1载体斜率。 有许多形式的非常常见的可视化,特别是在Simpson上的Wikipedia参考文献的开头: 这是混淆的一个很好的例子,隐藏变量(将两个子种群分开)如何显示不同的模式。 但是,从数学上讲,这样的图像绝不对应于作为基于辛普森悖论现象的现象的列联表的显示。首先,回归线位于实值点集数据之上,而不是对列联表中的数据进行计数。 同样,可以在回归线上创建具有任意斜率关系的数据集,但是在列联表中,斜率的不同程度受到限制。也就是说,总体的回归线可以与给定子群体的所有回归正交。但是,在辛普森悖论中,尽管不是反向回归,但亚群的比率即使偏离另一个方向,也不会偏离合并的人群(同样,请参见维基百科的比率比较图)。 对我来说,每次我将后者视为辛普森悖论的形象时,都足以吓一跳。但是,由于我到处都看到(我称之为错误的)示例,所以我很想知道: 我是否错过了从原始的Simpson / Yule列联表示例到转化为回归线可视化的真实值的微妙转换? 当然,辛普森的错误是一个特殊的例子。已经术语“辛普森悖论”现在已经成为等同于与混杂的错误,所以,无论数学,任何通过隐变量的方向变革,可以称之为辛普森悖论? 附录:以下是对2xmxn(或2乘以m,连续的)表的一般化示例: 如果以投篮方式合并,则防守者越近,球员的投篮机会就越多。按投篮类型分组(实际上是与篮筐的距离),则发生的直观情况越多,则投篮越多,防守队员越远。 我认为此图像是辛普森(Simpson's)对更连续情况(防御者的距离)的概括。但是我仍然看不到回归线示例是Simpson的示例。

2
图形模型和玻尔兹曼机器在数学上相关吗?
虽然我实际上是在物理课上用玻尔兹曼机进行编程的,但我对它们的理论特性并不熟悉。相反,我对图形模型的理论了解很少(关于Lauritzen的《图形模型》的前几章)。 问题:图形模型和玻尔兹曼机器之间是否存在有意义的关系?玻尔兹曼机是图形模型的一种吗? 显然,玻尔兹曼机是一种神经网络。我听说有些神经网络在数学上与图形模型有关,而有些则没有。 CrossValidated上的相关问题没有回答我的问题: 这类似于之前已经问过的先前问题:层次模型,神经网络,图形模型,贝叶斯网络之间的关系是什么?但更具体。 此外,对该问题的公认答案并不能澄清我的困惑-即使神经网络的标准图形表示中的节点不表示随机变量,也不一定意味着不存在这种表示形式。具体来说,我正在考虑马尔可夫链的典型图形表示中的节点如何表示可能状态的集合,而不是随机变量,但是也可以创建一个图形,显示之间的条件依赖关系XiXiX_iXiXiX_i,这表明每个马尔可夫链实际上都是一个马尔可夫随机场。答案还说,神经网络(可能包括Boltzmann机器)是“判别性的”,但没有更详细地解释该主张的含义,也没有明显的后续问题“图形模型不是可判别的吗?” 已解决。同样,可接受的答案链接到凯文·墨菲(Kevin Murphy)的网站(当我学习贝叶斯网络时,我实际上阅读了他的博士学位论文),但是该网站仅讨论贝叶斯网络,而根本没有提及神经网络,因此无法阐明它们的方式。是不同的。 这另一个问题可能与我的最相似:将神经网络数学建模为图形模型但是,没有一个答案被接受,同样也仅提供参考,但不解释参考(例如,此答案)。希望有一天我能够理解这些参考资料,但现在我已经具备基本的知识水平,并且最希望得到一个尽可能简化的答案。此外,链接到顶部答案(http://www.cs.toronto.edu/~tijmen/csc321/lecture_notes.shtml)的多伦多课程解决了此问题,但没有非常详细。此外,可能无法回答我的问题的一次讲座的笔记也没有公开。 3月25日,讲座13b:信仰网7:43。对于此幻灯片,请记住Boltzmann Machines。那里也有隐藏的单位和可见的单位,而且都是概率性的。BM和SBN的共同点是多于区别。9:16 如今,“图形模型”有时被视为神经网络的特殊类别,但在此处描述的历史中,它们被认为是非常不同的系统类型。

2
偏差是估计器的属性还是特定估计的属性?
例如,我经常遇到一些学生,他们知道“观察到的是“人口有偏估计。然后,在撰写报告时,他们会说:R 2[R2[R2R^2[R2[R2R^2 “我计算了观察到的和调整后的,它们非常相似,这表明我们获得的观察到的值仅有少量偏差。”R 2 R 2[R2[R2R^2[R2[R2R^2[R2[R2R^2 我通常会在谈论偏见时谈论的是估算器的属性,而不是特定的估算。但是,上面引用的语句是否滥用了术语,或者可以吗?

2
表示法到底是什么意思?
在像这样的上下文中,表示法(点在波浪号上)是什么意思?∼˙∼˙\dot\simx∼˙N(0,1)x∼˙N(0,1)x \mathrel{\dot\sim} \mathcal N(0,1) 事实证明,找到如何正确排版的方法要容易得多:tex.SE解释说,应该输入\mathrel{\dot\sim}而不是简单\dot\sim地解决间距问题,而不是查找其实际含义。到目前为止,它仅在CV上使用了4次;这是标准的吗?

1
重新设置似然函数的参数时,仅插入转换后的变量而不是更改变量公式就足够了吗?
假设我正在尝试重新设定指数分布的似然函数的参数。如果我的原始似然函数是: p(y∣θ)=θe−θyp(y∣θ)=θe−θy p(y \mid \theta) = \theta e^{-\theta y} 并且我想使用重新设置参数,因为不是随机变量,而是参数,仅用于插入就足够了吗?ϕ=1θϕ=1θ\phi = \frac{1}{\theta}θθ\theta 我的明确意思是: p(y∣ϕ=1θ)=1ϕe−1ϕyp(y∣ϕ=1θ)=1ϕe−1ϕy p\left(y \mid \phi = \frac{1}{\theta}\right) = \frac{1}{\phi} e^{-\frac{1}{\phi} y} 如果是这样,我不确定这背后的理论是什么。我的理解是,似然函数是参数的函数,所以为什么我不需要使用变量公式的变化使我感到困惑。任何帮助将不胜感激,谢谢!

1
了解TF-IDF对数中对数的使用
我正在阅读: https://zh.wikipedia.org/wiki/Tf%E2%80%93idf#Definition 但是我似乎无法确切地理解为什么以这种方式构造公式。 我的理解: iDF应该在某种程度上衡量术语S在每个文档中出现的频率,并随着术语S出现频率的增加而降低其价值。 从这个角度来看 我d ˚F(S)= # 文献# 含S-文献一世dF(小号)=# 文件数量# 包含S的文档 iDF(S) = \frac{\# \text{ of Documents}}{\# \text{ of Documents containing S}} 此外,术语“频率”可以正确地描述为 Ť ˚F(S,d )= #在文件d S的出现次数的 #文档D中任何字符串Q的最大出现次数 ŤF(小号,d)=# D中S的出现# 文档D中任何字符串Q的最大出现次数 tf(S,D) = \frac{\# \ \text{of Occurrences of S in document D}}{\# \ \text{maximum number of occurrences …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.