Questions tagged «mathematical-statistics»

统计的数学理论,涉及形式定义和一般结果。


3
β随机变量的反正态CDF遵循什么分布?
假设您定义: X∼Beta(α,β)X∼Beta(α,β)X\sim\mbox{Beta}(\alpha,\beta) Y∼Φ−1(X)Y∼Φ−1(X)Y\sim \Phi^{-1}(X) 其中Φ−1Φ−1\Phi^{-1}是的逆标准正态分布的CDF。 我的问题是:Y是否遵循简单分布,或者可以近似于Y?YYYYYY我问,因为我有一个基于模拟结果强烈怀疑(如下图所示),其YYY收敛为正态分布时,αα\alpha和ββ\beta都很高,但我不知道为什么它会数学。(当然,当α=1;β=1α=1;β=1\alpha=1;\beta=1,XXX将是均匀的,而YYY将是标准法线,但是为什么对于更高的值会成立呢?) 如果确实收敛到法线,那么就αα\alpha和而言,该法线的参数是什么ββ\beta?(我预计平均将Φ−1(αα+β)Φ−1(αα+β)\Phi^{-1}(\frac{\alpha}{\alpha+\beta})因为那是模式的变换,但我不知道标准差)。 (换句话说,这可能会问“ 对于μ和σ的某个方向,Φ(Norm(μ,σ))Φ(Norm(μ,σ))\Phi(\mbox{Norm}(\mu, \sigma))收敛到beta分布吗?”我不确定这是否更容易回答)。μμ\muσσ\sigma 仿真结果 在这里,我展示了为什么我怀疑结果是正常的(因为我无法用数学来支持它)。可以使用和在R中完成模拟。例如,选择较高的参数α = 3000和β = 7000:YYYqnormrnormα=3000α=3000\alpha=3000β=7000β=7000\beta=7000 hist(qnorm(rbeta(5000, 3000, 7000))) 这看起来很正常,qqnorm与夏皮罗-威尔克测试(其中正常是零假设),建议左右为好: qqnorm(qnorm(rbeta(5000, 3000, 7000))) shapiro.test(qnorm(rbeta(5000, 3000, 7000))) #> #> Shapiro-Wilk normality test #> #> data: qnorm(rbeta(5000, 3000, 7000)) #> W = 0.99954, p-value = 0.2838 为了更深入地探讨正态性,我执行了2,000次仿真,每次都模拟 5,000个值,然后执行测试以将其与正常值进行比较。(我选择5K值是因为这是可以处理的最大值,并且可以最大程度地检测出偏离规范的能力)。YYYshapiro.test 如果分布确实是正态分布,我们将期望p值是均匀的(因为null为true)。它们确实接近均匀,表明分布非常接近正态: hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 3000, …

2
您能用方程式而不是列联表来解释辛普森悖论吗?
我可能对辛普森的悖论并不清楚。我非正式地知道,对所有可能水平的因子A进行分组的响应Y1的平均值都可以高于对所有水平A的响应Y2的平均值,即使每个水平A(每个组)的Y1平均值为始终小于Y2的相应平均值。我已经阅读了示例,但是每次看到示例时我仍然感到惊讶,这可能是因为我对特定示例的学习不够好:我很难归纳它们。我学得最好,并且宁愿看到公式中的解释。您能否解释依赖方程而不是计数表的悖论? 另外,我认为令我惊讶的原因是,我可能会不知不觉地对涉及悖论的平均值做出一些假设,但总体上可能并不正确。也许我忘了按每组样本的数量来加权?但是然后,我想看到一个方程式,该方程式向我显示,如果我按每个组中的样本数对每个组的平均值加权,则总平均值的估计会更准确,因为(如果是真的)这并不明显对我而言 天真的,我认为当我有更多样本时,的估计值E[Y1]E[Y1]\mathbf{E}[Y_1]具有较低的标准误差,而与加权无关。

5
没有分析背景的数学统计之路:自学的理想教科书
我数学上很偏向于我-在本科生中有6个学期的数学-尽管我有点不习惯,并且对偏微分方程和路径积分说的很慢,但我的概念却又经过一些实践。我还没有关于数学证明(数学思维)的课程或关于分析的课程。 我也了解毕业生水平的机率-对其进行了正式研究,最近又刷新了我的知识。 我还开设了一些统计学和统计学学习的研究生课程。 我出于个人兴趣,希望在接下来的18-24个月内学习数学统计。我想平均每周进行5个小时的自学。 我对如何做有点茫然。我曾尝试从Casella和Berger的书中学习,但确实没有任何进展。我发现这本书有点无聊,而且方法很难处理。 我发现Casella和Berger遇到的困难: 不好意思这样说,但是类型设置的开始-它被打包以减少空白的方式让我失望 那里有很多证据,但是我感到缺乏直觉,这说明我们为什么要努力取得结果以及即将实现的更大目标是什么。 引用前几章中的证明在某种程度上使我对材料感到难以理解-我回头了很多,直到我最终放弃。 这个例子似乎是可行的,但是我无法解决这些问题-这些问题似乎在一个班上。 我只是无法深入研究材料-我想知道我的思维方式是否需要更严格的处理- 我应该考虑对数学统计采用量度理论方法吗? 因此,问题是:是否有一本教科书,我穿鞋的人可以学习并自学该主题。 我想要的是文字: 从很多方面来说,我想要的东西都是我在卡塞拉和伯格中不喜欢的东西的反面。 这本书的类型设置会有所帮助。下面的一些要点将阐述这一点。 我认为最好有一本书以一种我们对我们想做的事情的直觉作为开端,也许是从非数学意义上讲-有点像Freeman 等人的《Statistics》一书。 一本以同时的数学推导和注释格式展示定理的书–在CB中,我只是放弃了尝试阅读证明的尝试 本书的每一节都有很多已解决的问题。 本书还包含计算练习,使读者可以通过使用R探索概念来更好地理解 一本书涵盖了数学统计学的第一门或第二门研究生课程所需的材料。 补充说明: 我知道这个问题,《数学家统计学概论》 —在发布这个问题之前,我已经研究过一些重叠和一些答案—但是,我觉得这两个问题有不同的要求。

1
均值相同,方差不同
假设您有八位跑步者参加比赛;他们各自的运行时间的分布是正常的,每个平均有秒。流道的标准偏差是最小的,第二个是第二个,第三个是最小,依此类推,八个最大。有两个问题使我感到困惑:(1)第一个击败最后一个的概率是多少;(2)谁最有可能赢得比赛?111111 我的答案分别是和。由于它们的均值相同,因此的概率仅为,不是吗?我该如何严格地证明第二部分,以及可以计算出获胜的确切概率?提前致谢。1/21/21/2888x¯1−x¯8<0x¯1−x¯8<0\bar x_1-\bar x_8\lt 01/21/21/2

1
为什么对一致估计量的定义是如此?一致性的其他定义呢?
引用维基百科: 在统计中,一致估计量或渐近一致估计量是一个估计量-一种计算参数的规则-具有以下性质:随着所使用的数据点的数量无限增加,所得到的估计序列在概率上收敛于θ ^ *。θ ∗θ∗θ∗θ^*θ∗θ∗θ^* 为了使该语句更精确,让θ∗θ∗\theta^*为您要估计的真实参数的值,并让θ^(Sn)θ^(Sn)\hat\theta(S_n)为根据数据估算该参数的规则。然后,可以通过以下方式表达估计量一致性的定义: limn→∞Pr[|θ(Sn^)−θ∗|≥ϵ]=0limn→∞Pr[|θ(Sn^)−θ∗|≥ϵ]=0\lim_{n \to \infty} Pr[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon ]=0 我的问题乍看之下似乎很肤浅,但它是:为什么用“一致性/一致性”一词来描述估算器的这种行为? 我之所以关心这一点,是因为从直觉上来说,一致性一词对我来说意味着不同的东西(或者至少对我来说似乎不同,也许可以证明它们是相等的)。让我通过一个例子告诉你这意味着什么。假设“您”始终是“好”(对于“好”的定义),则表示您每次有机会证明/向您证明自己是好时,您确实每次都向我证明自己是好人(或至少大部分时间)。 让我根据直觉来定义估计量的一致性。令“ you”为计算的函数,让“ good”表示您与真实估计值距离(在范式中,好,为什么不是)。那么对一致性的更好定义是: θ*升1θ^θ^\hat{\theta}θ∗θ∗\theta^*l1l1l_1 ∀n,∀Sn,Pr[|θ(Sn^)−θ∗|≥ϵ]&lt;δ∀n,∀Sn,Pr[|θ(Sn^)−θ∗|≥ϵ]&lt;δ\forall n,\forall S_n, Pr[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon ] < \delta 即使一致性的定义可能不太有用,但对我来说定义一致性的方式对我来说更有意义,因为对于您投入到估算器任何训练/样本集,我将能够做得好,即我会一直做得很好。我知道,对所有n执行此操作有点不切实际(可能是不可能的),但是我们可以通过以下方式修正此定义:θ^θ^\hat\theta ∃n0,∀n≥n0,∀Sn,Pr[|θ(Sn^)−θ∗|≥ϵ]&lt;δ∃n0,∀n≥n0,∀Sn,Pr[|θ(Sn^)−θ∗|≥ϵ]&lt;δ\exists n_0, \forall n \geq n_0,\forall S_n, Pr[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon ] < \delta 也就是说,对于足够大的n,我们的估计量不会比真实差(即,与“真相”相距不超过)(试图捕获您至少需要的直觉)一些例子可以学习/估计任何东西,一旦达到这个数字,如果估计量与我们尝试定义它的方式保持一致,则估计量在大多数情况下都会做得很好。ε θ * Ñ 0ϵϵ\epsilonϵϵ\epsilonθ∗θ∗\theta^*n0n0n_0 …

3
为什么这个摘录说标准偏差的无偏估计通常不相关?
我正在阅读标准偏差的无偏估计的计算方法以及我所阅读的资料 (...)除非在某些重要情况下,否则该任务与统计的应用几乎没有关系,因为通过标准程序(例如,使用显着性检验和置信区间或使用贝叶斯分析)可以避免执行此任务。 我想知道是否有人可以阐明该语句背后的原因,例如,置信区间不是将标准差用作计算的一部分吗?因此,置信区间不会受到标准偏差的影响吗? 编辑: 到目前为止,谢谢您的回答,但是我不确定我是否遵循它们的某些推理,因此我将添加一个非常简单的示例。关键是,如果源是正确的,那么从我的结论到示例,都出了点问题,我希望有人指出p值如何不依赖于标准偏差。 假设研究人员希望测试他或她所在城市的五年级学生的平均分数是否与全国平均值76分(显着性水平为0.05)不同。研究人员随机抽取了20名学生的分数。样本平均值为80.85,样本标准偏差为8.87。这意味着:t =(80.85-76)/(8.87 / sqrt(20))= 2.44。然后使用t表计算以19 df在2.44时的2尾概率值为0.025。这低于我们的显着性水平0.05,因此我们拒绝零假设。 因此,在此示例中,p值(也许还有您的结论)是否会根据您估计样本标准偏差的方式而改变?

4
是否存在三阶渐近线?
统计中的大多数渐近结果证明,当n→∞n→∞n \rightarrow \infty,基于似然函数的二阶泰勒展开,估计量(例如MLE)收敛到正态分布。我相信在贝叶斯文学中也有类似的结果,即“贝叶斯中心极限定理”,它表明后验渐近收敛为n → ∞的法线。n→∞n→∞n \rightarrow \infty 我的问题是-根据泰勒级数的第三项,分布是否收敛到正态“之前”?还是一般不可能做到这一点?

1
插入符glmnet与cv.glmnet
在glmnet内部caret使用搜索最佳lambda和cv.glmnet执行相同任务的比较中似乎有很多困惑。 提出了许多问题,例如: 分类模型train.glmnet与cv.glmnet? 在插入符号中使用glmnet的正确方法是什么? 使用`caret`交叉验证`glmnet` 但是没有给出答案,这可能是由于问题的可重复性。在第一个问题之后,我给出了一个非常相似的示例,但确实存在相同的问题:为什么估计的lambda如此不同? library(caret) library(glmnet) set.seed(849) training &lt;- twoClassSim(50, linearVars = 2) set.seed(849) testing &lt;- twoClassSim(500, linearVars = 2) trainX &lt;- training[, -ncol(training)] testX &lt;- testing[, -ncol(testing)] trainY &lt;- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = 0.001),standardize=FALSE) …

1
GAM vs LOESS vs花键
语境:我想提请在不出现参数散点图一条线,所以我使用geom_smooth()的ggplot中R。它会自动返回geom_smooth: method="auto" and size of largest group is &gt;=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.我收集的GAM代表广义加性模型,并使用三次样条曲线。 以下看法正确吗? 黄土以特定值估算响应。 样条曲线是连接适合数据的不同分段函数(构成广义加性模型)的近似值,三次样条曲线是此处使用的特定样条曲线类型。 最后,何时应使用花键,何时应使用LOESS?

2
推导二元泊松分布
我最近遇到了双变量Poisson分布,但是对于如何导出它有点困惑。 分布由下式给出: P(X=x,Y=y)=e−(θ1+θ2+θ0)θx1x!θy2y!∑i=0min(x,y)(xi)(yi)i!(θ0θ1θ2)iP(X=X,ÿ=ÿ)=Ë-(θ1个+θ2+θ0)θ1个XX!θ2ÿÿ!∑一世=0米一世ñ(X,ÿ)(X一世)(ÿ一世)一世!(θ0θ1个θ2)一世P(X = x, Y = y) = e^{-(\theta_{1}+\theta_{2}+\theta_{0})} \displaystyle\frac{\theta_{1}^{x}}{x!}\frac{\theta_{2}^{y}}{y!} \sum_{i=0}^{min(x,y)}\binom{x}{i}\binom{y}{i}i!\left(\frac{\theta_{0}}{\theta_{1}\theta_{2}}\right)^{i} 据我所知,在θ0θ0\theta_{0}项之间的相关性的测量XXX和YÿY ; 因此,当XXX和YÿY是独立的,θ0=0θ0=0\theta_{0} = 0和分配简单地变成两个单变量泊松分布的产物。 考虑到这一点,我的困惑是基于求和项-我假设该项解释了XXX和之间的相关性YÿY。 在我看来,该加数构成某种其中“成功”的概率由下式给出二项式累积分布函数的产品(θ0θ1θ2)(θ0θ1个θ2)\left(\frac{\theta_{0}}{\theta_{1}\theta_{2}}\right)和“失败”的概率由下式给出i!1min(x,y)−i一世!1个米一世ñ(X,ÿ)-一世i!^{\frac{1}{min(x,y)-i}},因为(i!1min(x,y)−i!)(min(x,y)−i)=i!(一世!1个米一世ñ(X,ÿ)-一世!)(米一世ñ(X,ÿ)-一世)=一世!\left(i!^{\frac{1}{min(x,y)-i!}}\right)^{(min(x,y)-i)} = i!,但我可能与此相去甚远。 有人可以提供一些有关如何导出这种分布的帮助吗?同样,如果可以将其包含在任何答案中,那么如何将模型扩展到多变量场景(例如三个或更多随机变量),那就太好了! (最后,我已经注意到,之前有一个类似的问题(了解二元泊松分布),但实际上并未对此推导进行探讨。)

1
Oracle Inequality:基本而言
我正在阅读一篇使用oracle不等式证明某事的论文,但我什至无法理解它甚至试图做些什么。当我在线搜索有关“ Oracle不等式”时,一些消息源将我引向了文章“ Candes,Emmanuel J.'通过Oracle不等式的现代统计估计”。可以在这里找到https://statweb.stanford.edu/~candes/papers/NonlinearEstimation.pdf。但是这本书对我来说似乎太重了,我认为我缺少一些先决条件。 我的问题是:您如何解释非数学专业(包括工程师)的Oracle不平等?其次,在尝试学习上述书籍之类的东西之前,您将如何推荐他们去研究先决条件/主题。 我强烈建议在高维统计方面有具体把握和丰富经验的人来回答这个问题。

1
我们为什么要关心MA过程是否可逆?
我很难理解为什么我们要关心MA过程是否可逆。 如果我错了,请纠正我,但我可以理解为什么我们关心AR进程是否是因果关系的,也就是说,如果我们可以“重写它”,可以说是某些参数和白噪声的总和-即移动平均过程。如果是这样,我们可以很容易地看到AR过程是因果的。 但是,我很难理解为什么我们要通过显示可逆性来表示是否可以将MA流程表示为AR流程。我不太了解我们为什么在乎。 任何见识都会很棒。


3
beta分布从何而来?
我确定这里的每个人都已经知道,Beta分布的PDF 由X〜乙(一,b )X∼B(a,b)X \sim B(a,b) F(x )= 1B (a ,b )Xa − 1(1 − x )b − 1f(x)=1B(a,b)xa−1(1−x)b−1f(x) = \frac{1}{B(a,b)}x^{a-1}(1-x)^{b-1} 我一直在各地寻找有关该公式起源的解释,但我找不到它。我在Beta发行版上找到的每篇文章似乎都给出了这个公式,说明了它的一些形状,然后直接讨论其关键时刻。 我不喜欢使用无法推导和解释的数学公式。对于其他分布(例如伽马或二项式),有一个明确的推导可以学习和使用。但是我找不到类似的东西用于Beta发行版。 所以我的问题是:该公式的起源是什么?在最初开发的任何上下文中,如何从第一性原理中衍生出来? [为澄清起见,我不是在问如何在贝叶斯统计中使用Beta分布,或者在实践中直觉地意味着什么(我已经读过棒球示例)。我只想知道如何导出PDF。以前有一个问题提出了类似的问题,但是(我认为是错误的)它被标记为另一个未解决该问题的问题的重复,因此到目前为止,我在这里找不到任何帮助。] 编辑2017-05-06:谢谢大家的提问。我想对我想要的东西有一个很好的解释,当我向一些课程讲师问这个问题时,我得到了以下答案之一: “我想人们可以将正常密度推导为n个事物的总和除以sqrt(n)的极限,并且可以从事件以恒定速率发生的想法推导泊松密度。类似地,为了推导Beta密度,您将需要某种概念来确定什么使得Beta分布独立于密度,并且在逻辑上先于密度。” 因此,注释中的“从头开始”的想法可能最接近我要寻找的想法。我不是数学家,但是我使用能够推导的数学感到最自在。如果起源对我来说太先进了,那就去吧,但是如果不是,我想了解它们。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.