Questions tagged «mathematical-statistics»

统计的数学理论,涉及形式定义和一般结果。

2
概率不等式
我正在寻找无限随机变量之和的一些概率不等式。如果有人可以给我一些想法,我将不胜感激。 我的问题是找到无界iid随机变量之和(实际上是两个iid高斯的乘积)超过某个值的概率的指数上限,即,其中,和是根据。Pr[X≥ϵσ2N]≤exp(?)Pr[X≥ϵσ2N]≤exp⁡(?)\mathrm{Pr}[ X \geq \epsilon\sigma^2 N] \leq \exp(?)X=∑Ni=1wiviX=∑i=1NwiviX = \sum_{i=1}^{N} w_iv_iwiwiw_iviviv_iN(0,σ)N(0,σ)\mathcal{N}(0, \sigma) 我尝试通过矩生成函数(MGF)使用切尔诺夫界,派生界由下式给出: Pr[X≥ϵσ2N]≤=minsexp(−sϵσ2N)gX(s)exp(−N2(1+4ϵ2−−−−−−√−1+log(1+4ϵ2−−−−−−√−1)−log(2ϵ2)))Pr[X≥ϵσ2N]≤minsexp⁡(−sϵσ2N)gX(s)=exp⁡(−N2(1+4ϵ2−1+log⁡(1+4ϵ2−1)−log⁡(2ϵ2)))\begin{eqnarray} \mathrm{Pr}[ X \geq \epsilon\sigma^2 N] &\leq& \min\limits_s \exp(-s\epsilon\sigma^2 N)g_X(s) \\ &=& \exp\left(-\frac{N}{2}\left(\sqrt{1+4\epsilon^2} -1 + \log(\sqrt{1+4\epsilon^2}-1) - \log(2\epsilon^2)\right)\right) \end{eqnarray} 其中gX(s)=(11−σ4s2)N2gX(s)=(11−σ4s2)N2g_X(s) = \left(\frac{1}{1-\sigma^4 s^2}\right)^{\frac{N}{2}}是X的MGF XXX。但是界限并不是那么紧密。我的问题的主要问题是随机变量是无界的,不幸的是我无法使用霍夫丁不等式的界。 如果您能帮助我找到一些严格的指数界限,我将很高兴。

5
特征功能的目的是什么?
我希望有人可以用通俗易懂的方式解释什么是特征函数,以及如何在实践中使用它。我已经读过它是pdf的傅里叶变换,所以我想我知道它是什么,但我仍然不了解它的目的。如果有人可以提供其目的的直观描述,以及可能如何使用它的示例,那真是太棒了! 最后一点:我已经看过Wikipedia页面,但是显然太密集了,无法理解正在发生的事情。我正在寻找的一种解释是,计算机科学家认为,如果某个人没有沉迷于概率论的奇迹中,便可以理解。

3
简单线性回归中回归系数的导数方差
在简单的线性回归,我们有y=β0+β1x+uy=β0+β1x+uy = \beta_0 + \beta_1 x + u,其中u∼iidN(0,σ2)u∼iidN(0,σ2)u \sim iid\;\mathcal N(0,\sigma^2)。我导出的估计: β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 ,β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 , \hat{\beta_1} = \frac{\sum_i (x_i - \bar{x})(y_i - \bar{y})}{\sum_i (x_i - \bar{x})^2}\ , 其中x¯x¯\bar{x}和y¯y¯\bar{y}是的样本均值xxx和yyy。 现在,我想找到的方差β 1。我衍生像下面这样: 无功(^ β 1)= σ 2(1 - 1β^1β^1\hat\beta_1Var(β1^)=σ2(1−1n)∑i(xi−x¯)2 .Var(β1^)=σ2(1−1n)∑i(xi−x¯)2 . \text{Var}(\hat{\beta_1}) = \frac{\sigma^2(1 - \frac{1}{n})}{\sum_i (x_i - \bar{x})^2}\ . 推导如下: Var(β1^)=Var(∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2)=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(β0+β1xi+ui−1n∑j(β0+β1xj+uj)))=1(∑i(xi−x¯)2)2Var(β1∑i(xi−x¯)2+∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2×E⎡⎣⎢⎢⎢⎢⎢⎢⎛⎝⎜⎜⎜⎜⎜∑i(xi−x¯)(ui−∑jujn)−E[∑i(xi−x¯)(ui−∑jujn)]=0⎞⎠⎟⎟⎟⎟⎟2⎤⎦⎥⎥⎥⎥⎥⎥=1(∑i(xi−x¯)2)2E⎡⎣(∑i(xi−x¯)(ui−∑jujn))2⎤⎦=1(∑i(xi−x¯)2)2E[∑i(xi−x¯)2(ui−∑jujn)2] , …

6
我如何分析地证明随机分配金额会导致指数分布(例如收入和财富)?
在《科学》杂志的当前文章中,提出了以下建议: 假设您将5亿的收入随机分配给10,000人。只有一种方法可以让每个人平均获得50,000个份额。因此,如果您随机分配收入,则极不可能实现平等。但是,有无数种方式可以给少数人很多现金,而给许多人一点钱甚至没有钱。实际上,考虑到所有可以分配收入的方式,大多数方法都会产生指数分布的收入。 我已经使用以下R代码(似乎可以肯定结果)完成了此操作: library(MASS) w <- 500000000 #wealth p <- 10000 #people d <- diff(c(0,sort(runif(p-1,max=w)),w)) #wealth-distribution h <- hist(d, col="red", main="Exponential decline", freq = FALSE, breaks = 45, xlim = c(0, quantile(d, 0.99))) fit <- fitdistr(d,"exponential") curve(dexp(x, rate = fit$estimate), col = "black", type="p", pch=16, add = TRUE) 我的问题 我该如何分析证明结果分布确实是指数的? …

3
关于统计学硕士课程的注意事项
这是研究生院的入学季节。我(和许多像我一样的学生)现在正试图决定选择哪个统计程序。 那些从事统计学工作的人建议我们考虑统计学专业的哪些方面? 学生是否有常见的陷阱或错误(也许就学校声誉而言)? 对于就业,我们应该集中精力于应用统计还是应用统计和理论统计的混合? 编辑:这是有关我的个人情况的一些其他信息:我现在考虑的所有程序都在美国。一些侧重于应用性更强的方面,并在“应用统计”中授予硕士学位,而其他人则具有更多的理论课程,并​​在“统计”中授予学位。我个人并不是在一个行业工作,而不是在另一个行业工作。我有一定的编程背景,并且比起基因组学或生物信息学行业,对技术行业的了解要好一些。但是,我主要是在寻找有有趣问题的职业。 编辑:试图使问题更普遍适用。

2
非iid高斯变量之和的分布是什么?
如果分布, 分布 并且,我知道分布如果X和Y独立,则。XXXN(μX,σ2X)N(μX,σX2)N(\mu_X, \sigma^2_X)YYYN(μY,σ2Y)N(μY,σY2)N(\mu_Y, \sigma^2_Y)Z=X+YZ=X+YZ = X + YZZZN(μX+μY,σ2X+σ2Y)N(μX+μY,σX2+σY2)N(\mu_X + \mu_Y, \sigma^2_X + \sigma^2_Y) 但是如果X和Y不是独立的,即 (X,Y)≈N((μXμY),(σ2XσX,YσX,Yσ2Y))(X,Y)≈N((μXμY),(σX2σX,YσX,YσY2))(X, Y) \approx N\big( (\begin{smallmatrix} \mu_X\\\mu_Y \end{smallmatrix}) , (\begin{smallmatrix} \sigma^2_X && \sigma_{X,Y}\\ \sigma_{X,Y} && \sigma^2_Y \end{smallmatrix}) \big) 这会影响总和的分布方式吗?ZZZ


6
有没有中心极限定理不成立的例子?
维基百科说- 在概率论中,中心极限定理(CLT)确定,在大多数情况下,添加独立随机变量时,即使原始变量本身不存在,其适当归一化的总和仍趋于正态分布(非正式地为“钟形曲线”)。正态分布... 当它说“在大多数情况下”时,中央极限定理在哪些情况下不起作用?

2
单边切比雪夫不等式的样本版本是否存在?
我对以下单方面的Cantelli版本的Chebyshev不等式感兴趣: P(X−E(X)≥t)≤Var(X)Var(X)+t2.P(X−E(X)≥t)≤Var(X)Var(X)+t2。 \mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,. 基本上,如果您知道总体均值和方差,则可以计算观察到某个值的概率的上限。(至少这是我的理解。) 但是,我想使用样本均值和样本方差,而不是实际总体均值和方差。 我猜想,由于这会带来更多不确定性,因此上限会增加。 是否存在类似于上述的不等式,但是使用样本均值和方差? 编辑:Chebyshev不等式(不是单面)的“样本”类似物,已经制定出来。在维基百科页面有一些细节。但是,我不确定它将如何转化为我上面提到的单面案例。


3
如何严格定义可能性?
可能性可以通过几种方式定义,例如: 功能LLL从Θ×XΘ×X\Theta\times{\cal X}其中映射(θ,x)(θ,x)(\theta,x)到L(θ∣x)L(θ∣x)L(\theta \mid x)即L:Θ×X→RL:Θ×X→RL:\Theta\times{\cal X} \rightarrow \mathbb{R} 。 随机函数L(⋅∣X)L(⋅∣X)L(\cdot \mid X) 我们也可以认为,可能是只有“观察”的可能性L(⋅∣xobs)L(⋅∣xobs)L(\cdot \mid x^{\text{obs}}) 在实践中,似然性仅将关于信息θθ\theta带到一个乘性常数,因此我们可以将似然性视为函数的等价类,而不是函数 考虑参数化的变化时,会发生另一个问题是:如果ϕ=θ2ϕ=θ2\phi=\theta^2是新的参数,我们通常表示由L(ϕ∣x)L(ϕ∣x)L(\phi \mid x)上的可能性ϕϕ\phi和这不是先前的功能的评价L(⋅∣x)L(⋅∣x)L(\cdot \mid x)在θ2θ2\theta^2但在ϕ−−√ϕ\sqrt{\phi}。这是一种滥用但有用的表示法,如果不加以强调,可能会给初学者造成困难。 您最喜欢的可能性的严格定义是什么? 另外你怎么骂L(θ∣x)L(θ∣x)L(\theta \mid x)?我通常会说“ 观察x时的可能性”之类的话。θθ\thetaxxx 编辑:鉴于下面的一些评论,我意识到我应该弄清楚上下文。我考虑一个参数的家庭给一个统计模型{f(⋅∣θ),θ∈Θ}{f(⋅∣θ),θ∈Θ}\{f(\cdot \mid \theta), \theta \in \Theta\}密度相对于一些占主导地位的措施,每个f(⋅∣θ)f(⋅∣θ)f(\cdot \mid \theta)对观测的空间定义XX{\cal X}。因此我们定义L(θ∣x)=f(x∣θ)L(θ∣x)=f(x∣θ)L(\theta \mid x)=f(x \mid \theta),问题是“什么是LLL ?”(问题不是关于可能性的一般定义)

1
如何通过逻辑回归计算拟合值的标准误差?
当您从逻辑回归模型预测拟合值时,如何计算标准误差?我的意思是拟合值,而不是系数(涉及Fishers信息矩阵)。 我只发现了如何获得与数字R(例如,这里的R-帮助,或在这里对堆栈溢出),但我找不到公式。 pred <- predict(y.glm, newdata= something, se.fit=TRUE) 如果您可以提供在线资源(最好是在大学网站上),那就太好了。


1
截断分布的最大似然估计
考虑从随机变量获得的独立样本,假定该随机变量遵循已知(有限)最小值和最大值和的截断分布(例如,截断的正态分布),但是参数和未知。如果遵循非截短的分布中,最大似然估计和为和从将样本均值NNNSSSXXXaaabbbμμ\muσ2σ2\sigma^2XXXμˆμ^\widehat\muσˆ2σ^2\widehat\sigma^2μμ\muσ2σ2\sigma^2SSSμˆ=1N∑iSiμ^=1N∑iSi\widehat\mu = \frac{1}{N} \sum_i S_i和样本方差。但是,对于截断的分布,以这种方式定义的样本方差以为界,因此它并不总是一致的估计量:对于,它不可能收敛到当达到无穷大时,。因此,对于,和似乎不是和的最大似然估计。当然,这是可以预期的,因为和σˆ2=1N∑i(Si−μˆ)2σ^2=1N∑i(Si−μ^)2\widehat\sigma^2 = \frac{1}{N} \sum_i (S_i - \widehat\mu)^2(b−a)2(b−a)2(b-a)^2σ2>(b−a)2σ2>(b−a)2\sigma^2 > (b-a)^2σ2σ2\sigma^2NNNμˆμ^\widehat\muσˆ2σ^2\widehat\sigma^2μμ\muσ2σ2\sigma^2μμ\muσ2σ2\sigma^2 截断正态分布的参数不是其均值和方差。 那么,已知最小值和最大值的截断分布的和参数的最大似然估计是多少?μμ\muσσ\sigma

3
高斯比分布:包含
我正在使用两个独立的正态分布和,均值和以及方差和。XXXÿÿYμXμX\mu_xμÿμÿ\mu_yσ2XσX2\sigma^2_xσ2ÿσÿ2\sigma^2_y 我对它们的比率的分布感兴趣。和的均值都不为零,因此不作为柯西分布。ž= X/ Yž=X/ÿZ=X/YXXXÿÿYžžZ 我需要找到的CDF ,然后对,,和取CDF的导数。žžZμXμX\mu_xμÿμÿ\mu_yσ2XσX2\sigma^2_xσ2ÿσÿ2\sigma^2_y 有人知道已经在哪里计算过的论文吗?还是我自己怎么做? 我在1969年的一篇论文中找到了CDF的公式,但是采用这些导数无疑将是一个巨大的痛苦。也许有人已经做到了,或者知道如何轻松做到这一点?我主要需要了解这些衍生物的迹象。 如果主要为正,则本文还包含解析上更简单的近似值。我不能有那个限制。但是,即使在参数范围之外,近似值也可能具有与真实导数相同的符号?ÿÿY

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.