Questions tagged «mathematical-statistics»

统计的数学理论,涉及形式定义和一般结果。

2
随机变量和随机样本有什么区别?
当我学习统计学时,这两个表达使我很困惑。在我看来,它们是完全不同的东西。 甲随机样本是从群体中随机取一个样品,而随机变量是这样一组的实验的所有可能结果的映射到实数的函数。 但是,假设我画了一些样本,,和,其中和未知,那么,,随机样本还是随机变量?X1X1X_1X2X2X_2X3X3X_3Xi∼N(μ,σ2)Xi∼N(μ,σ2)X_i \sim N(\mu,\sigma^2)μμ\muσσ\sigmaX1X1X_1X2X2X_2X3X3X_3


3
伯努利试验中估计“成功”可能性所需的样本量
假设一个游戏提供了一个事件,该事件在完成时要么给出奖励,要么什么都不给出。确定是否给出奖励的确切机制尚不清楚,但我假设使用了随机数生成器,并且如果结果大于某个硬编码值,则可以获得奖励。 如果我想对工程师进行什么逆向工程以决定奖励的获得频率(估计为15%至30%),我该如何计算所需的样本数量? 我从这里的“真实概率估计器”部分开始:Checking_whether_a_coin_is_fair,但不确定我是否正朝正确的道路前进。我得到了〜1000个样本的结果,在95%置信度下最大误差为3%。 最终,这是我要解决的问题: 事件#1的X%给予奖励1.0R 事件#2的奖励率为1.4R,有%的时间 我想足够准确地估算X和Y,以确定哪个事件更有效。大样本量是一个问题,因为我最多每20分钟只能获取1个样本。

2
对分布均值的瞬间有直觉吗?
有人可以提供一个直觉来解释为什么概率分布的较高矩(如第三和第四矩)分别对应于偏度和峰度吗?具体来说,为什么对三次方或三次方的均值方差最终转化为偏度和峰度的量度?有没有办法将此与函数的三阶或四阶导数联系起来?pXpXp_X 考虑偏度和峰度的以下定义: Skewness(X)=E[(X−μX)3]/σ3,Kurtosis(X)=E[(X−μX)4]/σ4.Skewness(X)=E[(X−μX)3]/σ3,Kurtosis(X)=E[(X−μX)4]/σ4.\begin{matrix} \text{Skewness}(X) = \mathbb{E}[(X - \mu_{X})^3] / \sigma^3, \\[6pt] \text{Kurtosis}(X) = \mathbb{E}[(X - \mu_{X})^4] / \sigma^4. \\[6pt] \end{matrix} 在这些方程式中,我们将归一化值提升至幂,并采用其期望值。我不清楚为什么将标准化随机变量提高到4的幂会产生“峰值”,或者为什么将标准化随机变量提高到3的幂会带来“偏斜”。这似乎是神奇而神秘的!(X−μ)/σ(X−μ)/σ(X-\mu)/\sigma

3
图书初学者关于概率分布的建议
我正在学习机器学习,打开的每一本书都碰到卡方分布,伽马函数,t分布,高斯分布等。 到目前为止,我读过的每一本书都只定义了分布:它们并不能解释或给出函数的特定公式从何而来的直觉。 例如,为什么卡方分布是这样?什么是t分布?发行背后的直觉是什么?证明?等等 我想对最常用的分布有一个清晰而基本的了解,以便以后每次看到它们时,我都能真正理解什么是t分布,什么是高斯分布,最重要的是为什么它们如此他们是。 如果书籍/教程可以向外行解释这些概念,这样您就不必了解它们就可以了。x)许多书籍都是这样的,它们不适合初学者:(

3
统计:Alpha和Beta之间的关系
我的问题与alpha和beta及其在统计中的定义之间的关系有关。 alpha = I型错误率=考虑到NULL假设正确的显着性水平 Beta = II型错误率 如果alpha降低(特异性随着alpha = 1特异性而增加),则beta增加(灵敏度/功效随着beta = 1-灵敏度/功效而降低) alpha的变化如何影响beta? 是否存在线性关系?α/β之比是否始终相同,换句话说,特异性/敏感性之比始终相同?如果是,则意味着通过使用Bonferroni校正,我们只是转移到较低的敏感性和较高的特异性,而没有改变敏感性/特异性比。这样说正确吗? 更新(针对案例的问题): 对于给定的实验设计,我们对数据运行5个线性模型。我们的True阳性率(灵敏度/功效)为0.8,True阴性率(特异性)为0.7。(让我们想象一下,我们知道什么应该是积极的,什么不应该。)。如果现在使用Bonferroni将显着性水平校正为0.05 / 5 = 0.01。我们是否可以通过数值估算得出的真正率(灵敏度/功率)和真负率(特异性)? 非常感谢你的帮助。

5
XXX和YYY独立地分布的随机变量,其中X∼χ2(n−1)X∼χ(n−1)2X\sim\chi^2_{(n-1)}和Y∼Beta(n2−1,n2−1)Y∼Beta(n2−1,n2−1)Y\sim\text{Beta}\left(\frac{n}{2}-1,\frac{n}{2}-1\right)。Z=(2Y−1)√的分布是什么Z=(2Y−1)X−−√Z=(2Y−1)XZ=(2Y-1)\sqrt X? 联合密度(X,Y)(X,Y)(X,Y)由下式给出 fX,Y(x,y)=fX(x)fY(y)=e−x2xn−12−12n−12Γ(n−12)⋅yn2−2(1−y)n2−2B(n2−1,n2−1)1{x&gt;0,0&lt;y&lt;1}fX,Y(x,y)=fX(x)fY(y)=e−x2xn−12−12n−12Γ(n−12)⋅yn2−2(1−y)n2−2B(n2−1,n2−1)1{x&gt;0,0&lt;y&lt;1}f_{X,Y}(x,y)=f_X(x)f_Y(y)=\frac{e^{-\frac{x}{2}}x^{\frac{n-1}{2}-1}}{2^{\frac{n-1}{2}}\Gamma\left(\frac{n-1}{2}\right)}\cdot\frac{y^{\frac{n}{2}-2}(1-y)^{\frac{n}{2}-2}}{B\left(\frac{n}{2}-1,\frac{n}{2}-1\right)}\mathbf1_{\{x>0\,,\,00\,,\,|z|<w\}} 的边缘PDF 是然后 ˚F Ž(ż )= &Integral; ∞ | z | f Z ,W(z ,w )ZZZ,它不会带我到任何地方。fZ(z)=∫∞|z|fZ,W(z,w)dwfZ(z)=∫|z|∞fZ,W(z,w)dwf_Z(z)=\displaystyle\int_{|z|}^\infty f_{Z,W}(z,w)\,\mathrm{d}w 同样,在找到的分布函数时,出现了不完整的beta /γ函数:ZZZ FZ(z)=Pr(Z≤z)FZ(z)=Pr(Z≤z)F_Z(z)=\Pr(Z\le z) =Pr((2Y−1)X−−√≤z)=∬(2y−1)x√≤zfX,Y(x,y)dxdy=Pr((2Y−1)X≤z)=∬(2y−1)x≤zfX,Y(x,y)dxdy\quad\qquad=\Pr((2Y-1)\sqrt X\le z)=\displaystyle\iint_{(2y-1)\sqrt{x}\le z}f_{X,Y}(x,y)\,\mathrm{d}x\,\mathrm{d}y 这里变量的适当变化是什么?还有另一种方法可以找到的分布吗?ZZZ 我尝试使用Chi-Squared,Beta,“ F”和“ t”分布之间的不同关系,但似乎无济于事。也许我缺少明显的东西。 如@Francis所述,此转换是Box-Müller转换的概括。

1
证明马氏距离与杠杆之间的关系?
我在维基百科上看到过公式。与马氏距离和杠杆有关: 马氏距离与杠杆统计Hhh密切相关,但具有不同的标度:d2= (N− 1 )(h − 1ñ)。D2=(N−1)(h−1N).D^2 = (N - 1)(h - \tfrac{1}{N}). 在链接的文章中,维基百科用以下术语描述了Hhh: 在该线性回归模型,用于杠杆得分一世Ť ^ hithi^{th}数据单位被定义为:H我我= (高)我我,hii=(H)ii,h_{ii}=(H)_{ii},在一世Ť ^ hithi^{th}帽子矩阵的对角元素H= X(X⊤X)− 1X⊤H=X(X⊤X)−1X⊤H=X(X^{\top}X)^{-1}X^{\top},其中⊤表示矩阵转置。⊤⊤^{\top} 我在任何地方都找不到证明。我试图从定义开始,但是没有任何进展。任何人都可以给出提示吗?

2
当是概率密度函数时如何找到?
我该如何解决?我需要中间方程式。也许答案是。−tf(x)−tf(x)-tf(x) ddt[∫∞txf(x)dx]ddt[∫t∞xf(x)dx] \frac{d}{dt} \left [\int_t^\infty xf(x)\,dx \right ] f(x)f(x)f(x)是概率密度函数。 也就是说,和\ lim \ limits_ {x \ to \ infty} F(x)= 1limx→∞f(x)=0limx→∞f(x)=0\lim\limits_{x \to \infty} f(x) = 0limx→∞F(x)=1limx→∞F(x)=1\lim\limits_{x \to \infty} F(x) = 1 来源:http: //www.actuaries.jp/lib/collection/books/H22/H22A.pdf第40页 尝试下面的中间方程式: ddt[∫∞txf(x)dx]=ddt[[xF(x)]∞t−∫∞tF(x)dx]??ddt[∫t∞xf(x)dx]=ddt[[xF(x)]t∞−∫t∞F(x)dx]?? \frac{d}{dt} \left [\int_t^\infty xf(x)\,dx \right ] = \frac{d}{dt} \left [\left [xF(x) \right ]_t^\infty - \int_t^\infty F(x)\,dx …

4
多大比例的独立分布给出正态分布?
两个独立正态分布的比率给出柯西分布。t分布是正态分布除以独立的卡方分布。两个独立的卡方分布的比率给出F分布。 我正在寻找独立连续分布的比率,该比率给出均值和方差正态分布随机变量?σ 2μμ\muσ2σ2\sigma^2 可能有无限可能的答案。您能给我一些可能的答案吗?如果要计算比率的两个独立分布相同或至少具有相似的方差,我将特别感激。

3
使用
简介:是否有任何统计理论支持使用(自由度基于残差)进行逻辑回归系数检验,而不是标准正态分布检验?Ťtt 不久前,我发现在SAS PROC GLIMMIX中拟合逻辑回归模型时,在默认设置下,将使用分布而不是标准正态分布来测试逻辑回归系数。1即,GLIMMIX报告与所述比率的柱β 1 / √Ťtt1个1^1(我将称之为Ž在这一问题的其余部分),但也报道了“自由度”一栏,以及一个p基于假设-值吨分发ž与自由度基于剩余偏差-即自由度=观测总数减去参数数目。在此问题的底部,我提供了一些R和SAS代码和输出以进行演示和比较。2β^1个/ var (β^1个)------√β^1/var(β^1)\hat{\beta}_1/\sqrt{\text{var}(\hat{\beta}_1)}žzzpppŤttzzz22^2 这让我感到困惑,因为我认为对于逻辑回归等广义线性模型,在这种情况下没有统计理论支持的使用。相反,我以为我们对此案了解的是ttt 是“近似”正态分布的;zzz 对于小样本量,这种近似值可能会很差; 但是,不能像我们在正态回归的情况下那样假设具有t分布。zzzttt 现在,在直觉上,对我来说似乎合理的是,如果近似正态分布,则实际上它可能具有某种基本呈“ t状”的分布,即使它不完全是t。因此,在这里使用t分布似乎并不疯狂。但是我想知道的是以下几点:zzzttttttttt 实际上是否有统计理论表明在逻辑回归和/或其他广义线性模型的情况下确实遵循t分布?zzzttt 如果没有这样的理论,那么至少有论文表明以这种方式假设分布与假设正态分布一样好甚至更好。ttt 更笼统地说,除了直觉上基本上是明智的直觉之外,对GLIMMIX在这里所做的事情是否有任何实际的支持? R代码: summary(glm(y ~ x, data=dat, family=binomial)) R输出: Call: glm(formula = y ~ x, family = binomial, data = dat) Deviance Residuals: Min 1Q Median 3Q Max -1.352 -1.243 1.025 1.068 1.156 Coefficients: …

1
调和混合模型的符号
我熟悉以下符号: 其中β0Ĵ=β0+üĴ,和ÿ我Ĵ=β0+ β一世X我Ĵ+你Ĵ+ e我Ĵ= β0 Ĵ+ β一世X我Ĵ+ e我Ĵyij=β0+βixij+uj+eij=β0j+βixij+eij\begin{align} y_{ij} &= \beta_0 + \beta_i x_{ij} + u_j + e_{ij}\\ &= \beta_{0j} + \beta_i x_{ij} + e_{ij} \end{align}β0 Ĵ= β0+你Ĵβ0j=β0+uj\beta_{0j}=\beta_{0}+u_j 其中β0Ĵ=β0+ü0Ĵ和β1Ĵ=β1+ù1Ĵÿ我Ĵ=β0+ β1个X我Ĵ+ 你0 Ĵ+ 你1 ĴX我Ĵ+ e我Ĵ= β0 Ĵ+ β1 ĴX我Ĵ+ e我Ĵyij=β0+β1xij+u0j+u1jxij+eij=β0j+β1jxij+eij\begin{align} y_{ij} &= \beta_0 + \beta_1 x_{ij} + u_{0j} + u_{1j} …

6
健壮的(非参数)度量,例如变异系数— IQR /中位数,还是替代方法?
对于给定的一组数据,通常将扩散作为标准偏差或IQR(四分位数间距)进行计算。 尽管a standard deviation是归一化的(z得分等),因此可以用来比较两个不同总体的传播,但IQR情况并非如此,因为来自两个不同总体的样本可能具有两个完全不同的尺度值, e.g. Pop A: 100, 67, 89, 75, 120, ... Pop B: 19, 22, 43, 8, 12, ... 我需要的是一种可靠的(非参数)度量,可以用来比较不同总体中的差异。 选择1: IQR / Median-类似于变异系数,即。σμσμ \frac{\sigma}{\mu} 选择2: Range / IQR 问题:比较人群之间的差异,哪种方法更有意义?如果选择1是选择2是否对任何事情都有意义/有意义,还是从根本上存在缺陷的措施?


1
在可能简单到具有解析形式的情况下,找出后验分布的步骤?
计算科学也曾问过这个问题。 我试图计算一些系数的自回归的贝叶斯估计,11个的数据样本: 其中 ε 我是高斯均值为0,方差 σ 2 ë 于载体上的先验分布(μ ,α )吨是高斯均值(0 ,0 ),并与对角项等于一个对角协方差矩阵到 σ 2 pYi=μ+α⋅Yi−1+ϵiYi=μ+α⋅Yi−1+ϵi Y_{i} = \mu + \alpha\cdot{}Y_{i-1} + \epsilon_{i} ϵiϵi\epsilon_{i}σ2eσe2\sigma_{e}^{2}(μ,α)t(μ,α)t(\mu, \alpha)^{t}(0,0)(0,0)(0,0)σ2pσp2\sigma_{p}^{2}。 基于自回归式,这意味着,数据点(分布)是正常的均值μ + α &CenterDot;&YiYiY_{i}和方差 σ 2 ë。因此,所有数据点(Y )的密度共同(假设独立性,这对我正在编写的程序很好)将为: p (Yμ+α⋅Yi−1μ+α⋅Yi−1\mu + \alpha\cdot{}Y_{i-1}σ2eσe2\sigma_{e}^{2}(Y)(Y)(Y)p(Y|(μ,α)t)=∏i=21112πσ2e−−−−√exp−(Yi−μ−α⋅Yi−1)22σ2e.p(Y|(μ,α)t)=∏i=21112πσe2exp⁡−(Yi−μ−α⋅Yi−1)22σe2. p(Y \quad | (\mu, \alpha)^{t}) = \prod_{i=2}^{11}\frac{1}{\sqrt{2\pi\sigma_{e}^{2}}}\exp{\frac{-(Y_{i} - \mu - \alpha\cdot{}Y_{i-1})^{2}}{2\sigma_{e}^{2}}}. 根据贝叶斯定理,我们可以将上述密度与先验密度相乘,然后只需要归一化常数即可。我的直觉是,这应该算是高斯分布,因此我们可以担心最后的归一化常数,而不用用和α上的积分来显式地计算它。μμ\muαα\alpha 这是我遇到的麻烦。如何计算先验密度(即多元变量)与单变量数据密度乘积的乘积?后验纯粹是和α的密度,但是我看不到如何从这样的乘积中得到。μμ\muαα\alpha …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.