Questions tagged «inference»

从样本数据得出有关种群参数的结论。参见https://en.wikipedia.org/wiki/Inference和https://en.wikipedia.org/wiki/Statistical_inference

2
单位为高斯的KL损失
我一直在执行VAE,并且在网上注意到简化的单变量高斯KL散度的两种不同实现。原始发散按照这里是 如果我们假设我们事先是单位高斯即μ2=0和σ2=1,这简化向下 ķ大号升ö小号小号=-日志(σ1)+σ 2 1 +μ 2 1ķ大号升Ø 小号小号= 日志(σ2σ1个)+ σ21个+ (μ1个- μ2)22个σ22− 12KLloss=log⁡(σ2σ1)+σ12+(μ1−μ2)22σ22−12 KL_{loss}=\log(\frac{\sigma_2}{\sigma_1})+\frac{\sigma_1^2+(\mu_1-\mu_2)^2}{2\sigma^2_2}-\frac{1}{2} μ2= 0μ2=0\mu_2=0σ2= 1σ2=1\sigma_2=1 这就是我的困惑所在。尽管我发现上述实现有一些晦涩的github仓库,但我更常用的是:ķ大号升Ø 小号小号= - 日志(σ1个)+ σ21个+ μ21个2− 12KLloss=−log⁡(σ1)+σ12+μ122−12 KL_{loss}=-\log(\sigma_1)+\frac{\sigma_1^2+\mu_1^2}{2}-\frac{1}{2} ķ大号升Ø 小号小号= - 12(2 日志(σ1个)- σ21个- μ21个+ 1 )KLloss=−12(2log⁡(σ1)−σ12−μ12+1) KL_{loss}=-\frac{1}{2}(2\log(\sigma_1)-\sigma_1^2-\mu_1^2+1) = - 12(日志(σ1个)- σ1个- μ21个+ 1 )=−12(log⁡(σ1)−σ1−μ12+1) =-\frac{1}{2}(\log(\sigma_1)-\sigma_1-\mu^2_1+1) 例如在官方Keras自动编码器教程中。我的问题是,这两者之间我想念什么?主要区别是在对数项上降低因子2,而不是对方差求平方。从分析上讲,我成功地使用了后者,以获取其价值。在此先感谢您的帮助!


1
足够或不足
考虑一个随机样本 {X1,X2,X3}{X1,X2,X3}\{X_1,X_2,X_3\} 哪里 XiXiX_i 是我 Bernoulli(p)Bernoulli(p)Bernoulli(p) 随机变量 p∈(0,1)p∈(0,1)p\in(0,1)。检查是否 T(X)=X1+2X2+X3T(X)=X1+2X2+X3T(X)=X_1+2X_2+X_3 是足够的统计 ppp。 首先,我们如何找到 (X1+2X2+X3)(X1+2X2+X3)(X_1+2X_2+X_3)?还是应该分解为X1+X2+X2+X3X1+X2+X2+X3X_1+X_2+X_2+X_3 然后这将跟随 乙我Ñ (4 ,p )Bin(4,p)Bin(4,p)?我认为不是因为要注意所有变量在这里不是独立的。 或者,如果我只考虑因式的联合pmf而采用因式分解条件 (X1个,X2,X3)(X1,X2,X3)(X_1,X_2,X_3) 然后 F(X1个,X2,X3)=pX1个+X2+X3(1 − p)3 - (X1个+X2+X3)= [pt (x )(1 − p)3 − t (x )]p-X2(1 − p)X2f(X1,X2,X3)=px1+x2+x3(1−p)3−(x1+x2+x3)=[pt(x)(1−p)3−t(x)]p−x2(1−p)x2f(X_1,X_2,X_3)=p^{x_1+x_2+x_3}(1-p)^{3-(x_1+x_2+x_3)}=[p^{t(x)}(1-p)^{3-t(x)}]p^{-x_2}(1-p)^{x_2} 哪里 t (x )=X1个+ 2X2+X3t(x)=x1+2x2+x3t(x)=x_1+2x_2+x_3。 这表明 ŤTT 还不够。 但是,如果我想遵循定义并想应用该怎么办 F(X| p)G(T(X)| p )f(X|p)g(T(X)|p)\dfrac{f(X|p)}{g(T(X)|p)} …

3
多次测量某些患者
我正在进行一项临床研究,以确定患者的人体测量指标。我知道如何处理每个患者只有一个指标的情况:建立模型并随机抽样X1,…,XñX1个,…,XñX_1,\dots,X_n 从某种密度 FθFθf_\theta,然后我做平常的工作:写出样本的可能性,估计参数,确定置信度集并检验假设,甚至在老板不注意的情况下进行一些贝叶斯分析。;-) 我的问题是,对于某些患者,我们有不止一种措施,因为我们认为,在可能的情况下,由多名研究人员来操纵测量设备是一个好主意(有时我们只有一名研究人员在诊所工作) )。因此,对于某些患者,我们由一名研究人员进行一项测量,对于其他样本单位,我们由两名不同研究人员进行两项测量,依此类推。所讨论的度量是特定皮肤褶皱的厚度。 我的问题:哪种统计模型足以解决我的问题?
10 inference 

1
在同一个数据集上运行两个线性模型是否可以接受?
对于具有多个组(先验定义的自然组)的线性回归,是否可以在同一数据集上运行两个不同的模型来回答以下两个问题? 每个组是否具有非零的斜率和非零的截距,并且组回归中每个参数的参数是什么? 无论组成员身份如何,是否存在非零趋势和非零截距,并且跨组回归的参数有哪些? 在R中,第一个模型为lm(y ~ group + x:group - 1),因此估计的系数可以直接解释为每个组的截距和斜率lm(y ~ x + 1)。 备选方案将是lm(y ~ x + group + x:group + 1),这将导致复杂的系数汇总表,并且必须根据组中的斜率和截距来计算系数和截距,而斜率和截距必须来自某个参考。另外,您还必须重新排序组并再次运行模型,以获取最后一个组差异的p值(有时)。 这是否使用两个单独的模型以任何方式或这种标准惯例对推理产生了负面影响? 为了说明这一点,将x表示为药物剂量,将各组视为不同的种族。了解特定种族的医生的剂量反应关系可能很有趣,或者根本不知道药物对哪个种族起作用,但是有时了解整个(人类)人群的剂量反应关系也可能很有趣。不管竞选公共卫生官员。这只是一个例子,说明人们可能对组内和组间回归分别感兴趣。剂量反应关系是否应为线性并不重要。

13
如果“ B更有可能给定A”,那么“ A更有可能给定B”
我试图获得更清晰的直觉:“如果使更有可能,那么使更有可能”一个AA乙BB乙BB一个AA 令表示和所在的空间的大小,然后Ñ (小号)n(S)n(S)一个AA乙BB 要求:使得P(B|A)>P(B)P(B|A)>P(B)P(B|A)>P(B)n(AB)/n(A)>n(B)/n(S)n(AB)/n(A)>n(B)/n(S)n(AB)/n(A) > n(B)/n(S) 所以n(AB)/n(B)>n(A)/n(S)n(AB)/n(B)>n(A)/n(S)n(AB)/n(B) > n(A)/n(S) 这是P(A|B)>P(一)P(A|B)>P(A)P(A|B)>P(A) 我理解数学,但是为什么这很直观?

1
检查硬币是否公平
一位朋友问我以下问题。我不能帮她,但我希望有人可以向我解释。我找不到类似的示例。感谢您的帮助和解释。 问:100次抛硬币实验的结果记录为0 =“ Tail”和1 =“ Head”。输出x是0的字符串,长度为100的1。计算x中得到1-0-0的次数,它是20(例如:如果x =(001001110100),1-0-0发生2次)。您认为这是一个公平的硬币吗?

2
我们能否拒绝通过抽样产生置信区间的零假设而不是零假设?
我被教导,我们可以从总体中采样后以置信区间的形式生成参数估计。例如,在没有违背假设的情况下,95%的置信区间应具有95%的成功率,其中包含我们估计的总体中真实参数是什么。 即 从样本产生点估计。 产生一个范围内的值,理论上有95%的机会包含我们尝试估计的真实值。 但是,当主题变为假设检验时,步骤描述如下: 假设某个参数为原假设。 给定该原假设,则得出获得各种点估计值的可能性的概率分布。 如果原假设为真,则如果我们得到的点估计的产生时间少于5%,则拒绝原假设。 我的问题是这样的: 为了拒绝零值,是否有必要使用零值假设来产生我们的置信区间?为什么不只是执行第一个过程并获得我们对真实参数的估计(在计算置信区间时未明确使用我们的假设值),然后拒绝零假设(如果它不在此区间内)? 从逻辑上讲,从直觉上看,这在逻辑上等效于我,但是我担心我错过了一些非常基本的东西,因为可能有这样一种教导。

2
多次碰撞的反向生日问题
假设您有一个外星年,其长度N未知。如果您随机抽样所述外星人,并且其中一些人共同生日,您是否可以使用此数据来估算该年的长短? 例如,在100个样本中,您可能有两个三胞胎(即每个生日由三个外星人共享)和五个对和八十四个单身人士。在估算N时,绝对最小值是91,最大值是无界的,但是我如何找到一个合理的期望值? 假设包括“所有生日都有同等可能性”之类的事情。 与这里回答的另一个问题不同,房间中存在已知的碰撞。任何足够长的一年对于一个外星人房间都极有可能不会发生碰撞。但是很长的年份发生任何碰撞的几率较低,而短几年的发生几次碰撞的几率较低,因此为最可能的年份长度提供了一个(理论上的)范围。

2
模型错误指定下的统计推断
我有一个一般的方法论问题。之前可能已经回答过,但是我无法找到相关的线程。我将感谢可能重复的指针。 (这是一个很好的答案,但是没有答案。即使在回答时,这在精神上也很相似,但是从我的角度来看,后者太具体了。这也很贴切,在发布问题后才发现。) 主题是,当看到数据之前制定的模型未能充分描述数据生成过程时,如何进行有效的统计推断。这个问题很笼统,但是我将提供一个特定的例子来说明这一点。但是,我希望答案会集中在一般的方法论问题上,而不是挑剔特定示例的细节。 考虑一个具体的示例:在时间序列设置中,我假设数据生成过程为 其中。我的目标是检验的主题假设。我根据模型以获得与我的主题假设相对应的可行的统计对应关系,即 到目前为止,一切都很好。但是,当我观察数据时,我发现该模型无法充分描述数据。假设存在线性趋势,因此真实数据生成过程为 其中yt=β0+β1xt+ut(1)(1)yt=β0+β1xt+ut y_t=\beta_0 + \beta_1 x_t+u_t \tag{1} ut∼i.i.N(0,σ2u)ut∼i.i.N(0,σu2)u_t \sim i.i.N(0,\sigma_u^2)dydx=1dydx=1\frac{dy}{dx}=1(1)(1)(1)H0: β1=1.H0: β1=1. H_0\colon \ \beta_1=1. yt=γ0+γ1xt+γ2t+vt(2)(2)yt=γ0+γ1xt+γ2t+vt y_t=\gamma_0 + \gamma_1 x_t+\gamma_2 t + v_t \tag{2} vt∼i.i.N(0,σ2v)vt∼i.i.N(0,σv2)v_t \sim i.i.N(0,\sigma_v^2)。 如何对主题假设进行有效的统计推断?dydx=1dydx=1\frac{dy}{dx}=1 如果我使用原始模型,则会违反其假设,并且的估计量不会具有否则会好的分布。因此,我无法使用检验检验假设。β1β1\beta_1ttt 如果查看数据后,我从模型切换到,并将我的统计假设从更改为,则满足模型假设,我得到一个表现良好的估计量,并且可以使用轻松测试。 但是,从切换到(1)(1)(1)(2)(2)(2)H0: β1=1H0: β1=1H_0\colon \ \beta_1=1H′0: γ1=1H0′: γ1=1H'_0\colon \ \gamma_1=1γ1γ1\gamma_1H′0H0′H'_0ttt(1)(1)(1)(2)(2)(2)可以从我要检验假设的数据集中获悉。这使得估算器分布(以及推断也)取决于基础模型的变化,这是由于观察到的数据所致。显然,引入这种条件并不令人满意。 有没有好的出路?(如果不是常客,那么也许是一些贝叶斯替代方法?)

1
贝叶斯统计如何估算参数的示例,这些参数很难通过惯常方法进行估算
贝叶斯统计学家坚持认为“贝叶斯统计可以估算出参数,而这些参数很难通过惯常方法来估算”。从SAS文档中引用的以下内容是否表示同一件事? 它提供了以数据为条件且准确的推断,而无需依赖渐近逼近。小样本推论以与大样本一样的方式进行。贝叶斯分析还可以直接估计参数的任何功能,而无需使用“插入”方法(一种通过将估计的参数插入功能中来估计功能的方法)。 我在某些教科书中看到过类似的陈述,但不记得在哪里。有人可以举例说明吗?

1
贝叶斯在线变更点检测(边际预测分布)
我正在阅读Adams和MacKay 的贝叶斯在线变更点检测论文(链接)。 作者从写边际预测分布开始: 其中P(xt+1|x1:t)=∑rtP(xt+1|rt,x(r)t)P(rt|x1:t)(1)P(xt+1|x1:t)=∑rtP(xt+1|rt,xt(r))P(rt|x1:t)(1) P(x_{t+1} | \textbf{x}_{1:t}) = \sum_{r_t} P(x_{t+1} | r_t, \textbf{x}_t^{(r)}) P(r_t | \textbf{x}_{1:t}) \qquad \qquad (1) xtxtx_t是在时间的观测;ttt x1:tx1:t\textbf{x}_{1:t}表示直到时间的观测;ttt rt∈Nrt∈Nr_t \in \mathbb{N}是当前游程长度(自上一个更改点以来的时间,可以为0);和 x(r)txt(r)\textbf{x}_t^{(r)}是与运行相关的观察值集合。rtrtr_t 等式 1在形式上是正确的(请参阅下面@JuhoKokkala的回复),但是我的理解是,如果您想对进行实际预测,则需要将其扩展如下:xt+1xt+1x_{t+1} P(xt+1|x1:t)=∑rt,rt+1P(xt+1|rt+1,x(r)t)P(rt|x1:t)P(rt+1|rt)(1b)P(xt+1|x1:t)=∑rt,rt+1P(xt+1|rt+1,xt(r))P(rt|x1:t)P(rt+1|rt)(1b) P(x_{t+1} | \textbf{x}_{1:t}) = \sum_{r_t, r_{t+1}} P(x_{t+1} | r_{t+1}, \textbf{x}_t^{(r)}) P(r_t | \textbf{x}_{1:t}) P(r_{t+1} | r_t) \qquad (1\text{b}) 我的理由是,(未来)时间t + 1可能会有一个变化点t+1t+1t+1,但后验P(rt|x1:t)P(rt|x1:t)P(r_t | …

1
对回归变量进行条件处理与将其视为固定条件有什么区别?
有时我们假设回归变量是固定的,即它们是非随机的。我认为这意味着我们所有的预测变量,参数估计等都是无条件的,对吧?我什至可能已经不再是随机变量了吗? 另一方面,如果我们接受经济学家所说的大多数回归变量是随机的,因为没有外界的力量在进行某种实验的基础上就决定了它们。然后,计量经济学家会根据这些随机回归变量进行调整。 这与将它们视为固定的有何不同? 我了解什么是调节。从数学上讲,这意味着我们将所有观察和推论都以该组特定的回归器为条件,并且没有雄心勃勃地说,如果我们看到回归器的实现不同,则推论,参数估计,方差估计等将是相同的。时间序列的症结所在,每个时间序列只能看到一次)。 但是,要真正掌握固定回归变量与随机回归变量的条件之间的区别,我想知道这里是否有人知道一个对固定回归变量有效但在随机回归时会分解的估计或推断过程的示例视情况而定)。 我期待看到这些示例!

1
观测到的费舍尔信息
从Y. Pawitan的“在所有可能性中:使用可能性进行统计建模和推断”中,重新参数化的可能性被定义为 使得如果g是一对一,则L ^ *(\ psi)= L(g ^ {-1} (\ psi))(第45页)。我试图显示练习2.20,其中指出如果\ theta是标量(并且我假设g也应该是标量函数),则 I ^ *(g(\ hat {\ theta}))= I( \ hat {\ theta})\ left | \ frac {\ partial g(\ hat {\ theta})} {\ partial \ hat {\ theta}} \ right | ^ {-2}, 其中 I(\ theta) =-\ frac {\ …

4
(交互)MCMC用于多模式后路
我正在尝试使用MCMC从具有多种模式的后验样本中进行采样,这些模式之间的距离特别远。看起来在大多数情况下,这些模式中只有一种包含我要寻找的95%hpd。我试图实现基于回火模拟的解决方案,但这不能提供令人满意的结果,因为在实践中,从一种“捕获范围”到另一种“捕获范围”是昂贵的。 因此,在我看来,更有效的解决方案是从不同的起点运行许多简单的MCMC,并通过使MCMC相互交互而进入主导解决方案。您知道是否有实施此想法的适当方法? 注意:我发现http://lccc.eecs.berkeley.edu/Papers/dmcmc_short.pdf(分布式马尔可夫链Monte Carlo,Lawrence Murray)看上去很接近我在寻找的东西,但我真的不理解设计的函数。[R一世[R一世R_i [编辑]:缺少答案似乎表明我的最初问题没有明显的解决方案(使从不同起点从相同目标分布进行采样的多个MCMC相互交互)。真的吗 ?为什么这么复杂?谢谢

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.