Questions tagged «inference»

从样本数据得出有关种群参数的结论。参见https://en.wikipedia.org/wiki/Inference和https://en.wikipedia.org/wiki/Statistical_inference


1
Neg Binomial和Jeffreys的先验
我试图获得负二项式分布的Jeffreys先验。我看不到哪里出了问题,因此,如果有人可以指出这一点,将不胜感激。 好的,情况是这样的:我要比较使用二项式和负二项式获得的先验分布,(在两种情况下)都有试验且成功了。对于二项式情况,我得到了正确的答案,但是对于否定二项式,我没有得到正确的答案。nnnmmm 我们将其称为Jeffreys的先前。然后,πJ(θ)πJ(θ)\pi_J(\theta) πJ(θ)∝[I(θ)]1/2.πJ(θ)∝[I(θ)]1/2. \pi_J(\theta)\propto [I(\theta)]^{1/2}. 在常规条件下(在我们处理指数族时已实现), I(θ)=−E(∂2logL(θ|x)∂θ2)I(θ)=−E(∂2log⁡L(θ|x)∂θ2) I(\theta)=-E\left(\frac{\partial^2 \log L(\theta|x)}{\partial \theta^2}\right) 其中,负二项式n在上面nnn是xxx表达式(成功总数mmm是固定的,nnn不是固定的)。我认为分布是 p(m|θ)∝θm(1−θ)n−mp(m|θ)∝θm(1−θ)n−m p(m|\theta)\propto\theta^m(1-\theta)^{n-m} 因为θθ\theta被定义为成功的概率,而mmm 是成功的次数。这也是可能性,因为mmm是标量而不是向量。因此, L(θ|n)∝θm(1−θ)n−mlogL(θ|n)=mlogθ+(n−m)log(1−θ)∂logL(θ|n)∂θ=mθ−n−m1−θ∂2logL(θ|n)∂θ2=−mθ2−n−m(1−θ)2L(θ|n)∝θm(1−θ)n−mlog⁡L(θ|n)=mlog⁡θ+(n−m)log⁡(1−θ)∂log⁡L(θ|n)∂θ=mθ−n−m1−θ∂2log⁡L(θ|n)∂θ2=−mθ2−n−m(1−θ)2 L(\theta|n)\propto\theta^m(1-\theta)^{n-m}\\ \log L(\theta|n)=m\log\theta +(n-m)\log (1-\theta)\\ \frac{\partial\log L(\theta|n)}{\partial \theta}=\frac{m}{\theta}-\frac{n-m}{1-\theta}\\ \frac{\partial^2\log L(\theta|n)}{\partial \theta^2}=-\frac{m}{\theta^2}-\frac{n-m}{(1-\theta)^2} 因此Fisher信息是 I(θ)=−E(∂2logL(θ|n)∂θ2)=mθ2+E(n)−m(1−θ)2=mθ2+mθ1−θ−m(1−θ)2=m(1−θ)2+mθ3(1−θ)−mθ2θ2(1−θ)2=m(1−2θ)+mθ3(1−θ)θ2(1−θ)2=m(1−2θ)(1−θ)+mθ3θ2(1−θ)3=m(1−3θ+2θ2+θ3)θ2(1−θ)3∝1−3θ+2θ2+θ3θ2(1−θ)3I(θ)=−E(∂2log⁡L(θ|n)∂θ2)=mθ2+E(n)−m(1−θ)2=mθ2+mθ1−θ−m(1−θ)2=m(1−θ)2+mθ3(1−θ)−mθ2θ2(1−θ)2=m(1−2θ)+mθ3(1−θ)θ2(1−θ)2=m(1−2θ)(1−θ)+mθ3θ2(1−θ)3=m(1−3θ+2θ2+θ3)θ2(1−θ)3∝1−3θ+2θ2+θ3θ2(1−θ)3 I(\theta)=-E\left(\frac{\partial^2\log L(\theta|n)}{\partial \theta^2}\right)=\frac{m}{\theta^2}+\frac{E(n)-m}{(1-\theta)^2}=\frac{m}{\theta^2}+\frac{\frac{m\theta}{1-\theta}-m}{(1-\theta)^2}\\ =\frac{m(1-\theta)^2+\frac{m\theta^3}{(1-\theta)}-m\theta^2}{\theta^2(1-\theta)^2}=\frac{m(1-2\theta)+\frac{m\theta^3}{(1-\theta)}}{\theta^2(1-\theta)^2}\\ =\frac{m(1-2\theta)(1-\theta)+m\theta^3}{\theta^2(1-\theta)^3}=\frac{m(1-3\theta+2\theta^2+\theta^3)}{\theta^2(1-\theta)^3}\\ \propto\frac{1-3\theta+2\theta^2+\theta^3}{\theta^2(1-\theta)^3} 但是,这不能给我正确的答案。正确答案是 πJ(θ)∝1θ(1−θ)1/2πJ(θ)∝1θ(1−θ)1/2 \pi_J(\theta)\propto \frac{1}{\theta(1-\theta)^{1/2}} ,这意味着我得到的信息应该是 I(θ)=1θ2(1−θ)I(θ)=1θ2(1−θ) I(\theta)=\frac{1}{\theta^2(1-\theta)} 因为先验应与信息的平方根成比例。 谁能发现任何错误?如果我搞砸了发行版的设置(成功与失败以及各自的概率,等等),我不会感到惊讶。 我使用了Wikipedia的期望值,并且从这里知道正确的答案(第3页)。

1
给定参考人口,估计成功的可能性
假设您有以下情况: 您随着时间的推移观察到1000名保龄球运动员,他们每个人都玩相对较少的游戏(例如1到20)。您指出了每个玩家的罢工百分比超过每个玩家所玩游戏的数量。 一个新的保龄球选手进来,打了10场比赛,得到了3次罢工。 假定任何球员的罢工次数分布为二项式。 我想估计该球员成功的“真实”概率。 请注意以下几点: 这不是现实情况,也不是学校问题,只是一个自省的问题。 我是一名学生,其统计教育水平高于Stats 101课程。我对诸如最大似然估计之类的推论有所了解...所以随时告诉我应该阅读的统计数据领域。 我的问题可能缺少信息,或者如果它对成功概率的分布大致正常是有益的,请告诉我。 非常感谢你

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 


1
上UMVUE的存在和选择的估计的在人口
让是从绘制的随机样本人口其中。(X1,X2,⋯,Xn)(X1,X2,⋯,Xn)(X_1,X_2,\cdots,X_n)N(θ,θ2)N(θ,θ2)\mathcal N(\theta,\theta^2)θ∈Rθ∈R\theta\in\mathbb R 我正在寻找的UMVUE 。θθ\theta 联合密度为(X1,X2,⋯,Xn)(X1,X2,⋯,Xn)(X_1,X_2,\cdots,X_n) fθ(x1,x2,⋯,xn)=∏i=1n1θ2π−−√exp[−12θ2(xi−θ)2]=1(θ2π−−√)nexp[−12θ2∑i=1n(xi−θ)2]=1(θ2π−−√)nexp[1θ∑i=1nxi−12θ2∑i=1nx2i−n2]=g(θ,T(x))h(x)∀(x1,⋯,xn)∈Rn,∀θ∈Rfθ(x1,x2,⋯,xn)=∏i=1n1θ2πexp⁡[−12θ2(xi−θ)2]=1(θ2π)nexp⁡[−12θ2∑i=1n(xi−θ)2]=1(θ2π)nexp⁡[1θ∑i=1nxi−12θ2∑i=1nxi2−n2]=g(θ,T(x))h(x)∀(x1,⋯,xn)∈Rn,∀θ∈R\begin{align} f_{\theta}(x_1,x_2,\cdots,x_n)&=\prod_{i=1}^n\frac{1}{\theta\sqrt{2\pi}}\exp\left[-\frac{1}{2\theta^2}(x_i-\theta)^2\right] \\&=\frac{1}{(\theta\sqrt{2\pi})^n}\exp\left[-\frac{1}{2\theta^2}\sum_{i=1}^n(x_i-\theta)^2\right] \\&=\frac{1}{(\theta\sqrt{2\pi})^n}\exp\left[\frac{1}{\theta}\sum_{i=1}^n x_i-\frac{1}{2\theta^2}\sum_{i=1}^nx_i^2-\frac{n}{2}\right] \\&=g(\theta,T(\mathbf x))h(\mathbf x)\qquad\forall\,(x_1,\cdots,x_n)\in\mathbb R^n\,,\forall\,\theta\in\mathbb R \end{align} ,其中和h(\ mathbf x)= 1。h(x)=1g(θ,T(x))=1(θ2π√)nexp[1θ∑ni=1xi−12θ2∑ni=1x2i−n2]g(θ,T(x))=1(θ2π)nexp⁡[1θ∑i=1nxi−12θ2∑i=1nxi2−n2]g(\theta, T(\mathbf x))=\frac{1}{(\theta\sqrt{2\pi})^n}\exp\left[\frac{1}{\theta}\sum_{i=1}^n x_i-\frac{1}{2\theta^2}\sum_{i=1}^nx_i^2-\frac{n}{2}\right]h(x)=1h(x)=1h(\mathbf x)=1 在这里,ggg取决于θθ\theta和x1,⋯,xnx1,⋯,xnx_1,\cdots,x_n到T(x)=(∑ni=1xi,∑ni=1x2i)T(x)=(∑i=1nxi,∑i=1nxi2)T(\mathbf x)=\left(\sum_{i=1}^nx_i,\sum_{i=1}^nx_i^2\right)并且hhh独立于θθ\theta。因此,通过Fisher-Neyman分解定理,二维统计量T(X)=(∑ni=1Xi,∑ni=1X2i)T(X)=(∑i=1nXi,∑i=1nXi2)T(\mathbf X)=\left(\sum_{i=1}^nX_i,\sum_{i=1}^nX_i^2\right)足以满足θθ\theta。 但是,TTT不是一个完整的统计信息。这是因为Ëθ⎡⎣2 (∑我= 1ñX一世)2− (n + 1 )∑我= 1ñX2一世⎤⎦= 2 n (1 + n )θ2- (Ñ + 1 )2 Ñ θ2= 0∀θEθ[2(∑i=1nXi)2−(n+1)∑i=1nXi2]=2n(1+n)θ2−(n+1)2nθ2=0∀θE_{\theta}\left[2\left(\sum_{i=1}^n X_i\right)^2-(n+1)\sum_{i=1}^nX_i^2\right]=2n(1+n)\theta^2-(n+1)2n\theta^2=0\qquad\forall\,\theta …

2
UMVUE
让(X1,X2,…,Xn)(X1,X2,…,Xn)(X_1,X_2,\ldots,X_n)是从密度的随机样本fθ(x)=θxθ−110&lt;x&lt;1,θ&gt;0fθ(x)=θxθ−110&lt;x&lt;1,θ&gt;0f_{\theta}(x)=\theta x^{\theta-1}\mathbf1_{00 我正在尝试找到θ的UMVUEθ1+θθ1+θ\frac{\theta}{1+\theta}。 (X1,…,Xn)(X1,…,Xn)(X_1,\ldots,X_n)的联合密度为 fθ(x1,⋯,xn)=θn(∏i=1nxi)θ−110&lt;x1,…,xn&lt;1=exp[(θ−1)∑i=1nlnxi+nlnθ+ln(10&lt;x1,…,xn&lt;1)],θ&gt;0fθ(x1,⋯,xn)=θn(∏i=1nxi)θ−110&lt;x1,…,xn&lt;1=exp⁡[(θ−1)∑i=1nln⁡xi+nln⁡θ+ln⁡(10&lt;x1,…,xn&lt;1)],θ&gt;0\begin{align} f_{\theta}(x_1,\cdots,x_n)&=\theta^n\left(\prod_{i=1}^n x_i\right)^{\theta-1}\mathbf1_{00 \end{align} 随着人口的PDF fθfθf_{\theta}属于单参数指数族,这表明,对于一个完整的充分统计量θθ\theta是T(X1,…,Xn)=∑i=1nlnXiT(X1,…,Xn)=∑i=1nln⁡XiT(X_1,\ldots,X_n)=\sum_{i=1}^n\ln X_i 由于E(X1)=θ1+θE(X1)=θ1+θE(X_1)=\frac{\theta}{1+\theta},首先想到E(X1∣T)E(X1∣T)E(X_1\mid T)将给我θ的UMVUEθ1+θθ1+θ\frac{\theta}{1+\theta}根据Lehmann-Scheffe定理, 1 + θ。不确定是否可以直接找到该条件期望,还是必须找到条件分布 X1∣∑ni=1lnXiX1∣∑i=1nln⁡XiX_1\mid \sum_{i=1}^n\ln X_i。 另一方面,我考虑了以下方法: 我们有Xi∼i.i.dBeta(θ,1)⟹−2θlnXi∼i.i.dχ22Xi∼i.i.dBeta(θ,1)⟹−2θln⁡Xi∼i.i.dχ22X_i\stackrel{\text{i.i.d}}{\sim}\text{Beta}(\theta,1)\implies -2\theta\ln X_i\stackrel{\text{i.i.d}}{\sim}\chi^2_2,使−2θT∼χ22n−2θT∼χ2n2-2\theta\, T\sim\chi^2_{2n}。 所以,rrr的阶原时刻−2θT−2θT-2\theta\,T大约为零,作为使用卡方PDF计算是E(−2θT)r=2rΓ(n+r)Γ(n),n+r&gt;0E(−2θT)r=2rΓ(n+r)Γ(n),n+r&gt;0E(-2\theta\,T)^r=2^r\frac{\Gamma\left(n+r\right)}{\Gamma\left(n\right)}\qquad ,\,n+r>0 因此,似乎对于rrr不同整数选择,我将获得θθ\theta的不同整数幂的无偏估计量(和UMVUE)。例如,E(−Tn)=1θE(−Tn)=1θE\left(-\frac{T}{n}\right)=\frac{1}{\theta}和E(1−nT)=θE(1−nT)=θE\left(\frac{1-n}{T}\right)=\theta直接给我1的UMVUE1θ1θ\frac{1}{\theta}和θθ\theta。 现在,当θ&gt;1θ&gt;1\theta>1我们有θ1+θ=(1+1θ)−1=1−1θ+1θ2−1θ3+⋯θ1+θ=(1+1θ)−1=1−1θ+1θ2−1θ3+⋯\frac{\theta}{1+\theta}=\left(1+\frac{1}{\theta}\right)^{-1}=1-\frac{1}{\theta}+\frac{1}{\theta^2}-\frac{1}{\theta^3}+\cdots。 我绝对可以得到1的UMVUE1θ,1θ2,1θ31θ,1θ2,1θ3\frac{1}{\theta},\frac{1}{\theta^2},\frac{1}{\theta^3}等。所以结合这些UMVUE是我能得到所需的UMVUEθ1+θθ1+θ\frac{\theta}{1+\theta}。此方法有效吗?还是我应该继续第一种方法?由于UMVUE存在时是唯一的,因此两者都应给我相同的答案。 明确地说,我得到E(1+Tn+T2n(n+1)+T3n(n+1)(n+2)+⋯)=1−1θ+1θ2−1θ3+⋯E(1+Tn+T2n(n+1)+T3n(n+1)(n+2)+⋯)=1−1θ+1θ2−1θ3+⋯E\left(1+\frac{T}{n}+\frac{T^2}{n(n+1)}+\frac{T^3}{n(n+1)(n+2)}+\cdots\right)=1-\frac{1}{\theta}+\frac{1}{\theta^2}-\frac{1}{\theta^3}+\cdots 即,E(∑r=0∞Trn(n+1)...(n+r−1))=θ1+θE(∑r=0∞Trn(n+1)...(n+r−1))=θ1+θE\left(\sum_{r=0}^\infty \frac{T^r}{n(n+1)...(n+r-1)}\right)=\frac{\theta}{1+\theta} 有没有可能是我需要的是UMVUE ∑r=0∞Trn(n+1)...(n+r−1)∑r=0∞Trn(n+1)...(n+r−1)\displaystyle\sum_{r=0}^\infty \frac{T^r}{n(n+1)...(n+r-1)}当θ&gt;1θ&gt;1\theta>1? 为0&lt;θ&lt;10&lt;θ&lt;10<\theta<1,我会得到g(θ)=θ(1+θ+θ2+⋯)g(θ)=θ(1+θ+θ2+⋯)g(\theta)=\theta(1+\theta+\theta^2+\cdots),因此将UMVUE不同。 已经确信的是,在第一种方法的条件期望值不能直接找到,因为E(X1∣∑lnXi=t)=E(X1∣∏Xi=et)E(X1∣∑ln⁡Xi=t)=E(X1∣∏Xi=et)E(X_1\mid \sum\ln X_i=t)=E(X_1\mid \prod X_i=e^t),我已经着手寻找条件分布X1∣∏XiX1∣∏XiX_1\mid \prod X_i。为此,我需要(X1,∏Xi)(X1,∏Xi)(X_1,\prod X_i)的联合密度。 我用了变数(X1,⋯,Xn)→(Y1,⋯,Yn)(X1,⋯,Xn)→(Y1,⋯,Yn)(X_1,\cdots,X_n)\to (Y_1,\cdots,Y_n)使得Yi=∏ij=1XjYi=∏j=1iXjY_i=\prod_{j=1}^i X_j所有i=1,2,⋯,ni=1,2,⋯,ni=1,2,\cdots,n。这导致关节支承的(Y1,⋯,Yn)(Y1,⋯,Yn)(Y_1,\cdots,Y_n)是S={(y1,⋯,yn):0&lt;y1&lt;1,0&lt;yj&lt;yj−1 for j=2,3,⋯,n}S={(y1,⋯,yn):0&lt;y1&lt;1,0&lt;yj&lt;yj−1 for …

2
为什么估计量被认为是随机变量?
我对估算器和估算值的理解是:估算器:计算估算值的规则估算:根据估算器从一组数据中计算出的值 在这两个术语之间,如果要求我指出随机变量,我会说估计是随机变量,因为它的值将根据数据集中的样本随机变化。但是我得到的答案是,估计量是随机变量,估计量不是随机变量。这是为什么 ?

2
参考要求:工作数据科学家的古典统计
我是一位工作数据科学家,在回归,其他机器学习类型算法和编程(数据分析和通用软件开发)方面都有扎实的经验。我一生的大部分时间都集中在构建预测精度模型(在各种业务约束下工作),以及构建数据管道以支持我自己(和其他人)的工作。 我没有接受过统计学方面的正规培训,我的大学教育重点是纯数学。因此,错过了学习许多经典主题的机会,尤其是各种流行的假设检验和推论技巧。 这些主题是否有适合我背景和经验水平的人参考?我可以处理(并欣赏)数学上的严格性,也可以欣赏算法的观点。我倾向于喜欢为读者提供指导性练习的参考书,既有(又有)数学和(或)编程方面的重点。

1
“棒球的勾股定理”背后是否有任何真实的统计数据?
我正在阅读一本有关Sabermetrics的书,特别是Wayne Winston的Mathletics,在第一章中,他介绍了可用于预测球队获胜率的数量: 他似乎在暗示,赛季中期的时候,它可以被用来预测赢率更好的比本赛季上半场的胜率。他将公式推广为 其中是得分与得分之比。然后,他找到最适合的指数来预测3项运动获胜百分比,并找到 [REXP得分点2得分点2+ 反对2≈ %游戏赢了,Points Scored2Points Scored2+Points Against2≈% Games Won,\frac{\text{Points Scored}^2 }{\text{Points Scored}^2 + \text{Points Against}^2} \approx \text{% Games Won},- [R棒球:EXP≈2,足球:EXP≈2.7,篮球:EXP≈14.我P小号我P甲我1[R经验值[R经验值+ 1,RexpRexp+1, \frac{R^{\text{exp}}}{R^{\text{exp}} + 1}, [RRR棒球:EXP ≈ 2 ,Baseball: exp≈2, \text{Baseball: exp} \approx 2 , 足球:EXP ≈ 2.7 ,Football: exp≈2.7, \text{Football: exp} \approx 2.7, 篮球:EXP ≈ 14。Basketball: exp≈14. …

1
如何解释Cochran-Mantel-Haenszel检验?
我正在测试由C分层的两个变量A和B的独立性。A和B是二进制变量,C是分类变量(5个值)。运行费舍尔对A和B(所有层的总和)的精确测试,我得到: ## (B) ## (A) FALSE TRUE ## FALSE 1841 85 ## TRUE 915 74 OR: 1.75 (1.25 -- 2.44), p = 0.0007 * 其中OR是优势比(估计值和95%置信区间),*意味着p &lt;0.05。 对每个层(C)运行相同的测试,我得到: C=1, OR: 2.31 (0.78 -- 6.13), p = 0.0815 C=2, OR: 2.75 (1.21 -- 6.15), p = 0.0088 * C=3, OR: 0.94 (0.50 …

3
“经统计证明”的概念
当新闻谈论的事情“经过统计学证明”时,他们是正确使用了定义明确的统计概念,使用了错误的统计信息还是仅仅使用了矛盾的词? 我认为“统计证明”实际上不是为了证明假设而进行的事情,也不是数学证明,而是更多的“统计检验”。
10 inference  proof 

4
当前辩论对统计意义的影响
在过去的几年中,各种各样的学者提出了一个有害的科学假设检验问题,称为“研究者自由度”,这意味着科学家在分析过程中有很多选择偏向于p值&lt;5%的发现。例如,这些模棱两可的选择包括要包含的情况,被归类为异常的情况,运行大量的模型规范,直到出现某种情况,不发布无效结果,等等。(引发心理学争论的论文在这里,看到一个受欢迎的石板条和后续辩论安德鲁·盖尔曼在这里,和时代杂志还谈到了这个话题在这里。) 首先,一个澄清问题: 《时代》杂志写道, “ 0.8的幂表示经过检验的十个真实假设中,只有两个被排除在外,因为其影响未在数据中得到体现。” 我不确定这是否适合我在教科书中找到的幂函数的定义,这是拒绝空值作为参数的函数的可能性。使用不同的我们具有不同的功能,因此我不太理解上面的引用。θθθ\thetaθθ\theta 其次,一些研究意义: 在我的政治科学/经济学领域,学者只是用尽了所有可用的国家/地区年度数据。因此,我们不应该在这里摆弄样品吗? 是否可以仅通过学科中的其他人将重新测试您的论文并由于没有可靠结果而立即将您击倒这一事实来解决运行多个测试但仅报告一个模型的问题?预见到这一点,我这一领域的学者更有可能包括一robustness check节,他们表明多个模型规范不会改变结果。这够了吗? 安德鲁·盖尔曼(Andrew Gelman)和其他人指出,无论数据如何,总是有可能找到并发布一些并非真正存在的“模式”。但是,考虑到任何经验的“模式”都必须得到理论的支持,并且学科内的竞争理论只会进行辩论/竞赛,以找出哪个阵营能够找到更多的“模式”,因此这不必担心。在各个地方。如果某个模式确实是虚假的,那么当其他样本/设置中没有类似的模式时,后面的理论将很快被推翻。这不是科学的进步吗? 假设当前期刊对无效结果的趋势实际上将会蓬勃发展,是否有办法让我们将所有无效结果和肯定结果汇总在一起,并推断它们都试图检验的理论?

1
找到
设X1,X2,...,XnX1,X2,...,XnX_1, X_2, . . . , X_n是具有pdf的iid随机变量 fX(x∣θ)=θ(1+x)−(1+θ)I(0,∞)(x)fX(x∣θ)=θ(1+x)−(1+θ)I(0,∞)(x)f_X(x\mid\theta) =\theta(1 +x)^{−(1+\theta)}I_{(0,\infty)}(x) 其中θ&gt;0θ&gt;0\theta >0。给出1的UMVUE1θ1θ\frac{1}{\theta}并计算其方差 我了解了两种用于获得UMVUE的方法: 克莱默罗下界(CRLB) 莱曼-舍夫·特莱姆 我将尝试使用两者中的前者。我必须承认,我不完全了解这里发生的事情,而我的尝试解决方案是基于一个示例问题。我有一个fX(x∣θ)fX(x∣θ)f_X(x\mid\theta)是一个完整的单参数指数族与 h(x)=I(0,∞)h(x)=I(0,∞)h(x)=I_{(0,\infty)},c(θ)=θc(θ)=θc(\theta)=\theta,w(θ)=−(1+θ)w(θ)=−(1+θ)w(\theta)=-(1+\theta),t(x)=log(1+x)t(x)=log(1+x)t(x)=\text{log}(1+x) 由于w′(θ)=1w′(θ)=1w'(\theta)=1在ΘΘ\Theta上不为零,因此适用CRLB结果。我们有 log fX(x∣θ)=log(θ)−(1+θ)⋅log(1+x)log fX(x∣θ)=log(θ)−(1+θ)⋅log(1+x)\text{log }f_X(x\mid\theta)=\text{log}(\theta)-(1+\theta)\cdot\text{log}(1+x) ∂∂θlog fX(x∣θ)=1θ−log(1+x)∂∂θlog fX(x∣θ)=1θ−log(1+x)\frac{\partial}{\partial \theta}\text{log }f_X(x\mid\theta)=\frac{1}{\theta}-\text{log}(1+x) ∂2∂θ2log fX(x∣θ)=−1θ2∂2∂θ2log fX(x∣θ)=−1θ2\frac{\partial^2}{\partial \theta^2}\text{log }f_X(x\mid\theta)=-\frac{1}{\theta^2} 所以I1(θ)=−E(−1θ2)=1θ2I1(θ)=−E(−1θ2)=1θ2I_1(\theta)=-\mathsf E\left(-\frac{1}{\theta^2}\right)=\frac{1}{\theta^2} 和CRLB为的无偏估计τ(θ)τ(θ)\tau(\theta)是 [τ′(θ)]2n⋅I1(θ)=θ2n[τ′(θ)]2[τ′(θ)]2n⋅I1(θ)=θ2n[τ′(θ)]2\frac{[\tau'(\theta)]^2}{n\cdot I _1(\theta)} = \frac{\theta^2}{n}[\tau'(\theta)]^2 由于∑i=1nt(Xi)=∑i=1nlog(1+Xi)∑i=1nt(Xi)=∑i=1nlog(1+Xi)\sum_{i=1}^n t(X_i)=\sum_{i=1}^n \text{log}(1+X_i) 那么∑ni=1log(1+Xi)∑i=1nlog(1+Xi)\sum_{i=1}^n \text{log}(1+X_i)任何线性函数,或者等效地,1的任何线性函数1n∑ni=1log(1+Xi)1n∑i=1nlog(1+Xi)\frac{1}{n}\sum_{i=1}^n \text{log}(1+X_i),将达到其期望的CRLB,因此将成为其期望的UMVUE。由于E(log(1+X))=1θE(log(1+X))=1θ\mathsf E(\text{log}(1+X))=\frac{1}{\theta}我们的UMVUE为1θ1θ\frac{1}{\theta}是1n∑ni=1log(1+Xi)1n∑i=1nlog(1+Xi)\frac{1}{n}\sum_{i=1}^n \text{log}(1+X_i) 对于天然的参数,我们可以让η=−(1+θ)⇒θ=−(η+1)η=−(1+θ)⇒θ=−(η+1)\eta=-(1+\theta)\Rightarrow \theta=-(\eta+1) …

3
大型数据集的高斯过程回归
我一直在从在线视频和讲义中学习有关高斯过程回归的知识,我的理解是,如果我们有一个包含个点的数据集,那么我们就假设数据是从维多元高斯模型中采样的。所以我的问题是在是百万分之一的情况下,高斯过程回归仍然有效吗?内核矩阵会不会很大,从而使过程完全无效?如果是这样,是否有适当的技术来处理此问题,例如多次重复从数据集中采样?处理这类案件有哪些好的方法? ññnññnññn

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.