Questions tagged «parametric»

由有限数量的实值参数描述的统计模型。通常与非参数统计信息相比使用。


3
对数转换的预测变量和/或响应的解释
我想知道是否仅对因变量(无论是因变量还是自变量)还是仅对自变量进行了对数转换,在解释上是否有所不同。 考虑以下情况 log(DV) = Intercept + B1*IV + Error 我可以将IV解释为百分比增长,但是当我拥有 log(DV) = Intercept + B1*log(IV) + Error 或当我有 DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

8
所有模型都没有用吗?有没有确切的模型可能有用?
这个问题在我心中困扰了一个多月。2015年2月的《Amstat新闻》收录了伯克利教授Mark van der Laan 的一篇文章,该文章谴责人们使用不精确的模型。他指出,通过使用模型,统计才是一门艺术而不是一门科学。根据他的说法,人们总是可以使用“精确模型”,而我们这样做的失败会导致“缺乏严格……我担心我们在数据科学中的代表地位将被边缘化”。 我同意我们有被边缘化的危险,但是威胁通常来自那些声称(听起来很像范德兰教授的人)他们没有使用某种近似方法,但实际上他们的方法却少得多的人严格的数据模型比经过仔细应用的统计模型还要严格-甚至是错误的统计模型。 我认为可以说范德兰教授对那些重复Box经常使用的话的人很鄙视:“所有模型都是错误的,但有些模型是有用的。” 基本上,正如我读到的那样,他说所有模型都是错误的,并且都是无用的。现在,我该拒绝伯克利大学教授的观点吗?另一方面,他是谁如此轻描淡写地拒绝了我们领域中真正的巨头之一的观点? van der Laan博士在详细阐述时指出:“声明所有模型都是错误的,完全是胡说八道……例如,没有任何假设的统计模型始终是正确的。” 他继续说:“但是通常,我们可以做得更好:我们可能知道数据是独立的相同实验的结果。” 除了非常狭窄的随机采样或受控实验设置外,我看不出有人会知道这一点。作者指出他在有针对性的最大似然学习和有针对性的基于最小损失的学习中的工作,这些工作“将最先进的技术集成到了机器学习/数据自适应估计中,所有因果推理,审查数据,效率和经验方面的令人难以置信的进步过程理论,同时仍然提供正式的统计推断。”ññn 我也同意一些说法。他说,我们需要认真对待我们的工作,我们作为统计学家的角色以及我们的科学合作者。听见!当人们例行使用逻辑回归模型或其他任何方法而没有仔细考虑是否足以回答科学问题或是否适合数据时,这无疑是个坏消息。我确实在该论坛上发布的问题中看到了很多此类滥用行为。但是我也看到不精确模型(甚至参数模型)的有效和有价值的使用。与他所说的相反,我很少被“另一种逻辑回归模型闷死”。我猜这就是我的天真。 所以这是我的问题: 使用完全不做任何假设的模型,可以做出哪些有用的统计推断? 是否存在使用目标最大可能性使用重要的真实数据的案例研究?这些方法是否被广泛使用和接受? 所有不精确的模型真的没有用吗? 除了琐碎的情况以外,是否可能知道您拥有确切的模型? 如果这太基于观点,因此太离题了,该在哪里讨论?因为范德兰博士的文章确实需要进行一些讨论。

3
如何严格定义可能性?
可能性可以通过几种方式定义,例如: 功能LLL从Θ×XΘ×X\Theta\times{\cal X}其中映射(θ,x)(θ,x)(\theta,x)到L(θ∣x)L(θ∣x)L(\theta \mid x)即L:Θ×X→RL:Θ×X→RL:\Theta\times{\cal X} \rightarrow \mathbb{R} 。 随机函数L(⋅∣X)L(⋅∣X)L(\cdot \mid X) 我们也可以认为,可能是只有“观察”的可能性L(⋅∣xobs)L(⋅∣xobs)L(\cdot \mid x^{\text{obs}}) 在实践中,似然性仅将关于信息θθ\theta带到一个乘性常数,因此我们可以将似然性视为函数的等价类,而不是函数 考虑参数化的变化时,会发生另一个问题是:如果ϕ=θ2ϕ=θ2\phi=\theta^2是新的参数,我们通常表示由L(ϕ∣x)L(ϕ∣x)L(\phi \mid x)上的可能性ϕϕ\phi和这不是先前的功能的评价L(⋅∣x)L(⋅∣x)L(\cdot \mid x)在θ2θ2\theta^2但在ϕ−−√ϕ\sqrt{\phi}。这是一种滥用但有用的表示法,如果不加以强调,可能会给初学者造成困难。 您最喜欢的可能性的严格定义是什么? 另外你怎么骂L(θ∣x)L(θ∣x)L(\theta \mid x)?我通常会说“ 观察x时的可能性”之类的话。θθ\thetaxxx 编辑:鉴于下面的一些评论,我意识到我应该弄清楚上下文。我考虑一个参数的家庭给一个统计模型{f(⋅∣θ),θ∈Θ}{f(⋅∣θ),θ∈Θ}\{f(\cdot \mid \theta), \theta \in \Theta\}密度相对于一些占主导地位的措施,每个f(⋅∣θ)f(⋅∣θ)f(\cdot \mid \theta)对观测的空间定义XX{\cal X}。因此我们定义L(θ∣x)=f(x∣θ)L(θ∣x)=f(x∣θ)L(\theta \mid x)=f(x \mid \theta),问题是“什么是LLL ?”(问题不是关于可能性的一般定义)

3
如何计算R中ARIMA模型的参数的p值?
在R中进行时间序列研究时,我发现arima 仅提供系数值及其拟合模型的标准误差。但是,我也想获得系数的p值。 我没有找到任何可提供coef意义的功能。 所以我希望自己计算,但是我不知道系数的t或chisq分布的自由度。所以我的问题是如何在R中获得拟合的Arima模型系数的p值?


3
为什么Pearson是参数化的,而Spearman是非参数化的
显然,皮尔逊的相关系数是参数性的,而斯皮尔曼的rho是非参数性的。 我很难理解这一点。据我了解,Pearson的计算公式为 而Spearman的计算方法相同,不同之处在于,我们将所有值替换为其等级。[RX ÿ= c o v (X,Y)σXσÿ[RXÿ=CØv(X,ÿ)σXσÿ r_{xy} = \frac{cov(X,Y)}{\sigma_x\sigma_y} 维基百科说 参数模型与非参数模型的区别在于,前者具有固定数量的参数,而后者随着训练数据量的增加而增加。 但是除了样本本身,我看不到任何参数。有人说参数测试假设服从正态分布,接着说皮尔逊确实假设服从正态分布数据,但是我看不出为什么皮尔逊会要求这样做。 所以我的问题是,在统计中,参数和非参数是什么意思?培生和斯皮尔曼如何融入其中?

3
分配家庭的定义?
分布族对统计的定义是否不同于其他学科? 通常,曲线族是一组曲线,每条曲线由一个函数或参数化给定,其中一个或多个参数发生变化。这样的族例如用于表征电子部件。 为了进行统计,根据形状来源的一个族是改变形状参数的结果。那么,我们如何才能理解伽玛分布具有形状和比例参数,并且只有广义伽玛分布才具有位置参数?这是否会使家庭成为改变位置参数的结果?根据@whuber一个家庭的意义是隐式A中的家庭的“参数化”是从ℝ的一个子集的连续映射Ñ,以其平常的拓扑结构,为分布的空间,其图像是家庭。n^n 用简单的语言来说,统计分布族是什么? 关于同一个家庭的分布的统计属性之间的关系的一个问题已经为另一个问题引起了很大的争议,因此似乎值得探讨其含义。 不一定是一个简单的问题,是因为它在指数族这一短语中的使用而产生的,它与曲线族无关,但与通过重新参数化(不仅是参数)改变分布的PDF的形式有关。 ,还可以替换独立随机变量的功能。

1
为什么要使用参数引导程序?
我目前正在设法弄清有关参数引导程序的一些事情。大多数事情可能都很琐碎,但我仍然认为我可能错过了一些东西。 假设我想使用参数引导程序获取数据的置信区间。 因此,我有此样本,并假设其为正态分布。那么我估计方差v和平均米,并得到我的分布估计P,这显然只是ñ (米,v)。v^v^\hat{v}m^m^\hat{m}P^P^\hat{P}N(m^,v^)N(m^,v^)N(\hat{m},\hat{v}) 除了从该分布中采样外,我还可以分析地计算分位数并完成。 a)我得出结论:在这种微不足道的情况下,参数引导程序是否与在正态分布假设中计算事物相同? 因此,从理论上讲,只要我能处理计算,所有参数自举模型都是如此。 b)我得出结论:使用一定分布的假设将使我在参数引导程序上获得比非参数引导程序更高的准确性(如果正确的话)。但是除此之外,我之所以这样做,是因为我无法处理分析计算而无法尝试模拟我的分析方法吗? c)如果计算通常是使用近似值完成的,我也将使用它,因为这可能会给我带来更高的准确性...? 对我来说,(非参数)引导程序的好处似乎在于我不需要假设任何分布。对于参数引导程序,该优势已经消失了-还是我错过了某些事情,而参数引导程序在哪些方面提供了上述优势?

3
为什么几个(如果不是全部)参数假设检验假设为随机抽样?
像Z,t和其他几种测试都假定数据基于随机采样。为什么? 假设我正在做实验研究,我在乎内部有效性而不是外部有效性。因此,如果我的样本可能有点偏见,那很好,因为我已经接受了不推断整个人群的假设的结论。并且分组仍将是随机的,即,为了方便起见,我将选择样本参与者,但我将它们随机分配给不同的组。 为什么我不能忽略这个假设?



1
处理峰度产生的异常值
我想知道是否有人可以帮助我了解有关峰度的信息(即,是否有任何方法可以转换您的数据以减少它?) 我有一个包含大量案例和变量的问卷数据集。对于我的一些变量,数据显示出相当高的峰度值(即瘦小体分布),这是由于许多参与者对该变量给出的分数完全相同。我确实有一个特别大的样本量,因此根据中心极限定理,违反正态性仍然可以。 但是,问题在于,峰度特别高的事实在我的数据集中产生了许多单变量离群值。这样,即使我转换数据或除去/调整异常值,峰度的高水平也意味着下一个最高分会自动变为异常值。我打算使用(判别函数分析)。如果违规是由偏斜而不是异常值引起的,则据说DFA可以很好地抵制偏离正常状态的情况。此外,据说DFA特别受数据中异常值的影响(Tabachnick&Fidel)。 关于如何解决这个问题的任何想法?(我最初的想法是某种控制峰度的方法,但是如果我的大多数样本都给出类似的评分,那不是一件好事吗?)
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.