Questions tagged «definition»

该标签指示有关统计术语定义的问题。对于统计用语中与定义无关的问题,请使用更通用的标签[术语]。

5
维基百科关于可能性的条目似乎模棱两可
我有一个关于“条件概率”和“可能性”的简单问题。(我已经在这里调查了这个问题,但无济于事。) 它从可能性的Wikipedia 页面开始。他们说: 的似然性的一组参数值中的,,给出的结果,等于所给出的那些参数值的那些观察到的结果的概率,也就是Xθθ\thetaxxx 大号(θ|X)=P(X | θ )L(θ∣x)=P(x∣θ)\mathcal{L}(\theta \mid x) = P(x \mid \theta) 大!因此,用英语,我这样读:“在给定数据X = x(左侧)的情况下,参数等于theta的可能性等于在给定参数的情况下数据X等于x的可能性。等于theta”。(粗体是我的重点)。 但是,在同一页面上,不少于3行,然后Wikipedia条目继续说: 假设是一个随机变量,其随机变量 p取决于参数\ theta。然后功能XXXpppθθ\theta 大号(θ|X)= pθ(x )= Pθ(X= x ),L(θ∣x)=pθ(x)=Pθ(X=x),\mathcal{L}(\theta \mid x) = p_\theta (x) = P_\theta (X=x), \, 被认为是\ theta的函数的函数θθ\theta被称为似然函数(\ theta的似然函数θθ\theta,给定随机变量 X的结果x)。有时,参数值\ theta的X值x的概率表示为P(X = x \ mid \ theta);通常写为P(X = x; \ …

2
什么是最高密度区域(HDR)?
在统计推断问题9.6b中,提到了“最高密度区域(HDR)”。但是,我在书中找不到该术语的定义。 一个类似的术语是最高后密度(HPD)。但这并不适合这种情况,因为9.6b没有提及任何关于先验的东西。在建议的解决方案中,它只说“显然是HDR”。Ç (ÿ)C(ÿ)c(y) 还是HDR是一个包含pdf模式的区域? 什么是最高密度区域(HDR)?


2
在统计中定义完整性是不可能从其形成无偏估计
在经典统计中,有一个定义是将一组数据的统计量定义为对于参数是完整的,因此不可能从中简单地形成的无偏估计量。也就是说,使所有的唯一方法是几乎肯定地使为。TTTy1,…,yny1,…,yny_1, \ldots, y_nθθ\theta000Eh(T(y))=0Eh(T(y))=0E h(T (y )) = 0θθ\thetahhh000 这背后有直觉吗?似乎这是一种比较机械的定义方式,我知道以前已经有人问过这个问题,但是我想知道是否存在一种非常容易理解的直觉,这会使入门级学生更容易地消化材料。

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

5
名称中的内容:超参数
因此,在正态分布中,我们有两个参数:均值和方差。在《模式识别与机器学习》一书中,突然出现了误差函数的正则化项中的超参数。μμ\muσ2σ2\sigma^2λλ\lambda 什么是超参数?为什么这样命名?它们在直观上与一般参数有何不同?

5
在实践中,“仅根据比例的乘法常数来定义可能性”是什么意思?
我正在阅读一篇论文,作者从最大似然估计的讨论到贝叶斯定理,似乎是对初学者的介绍。 作为一个可能性示例,它们从二项分布开始: p(x|n,θ)=(nx)θx(1−θ)n−xp(x|n,θ)=(nx)θx(1−θ)n−xp(x|n,\theta) = \binom{n}{x}\theta^x(1-\theta)^{n-x} 然后登录双方 ℓ(θ|x,n)=xln(θ)+(n−x)ln(1−θ)ℓ(θ|x,n)=xln⁡(θ)+(n−x)ln⁡(1−θ)\ell(\theta|x, n) = x \ln (\theta) + (n-x)\ln (1-\theta) 具有以下基本原理: “因为可能性仅被定义为比例的乘性常数(或对数似然的加性常数),所以我们可以通过降低二项式系数并写出对数似然来代替似然来重新定标。” 数学上是有道理的,但我不明白“似然仅定义为比例乘性常数”的含义,以及这如何使二项式系数下降并从变为\ ell(\ theta | x,n)。p(x|n,θ)p(x|n,θ)p(x|n,\theta)ℓ(θ|x,n)ℓ(θ|x,n)\ell(\theta|x,n) 在其他问题(此处和此处)中也出现了类似的术语,但实际上仍不清楚可能的定义是什么,或者使信息达到可乘的常数。有可能用外行的术语解释吗?

2
对称分布的定义是什么?
对称分布的定义是什么?有人告诉我,当且仅当和具有相同的分布时,随机变量才来自对称分布。但是我认为这个定义部分正确。因为我可以一个反例和。显然,它具有对称分布,但是和具有不同的分布!我对吗?你们有没有想过这个问题?对称分布的确切定义是什么?XXXXXX−X−X-XX∼N(μ,σ2)X∼N(μ,σ2)X\sim N(\mu,\sigma^{2})μ≠0μ≠0\mu\neq0XXX−X−X-X

1
在PCA中到底是什么叫做“主要组件”?
假设是使设计矩阵的数据投影的方差最大化的向量。uüuXXX 现在,我已经看到了将称为数据的(第一)主成分的材料,这也是具有最大特征值的特征向量。uuu 但是,我也看到数据的主要成分是。XuXuX u 显然,和是不同的。谁能在这里帮助我,告诉我这两个主要成分定义之间的区别是什么?uuuXuXüXu



3
“测试统计”是值还是随机变量?
我是一名正在上我的第一门统计学课程的学生。我对“测试统计”一词感到困惑。 在下面的内容中(我在一些教科书中看到了这一点),似乎是根据特定样本计算得出的特定值。 吨= ¯ X - μ 0ŤŤtt = x¯¯¯- μ0s / n--√Ť=X¯-μ0s/ñ t=\frac{\overline{x} - \mu_0}{s / \sqrt{n}} 但是,在下面的内容(我在其他一些教科书中也看到过)中,似乎是一个随机变量。 Ť = ¯ X - μ 0ŤŤTŤ= X¯¯¯¯- μ0小号/ n--√Ť=X¯-μ0小号/ñ T=\frac{\overline{X} - \mu_0}{S / \sqrt{n}} 那么,“测试统计”一词是指特定值还是随机变量,或者两者都表示?


3
是否有多个“中位数”公式?
在我的工作中,当个人引用数据集的“平均值”值时,他们通常是指算术平均值(即“平均值”或“期望值”)。如果我提供了几何平均值,人们可能会认为我是在冷嘲热讽或无助,因为“均值”的定义是事先已知的。 我正在尝试确定数据集的“中位数”是否有多个定义。例如,由同事提供的用于查找元素数为偶数的数据集的中位数的定义之一是: 算法“ A” 将元素数除以2,向下舍入。 该值是中位数的指数。 即对于以下集合,中位数为5。 [4, 5, 6, 7] 尽管四舍五入方面似乎有些武断,但这似乎是有道理的。 算法“ B” 无论如何,另一位同事提出了一种单独的算法,该算法在他的统计资料教科书中(需要获得名称和作者): 将元素数除以2,并保留四舍五入和四舍五入的整数的副本。他们的名字n_lo和n_hi。 采取在元素的算术平均值n_lo和n_hi。 即对于以下集合,中位数为(5+6)/2 = 5.5。 [4, 5, 6, 7] 但是,这似乎是错误的,因为5.5在这种情况下,中间值实际上不在原始数据集中。当我们在某些测试代码中将算法“ A”换成“ B”时,它就破烂了(正如我们预期的那样)。 题 这两种计算数据集中位数的方法是否有正式的“名称”?即“两个中位数中的较少者”与“平均中间元素并制作新数据中位数”?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.