Theta是什么意思?


16

我是统计学的新手,发现了这一点

在统计中,θ(小写希腊字母“ theta”)是某些一般概率分布的(一个或多个)参数的(向量)的常用名称。一个常见的问题是找到theta的值。注意,以这种方式命名参数没有任何意义。我们不妨称之为其他任何事情。实际上,许多发行版的参数通常使用其他名称。例如,通常分别命名正态分布的均值和偏差μ(读为“ mu”)和偏差σ(“σ”)。

但是我仍然不知道用简单的英语意味着什么?


10
θ只是一个数学符号,在不同的上下文中表示不同的事物。有时使用θ来表示要估计的参数,但对“什么是θ?”这个问题没有真正的答案。这就像问“字母A是什么?”。您的链接甚至在提示“注意以这种方式命名参数没有任何意义。我们也可以将其命名为其他名称”时暗示这一点
2012年

这只是用特殊字母(英语字母除外)命名统计参数(定义与此“参数”关联的数量的分布)的一种方法。
Stat-R

4
实际上,我们大多数人都将这种报价说成是非常简单的英语,但是要取得任何进步,我们必须接受这个问题不是关于如何阅读英语。那会是什么呢?我认为这是在要求我们解释报价中的技术术语:我们所熟悉的术语,以至于我们再也看不到它们对统计上未开始的人们有多奇怪。这要求我们解决分布参数(分布的问题;不是拟合曲线或其他确定性模型)的含义。
ub

Answers:


31

这不是惯例,但是经常代表分布的参数集。θ

就是说简单的英语,让我们显示示例。

示例1.您想研究一个老式的图钉的投掷(底部有一个大的圆形图钉)。您假设其下降的概率是一个未知值,称为。您可以调用随机变量X并说图钉朝下指向时X = 1,朝下指向时X = 0。你会写模型θXX=1X=0

P(X=1)=θP(X=0)=1θ,

并且您可能会对估算感兴趣(此处,图钉掉落的可能性朝下)。θ

例2.您想研究放射性原子的分解。根据文献,您知道放射性的数量呈指数下降,因此您决定用指数分布对分解时间建模。如果是解体时间,则模型为t

f(t)=θeθt.

这里的是概率密度,这意味着原子在时间间隔t t + d t )中解体的概率为f t d t。同样,您将对估计θ(此处为崩解率)感兴趣。f(t)(t,t+dt)f(t)dtθ

示例3.您想研究称重仪器的精度。根据文献,您知道测量是高斯的,因此您决定将标准的1千克物体的重量建模为

f(x)=1σ2πexp{(xμ2σ)2}.

这里是标度给出的量度,f x 是概率的密度,参数是μσ,所以θ = μ σ 。参数μ是目标重量(如果μ 1则称量表会有偏差),而σ是每次称量物体时度量的标准偏差。同样,您将有兴趣估算θ(这里是比例尺的偏差和不精确度)。xf(x)μσθ=(μ,σ)μμ1σθ


1
+1 FWIW,我最近在stats.stackexchange.com/a/34894上以相同的方式发布了一个有效的示例。尽管将其解释为“普通英语”会产生误导-它不会避开使用技术术语-但我已尽力尽可能清楚,简短地解释发生了什么,做出了哪些假设以及如何进行与参数化分布族配合使用,以基于数据生成估计值。对于某些人来说,这可能是您在此处回答问题的有益补充。
ub

1
好答案!但是,当您指出如果mu!= 1时,比例有偏差时,我会感到困惑。实际上,在“归一化”时,标准正态分布变为x〜N(0,1)。或者用英语表示,mu = 0且方差=1。请参见例如,en.wikipedia.org / wiki /…
Mike Williamson

我的意思是,如果在测量1公斤重的物体时,如果它指示的不是1公斤,则该仪器会有偏差。也许“规模”一词令人困惑。在这里,它只是指定仪器。
gui11aume15年

3

什么取决于您使用的模型。例如,在普通的最小二乘回归中,您将因变量(通常称为Y)建模为一个或多个自变量(通常称为X)的线性组合,得到如下结果:θ

Yi=b0+b1x1+b2x2+...+bpxp

其中p是自变量的数量。这里要估计的参数是θ是所有的名称β 小号。但是更笼统的θ可以应用于我们想要估计的任何参数。βsθβsθ


3
彼得,你虽然没有说这完全是,我怕这个答案可能会给新手不正确的印象,符号始终指参数向量,相反,这是指一个参数的唯一途径值。正如我在上面的评论所指出的那样,我认为答案不过是“ θ是一个数学符号”,因此它实际上并不是一个统计问题。θθ
2012年

1
@Macro我认为在这种情况下,很显然这就是卡米尔斯基想要的的含义。当然,任何符号都可以引用任何东西。但是在本段中,Macro是您的意思,而不是经济学课程,SAS的一部分或其他内容。θ
彼得·弗洛姆

1
好的,我认为类推并不真正恰当,但我将其视为夸张的尝试。无论如何,我实际上指的是一个非常基本的东西,那就是数学新手经常将符号误认为是一种内在有意义的东西,而不是它本身的东西-仅仅是一个标签。我的意思是,这个答案(我无意中认为)并不能消除这个想法。如您所知,可以指统计学家可能遇到的其他事情。例如,角度通常由θ表示。θθ
2012年

4
尽管这种解释很清楚并且在技术上是正确的,但它并未明确涉及任何分布,因此似乎与问题中的报价无关。
whuber

1

简而言之:

统计分布是一个数学函数,告诉你什么是你的不同值的概率随机变量X具有分布˚F,即˚F X 输出的概率X。此类函数不同,但是现在让我们将f视为某种“通用”函数。f Xff(x)xf

然而,对于普遍,即,一个能够适用于不同的数据(即具有相似的特性),它需要参数即改变其形状,使得它适合不同的数据。此类参数的一个简单示例是正态分布中的μ,该μ表示该分布的中心(均值)在哪里,因此它可以描述具有不同平均值的随机变量。正态分布具有另一个参数σ,其他分布也具有至少一个这样的参数。这些参数通常称为θ,对于正态分布,θμσ的简写fμσθθμσ(即是两个值的向量)。

为什么重要?统计分布用于近似数据的经验分布。假设您拥有一组人的年龄数据集,并且平均年龄为50岁,并且您想使用正态分布来近似估计他们的年龄分布。如果正态分布不允许使用不同的μ值(例如,该参数具有固定值,例如μ = 0),则对于此数据将毫无用处。但是,由于μ不是固定的,因此正态分布可以使用μ的不同值,其中μ = 50是其中之一。这是一个简单的示例,但是在更复杂的情况下,θμμ=0μμμ=50参数不清楚,因此您必须使用统计工具来估计(找到最合适的) θ值。θθ

因此,您可以说统计是关于在给定数据的情况下找到最佳θ(贝叶斯主义者会说:给定数据和先验条件)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.