这里有几个问题。
(1)模型必须是明确概率的。在几乎所有情况下,对于所有数据,都没有 lhs与rhs匹配的参数集:会有残差。您需要对这些残差进行假设。您是否期望它们平均为零?要对称分布吗?要近似正态分布吗?
这里有两个模型与指定的模型一致,但允许的残余行为截然不同(因此通常会导致不同的参数估计值)。您可以通过改变关于的联合分布的假设来改变这些模型:ϵ一世
B:Ý 我 = β 0 EXP (
答:ÿ 一世= β0经验值(β1个X1 我+ … + βķXķ 我+ ϵ一世)
B:ÿ 一世= β0经验值(β1个X1 我+ … + βķXķ 我) + ϵ一世。
(请注意,这些是数据 模型;通常不存在估计数据值^ y i。)ÿ一世ÿ一世^
(2)需要为y处理零值意味着所陈述的模型(A)是错误而且不充分的,因为无论随机误差等于什么,它都不能产生零值。上面的第二个模型(B)允许y的值为零(甚至为负)。但是,不应仅在这样的基础上选择模型。重申一:重要的是要合理地对错误建模。
(3)线性化改变模型。通常,它生成的模型类似于(A),但不类似于(B)。对其进行了足够的数据分析的人员(知道此更改不会明显影响参数估计值)以及不了解正在发生的情况的人员都使用此方法。(很难说出区别。)
(4)处理零值可能性的一种常见方法是建议(或其某些重新表达,例如平方根)具有等于零的严格正机会。在数学上,我们将点质量(“增量函数”)与其他一些分布混合在一起。这些模型如下所示:ÿ
F(y一世)θĴ〜˚F(θ);= βĴ 0+ βĴ 1X1 我+ ⋯ + βĴ ķXķ 我
θ ˚F θ 1,... ,θ Ĵ ˚F ý PR ˚F θ [ ˚F (Ý )≤ 吨] (1 - θ Ĵ + 1)˚F θ(t )t ≠ 0镨Fθ[ f(是)= 0 ] = θj + 1> 0θFθ1个,… ,θĴFÿ镨Fθ[ f(是)≤ 吨](1 - θj + 1)Fθ(吨)t ≠ 0
(5)建立模型和拟合模型的问题是相关但不同的。举一个简单的例子,即使是普通的回归模型也可以通过最小二乘法以多种方式进行拟合(与最大似然法具有相同的参数估计,并且几乎具有相同的标准误差),迭代地加权最小二乘法,各种其他形式的“ 健壮最小二乘法 ”等。适合的选择通常基于便利性,权宜性(例如,软件的可用性),熟悉程度,习惯或约定,但至少应考虑一些给定什么适合于误差项的假定分布,给什么ε 我ÿ= β0+ β1个X+ ϵϵ一世该问题的损失函数可能是合理的,并且有可能利用其他信息(例如,参数的先前分布)。