Answers:
您不必做任何事情。预测变量可能会正常工作。即使预测变量外推到范围之外的值,也可能将预测限制在范围内(即使用而不是\ hat {y})好。对模型进行交叉验证,看是否可行。
但是,限制范围增加了因变量()和自变量()之间存在非线性关系的可能性。其他一些指标包括:
与在其范围的中间时相比,残差值的更大变化要比该范围任一端的残差变化大。
特定非线性关系的理论原因。
模型错误指定的证据(以通常的方式获得)。
x_i中二次项或高阶项的意义。
考虑这些条件中的任何一个成立的情况下,y的非线性重新表达。
有很多方法可以重新表达以与x_i建立更多线性关系。例如,间隔[0,70]上定义的任何递增函数f都可以通过y \ to f(y)-f(70-y)进行“折叠”以创建对称的递增函数。如果f随其参数接近0而变得任意大且为负,则f的折叠形式会将[0,70]映射到所有实数中。此类函数的示例包括对数和任何负幂。使用对数等效于@ user603建议的“ logit链接”。另一种方法是让G是任何概率分布的逆CDF并定义。使用正态分布给出了“概率”变换。
利用变换族的一种方法是进行实验:尝试进行可能的变换,针对对变换后的进行快速回归,然后测试残差:它们应与的预测值无关(同构且不相关) 。这些是与自变量线性关系的迹象。如果逆变换后的预测值的残差趋于较小,这也有帮助。这表明变换已改善了拟合度。为了抵制离群值的影响,请使用健壮的回归方法,例如迭代地加权最小二乘法。
数据转换:重新缩放数据以使其位于,并使用具有logit链接的glm模型对其进行建模。
编辑:重新缩放向量时(即,将所有元素除以最大的项),通常,在执行此操作之前,请筛选(眼球)异常值。
更新
假设您有权使用R,我将使用健壮的 glm例程携带建模部分,请参见包中的。