考虑到一个具有上限的变量,应使用哪种类型的回归?


9

我不确定要使用哪种方法来建模两个变量之间的关系(xy)在实验中的描述如下:

  • 有3个变量: xaimxy
  • 的价值 xaim在进行实验时设置。然而,xxaim 并不总是相等的。
  • 皮尔逊之间的相关系数 xaimx 大约是0.9。
  • 皮尔逊之间的相关系数 xy 少得多:约0.5。
  • y 具有最大可能值(ymax),不能超过。
  • 设置后获取每个数据点 xaim 和阅读 xy

虽然皮尔逊之间的相关系数 xy 不好,看起来像 y 倾向于随着 x

在进行简单的线性回归之后 y=f(x)x=g(y) (然后将后者转换为 g1,以便与 f 例如),两个斜率均为正,但 g1 大于 f

说出来有意义吗 xmax=f1(ymax) 要么 xmax=g(ymax)?(xmax 在第二种情况下会更早到达。)

考虑到 y 被束缚 ymax,关于的可能最大值 x 可以达到?

据我了解,对形式进行线性回归是有意义的 y=f(x) 什么时候 x 是自变量, y是因变量。但是,在这种情况下,我不确定考虑一下是否有意义x 是独立的 y 是依赖的。

总最小二乘回归是否更合适?还有其他方法来确定哪些值xmax 可以达到(有什么可能性)?

(如果这很重要, xy 似乎不遵循正态分布,因为已经进行了更多尝试以达到更高的 x


如果找到这种关系,您将如何处理?您会检验假设还是只是对它的外观感兴趣?如果数据点很多,则应考虑非线性模型。
mpiktas,2011年

@mpiktas,最终,我想知道哪个x_max是我可以尝试定期(而不是一次)尝试的合理目标,考虑到达到或超过y_max会使实验无效(有效地暗示x = x_min进行尝试)。
布鲁诺

当的方差为时,表示总的最小二乘(或变量误差)回归 x 相较于 y。与90%的相关性xaim 表明的方差 x可能足够小,可以安全地将其视为自变量。您可以通过比较残差的RMSE来检查回归后的情况xaimx 的残差的RMSE yxaim。是否ymax问题取决于 如果您在散点图中看到一个较高的截止xaim,这是一个重要的考虑因素。
ub

Answers:


4

我想第二点@King的观点。怀疑回归是非常直观的yx (“直接回归”)和回归 xy(“反向回归”)应该相同。 但是,这在数学上既不正确,在回归与您正在分析的情况之间的关系方面也不是正确的。如果你密谋y 在图的垂直轴上 x在水平轴上,您可以看到发生了什么。直接回归找到的线使数据点和线之间的垂直距离最小,而反向回归使的线水平距离最小。最小化一条线的线只会在以下情况下最小化另一条线rxy=1.0。您需要确定要解释的内容以及要用来解释的内容。该问题的答案为您提供了哪个变量是yx并指定您的模型。此外,(同样在@King之后),我不同意尝试说xmax=f1(ymax),出于相同的原因。

关于有界变量的问题,通常可以想象,“实际”金额可能会更高,但您无法衡量。例如,我窗外的室外温度计最高可达120,但在某些地方它可能是室外140,而您的测量值只有120。因此,变量将具有上限,但您真正想考虑的事情却没有。在这种情况下,存在针对此类情况的轨道模型。

另一种方法是使用像黄土这样更坚固的东西,这可能完全适合您的需求。


抱歉,我们未收到您的答复。我需要阅读有关Tobit模型的信息。
布鲁诺

没问题。有关回归本质(相对于反向回归)的更多信息,请参见此处。对于使用各种软件进行轨道回归的帮助,请在此处尝试。
gung-恢复莫妮卡

3

首先,我认为说不通 xmax=f1(ymax) 在这里,这就像在暗示它是一对一的功能,尽管 xmax 由其他未观察到的变量解释。

其次,它实际上取决于将上下文视为自变量或因变量的上下文。根据我的经验,除非理论有力地提出一种方法;两种方法都可以。从10月7日的评论看来,x 是依赖而 y 是独立的。

如果可能,查看残差,看看是否可以从中挤出任何东西。您可能还忘记了另一个变量。否则可能有助于转换变量。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.