比较同一模型在不同数据集上的回归系数


12

我正在评估同一制冷系统中使用的两(2)种制冷剂(气体)。我有饱和吸气温度(),冷凝温度()和安培数()数据用于评估。有两(2)套数据;第一制冷剂()和第二制冷剂()。我正在使用线性多元(&)三阶多项式模型进行回归分析。我想确定第二种制冷剂平均消耗多少/更多的安培数(或类似的性能比较指标)。SDYR1R2SD

我的第一个想法是:

  1. 确定要使用的模型:Y=b0+b1S+b2D+b3SD+b4S2+b5D2+b6S2D+b7D2S+b8D3+b9S3
  2. 从基准数据()推导系数()。biR1
  3. 使用这些系数,对于每一个&在数据集,计算每一个预期安培平局(),然后平均。SDR2Y^
  4. 比较平均值与数据的实际平均安培数()。Y^Y2R2
  5. percent (%) change=(Y2Y^)/Y^

但是,由于第二种制冷剂的热性能略有不同,并且制冷系统的变化很小(TXV和过热调节),因此我认为这种“基准比较方法”并不准确。

我的下一个想法是做两(2)个单独的回归分析:

Y1=a0+a1S1+a2D1+a3S1D1+a4S12+a5D12+a6S12D1+a7D12S1+a8D13+a9S13Y2=b0+b1S2+b2D2+b3S2D2+b4S22+b5D22+b6S22D2+b7D22S2+b8D23+b9S23

然后,对于饱和吸气温度(S),像这样比较系数(a1b1):

% change=b1a1a1

然而,同样,这些系数应该被不同地加权。因此,结果将是歪斜的。

我相信我可以使用z检验来确定系数加权的差异程度,但是我不确定我是否完全理解输出的含义:。但是,这仍然不能给我一个性能指标,这是总体目标。z=(a1b1)/SEa12+SEb12)


1
1.多项式模型是线性模型,因为它的系数是线性的。2.我想了解你的问题。如果在使用R1和R2的时间之间对制冷系统进行了修改,那么它们真的不是“相同的制冷系统”(第1行),对吗?3.为什么在第二种方法中,您开始比较S的系数?4.您是否考虑过将具有R1和R2级的协变量“制冷剂”引入多项式拟合(可能具有交互作用)?它的系数可以回答这个问题。
qoheleth 2014年

@qoheleth 1.不确定我是否遵循您的思路...系数始终是线性的-它是一个数字。系数什么时候不线性呢?2.正确,制冷系统已稍作更改,但只是为了确保两种制冷剂(“苹果对苹果”)的输出温度相同。3.“ S”是此特定比较中唯一感兴趣的变量。4.我已经阅读了协变量/交互变量方法,但是无法理解使用这种方法的系数的含义。您能详细解释一下输出吗?谢谢。
gth826a 2014年

1.从统计角度来看,您要估计的事物中的线性是计数,因此多项式模型是线性的。非线性模型的一个例子是mitscherlich函数y = alpha(1-exp(beta-lambda * X)),其中alpha / beta / lambda是我们要估计的函数。3.您实际上在尝试测试什么?是S的系数吗?还是Y?如果是S,为什么第一次尝试在\ hat {Y}中进行比较?
qoheleth 2014年

Y-hat将是:来自第二个数据集的实际S&D与从第一个数据集导出的系数一起使用。当将先前设备的能耗与改造/改建/翻新等之后的能耗进行比较时,此方法通常用于“性能合同”能耗分析。该等式为:能耗= y-hat =基本负荷+能源/度数天*度数天数...其中,能量/度数天数是从基线回归分析得出的系数,而度数天数是后装修。如果您不执行此项目方案,“您将消耗多少” ...
gth826a 2014年

1
因此,似乎最终您想要比较Y。我想说的是,在存在高阶项(S ^ 2,S ^ 3等)的情况下,不用计算系数的百分比变化,系数就不是您想的他们是。专注于Y。我仍然不清楚的问题是,您是说R2中的S&D与R1中的S&D意味着不同吗?如果不是,那么您可以简单地将一个模型拟合到组合数据集中,并使用一个称为制冷剂(r1或r2)的额外协变量(X变量),并在假设模型合适的情况下查看其系数进行推断。
qoheleth 2014年

Answers:


2

从理想气体定律在这里,,建议比例模型。确保您的设备处于绝对温度下。要求比例结果将暗示比例误差模型。考虑一下,也许,那么对于多元线性回归,可以通过取对数来使用 Y,D和S值的,因此看起来就像,其中下标表示“对数”。现在,这可能比您使用的线性模型更好,并且答案就是相对误差类型。PV=nRTY=aDbScln(Y)=ln(a)+bln(D)+cln(S)Yl=al+bDl+cSll

要验证使用哪种类型的模型,请尝试一种并检查残差是否为同方差。如果不是,则您有偏差的模型,然后执行其他一些操作,例如对对数建模,如上所述,将x或y数据的一个或多个倒数,平方根,平方,乘幂等,直到残差是同调的。如果模型不能产生均方差残差,则使用多元线性Theil回归,并在需要时进行检查。

不需要数据如何在y轴上正常分布,但是,异常值可以并且经常确实使回归参数结果明显失真。如果找不到同调,则不应使用普通的最小二乘,而需要执行其他一些类型的回归,例如加权回归,Theil回归,x的最小二乘,Deming回归等等。同样,错误不应串行相关。

输出的含义:,可能是,也可能不是相关的。假设总方差是两个独立方差之和。换句话说,独立性是图上的正交性(垂直性)。也就是说,总变异性(方差)遵循毕达哥拉斯定理,您的数据可能会也可能不会。如果是这样,则统计量是相对距离,即均值之差(距离)除以毕达哥拉斯,AKA矢量,标准误差(SE)的和,即标准差(SD)除以由z=(a1b1)/SEa12+SEb12)x,yH=+A2+O2zN,其中SE本身就是距离。然后将一个距离除以另一个距离将它们归一化,即均值之差除以总(标准)误差,然后以某种形式使用,使得一个人可以应用ND(0,1)来找到概率。

现在,如果这些措施不是独立的,会发生什么?如何进行检验?您可能还记得,从几何形状来看,不直角的三角形将其边添加为,如果不是在这里刷新您的记忆。也就是说,当两轴之间的角度不是90度时,我们必须在计算总距离时包括该角度。首先回想一下相关性,即标准协方差。对于总距离和相关性变为C2=A2+B22ABcos(θ),θ=(A,B)σTρA,BσT2=σA2+σB22σAσBρA,B。换句话说,如果您的标准偏差是相关的(例如,成对),则它们不是独立的。


“要验证要使用哪种类型的模型,请尝试一下并检查残差是否为均方差”,是的。您有一个“好”模型。
Repmat

如果一个人使用OLS并且残差是异方差的,那么可以肯定的是有偏差的模型。同方差是OLS要求,显示在这里。要拥有一个好的模型,还需要其他条件,例如避免遗漏变量偏差,但要避免出现序列不相关的误差,以及模型与因变量之间的线性关系。
卡尔

您可以拥有一个残差为异质弹性的无偏和/或一致模型(估计)。这仅表示通常的推理程序不起作用
Repmat

异方差会使斜率变平,即使离群值对此进行了校正,代价也会是较大的置信区间和糟糕的模型。不会使用这样的模型,但是,是的,可以制作糟糕的模型。医学文献充斥着它们。
卡尔

您的评论的第一部分完全是错误的。我什至不知道这意味着什么。
Repmat
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.