统计和大数据 polynomial

4

我有一个（混合）模型，其中我的一个预测变量应该与该预测变量呈二次相关关系（由于实验操作）。因此，我只想将二次项添加到模型中。有两件事使我无法这样做：我想我读过一些话，在拟合高阶多项式时，应始终包含低阶多项式。我忘了在哪里找到它，在我看过的文献中（例如Faraway，2002； Fox，2002），我找不到很好的解释。当我同时添加线性和二次项时，两者都是有意义的。当我仅添加其中一个时，它们并不重要。但是，预测变量和数据之间的线性关系无法解释。我的问题的上下文具体是使用的混合模型lme4，但是我想获得可以解释为什么是这样的答案，或者为什么不包括高阶多项式而不是低阶多项式的原因。如有必要，我可以提供数据。

57 regression polynomial

3

为什么多项式回归被视为多元线性回归的特例？

如果多项式回归建模非线性关系，那么如何将其视为多元线性回归的特殊情况？ Wikipedia指出：“尽管多项式回归将非线性模型拟合到数据中，但作为统计估计问题，它是线性的，这是因为在估计的未知参数中回归函数是线性的从数据中。”E(y|x)E(y|x)\mathbb{E}(y | x) 如果参数是 2 阶项的系数，则多项式回归如何在未知参数中线性化？≥≥\ge

38 regression multiple-regression linear-model nonlinear-regression polynomial

4

为什么在多项式回归中使用正则化而不是降低度数？

例如，在进行回归时，要选择的两个超参数通常是函数的容量（例如多项式的最大指数）和正则化量。我感到困惑的是，为什么不只选择一个低容量函数，然后忽略任何正则化？这样，它不会过拟合。如果我同时具有高容量功能和正则化功能，那是否与低容量功能和无正则化功能一样？

32 regression machine-learning optimization regularization polynomial

3

使用scikit-learn进行多项式回归

我正在尝试使用scikit-learn进行多项式回归。从我的理解中，多项式回归是线性回归的特例。我希望可以对scikit的广义线性模型之一进行参数化以适合高阶多项式，但是我认为没有选择的余地。我确实设法使用了支持向量回归器和多核。这对我的数据子集效果很好，但是要适应较大的数据集需要花费很长时间，因此我仍然需要更快地找到某些东西（即使以某种精度进行交易）。我在这里错过明显的东西吗？

29 regression machine-learning large-data polynomial scikit-learn

5

原始或正交多项式回归？

我想将变量回归yyy到。我应该使用原始多项式还是正交多项式？我在处理这些问题的网站上看了一个问题，但我真的不明白使用它们有什么区别。 x,x2,…,x5x,x2,…,x5x,x^2,\ldots,x^5 为什么我不能只是做一个“正常”的回归得到的系数的βiβi\beta_iy=∑5i=0βixiy=∑i=05βixiy=\sum_{i=0}^5 \beta_i x^i（与p值和所有其他不错的东西一起），而是不必担心使用原始多项式还是正交多项式？在我看来，这种选择超出了我想要做的事情的范围。在我目前正在阅读的统计书中（Tibshirani等人的ISLR）中没有提到这些东西。其实，他们在某种程度上被淡化。原因是AFAIK，lm()在R 中的函数中，使用y ~ poly(x, 2)等于使用正交多项式，而使用y ~ x + I(x^2)等于使用原始多项式。但是在第116页上，作者说我们使用第一个选项，因为后者是“麻烦的”，它没有迹象表明这些命令实际上对完全不同的事物（因此具有不同的输出）。（第三个问题）为什么会ISLR的作者混淆读者这样呢？

22 r regression polynomial

2

当我在回归中包含平方变量时会发生什么？

我从我的OLS回归开始：其中D是虚拟变量，估计值与p值低的零不同。然后，我进行了Ramsey RESET测试，发现我对该方程有一些误称，因此我将平方x包括在内： ÿ = β 0 + β 1 X 1 + β 2 X 2 1 + β 3 d + εy=β0+β1x1+β2D+εy=β0+β1x1+β2D+ε y = \beta _0 + \beta_1x_1+\beta_2 D + \varepsilon y=β0+β1x1+β2x21+β3D+εy=β0+β1x1+β2x12+β3D+ε y = \beta _0 + \beta_1x_1+\beta_2x_1^2+\beta_3 D + \varepsilon 平方项解释了什么？（Y非线性增加？）通过这样做，我的D估计值不再从零变化，而具有较高的p值。我如何解释方程式中的平方项（通常）？编辑：改善问题。

20 regression multiple-regression interpretation least-squares polynomial

1

从正交多项式回归中恢复原始系数和方差

看来，如果我有一个回归模型如yi∼β0+β1xi+β2x2i+β3x3iyi∼β0+β1xi+β2xi2+β3xi3y_i \sim \beta_0 + \beta_1 x_i+\beta_2 x_i^2 +\beta_3 x_i^3我可以拟合原始多项式并获得不可靠的结果，也可以拟合正交多项式并获得没有直接物理解释的系数（例如，我无法使用它们来找到原始比例上的极值位置）。似乎我应该能够同时兼顾两个方面，并且能够将拟合的正交系数及其方差转换回原始比例。我已经学习了应用线性回归的研究生课程（使用Kutner，5ed），并且浏览了Draper（3ed，由Kutner引用）中的多项式回归一章，但是没有找到有关如何执行此操作的讨论。的帮助文本poly()中的R功能没有。我也没有在网络搜索中找到任何内容，包括此处。正在从拟合正交多项式的系数中重构原始系数（并获得其方差）。无法做，我在浪费时间。可能是可行的，但在一般情况下还不知道怎么做。可能但未讨论，因为“谁愿意？” 可能但由于“显而易见”而未进行讨论。如果答案是3或4，如果有人能耐心地解释如何做到这一点或指出这样做的来源，我将不胜感激。如果是1或2，我仍然很想知道障碍是什么。非常感谢您阅读本文，如果我忽略了明显的内容，我向您致歉。

14 regression linear-model regression-coefficients polynomial

3

执行线性回归，但强制求解通过一些特定数据点

我知道如何对一组点执行线性回归。也就是说，我知道如何将自己选择的多项式拟合到给定的数据集（从LSE的角度来看）。但是，我不知道的是如何迫使我的解决方案经过我选择的某些特定要点。我之前已经看过这件事，但是我不记得该过程叫什么，更不用说它是如何完成的了。作为一个非常简单而具体的示例，让我们说我在xy平面上散布了100个点，我选择通过它们拟合任意阶多项式。我知道如何很好地执行此线性回归。但是，让我们说我想“强制”解决方案，例如，通过x坐标，和x = 89的三个数据点（及其对应的y坐标）当然）。x = 19 x = 89x = 3x=3x=3x = 19x=19x=19x = 89x=89x=89 这个通用程序叫什么，它是如何完成的，还有什么我需要注意的陷阱吗？编辑：我想补充一点，我正在寻找一种具体的方法来做到这一点。我编写了一个程序，该程序实际上以两种方式之一进行线性回归，即直接或通过梯度下降来反转协方差矩阵。我要问的是，究竟是如何逐步地修改我所做的事情，以使多项式解经过特定点？谢谢！

14 regression machine-learning least-squares linear-model polynomial

3

为什么高阶多项式有大系数

在Bishop的机器学习书中，它讨论了将多项式函数曲线拟合到一组数据点的问题。令M为多项式拟合的阶数。它指出我们看到，随着M的增加，系数的大小通常会变大。特别是对于M = 9的多项式，通过产生较大的正值和负值，系数已经微调到数据，因此相应的多项式函数恰好与每个数据点匹配，但与数据点之间（尤其是在数据点的末端附近）匹配范围）功能显示出较大的振荡。我不明白为什么大值意味着更紧密地拟合数据点。我认为这些值会在小数点后变得更精确，而不是为了更好地拟合。

13 regression least-squares curve-fitting polynomial

2

在拟合回归时是否有理由不使用正交多项式？

总的来说，我想知道在对具有高阶变量的回归进行拟合时是否最好不要使用正交多项式。特别是，我想知道使用R：如果poly()与raw = FALSE产生相同的拟合值作为poly()与raw = TRUE和poly与raw = FALSE解决了与多项式回归相关的问题，那么应该poly()用raw = FALSE 始终被用于拟合多项式回归？在什么情况下最好不要使用poly()？

13 r regression polynomial

1

用R计算的多元正交多项式是什么？

单变量点集中的正交多项式是在点上产生值的多项式，其点积和成对相关性为零。R可以产生具有函数poly的正交多项式。相同的函数具有变式多项式，该变式在多变量点集上生成正交多项式。无论如何，所得的多项式在成对零相关的意义上是不正交的。实际上，由于一阶多项式应该只是原始变量，因此除非原始变量不相关，否则一阶多项式就不会是正交的。然后，我的问题是： R中由polym计算的多元正交多项式是什么？它们只是单变量正交多项式的乘积吗？它们是用来干什么的？可以存在真正的多元正交多项式吗？有没有简单的生产方法？在R中？它们实际用于回归吗？更新资料在回应Superpronker的评论时，我举一个例子说明不相关多项式的含义： > x<-rnorm(10000) > cor(cbind(poly(x,degree=3))) 1 2 3 1 1.000000e+00 -6.809725e-17 2.253577e-18 2 -6.809725e-17 1.000000e+00 -2.765115e-17 3 2.253577e-18 -2.765115e-17 1.000000e+00 多边形函数返回以点x评估的正交多项式（此处每个多项式为10,000点）。不同多项式上的值之间的相关性为零（存在一些数字误差）。使用多元多项式时，相关性不为零： > x<-rnorm(1000) > y<-rnorm(1000) > cor(cbind(polym(x,y,degree=2))) 1.0 2.0 0.1 1.1 0.2 1.0 1.000000e+00 2.351107e-17 2.803716e-02 -0.02838553 3.802363e-02 2.0 2.351107e-17 1.000000e+00 -1.899282e-02 0.10336693 …

12 r multiple-regression polynomial orthogonal

1

我可以将二次项包含在逻辑回归中解释为指示转折点吗？

在仅具有线性和二次项的Logistic回归中，如果我具有线性系数和二次系数，我可以说在-\ beta_1 /（2 \ beta_2）处存在概率的转折点？β1β1\beta_1β2β2\beta_2−β1/(2β2)−β1/(2β2)-\beta_1 / (2\beta_2)

12 interpretation logit polynomial

2

如果您不能正交处理，请原始处理（多项式回归）

当执行多项式回归在，人们有时会使用原始多项式，有时正交多项式。但是当他们使用似乎完全武断的东西时。XYYYXXX 在这里和这里使用原始多项式。但是在这里和这里，正交多项式似乎给出了正确的结果。什么，怎么，为什么？！与此相反，当从教科书（例如ISLR）中学习多项式回归时，甚至没有提到原始多项式或正交多项式-只是给出了要拟合的模型。那么我们什么时候必须使用什么呢？为什么，等的各个 p值在这两个值之间相差很多？X 2XXXX2X2X^2

11 regression polynomial

1

多项式对比变量的计算

请让我知道如何有效地将分类变量（因子）重新编码为正交多项式对比变量的集合。对于许多类型的对比变量（例如，偏差，简单，Helmert等），通过是：组成对应类型的对比度系数矩阵。对其进行逆运算或广义逆运算可获得代码矩阵。例如： Suppose there is 3-group factor and we want to recode it into a set of deviation contrast variables. The last group is treated as reference. Then the contrast coefficients matrix L is Group1 Group2 Group3 var1 2/3 -1/3 -1/3 var2 -1/3 2/3 -1/3 and ginv(L) …

11 contrasts polynomial

3

为什么在遗传关联研究中使用年龄平方作为协变量？

为什么在遗传关联研究中将年龄和年龄平方作为协变量？如果已将年龄确定为重要协变量，我可以理解其用法，但我对年龄平方的使用感到迷惑。

11 multiple-regression polynomial predictor bioinformatics genetics

Questions tagged «polynomial»