统计和大数据 splines

2

我的问题：我最近遇到了一位统计学家，他告诉我样条线仅对探索数据有用，并且过度拟合，因此对预测没有用。他更喜欢使用简单的多项式进行探索...由于我是样条曲线的忠实拥护者，因此与我的直觉相违背，我有兴趣了解这些论证的有效性，以及是否存在大量的反样条曲线，维权人士在那里？背景：创建模型时，我尝试遵循回归建模策略（1）的Frank Harrell。他认为受限三次样条是探索连续变量的有效工具。他还认为，多项式在建模某些关系（例如阈值，对数（2））方面很差。为了测试模型的线性，他建议对样条曲线进行ANOVA测试： H0:β2=β3=…=βk−1=0H0:β2=β3=…=βk−1=0H_0: \beta_2 = \beta_3 = … = \beta_{k-1} = 0 我用谷歌搜索样条曲线的过度拟合，但没有发现太多用处（除了关于不使用过多结的一般警告之外）。在这个论坛上，似乎更喜欢样条线建模，Kolassa，Harrell和gung。我找到了一篇有关多项式的博文，这是有关预测多项式的过拟合的魔鬼。该帖子以以下评论结尾：在某种程度上，这里提供的示例是作弊的-多项式回归是高度不稳健的。在实践中，更好的方法是使用样条线而不是多项式。现在，这提示我检查样条的效果如何： library(rms) p4 <- poly(1:100, degree=4) true4 <- p4 %*% c(1,2,-6,9) days <- 1:70 set.seed(7987) noise4 <- true4 + rnorm(100, sd=.5) reg.n4.4 <- lm(noise4[1:70] ~ poly(days, 4)) reg.n4.4ns <- lm(noise4[1:70] ~ ns(days,4)) dd <- …

47 regression splines

1

GAM中的张量积交互作用的直觉（R中的MGCV程序包）

广义加性模型是例如的模型。功能是平稳的，并且需要估计。通常用花键惩罚。MGCV是R中的一个软件包，作者（Simon Wood）用R实例写了一本关于他的软件包的书。Ruppert等。（2003年）写了一本关于同一事物的简单版本的更易读的书。 y=α+f1(x1)+f2(x2)+eiy=α+f1(x1)+f2(x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + e_i 我的问题是关于这些模型之间的交互。如果我想执行以下操作：如果我们在OLS地（只是一个beta），解释不会有问题。如果我们通过罚样条进行估计，那么在加法上下文中的解释也没有问题。 y=α+f1(x1)+f2(x2)+f3(x1×x2)+eiy=α+f1(x1)+f2(x2)+f3(x1×x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + f_3(x_1\times x_2) + e_i ˚F 3ffff^3f^3\hat{f}_3 但是GAM中的MGCV软件包具有这些称为“张量积平滑”的东西。我用Google搜索“张量积”，然后立即注视着试图阅读我所发现的解释。我不够聪明，或者数学解释得不好，或者两者兼而有之。代替编码 normal = gam(y~s(x1)+s(x2)+s(x1*x2)) 张量积将通过 what = gam(y~te(x1,x2)) 当我做 plot(what) 要么 vis.gam(what) 我得到一些非常酷的输出。但是我不知道黑匣子内部发生了什么te()，也不知道如何解释上述很酷的输出。就在前一天晚上，我做了一场噩梦，正在开会。我给大家看了一个很酷的图表，他们问我这是什么意思，我不知道。然后我发现我没有衣服。任何人都可以通过一些机械和直觉来帮助我和后代，以了解这里引擎盖下面的情况吗？理想情况下，要说说正常的加性相互作用情况与张量情况之间的区别？在继续学习数学之前，用简单的英语说所有东西的好处是。

30 r nonparametric interaction splines intuition

2

比较平滑样条与黄土进行平滑？

我希望更好地了解使用黄土或平滑样条曲线平滑某些曲线的利弊。我的问题的另一个变化是，是否有一种方法可以构造出与使用黄土相同的结果的平滑样条。欢迎任何参考或见识。

25 regression splines loess

1

在R中的自然立方样条曲线中设置结

我的数据具有许多相关的功能，在运行LDA之前，我想先使用平滑基函数来简化这些功能。我正在尝试使用splines带有ns功能的程序包中的自然三次样条。如何分配结点？这是基本的R代码： library(splines) lda.pred <- lda(y ~ ns(x, knots=5)) 但是我不知道该如何选择结ns。

23 r splines

6

高级回归建模示例

我正在寻找高级线性回归案例研究，以说明使用GLM或OLS建模复杂的多个非线性关系所需的步骤。很难找到超出基本学校例子的资源：我读过的大多数书都不会超出响应的对数转换以及一个预测变量的BoxCox或最佳情况下的自然样条。同样，到目前为止，我所看到的所有示例都在单独的模型（通常在单个预测器模型中）中解决每个数据转换问题。我知道BoxCox或YeoJohnson转换是什么。我正在寻找的是详细的，真实的案例研究，其中的响应/关系不清楚。例如，响应并非严格为正（因此您不能使用log或BoxCox），预测变量之间以及与响应之间均具有非线性关系，并且最大似然数据转换似乎并不意味着标准0.33或0.5指数。同样，发现剩余方差是非恒定的（从未如此），因此也必须转换响应，并且必须在非标准GLM族回归或响应转换之间进行选择。研究人员可能会做出选择，以避免过度拟合数据。编辑到目前为止，我收集了以下资源：回归建模策略，F。Harrell 应用计量经济学时间序列，W。恩德斯具有R，G. Petris的动态线性模型应用回归分析，D。Kleinbaum 统计学习概论，G。James / D。维滕我只读了最后一篇（ISLR），尽管它比高级回归建模更着重于ML，但它是一篇很好的文章（手表上有5颗五星）。还有这对CV呈现一个具有挑战性的回归情况下，好的职位。

22 multiple-regression generalized-linear-model data-transformation splines nonlinear

1

样条曲线可以用于预测吗？

我无法具体说明数据的性质，因为它是专有的，但是假设我们有这样的数据：每个月都有一些人注册一项服务。然后，在随后的每个月中，这些人可能会升级服务，中止服务或拒绝服务（例如，由于无法付款）。对于最早的数据，我们有大约2年的数据（24个月）。每个月加入的人数很多（在100,000个范围内），而做这三件事中的任何一个的人数都在数千。但是，我们没有使用单个级别的数据（可能是数百万行），而是按月份和同类群组（每个同类群组每个月做某事的比例）汇总的数据。我们一直在使用多元自适应回归样条（MARS）对现有数据进行建模，并发现一些有趣的结果。但是，我担心使用这些推断或预测未来。我担心的是，对未来的预测必然超出样本空间（就时间而言），样条曲线可能会变得不稳定以进行外推。这是合法方法吗？有什么问题可以解决？

20 panel-data splines mars

3

解释样条结果

我正在尝试使用R拟合GLM的样条曲线。一旦拟合出样条曲线，我希望能够获取生成的模型并在Excel工作簿中创建建模文件。例如，假设我有一个数据集，其中y是x的随机函数，并且斜率在特定点处突然变化（在这种情况下，x = 500）。 set.seed(1066) x<- 1:1000 y<- rep(0,1000) y[1:500]<- pmax(x[1:500]+(runif(500)-.5)*67*500/pmax(x[1:500],100),0.01) y[501:1000]<-500+x[501:1000]^1.05*(runif(500)-.5)/7.5 df<-as.data.frame(cbind(x,y)) plot(df) 我现在使用 library(splines) spline1 <- glm(y~ns(x,knots=c(500)),data=df,family=Gamma(link="log")) 我的结果显示 summary(spline1) Call: glm(formula = y ~ ns(x, knots = c(500)), family = Gamma(link = "log"), data = df) Deviance Residuals: Min 1Q Median 3Q Max -4.0849 -0.1124 -0.0111 0.0988 1.1346 …

20 splines

2

使用样条曲线，平滑样条曲线和高斯过程仿真器的优点/缺点是什么？

我对学习（和实现）多项式插值的替代方法很感兴趣。但是，我很难找到关于这些方法如何工作，如何关联以及如何比较的良好描述。我希望您能就这些方法或替代方法的优点/缺点/条件提出宝贵意见，但对文本，幻灯片或播客的一些很好的引用就足够了。

20 interpolation splines

4

边缘情况下精度和召回率的正确值是多少？

精度定义为： p = true positives / (true positives + false positives) 对不对，作为true positives和false positives做法0，精度接近1？召回相同的问题： r = true positives / (true positives + false negatives) 我目前正在实施统计测试，需要计算这些值，有时分母为0，我想知道在这种情况下应返回哪个值。 PS：请原谅，不恰当的标签，我想用recall，precision和limit，但我不能创造新的标签呢。

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

1

lmer（）可以将样条曲线用作随机效果吗？

假设我们正在研究随时间推移一些计数数据的随机效应模型，并且我们希望控制某些趋势。通常，您会执行以下操作： lmer(counts ~ dependent_variable + (1+t+I(t^2)|ID), family="poisson") 为包括二次形状t。是否可以使用一些更复杂的平滑技术（如LOESS平滑器或样条线）来建立这种关系的模型？

19 mixed-model lme4-nlme splines

2

可视化样条曲线基础

教科书在解释主题时，通常会以漂亮的示例样条为基础，说明统一样条曲线的基础。像是线性样条线的一排小三角形，或者是三次样条线的一排小驼峰。这是一个典型的例子： http://support.sas.com/documentation/cdl/zh-CN/statug/63033/HTML/default/viewer.htm#statug_introcom_a0000000525.htm 我想知道是否有使用标准R函数（如bs或ns）生成样条曲线基础图的简便方法。我猜想有一个简单的矩阵算术与一个琐碎的R程序相结合，可以优雅地吐出漂亮的样条曲线图。我只是想不到！

18 data-visualization splines

3

拟合多元自然三次样条

注：用了一个月后，没有正确的答案，我要重新发布SO 背景我有一个模型fff，其中Y=f(X)Y=f(X)Y=f(\textbf{X}) 是来自 m个参数的样本的 n × m矩阵， Y是模型输出的 n × 1向量。XX\textbf{X}n×mn×mn \times mmmmYYYn×1n×1n \times 1 是计算密集型的，因此我想使用多变量三次样条曲线通过（X ，Y ）点来近似 f，以便可以在更多点上评估 Y。ffffff(X,Y)(X,Y)(X,Y)YYY 题是否有R函数可以计算X和Y之间的任意关系？具体来说，我正在寻找该splinefun函数的多元版本，该版本针对单变量情况生成样条函数。例如这是 splinefun单变量情况下的工作方式 x <- 1:10 y <- runif(10) foo <- splinefun(x,y) foo(1:10) #returns y, as example all(y == foo(1:10)) ## TRUE 我尝试过的我已经审查了mda软件包，并且似乎应该可以进行以下操作： library(mda) x <- …

17 r multivariate-analysis splines interpolation gaussian-process

2

回归的自然三次样条的定义

我正在从Hastie等人的《统计学习的数据挖掘，推理和预测的要素》一书中学习样条曲线。我在第145页上发现，自然三次样条曲线在边界结之外是线性的。有KKK结，ξ1,ξ2,...ξKξ1,ξ2,...ξK\xi_1, \xi_2, ... \xi_K在栓和下面给出关于在书中这样一个样。问题1：如何释放4个自由度？我没有这部分。问题2：在定义时ķ = ķ然后ð ķ（X ）= 0dk(X)dk(X)d_k(X)k=Kk=Kk=K。作者在这个公式中想做什么？这如何帮助确保样条曲线在边界结之外是线性的？dK(X)=00dK(X)=00d_K(X) = \frac 0 0

16 regression degrees-of-freedom splines constraint cubic

3

样条曲线与高斯过程回归

我知道高斯过程回归（GPR）是使用样条曲线拟合弹性非线性模型的替代方法。我想知道哪种情况比另一种情况更合适，尤其是在贝叶斯回归框架中。我已经看过使用样条线，平滑样条线和高斯过程仿真器的优点/缺点是什么？但这篇文章中似乎没有关于GPR的任何内容。

15 regression gaussian-process splines kriging

1

使用样条线查找密度函数的局部极值

我正在尝试找到概率密度函数的局部最大值（使用R density方法找到）。由于存在大量数据，因此我无法执行一种简单的“环顾四周”方法（即环顾一个点以查看其是否是相对于其邻居的局部最大值）。此外，与使用容错和其他参数构建“环顾四周”相反，使用样条插值法然后找到一阶导数的根似乎更为有效和通用。所以，我的问题是：给定来自的函数splinefun，哪些方法可以找到局部最大值？有没有一种简单/标准的方法来查找使用返回的函数的派生形式splinefun？有没有更好的/标准的方法来找到概率密度函数的局部最大值？供参考，以下是我的密度函数图。我正在使用的其他密度函数在形式上相似。我应该说我是R的新手，但不是编程的新手，因此可能会有一个标准的库或程序包来实现我所需要的。谢谢你的帮助！！

15 r pdf splines maximum

Questions tagged «splines»