Questions tagged «splines»

花键是灵活的函数,由多项式部分编织在一起,用于逼近或平滑。该标签适用于任何种类的样条曲线(例如B样条曲线,回归样条曲线,薄板样条曲线等)。

2
样条曲线是否适合数据?
我的问题:我最近遇到了一位统计学家,他告诉我样条线仅对探索数据有用,并且过度拟合,因此对预测没有用。他更喜欢使用简单的多项式进行探索...由于我是样条曲线的忠实拥护者,因此与我的直觉相违背,我有兴趣了解这些论证的有效性,以及是否存在大量的反样条曲线,维权人士在那里? 背景:创建模型时,我尝试遵循回归建模策略(1)的Frank Harrell。他认为受限三次样条是探索连续变量的有效工具。他还认为,多项式在建模某些关系(例如阈值,对数(2))方面很差。为了测试模型的线性,他建议对样条曲线进行ANOVA测试: H0:β2=β3=…=βk−1=0H0:β2=β3=…=βk−1=0H_0: \beta_2 = \beta_3 = … = \beta_{k-1} = 0 我用谷歌搜索样条曲线的过度拟合,但没有发现太多用处(除了关于不使用过多结的一般警告之外)。在这个论坛上,似乎更喜欢样条线建模,Kolassa,Harrell和gung。 我找到了一篇有关多项式的博文,这是有关预测多项式的过拟合的魔鬼。该帖子以以下评论结尾: 在某种程度上,这里提供的示例是作弊的-多项式回归是高度不稳健的。在实践中,更好的方法是使用样条线而不是多项式。 现在,这提示我检查样条的效果如何: library(rms) p4 <- poly(1:100, degree=4) true4 <- p4 %*% c(1,2,-6,9) days <- 1:70 set.seed(7987) noise4 <- true4 + rnorm(100, sd=.5) reg.n4.4 <- lm(noise4[1:70] ~ poly(days, 4)) reg.n4.4ns <- lm(noise4[1:70] ~ ns(days,4)) dd <- …

1
GAM中的张量积交互作用的直觉(R中的MGCV程序包)
广义加性模型是例如 的模型。功能是平稳的,并且需要估计。通常用花键惩罚。MGCV是R中的一个软件包,作者(Simon Wood)用R实例写了一本关于他的软件包的书。Ruppert等。(2003年)写了一本关于同一事物的简单版本的更易读的书。 y=α+f1(x1)+f2(x2)+eiy=α+f1(x1)+f2(x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + e_i 我的问题是关于这些模型之间的交互。如果我想执行以下操作: 如果我们在OLS地(只是一个beta) ,解释不会有问题。如果我们通过罚样条进行估计,那么在加法上下文中的解释也没有问题。 y=α+f1(x1)+f2(x2)+f3(x1×x2)+eiy=α+f1(x1)+f2(x2)+f3(x1×x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + f_3(x_1\times x_2) + e_i ˚F 3ffff^3f^3\hat{f}_3 但是GAM中的MGCV软件包具有这些称为“张量积平滑”的东西。我用Google搜索“张量积”,然后立即注视着试图阅读我所发现的解释。我不够聪明,或者数学解释得不好,或者两者兼而有之。 代替编码 normal = gam(y~s(x1)+s(x2)+s(x1*x2)) 张量积将通过 what = gam(y~te(x1,x2)) 当我做 plot(what) 要么 vis.gam(what) 我得到一些非常酷的输出。但是我不知道黑匣子内部发生了什么te(),也不知道如何解释上述很酷的输出。就在前一天晚上,我做了一场噩梦,正在开会。我给大家看了一个很酷的图表,他们问我这是什么意思,我不知道。然后我发现我没有衣服。 任何人都可以通过一些机械和直觉来帮助我和后代,以了解这里引擎盖下面的情况吗?理想情况下,要说说正常的加性相互作用情况与张量情况之间的区别?在继续学习数学之前,用简单的英语说所有东西的好处是。

2
比较平滑样条与黄土进行平滑?
我希望更好地了解使用黄土或平滑样条曲线平滑某些曲线的利弊。 我的问题的另一个变化是,是否有一种方法可以构造出与使用黄土相同的结果的平滑样条。 欢迎任何参考或见识。

1
在R中的自然立方样条曲线中设置结
我的数据具有许多相关的功能,在运行LDA之前,我想先使用平滑基函数来简化这些功能。我正在尝试使用splines带有ns功能的程序包中的自然三次样条。 如何分配结点? 这是基本的R代码: library(splines) lda.pred <- lda(y ~ ns(x, knots=5)) 但是我不知道该如何选择结ns。
23 r  splines 

6
高级回归建模示例
我正在寻找高级线性回归案例研究,以说明使用GLM或OLS建模复杂的多个非线性关系所需的步骤。很难找到超出基本学校例子的资源:我读过的大多数书都不会超出响应的对数转换以及一个预测变量的BoxCox或最佳情况下的自然样条。同样,到目前为止,我所看到的所有示例都在单独的模型(通常在单个预测器模型中)中解决每个数据转换问题。 我知道BoxCox或YeoJohnson转换是什么。我正在寻找的是详细的,真实的案例研究,其中的响应/关系不清楚。例如,响应并非严格为正(因此您不能使用log或BoxCox),预测变量之间以及与响应之间均具有非线性关系,并且最大似然数据转换似乎并不意味着标准0.33或0.5指数。同样,发现剩余方差是非恒定的(从未如此),因此也必须转换响应,并且必须在非标准GLM族回归或响应转换之间进行选择。研究人员可能会做出选择,以避免过度拟合数据。 编辑 到目前为止,我收集了以下资源: 回归建模策略,F。Harrell 应用计量经济学时间序列,W。恩德斯 具有R,G. Petris的动态线性模型 应用回归分析,D。Kleinbaum 统计学习概论,G。James / D。维滕 我只读了最后一篇(ISLR),尽管它比高级回归建模更着重于ML,但它是一篇很好的文章(手表上有5颗五星)。 还有这对CV呈现一个具有挑战性的回归情况下,好的职位。

1
样条曲线可以用于预测吗?
我无法具体说明数据的性质,因为它是专有的,但是假设我们有这样的数据:每个月都有一些人注册一项服务。然后,在随后的每个月中,这些人可能会升级服务,中止服务或拒绝服务(例如,由于无法付款)。对于最早的数据,我们有大约2年的数据(24个月)。 每个月加入的人数很多(在100,000个范围内),而做这三件事中的任何一个的人数都在数千。但是,我们没有使用单个级别的数据(可能是数百万行),而是按月份和同类群组(每个同类群组每个月做某事的比例)汇总的数据。 我们一直在使用多元自适应回归样条(MARS)对现有数据进行建模,并发现一些有趣的结果。 但是,我担心使用这些推断或预测未来。我担心的是,对未来的预测必然超出样本空间(就时间而言),样条曲线可能会变得不稳定以进行外推。 这是合法方法吗?有什么问题可以解决?

3
解释样条结果
我正在尝试使用R拟合GLM的样条曲线。一旦拟合出样条曲线,我希望能够获取生成的模型并在Excel工作簿中创建建模文件。 例如,假设我有一个数据集,其中y是x的随机函数,并且斜率在特定点处突然变化(在这种情况下,x = 500)。 set.seed(1066) x<- 1:1000 y<- rep(0,1000) y[1:500]<- pmax(x[1:500]+(runif(500)-.5)*67*500/pmax(x[1:500],100),0.01) y[501:1000]<-500+x[501:1000]^1.05*(runif(500)-.5)/7.5 df<-as.data.frame(cbind(x,y)) plot(df) 我现在使用 library(splines) spline1 <- glm(y~ns(x,knots=c(500)),data=df,family=Gamma(link="log")) 我的结果显示 summary(spline1) Call: glm(formula = y ~ ns(x, knots = c(500)), family = Gamma(link = "log"), data = df) Deviance Residuals: Min 1Q Median 3Q Max -4.0849 -0.1124 -0.0111 0.0988 1.1346 …
20 splines 


4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

1
lmer()可以将样条曲线用作随机效果吗?
假设我们正在研究随时间推移一些计数数据的随机效应模型,并且我们希望控制某些趋势。通常,您会执行以下操作: lmer(counts ~ dependent_variable + (1+t+I(t^2)|ID), family="poisson") 为包括二次形状t。是否可以使用一些更复杂的平滑技术(如LOESS平滑器或样条线)来建立这种关系的模型?

2
可视化样条曲线基础
教科书在解释主题时,通常会以漂亮的示例样条为基础,说明统一样条曲线的基础。像是线性样条线的一排小三角形,或者是三次样条线的一排小驼峰。 这是一个典型的例子: http://support.sas.com/documentation/cdl/zh-CN/statug/63033/HTML/default/viewer.htm#statug_introcom_a0000000525.htm 我想知道是否有使用标准R函数(如bs或ns)生成样条曲线基础图的简便方法。我猜想有一个简单的矩阵算术与一个琐碎的R程序相结合,可以优雅地吐出漂亮的样条曲线图。我只是想不到!

3
拟合多元自然三次样条
注:用了一个月后,没有正确的答案,我要重新发布SO 背景 我有一个模型fff,其中Y=f(X)Y=f(X)Y=f(\textbf{X}) 是来自 m个参数的样本的 n × m矩阵, Y是模型输出的 n × 1向量。XX\textbf{X}n×mn×mn \times mmmmYYYn×1n×1n \times 1 是计算密集型的,因此我想使用多变量三次样条曲线通过(X ,Y )点来近似 f,以便可以在更多点上评估 Y。ffffff(X,Y)(X,Y)(X,Y)YYY 题 是否有R函数可以计算X和Y之间的任意关系? 具体来说,我正在寻找该splinefun函数的多元版本,该版本针对单变量情况生成样条函数。 例如这是 splinefun单变量情况下的工作方式 x <- 1:10 y <- runif(10) foo <- splinefun(x,y) foo(1:10) #returns y, as example all(y == foo(1:10)) ## TRUE 我尝试过的 我已经审查了mda软件包,并且似乎应该可以进行以下操作: library(mda) x <- …

2
回归的自然三次样条的定义
我正在从Hastie等人的《统计学习的数据挖掘,推理和预测的要素》一书中学习样条曲线。我在第145页上发现,自然三次样条曲线在边界结之外是线性的。有KKK结,ξ1,ξ2,...ξKξ1,ξ2,...ξK\xi_1, \xi_2, ... \xi_K在栓和下面给出关于在书中这样一个样。 问题1:如何释放4个自由度?我没有这部分。 问题2:在定义时ķ = ķ然后ð ķ(X )= 0dk(X)dk(X)d_k(X)k=Kk=Kk=K。作者在这个公式中想做什么?这如何帮助确保样条曲线在边界结之外是线性的?dK(X)=00dK(X)=00d_K(X) = \frac 0 0

3
样条曲线与高斯过程回归
我知道高斯过程回归(GPR)是使用样条曲线拟合弹性非线性模型的替代方法。我想知道哪种情况比另一种情况更合适,尤其是在贝叶斯回归框架中。 我已经看过使用样条线,平滑样条线和高斯过程仿真器的优点/缺点是什么?但这篇文章中似乎没有关于GPR的任何内容。

1
使用样条线查找密度函数的局部极值
我正在尝试找到概率密度函数的局部最大值(使用R density方法找到)。由于存在大量数据,因此我无法执行一种简单的“环顾四周”方法(即环顾一个点以查看其是否是相对于其邻居的局部最大值)。此外,与使用容错和其他参数构建“环顾四周”相反,使用样条插值法然后找到一阶导数的根似乎更为有效和通用。 所以,我的问题是: 给定来自的函数splinefun,哪些方法可以找到局部最大值? 有没有一种简单/标准的方法来查找使用返回的函数的派生形式splinefun? 有没有更好的/标准的方法来找到概率密度函数的局部最大值? 供参考,以下是我的密度函数图。我正在使用的其他密度函数在形式上相似。我应该说我是R的新手,但不是编程的新手,因此可能会有一个标准的库或程序包来实现我所需要的。 谢谢你的帮助!!
15 r  pdf  splines  maximum 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.