Questions tagged «splines»

花键是灵活的函数,由多项式部分编织在一起,用于逼近或平滑。该标签适用于任何种类的样条曲线(例如B样条曲线,回归样条曲线,薄板样条曲线等)。

1
GAM vs LOESS vs花键
语境:我想提请在不出现参数散点图一条线,所以我使用geom_smooth()的ggplot中R。它会自动返回geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.我收集的GAM代表广义加性模型,并使用三次样条曲线。 以下看法正确吗? 黄土以特定值估算响应。 样条曲线是连接适合数据的不同分段函数(构成广义加性模型)的近似值,三次样条曲线是此处使用的特定样条曲线类型。 最后,何时应使用花键,何时应使用LOESS?

3
如何将样条曲线拟合到包含值和一阶/二阶导数的数据?
我有一个数据集,其中包含一些位置,速度和加速度的测量值。全部来自同一“运行”。我可以构造一个线性系统,并将多项式拟合所有这些度量。 但是我可以用样条线做同样的事情吗?这样做的“ R”方式是什么? 这是一些我想拟合的模拟数据: f <- function(x) 2+x-0.5*x^2+rnorm(length(x), mean=0, sd=0.1) df <- function(x) 1-x+rnorm(length(x), mean=0, sd=0.3) ddf <- function(x) -1+rnorm(length(x), mean=0, sd=0.6) x_f <- runif(5, 0, 5) x_df <- runif(8, 3, 8) x_ddf <- runif(10, 4, 9) data <- data.frame(type=rep('f'), x=x_f, y=f(x_f)) data <- rbind(data, data.frame(type=rep('df'), x=x_df, y=df(x_df))) data <- …

4
在逻辑回归分析中,对于连续自变量,我应如何检查对数线性的假设?
我对逻辑回归分析中连续预测变量的logit线性假设感到困惑。在使用单变量logistic回归分析筛选潜在预测指标时,我们是否需要检查线性关系? 就我而言,我正在使用多元逻辑回归分析来确定参与者中与营养状况(二分结果)相关的因素。连续变量包括年龄,Charlson合并症评分,Barthel指数评分,握力,GDS评分,BMI等。我的第一步是使用简单的逻辑回归筛选重要变量。在每个连续变量的简单逻辑回归分析过程中,是否需要检查线性假设?还是应该在最终的多元逻辑回归模型中进行检查? 此外,据我了解,我们需要先将非线性连续变量转化为模型,然后再进行转换。我可以对非线性连续变量进行分类而不是进行转换吗?

2
GLM和GAM中的样条
仅在GAM模型中提供样条而不在GLM模型中提供样条是错误的吗?我前不久听到了这个消息,想知道这是否只是一个误解,或有什么道理。这是一个例子:

1
多重共线性和样条回归是否存在问题?
当使用自然的(即受限制的)三次样条曲线时,创建的基函数是高度共线性的,当在回归中使用时,似乎会产生非常高的VIF(方差膨胀因子)统计数据,表示多重共线性。当出于预测目的考虑模型的情况时,这是一个问题吗?由于样条线构造的性质,似乎总是这样。 这是R中的示例: library(caret) library(Hmisc) library(car) data(GermanCredit) spl_mat<-rcspline.eval(GermanCredit$Amount, nk=5, inclx=TRUE) #natural cubic splines with 5 knots class<-ifelse(GermanCredit$Class=='Bad',1,0) #binary target variable dat<-data.frame(cbind(spl_mat,class)) cor(spl_mat) OUTPUT: x x 1.0000000 0.9386463 0.9270723 0.9109491 0.9386463 1.0000000 0.9994380 0.9969515 0.9270723 0.9994380 1.0000000 0.9989905 0.9109491 0.9969515 0.9989905 1.0000000 mod<-glm(class~.,data=dat,family=binomial()) #model vif(mod) #massively high OUTPUT: x V2 V3 V4 …

1
如何将与三次样条曲线拟合的lm()的输出转换为回归方程
我有一些代码和输出,我想构建一个模型。我不知道如何使用此输出来构建模型: require("splines") x <- c(0.2, 0.23, 0.26, 0.29, 0.33, 0.46, 0.53 ) y <- c(0.211, 0.2026, 0.2034, 0.2167, 0.2177, 0.19225, 0.182) fit <- lm(y ~ ns(x,3)) summary(fit) 请注意,ns()将为自然三次样条生成B样条基础矩阵。因此,该模型y针对x使用三个自由度的B样条回归。这样的模型的方程是什么样的?
12 r  splines 

1
如何用样条/平滑回归预测新数据
在使用平滑/样条线作为预测模型时,谁能提供关于如何对新数据进行预测的概念性解释?例如,给定一个模型,该模型在R gamboost的mboost包中使用创建,带有p样条曲线,那么如何预测新数据?训练数据使用了什么? 假设自变量x有一个新值,并且我们要预测y。在训练模型时是否使用结或df将用于创建样条曲线的公式应用于该新数据值,然后将来自训练模型的系数应用于输出预测? 这是R的示例,对于新数据mean_radius = 15.99,预测在概念上将输出899.4139吗? #take the data wpbc as example library(mboost) data(wpbc) modNew<-gamboost(mean_area~mean_radius, data = wpbc, baselearner = "bbs", dfbase = 4, family=Gaussian(),control = boost_control(mstop = 5)) test<-data.frame(mean_radius=15.99) predict(modNew,test)

1
受限三次样条曲线和惩罚样条曲线有何不同?
我正在阅读很多有关在各种回归问题中使用样条曲线的信息。一些书(例如Hodges Riched Parrameterized线性模型)推荐了样条曲线。其他(例如Harrell 回归建模策略)选择了受限制的三次样条曲线。 在实践中,这些有何不同?您是否经常会从使用一种或另一种获得实质上不同的结果?一个或另一个具有特殊优势吗?

5
为什么要不惜一切代价避免装仓?
因此,我读了几篇关于为什么应始终避免合并的文章。该链接的流行参考是此链接。 主要的缺点是分档点(或切点)相当随意,并且会导致信息丢失,因此应首选样条线。 但是,我目前正在使用Spotify API,该API对它们的某些功能有很多连续的置信度度量。 看一下“工具性”这一功能,引用指出: 预测曲目是否不包含人声。在这种情况下,“哦”和“啊”的声音被视为乐器。说唱或说出的单词轨迹显然是“声音”。器乐性值越接近1.0,则曲目中没有人声内容的可能性越大。高于0.5的值旨在表示乐器轨迹,但随着该值接近1.0,置信度更高。 考虑到我的数据分布非常偏左(大约90%的样本几乎不超过0,我发现将此功能转换为两个分类特征是明智的:“ instrumental”(所有值均大于0.5的样本)和“ non_instrumental” ”(对于所有小于0.5的样本)。 错了吗 当我几乎所有(连续)数据都围绕一个值旋转时,将会有什么选择呢?根据我对样条曲线的了解,它们也不能解决分类问题(我在做什么)。

2
回归中的B样条VS高阶多项式
我没有特定的示例或任务。我只是使用b样条的新手,我想在回归上下文中更好地了解此函数。 假设我们要评估响应变量与某些预测变量x 1,x 2,...之间的关系。。。,X p。预测变量包括一些数值变量和一些分类变量。yyyx1,x2,...,xpx1,x2,...,xpx_1, x_2,...,x_p 假设在拟合回归模型后,数值变量之一(例如是有效的。之后的逻辑步骤是评估是否需要更高阶的多项式,例如:x 2 1和x 3 1,以便在不过度拟合的情况下充分说明该关系。x1x1x_1x21x12x_1^2x31x13x_1^3 我的问题是: 在什么时候选择b样条曲线或简单的高阶多项式。例如在R: y ~ poly(x1,3) + x2 + x3 与 y ~ bs(x1,3) + x2 + x3 您如何使用图来告知您在这两者之间的选择,以及从图上还不清楚时会发生什么情况(例如:由于大量数据点) 您将如何评估和x 3之间的双向交互作用项x2x2x_2x3x3x_3 对于不同类型的模型,上述变化如何 您是否会考虑从不使用高阶多项式并始终拟合b样条并惩罚高灵活性?

1
定期样条以适应定期数据
在对这个问题的评论中,用户@whuber引用了使用样条曲线的定期版本来拟合定期数据的可能性。我想了解更多有关此方法的信息,特别是定义样条曲线的方程式,以及如何在实践中实现它们(我主要是R用户,但如有需要,可以使用MATLAB或Python)。同样,但这是“很高兴”的事情,很高兴知道与三角多项式拟合有关的可能的优点/缺点,这就是我通常如何处理此类数据(除非响应不是很平稳,在这种情况下,我会切换到具有周期性内核的高斯过程。

1
如何找到平滑样条/黄土回归的p值?
我有一些变量,我很想找到它们之间的非线性关系。因此,我决定拟合一些样条曲线或黄土,并打印漂亮的图(请参见下面的代码)。但是,我还希望获得一些统计数据,以使我了解这种关系是随机性问题的可能性有多大……即,我需要一些总体p值,例如对于线性回归而言。换句话说,我需要知道拟合曲线是否有意义,因为我的代码会将曲线拟合到任何数据。 x <- rnorm(1000) y <- sin(x) + rnorm(1000, 0, 0.5) cor.test(x,y) plot(x, y, xlab = xlab, ylab = ylab) spl1 <- smooth.spline(x, y, tol = 1e-6, df = 8) lines(spl1, col = "green", lwd = 2) spl2 <- loess(y ~ x) x.pr <- seq(min(x), max(x), length.out = 100) lines(x.pr, …
10 r  regression  splines  loess 

1
如何在ARIMA模型的观察值48中加入创新的离群值?
我正在处理数据集。使用一些模型识别技术后,我得出了一个ARIMA(0,2,1)模型。 我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值(IO)。 如何将这个离群值合并到模型中,以便将其用于预测?我不想使用ARIMAX模型,因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗? 以下是我的价值观: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
样条和非样条项的相互作用是什么意思?
如果我使用lm(y~a*b)R语法将数据拟合为,其中R a是二进制变量且b是数字变量,则a:b交互项是y~bat a= 0和at a= 1的斜率之差。 现在,假设y和之间的关系b是曲线的。如果我现在适合lm(y~a*poly(b,2)),则a:poly(b,2)1是y~b条件的变化在上述水平上的变化a,并且a:poly(b,2)2是y~b^2条件的变化在上水平a。这需要花费一些时间,但是如果这些相互作用系数中的任何一个都明显不同于零,那么我可以说这意味着a不仅影响y峰的垂直位移,而且影响峰的位置以及接近y~b+b^2曲线峰的陡度。 如果我合适lm(y~a*bs(b,df=3))怎么办?我该如何解释a:bs(b,df=3)1,a:bs(b,df=3)2和a:bs(b,df=3)3条件?这些y来自样条线的垂直位移是否可归因于a三个部分的每一个?

1
卡尔曼滤波器与平滑样条曲线
问:使用状态空间建模和卡尔曼滤波而不是平滑样条曲线适合哪些数据,反之亦然?两者之间是否存在等价关系? 我试图对这些方法如何组合在一起有一个高层次的了解。我浏览了约翰斯顿的新高斯估计:序列和多分辨率模型。令人惊讶的是,没有提到状态空间模型和卡尔曼滤波。为什么不在那里?那不是解决这类问题的最标准工具吗?相反,重点是平滑样条和小波阈值处理。我现在很困惑。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.