Questions tagged «splines»

花键是灵活的函数,由多项式部分编织在一起,用于逼近或平滑。该标签适用于任何种类的样条曲线(例如B样条曲线,回归样条曲线,薄板样条曲线等)。

1
样条混合效果模型
我正在用样条曲线项拟合混合效果模型,该应用程序的随时间变化的趋势是曲线线性的。但是,我要评估的是曲线趋势是否是由于个体偏离线性而出现的,还是在组水平上使组水平拟合显得曲线线性的一种影响。我给出了一个可重现的示例,该示例使JM包中的数据集变得无聊。 library(nlme) library(JM) data(pbc2) fitLME1 <- lme(log(serBilir) ~ ns(year, 2), random = ~ year | id, data = pbc2) fitLME2 <- lme(log(serBilir) ~ year, random = ~ ns(year, 2) | id, data = pbc2) 本质上,我想知道其中哪一个更适合我的数据。但是通过比较anova给了我一个不祥的警告: Model df AIC BIC logLik Test L.Ratio p-value fitLME1 1 7 3063.364 3102.364 -1524.682 fitLME2 …
9 r  splines  lme4-nlme 

2
模型构建过程是交互式的时进行回测或交叉验证
我有一些预测模型,我想对其性能进行回测(即,获取我的数据集,将其“倒带”到上一个时间点,并查看该模型的预期性能)。 问题是我的某些模型是通过交互过程构建的。例如,按照弗兰克·哈雷尔(Frank Harrell)的回归建模策略中的建议,在一个模型中,我使用了受限制的三次样条来处理特征与响应之间可能的非线性关联。我根据领域知识和关联强度的单变量度量来分配每个样条的自由度。但是,我要允许模型的自由度显然取决于数据集的大小,在进行回测时,数据集的变化很大。如果我不想在每次对模型进行回测时都分别手动选择自由度,那么我还有其他选择吗? 再例如,我目前正在通过发现具有高杠杆作用的点来进行离群值检测。如果我愿意手工进行此操作,则只需查看每个高杠杆数据点,仔细检查数据是否干净,然后过滤掉或手工清理。但这依赖于很多领域知识,因此我不知道如何使过程自动化。 我将不胜感激建议和解决方案,无论是(a)解决模型构建过程中交互部分自动化的一般问题,还是(b)针对这两种情况的具体建议。谢谢!

3
回归平滑样条曲线中等于k个分类变量的k个结的选择?
我正在研究一种预测成本模型,其中患者的年龄(以年为单位的整数)是预测变量之一。年龄与住院风险之间存在很强的非线性关系: 我正在考虑针对患者年龄的惩罚性回归平滑样条。根据《统计学习的要素》(Hastie等,2009,第151页),最佳结位置是每个会员年龄的唯一值一个结。 假设我将年龄保留为整数,那么惩罚平滑样条曲线是否等效于运行带有101个不同的年龄指标变量的岭回归或套索,每个年龄值在数据集中找到一个(减去一个作为参考)?然后避免过度参数化,因为每个年龄指标上的系数都缩小为零。

3
一般加性泊松模型问题中的样条df选择
我一直在使用SAS的泊松通用加性模型拟合一些时间序列数据PROC GAM。一般来说,我一直使用它的内置通用交叉验证程序为我的单个样条生成至少一个体面的“起点”,这是时间的非线性函数以及单个参数项(其实很感兴趣)。 到目前为止,除了我的数据集之一之外,它的运行相当流畅。该数据集中有132个观测值,GCV建议使用128个自由度的样条曲线。看来...错了。错了 更重要的是,它也不是很稳定。我尝试了第二种方法,当参数项的估计值停止更改时,使用“估计更改”条件之类的方法停止添加自由度,因为如果没有什么不同,为什么还要继续添加控制权? 问题在于估算值根本不稳定。我尝试了以下自由度,如您所见,参数项疯狂地反弹: DF: Parametric Estimate: 1 -0.76903 2 -0.56308 3 -0.47103 4 -0.43631 5 -0.33108 6 -0.1495 7 0.0743 8 0.33459 9 0.62413 10 0.92161 15 1.88763 20 1.98869 30 2.5223 40-60 had convergence issues 70 7.5497 80 7.22267 90 6.71618 100 5.83808 110 4.61436 128 1.32347 …

2
计算数据的ROC曲线
因此,我进行了16次试验,试图使用汉明距离从生物特征中鉴定一个人。我的阈值设置为3.5。我的数据如下,只有试验1为“真阳性”: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 我的困惑是,我真的不确定如何根据此数据制作ROC曲线(FPR与TPR或FAR与FRR)。哪一个都不重要,但是我只是对如何进行计算感到困惑。任何帮助,将不胜感激。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.