Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

7
我应该将哪种曲线(或模型)拟合到百分比数据?
我正在尝试创建一个显示病毒拷贝与基因组覆盖率(GCC)之间关系的图。这是我的数据: 起初,我只是绘制了线性回归图,但是我的主管告诉我这是不正确的,并尝试使用S形曲线。所以我使用geom_smooth做到了: library(scales) ggplot(scatter_plot_new, aes(x = Copies_per_uL, y = Genome_cov, colour = Virus)) + geom_point() + scale_x_continuous(trans = log10_trans(), breaks = trans_breaks("log10", function(x) 10^x), labels = trans_format("log10", math_format(10^.x))) + geom_smooth(method = "gam", formula = y ~ s(x), se = FALSE, size = 1) + theme_bw() + theme(legend.position = 'top', legend.text …

1
两个决策树的总和是否等于单个决策树?
假设我们有两个回归树(树A和B树),该地图输入为输出。对于树A,让对于树B,让。每棵树都使用二进制拆分,并以超平面作为分离函数。X ∈ řdX∈[Rdx \in \mathbb{R}^d Ŷ =˚F甲(X)˚F乙(X)ÿ^∈ [Rÿ^∈[R\hat{y} \in \mathbb{R}ÿ^= f一种(x )ÿ^=F一种(X)\hat{y} = f_A(x)F乙(x )F乙(X)f_B(x) 现在,假设我们对树的输出进行加权求和: FC(x )= w一种 F一种(x )+ w乙 F乙(x )FC(X)=w一种 F一种(X)+w乙 F乙(X)f_C(x) = w_A \ f_A(x) + w_B \ f_B(x) 函数等效于单个(更深的)回归树?FCFCf_C如果答案是“有时”,那么在什么条件下? 理想情况下,我想允许倾斜的超平面(即对特征的线性组合执行的分割)。但是,如果这是唯一的答案,那么假设单功能拆分可能是可以的。 例 这是在2d输入空间上定义的两个回归树: 该图显示了每棵树如何划分输入空间以及每个区域的输出(以灰度编码)。彩色数字表示输入空间的区域:3、4、5、6对应于叶节点。1是3和4的并集,依此类推。 现在假设我们对树A和树B的输出求平均: 平均输出在左侧绘制,树A和B的决策边界重叠。在这种情况下,可以构造一棵更深的树,其输出等于平均值​​(在右侧绘制)。每个节点对应于输入空间的一个区域,该区域可以在树A和B定义的区域之外构建(由每个节点上的彩色数字表示;多个数字表示两个区域的交集)。请注意,这棵树不是唯一的-我们可能已经从树B而不是树A开始构建。 此示例表明,在某些情况下答案为“是”。我想知道这是否总是对的。

5
根据平均绝对误差的箱线图删除异常值以改进回归模型是否作弊
我有一个用四种方法测试的预测模型,如下面的箱线图所示。模型预测的属性在0到8的范围内。 您可能会注意到,所有方法都指示一个上界离群值和三个下界离群值。我想知道从数据中删除这些实例是否合适?还是这是一种欺骗,以改善预测模型?

1
两个回归系数之比的无偏估计量?
假设你适合的线性/对数回归,具有的无偏估计的目的一个1g(y)=a0+a1⋅x1+a2⋅x2g(y)=a0+a1⋅x1+a2⋅x2g(y) = a_0 + a_1\cdot x_1 + a_2\cdot x_2。您是非常有信心,无论一个1和一个2相对于他们的估计噪声非常积极的。a1a2a1a2\frac{a_1}{a_2}a1a1a_1a2a2a_2 如果你有联合协,你可以计算出,或至少模拟了答案。有没有更好的方法,在现实生活中有大量数据的问题中,您在采用估计比率或半步并假设系数独立时会遇到多少麻烦?a1,a2a1,a2a_1, a_2

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
了解QR分解
我有一个可行的示例(在R中),我试图进一步理解。我正在使用Limma创建线性模型,并试图逐步了解倍数变化计算中发生的情况。我主要是想弄清楚如何计算系数。据我所知,QR分解用于获取系数,因此我本质上是在寻找一种解释或逐步查看正在计算的方程式的方法,或者在其中寻找qr()的源代码。 R自己追踪。 使用以下数据: expression_data <- c(1.27135202935009, 1.41816160331787, 1.2572772420417, 1.70943398046296, 1.30290218641586, 0.632660015122616, 1.73084258791384, 0.863826352944684, 0.62481665344628, 0.356064235030147, 1.31542028558644, 0.30549909383238, 0.464963176430548, 0.132181421105667, -0.284799809563931, 0.216198538884642, -0.0841133304341238, -0.00184472290008803, -0.0924271878885008, -0.340291804468472, -0.236829711453303, 0.0529690806587626, 0.16321956624511, -0.310513510587778, -0.12970035111176, -0.126398635780533, 0.152550803185228, -0.458542514769473, 0.00243517688116406, -0.0190192219685527, 0.199329876859774, 0.0493831375210439, -0.30903829000185, -0.289604319193543, -0.110019942085281, -0.220289950537685, 0.0680403723818882, -0.210977291862137, 0.253649629045288, 0.0740109953273042, 0.115109148186167, 0.187043445057404, 0.705155251555554, 0.105479342752451, 0.344672919872447, …

1
线性模型的BLUE(OLS解决方案)以外的其他无偏估计量
对于线性模型,OLS解决方案为参数提供了最佳的线性无偏估计量。 当然,我们可以将偏差换成较低的方差,例如岭回归。但是我的问题是关于没有偏见。是否还有其他一些较常用的估计器,它们没有偏倚但与OLS估计的参数相比具有更高的方差? 如果我有一个庞大的数据集,我当然可以对其进行二次采样,并用较少的数据估计参数,并增加方差。我认为这可能是有用的。 这更多是一个修辞性的问题,因为当我阅读有关BLUE估计量的信息时,没有提供更糟糕的选择。我猜想提供更差的选择还可以帮助人们更好地理解BLUE估计器的功能。

2
关于偏差方差权衡的问题
我正在尝试了解偏差-方差折衷,估算器的偏差与模型的偏差之间的关系以及估算器的方差与模型的方差之间的关系。 我得出以下结论: 当我们忽略估计量的偏差时,即当我们仅旨在最小化模型偏差而不考虑模型的方差时,我们倾向于过度拟合数据(换句话说,我们仅旨在最小化估计量的方差而不考虑估计量的偏差) 反之亦然,当我们忽略估计量的方差时,即当我们仅旨在最小化模型方差而忽略模型的偏差时,我们倾向于使数据拟合不足(换句话说,我们仅旨在最小化模型的偏差)。估算器,也无需考虑估算器的方差)。 我的结论正确吗?

1
设置中的回归:如何选择正则化方法(套索,PLS,PCR,山脊)?
我想查看是否去岭回归,LASSO,主成分回归(PCR),或偏最小二乘(PLS)中的情况下有大量的变量/特征()和样品的较小数量(Ñ < p),而我的目标是预测。pppn < pn<pn np > 10 np>10np>10n 变量(和Y)以不同程度相互关联。XXXÿYY 我的问题是哪种策略最适合这种情况?为什么?

3
预测异方差数据的方差
我正在尝试对异方差数据进行回归分析,以预测线性模型中的误差方差和均值。像这样: ÿ(x ,t )ξ(x ,t )ÿ¯(x ,t )σ(x ,t )= y¯(x ,t ) + ξ(x ,t ),〜ñ(0 ,σ(x ,t )),= y0+ a x + b t ,= σ0+ c x + dŤ 。y(x,t)=y¯(x,t)+ξ(x,t),ξ(x,t)∼N(0,σ(x,t)),y¯(x,t)=y0+ax+bt,σ(x,t)=σ0+cx+dt.\begin{align}\\ y\left(x,t\right) &= \bar{y}\left(x,t\right)+\xi\left(x,t\right),\\ \xi\left(x,t\right) &\sim N\left(0,\sigma\left(x,t\right)\right),\\ \bar{y}\left(x,t\right) &= y_{0}+ax+bt,\\ \sigma\left(x,t\right) &= \sigma_{0}+cx+dt. \end{align} 换句话说,数据包括在和各种值下重复测量。我假设这些测量值是“真实”平均值,它是和的线性函数,加性高斯噪声的标准偏差(或方差,我还没有决定)也线性地取决于。(我可以允许对和进行更复杂的依赖-线性形式没有很强的理论动机-但我不希望在现阶段使事情复杂化。)X 吨ˉ Ý(X ,吨)X …

4
转换数据时要避免的陷阱?
双重转换响应后,在XXX和YÿY变量之间实现了很强的线性关系。该模型是 Y∼Xÿ〜XY\sim X ,但我把它转化为 YX−−√∼X−−√ÿX〜X\sqrt{\frac{Y}{X}}\sim \sqrt{X} 将R2[R2R^2从.19提高到.76。 显然,我对这种关系做了一些体面的手术。谁能讨论这样做的陷阱,例如过度转换的危险或可能违反统计原则的危险?

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

4
如何对在转换后仍然不正常的非正常数据执行回归?
我有一些数据(158例)来自于李克特量表对21个调查表项目的回答。我真的希望/需要进行回归分析,以查看问卷中的哪些项目可以预测对整体项目的满意度(满意度)。响应不是正态分布的(根据KS测试),我已经以我能想到的各种方式(逆,对数,log10,sqrt,平方)对其进行了转换,并且顽固地拒绝了正态分布。残留图看起来到处都是,所以我认为进行线性回归并假装其表现正常(这也不是泊松分布)确实是不合法的。我认为这是因为答案非常接近(平均值为3.91,95%CI为3.88至3.95)。 所以,我在想我是否需要一种转换数据的新方法,或者需要某种非参数回归,但是我不知道我在SPSS中可以做的任何事情。

2
影响点,高杠杆点和离群点的精确含义和比较?
来自维基百科 影响性观察是那些对回归模型的预测具有相对较大影响的观察。 来自维基百科 杠杆点是在独立变量的极值或偏值处进行的那些观察(如果有的话),因此缺少相邻观察意味着拟合的回归模型将通过该特定观察。 为什么以下来自维基百科的比较 尽管影响点通常具有较高的杠杆作用,但高杠杆点不一定是影响点。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.