Questions tagged «regression-strategies»

回归建模策略


3
统计模型中非线性的标准和决策是什么?
我希望以下一般性问题有意义。请记住,出于特定问题的目的,我对引入非线性的理论(主题领域)原因不感兴趣。因此,我将提出完整的问题如下: 除了理论(学科领域)以外,出于某种原因将非线性引入统计模型的逻辑框架(标准和可能的决策过程)是什么? 与往常一样,也欢迎相关资源和参考。

2
创建增长图表的最佳方法
我必须为非负数,连续数和非负数的健康变量创建5至15岁(仅5,6,7等;没有2.6年这样的分数)的图表(类似于生长图表)。 50-150的范围(只有少数几个值不在此范围内)。我必须创建第90、95和99个百分位曲线,并为这些百分位创建表。样本大小约为8000。 我检查并发现以下可能的方法: 找到分位数,然后使用黄土法从这些分位数中获得平滑曲线。可以通过“ span”参数调整平滑度。 使用LMS(Lambda-Mu-Sigma)方法(例如,在R中使用gamlss或VGAM软件包)。 使用分位数回归。 使用每个年龄组的平均值和SD来估算该年龄段的百分位数,并创建百分位数曲线。 最好的方法是什么?“最好”是指理想的方法,它是创建此类增长曲线的标准方法,并且将为所有人所接受。或者是一种更容易实现的方法,它可能会有一些限制,但是是可以接受的,更快的方法。(例如,对百分比值使用黄土比使用gamlss软件包的LMS快得多)。 同样,该方法的基本R代码将是什么。 谢谢你的帮助。

2
当解释变量之一可能具有二次项和三次项时,我该如何建模?
我衷心希望我对这个问题的表述方式能够得到明确的回答-如果没有,请让我知道,我会再试一次!我还应该注意,我将使用R进行这些分析。 我plant performance (Ys)怀疑有几种措施受到了我实施的四种治疗的影响- flower thinning (X1), fertilization (X2), leaf clipping (X3)和biased flower thinning (X4)。对于所有可能的Y,N至少为242,因此我的样本量很大。所有地块都进行了稀疏或不间断处理,但每个地块也经历了其他三种处理方式中的一种(也只有一种)(或没有,也有对照地块)。该设计的目的是测试其他三种处理是否能够“掩盖”或“增强”细化效果。因此,通过设计,后三种处理(X2-X4)不能相互作用彼此,因为他们没有交叉,但他们可以每疏花互动-他们可能会做。 我的明确假设是:1)开花稀疏将很重要,并且2)X1*X2, X1*X3, and X1*X4,花卉稀疏与其他三种处理之间的相互作用项也将很重要。就是说,疏花应该很重要,但是其他三种处理方式却应该大大改变疏花的方式。 我想将所有这些信息包括在混合模型中: Y ~ X0 + X1 + X2 + X3 + X4 + X1*X2 + X1*X3 + X1*X4 + (Up to three random effects) 但是有一个困扰:我有充分的理由相信细化对Y的影响是非线性的。它们可能是二次方的,但在某些情况下甚至可能是三次方的。这是因为细化对性能的影响很可能在更高的细化水平下更快地增加。如果我尝试通过为X1添加二次项和三次项来通过上述等式对这种非线性关系进行建模,那么我不确定如何对交互项进行建模-我应该包括X1的所有可能组合(X1)^ 2,以及(X1)^ 3 * X2,X3和X4?因为即使有我拥有的数据点的数量,这似乎也要尝试估计很多参数,而且我不确定如何解释得到的结果。就是说,我没有生物学上的理由认为这将是对情况进行建模的不明智的方式。 因此,对于如何解决此问题,我有三点想法: 首先拟合一个较小的模型,例如Y …

3
如何为Logistic回归模型减少正确的预测变量
因此,我一直在阅读一些有关建模的书籍(或其中的一部分)(包括F. Harrell的“回归建模策略”),因为我目前的现状是我需要基于二进制响应数据进行逻辑模型处理。我的数据集中有连续数据,分类数据和二进制数据(预测变量)。基本上我现在大约有100个预测变量,对于一个好的模型来说,显然太多了。同样,这些预测变量中有许多是相关的,因为尽管它们有些不同,但它们通常基于相同的度量。 无论如何,我一直在阅读中,使用单变量回归和逐步技术是您可以做的一些最糟糕的事情,目的是减少预测变量的数量。我认为LASSO技术还可以(如果我正确理解的话),但是显然您不能在100个预测变量上使用它,并且认为会带来任何好处。 那么我在这里有什么选择呢?我是否真的必须坐下来,与我的所有主管和工作中的聪明人交谈,并真的考虑一下(应该是错误的)前5名最佳预测指标是什么,或者我应该选择哪种方法?考虑代替吗? 是的,我也知道这个话题已经被广泛讨论(在线和书籍中),但是当您对该建模领域的新手了解时,有时似乎有点不知所措。 编辑: 首先,我的样本量为+1000名患者(这在我的领域中是很多),并且其中有70-170个阳性反应(例如,其中170个是阳性反应,而其中一种情况约为900个没有反应) 。 基本上,该想法是预测放射治疗后的毒性。我有一些预期的二元响应数据(即毒性,或者是毒性(1),或者是毒性(0)),然后我有几种类型的指标。一些指标是患者特定的,例如年龄,使用的药物,器官和目标体积,糖尿病等,然后我基于目标的模拟治疗场获得了一些治疗特定的指标。从中我可以找到几个预测因子,这些预测因子在我的领域中通常是高度相关的,因为大多数毒性与所接收的辐射量(含糖量)高度相关。因此,例如,如果我治疗肺部肿瘤,则有一定剂量的剂量可能会击中心脏。然后,我可以计算出多少x心脏体积接收到x剂量剂量,例如“ 只需选择一个开始即可(尽管过去的实验当然尝试过,而且我也希望这样做),因为我需要“确切地”知道在何种程度上心脏毒性之间实际上存在很大的相关性和体积剂量(再次举例来说,还有其他类似的指标,其中应用了相同的策略)。是的,这几乎就是我的数据集的样子。一些不同的指标,有些有些相似。只需选择一个开始即可(尽管过去的实验当然尝试过,而且我也希望这样做),因为我需要“确切地”知道在何种程度上心脏毒性之间实际上存在很大的相关性和体积剂量(再次举例来说,还有其他类似的指标,其中应用了相同的策略)。是的,这几乎就是我的数据集的样子。一些不同的指标,有些有些相似。几乎是我的数据集的样子。一些不同的指标,有些有些相似。几乎是我的数据集的样子。一些不同的指标,有些有些相似。 然后,我要做的是建立一个预测模型,这样我就可以预测哪些患者有发生某种毒性的风险。而且由于响应数据是二进制的,所以我的主要思想当然是使用逻辑回归模型。至少这是其他人在我领域所做的。但是,在完成许多已经完成的论文时,其中有些似乎是错误的(至少在阅读这些特定类型的建模书籍(例如F. Harrel's)时)。许多人使用单变量回归分析来选择预测变量,并将其用于多元分析(如果我没记错的话,建议您这样做),并且许多人使用逐步技术来减少预测变量的数量。当然,这还不是全部。许多人使用LASSO,PCA,交叉验证,自举等,但是我所看过的 关于功能选择,这可能是我现在的位置。如何选择/找到在模型中使用的正确预测变量?我曾经尝试过这些单变量/逐步方法,但是每次我都想:“为什么这样做,如果错了?”。但是也许这是一个很好的方法,至少在最后显示了“好的模型”以正确的方式与“坏模型”以错误的方式相抵触。因此,我现在可能会以某种错误的方式进行操作,我需要帮助的是以正确的方式进行操作。 很抱歉,编辑时间太长。 编辑2: 只是我的数据看起来像一个简单的例子: 'data.frame': 1151 obs. of 100 variables: $ Toxicity : Factor w/ 2 levels "0","1": 2 1 1 1 1 1 1 1 1 1 ... $ Age : num 71.9 64 52.1 65.1 63.2 …

1
如何解释套索模型中排除或包含的变量?
我从其他帖子中得知,不能将“重要性”或“重要性”归因于进入套索模型的预测变量,因为计算这些变量的p值或标准差仍在进行中。 在这种推理下,断言一个人不能说套索模型中排除的变量是“无关紧要”还是“无关紧要”是正确的吗? 如果是这样,对于套索模型中排除或包含的变量,我实际上能提出什么主张?在我的特定情况下,我通过重复10次交叉验证100次来选择调整参数lambda,以减少randonmess并平均误差曲线。 UPDATE1:我遵循以下建议,并使用引导程序示例重新运行套索。我试了100个样本(这是我的计算机功能可以在一夜之间解决的数量),并且出现了一些模式。我的41个变量中的2个进入模型的次数超过95%,3个变量超过90%,5个变量超过85%。当我使用原始样本运行模型时,这5个变量属于进入模型的9个变量,是当时系数值最高的变量。如果我运行带有1000个引导程序样本的套索并且保留了这些模式,那么呈现结果的最佳方法是什么? 1000个引导程序样本听起来是否足够?(我的样本大小为116) 我是否应该列出所有变量以及它们进入模型的频率,然后认为输入频率更高的变量更有意义? 就我所能要求的范围而言吗?因为它正在进行中(请参见上文),所以我不能使用截止值,对吗? UPDATE2:根据以下建议,我计算出以下内容:平均而言,原始模型中的变量有78%进入了为100个自举样本生成的模型。另一方面,反之则只有41%。这在很大程度上与以下事实有关:为引导程序样本生成的模型往往比原始模型(9)包含更多的变量(平均17个)。 UPDATE3:如果你能帮助我解释我是从引导和蒙特卡罗模拟得到的结果,请看看这个其他职位。

5
大数据的逻辑回归
我有大约5000个功能的数据集。对于这些数据,我首先使用卡方检验进行特征选择。之后,我得到了大约1500个变量,这些变量与响应变量之间显示出显着的关系。 现在,我需要对此进行逻辑回归。我正在为R使用glmulti软件包(glmulti软件包为vlm提供了有效的子集选择),但一次只能使用30个功能,否则其性能会下降,因为数据集中的行数约为20000。 是否有其他方法或技术可以解决上述问题?如果我采用上述方法,将需要太多时间来拟合模型。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.