Questions tagged «modeling»

该标签描述了创建统计或机器学习模型的过程。始终添加更具体的标签。

2
描述负二项式分布变量之间差异的分布?
一个Skellam分布描述了具有泊松分布的两个变量之间的区别。是否存在类似的分布来描述遵循负二项式分布的变量之间的差异? 我的数据是通过泊松过程生成的,但包含大量噪声,导致分布的过度分散。因此,使用负二项式(NB)分布对数据建模非常有效。如果要对这两个NB数据集之间的差异进行建模,我有哪些选择?如果有帮助,则假设两组的均值和方差相似。


5
具有大数据的泊松回归:更改度量单位是否错误?
由于泊松分布中的阶乘,当观测值较大时,估计泊松模型(例如,使用最大似然)变得不切实际。因此,例如,如果我试图估计一个模型来解释给定年份的自杀数量(仅提供年度数据),并且说每年有数千个自杀,那么表达数百种自杀是否错误? ,则2998将为29.98〜= 30?换句话说,更改度量单位以使数据易于管理是否错误?

3
回归中R平方和p值之间的关系是什么?
tl; dr-对于OLS回归,较高的R平方是否还意味着较高的P值?专门针对单个解释变量(Y = a + bX + e),但也有兴趣了解n个多个解释变量(Y = a + b1X + ... bnX + e)。 上下文-我正在对一系列变量执行OLS回归,并试图通过生成一个表格来开发最佳的解释函数形式,该表格包含线性,对数等之间的R平方值,每个解释(独立)变量的变换以及响应(因变量)。看起来有点像: 变量名-线性形式---ln(变量)--exp(变量)-...等 变量1 ------- R平方---- R平方---- R平方 -...等等... 我想知道R平方是否合适,或者P值是否更好。大概存在某种关系,因为更重要的关系意味着更高的解释力,但不确定是否严格地做到这一点。

7
为什么偏斜数据不是建模的首选?
在大多数情况下,人们谈论变量转换(针对预测变量和响应变量)时,他们都在讨论处理数据偏斜的方法(例如对数转换,Box和Cox转换等)。我无法理解的是为什么消除偏斜被认为是一种常见的最佳实践?偏度如何影响诸如基于树的模型,线性模型和非线性模型之类的各种模型的性能?什么样的模型更受偏斜的影响,为什么?


7
我应该将哪种曲线(或模型)拟合到百分比数据?
我正在尝试创建一个显示病毒拷贝与基因组覆盖率(GCC)之间关系的图。这是我的数据: 起初,我只是绘制了线性回归图,但是我的主管告诉我这是不正确的,并尝试使用S形曲线。所以我使用geom_smooth做到了: library(scales) ggplot(scatter_plot_new, aes(x = Copies_per_uL, y = Genome_cov, colour = Virus)) + geom_point() + scale_x_continuous(trans = log10_trans(), breaks = trans_breaks("log10", function(x) 10^x), labels = trans_format("log10", math_format(10^.x))) + geom_smooth(method = "gam", formula = y ~ s(x), se = FALSE, size = 1) + theme_bw() + theme(legend.position = 'top', legend.text …


2
何时停止完善模型?
在过去的三年中,我一直在研究许多书籍中的统计数据,并且由于这个站点,我学到了很多东西。然而,对于我来说,一个基本问题仍然没有答案。它可能有一个非常简单或非常困难的答案,但我可以肯定地知道它需要对统计数据有一定的了解。 在将模型拟合到数据时(无论是常客方法还是贝叶斯方法),我们提出一个模型,该模型可能包括似然函数,先验函数或核(非参数)等的函数形式。问题在于任何模型使样品具有一定的优度。与当前的模型相比,总是可以找到更好或更坏的模型。在某个时候,我们停止并开始得出结论,推广到总体参数,报告置信区间,计算风险等。因此,无论得出什么结论,总是以我们决定采用的模型为条件。即使我们使用诸如AIC,MDL等之类的工具来估计预期的KL距离,也并没有说绝对的立场,而只是相对改善了我们的估计。 现在假设我们想定义一个逐步过程,以在构建模型时应用于任何数据集。我们应该指定什么作为停止规则?我们是否可以至少限制模型误差,该误差将为我们提供一个客观的停止点(这与使用验证样本停止训练不同,因为它还会在评估的模型类内提供停止点,而不是真正的DGP)?

5
建立统计模型到底是什么?
建立统计模型到底是什么? 这些天,当我申请研究工作或咨询工作时,经常会出现“建立模型”或“建模”一词。这个词听起来很酷,但是它们到底指的是什么?您如何建立模型? 我查找了预测模型,其中包括k-nn和逻辑回归。
15 modeling 

3
二次项或交互项在单独意义上都是重要的,但两者都不在一起
作为作业的一部分,我必须对具有两个预测变量的模型进行拟合。然后,我不得不针对所包含的预测变量之一绘制模型残差的图,并根据该残差进行更改。该图显示了曲线趋势,因此我为该预测变量包括了一个二次项。新模型显示二次项很重要。到目前为止一切都很好。 但是,数据表明交互也很有意义。在原始模型中添加一个交互项也可以“固定”曲线趋势,并且在添加到模型中时也非常重要(没有二次项)。问题是,当将二次项和交互项都添加到模型中时,其中一项不重要。 我应该在模型中包括哪个术语(二次方或相互作用),为什么?

4
寻找良好的荟萃分析治疗方法
一位(非统计师)同事在他为医学期刊撰写的论文中遇到了荟萃分析,并且正在寻找良好的入门级治疗方法,以便他可以自学。有什么建议吗?最喜欢的?书籍,专着,非技术性调查文章都可以。 (是的,他熟悉Wikipedia条目以及Google搜索可轻松访问的其他内容,例如Jerry Dallal的精彩小文章。)

5
哪种统计分类算法可以预测输入序列的正确/错误?
给定一个输入序列,我需要确定此序列是否具有某些所需的属性。该属性只能为true或false,也就是说,一个序列只能属于两个可能的类。 序列与属性之间的确切关系尚不清楚,但我认为它是非常一致的,应该将其用于统计分类。我可能会在很多情况下对分类器进行训练,尽管这可能会有点嘈杂,但从某种意义上来说,在此训练集中,序列被分配了错误的类别的可能性很小。 训练数据示例: Sequence 1: (7 5 21 3 3) -> true Sequence 2: (21 7 5 1) -> true Sequence 3: (12 21 7 5 11 1) -> false Sequence 4: (21 5 7 1) -> false ... 粗略地说,属性由序列中的一组值(例如,出现“ 11”表示该属性几乎肯定为假)以及值的顺序(例如,“ 21 7 5 ”会大大增加该属性为真的机会)。 训练后,我应该能够给分类器一个以前看不见的序列,例如(1 21 7 5 3),它应该输出对属性为true的信心。是否存在用于使用这种输入/输出训练分类器的著名算法? …

2
用过度分散对泊松分布建模
我有一个数据集,我希望它遵循泊松分布,但它的分散程度约为3倍。目前,我正在使用R中的以下代码对这种过度分散进行建模。 ## assuming a median value of 1500 med = 1500 rawdist = rpois(1000000,med) oDdist = rawDist + ((rawDist-med)*3) 从视觉上看,这似乎非常符合我的经验数据。如果我对拟合感到满意,是否有任何理由应该做一些更复杂的事情,例如使用负二项式分布(如此处所述)?(如果是这样,那么这样做的任何指针或链接将不胜感激)。 哦,我知道这会创建一个稍微呈锯齿状的分布(由于乘以三),但这对我的应用程序来说并不重要。 更新: 为了其他人搜索和发现此问题,这里有一个简单的R函数,它使用负二项分布来建模过度分散的泊松。将d设置为所需的均值/方差比: rpois.od<-function (n, lambda,d=1) { if (d==1) rpois(n, lambda) else rnbinom(n, size=(lambda/(d-1)), mu=lambda) } (通过R邮件列表:https : //stat.ethz.ch/pipermail/r-help/2002-June/022425.html)


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.