Questions tagged «modeling»

该标签描述了创建统计或机器学习模型的过程。始终添加更具体的标签。

9
在一个经常由外行进行分析的时代,我们是否夸大了模型假设和评估的重要性?
底线是,我对统计知识了解的越多,对本领域发表的论文的信任就越低;我只是认为研究人员的统计数据不够好。 我是一个外行,可以这么说。我接受了生物学方面的培训,但没有接受过统计学或数学方面的正规教育。我喜欢R,并且经常努力阅读(并理解...)进行研究时所用方法的一些理论基础。如果今天进行分析的大多数人实际上没有经过正式培训,这也不会令我感到惊讶。我发表了大约20篇原始论文,其中一些已被知名期刊所接受,而统计学家经常参与到审阅过程中。我的分析通常包括生存分析,线性回归,逻辑回归,混合模型。审阅者从未询问过模型假设,拟合或评估。 因此,我从未真正对模型假设,拟合和评估感到困扰。我从一个假设开始,执行回归,然后给出结果。在某些情况下,我努力评估了这些情况,但最终我总是以“ 好吧,它并不能满足所有假设,但是我相信结果(“主题知识”),并且它们是合理的,所以很好 ”和在咨询统计学家时,他们似乎总是同意。 现在,我已经与其他自己进行分析的统计学家和非统计学家(化学家,医师和生物学家)进行了交谈。似乎人们对所有这些假设和正式评估并没有太在意。但是在简历上,有很多人在询问残差,模型拟合,评估残差的方法,特征值,向量,等等。让我这样说,当lme4警告大型特征值时,我真的怀疑它的许多用户是否在意解决这个问题。 值得付出额外的努力吗?是否所有发表的结果中的大多数都不遵守这些假设,甚至可能没有对它们进行评估?这可能是一个日益严重的问题,因为数据库每天都在增长,并且有一种观念认为,数据越大,假设和评估就越不重要。 我可能是完全错误的,但这就是我对此的看法。 更新: 引自StasK的引用(如下):http : //www.nature.com/news/science-joins-push-to-screen-statistics-in-papers-1.15509

5
了解回归-模型的作用
如果您不知道要为其获取参数的函数,那么回归模型有什么用? 我看到一项研究说,母乳喂养孩子的母亲在以后的生活中患糖尿病的可能性较小。该研究来自对约1000名母亲的调查,并控制了其他因素,并使用了对数线性模型。 现在这是否意味着他们认为确定糖尿病可能性的所有因素都符合一个很好的功能(可能是指数形式),可以很好地转化为具有对数的线性模型,并且证明母乳喂养的女性是否具有统计学意义? 我肯定会丢失一些东西,但是,他们到底怎么知道这个模型的?

8
所有模型都没有用吗?有没有确切的模型可能有用?
这个问题在我心中困扰了一个多月。2015年2月的《Amstat新闻》收录了伯克利教授Mark van der Laan 的一篇文章,该文章谴责人们使用不精确的模型。他指出,通过使用模型,统计才是一门艺术而不是一门科学。根据他的说法,人们总是可以使用“精确模型”,而我们这样做的失败会导致“缺乏严格……我担心我们在数据科学中的代表地位将被边缘化”。 我同意我们有被边缘化的危险,但是威胁通常来自那些声称(听起来很像范德兰教授的人)他们没有使用某种近似方法,但实际上他们的方法却少得多的人严格的数据模型比经过仔细应用的统计模型还要严格-甚至是错误的统计模型。 我认为可以说范德兰教授对那些重复Box经常使用的话的人很鄙视:“所有模型都是错误的,但有些模型是有用的。” 基本上,正如我读到的那样,他说所有模型都是错误的,并且都是无用的。现在,我该拒绝伯克利大学教授的观点吗?另一方面,他是谁如此轻描淡写地拒绝了我们领域中真正的巨头之一的观点? van der Laan博士在详细阐述时指出:“声明所有模型都是错误的,完全是胡说八道……例如,没有任何假设的统计模型始终是正确的。” 他继续说:“但是通常,我们可以做得更好:我们可能知道数据是独立的相同实验的结果。” 除了非常狭窄的随机采样或受控实验设置外,我看不出有人会知道这一点。作者指出他在有针对性的最大似然学习和有针对性的基于最小损失的学习中的工作,这些工作“将最先进的技术集成到了机器学习/数据自适应估计中,所有因果推理,审查数据,效率和经验方面的令人难以置信的进步过程理论,同时仍然提供正式的统计推断。”ññn 我也同意一些说法。他说,我们需要认真对待我们的工作,我们作为统计学家的角色以及我们的科学合作者。听见!当人们例行使用逻辑回归模型或其他任何方法而没有仔细考虑是否足以回答科学问题或是否适合数据时,这无疑是个坏消息。我确实在该论坛上发布的问题中看到了很多此类滥用行为。但是我也看到不精确模型(甚至参数模型)的有效和有价值的使用。与他所说的相反,我很少被“另一种逻辑回归模型闷死”。我猜这就是我的天真。 所以这是我的问题: 使用完全不做任何假设的模型,可以做出哪些有用的统计推断? 是否存在使用目标最大可能性使用重要的真实数据的案例研究?这些方法是否被广泛使用和接受? 所有不精确的模型真的没有用吗? 除了琐碎的情况以外,是否可能知道您拥有确切的模型? 如果这太基于观点,因此太离题了,该在哪里讨论?因为范德兰博士的文章确实需要进行一些讨论。

4
统计模型备忘单
我想知道是否有一个统计模型“备忘单”列出了任何或更多信息: 何时使用模型 什么时候不使用模型 必需和可选输入 预期产出 该模型是否已在不同领域(政策,生物,工程,制造等)进行过测试? 在实践或研究中被接受吗? 预期变化/准确性/精度 注意事项 可扩展性 不推荐使用的模型,避免或不使用 等.. 我以前在各种网站上都看到过层次结构,在各种教科书中也看到了一些简单的模型备忘单。但是,如果有一个更大的模型可以包含基于不同类型的分析和理论的各种类型的模型,那就太好了。

2
了解负二项分布内的参数
我试图适应我的数据转换成各种模型,并计算出了fitdistr从库函数MASS的R给了我Negative Binomial作为最合适的。现在,在Wiki页面上,定义为: NegBin(r,p)分布描述了k + r Bernoulli(p)试验中k次失败和r次成功的概率,最后一次试验成功。 使用R执行模型拟合给我两个参数mean和dispersion parameter。我不理解如何解释这些内容,因为我无法在Wiki页面上看到这些参数。我只能看到以下公式: k观察的数目在哪里r=0...n?现在如何将它们与给定的参数相关联R?帮助文件也没有提供太多信息。 另外,只说几句关于我的实验的信息:在进行的一项社交实验中,我试图计算每个用户在10天内接触的人数。该实验的人口规模为100。 现在,如果模型适合负二项式,我可以盲目地说它遵循该分布,但我真的想了解其背后的直观含义。说我的测试对象联系的人数遵循负二项式分布是什么意思?有人可以帮忙澄清一下吗?

7
选择要包含在多元线性回归模型中的变量
我目前正在使用多元线性回归建立模型。在摆弄我的模型之后,我不确定如何最好地确定要保留哪些变量以及要除去哪些变量。 我的模型从DV的10个预测变量开始。当使用所有10个预测变量时,有4个被认为是重要的。如果仅删除一些明显不正确的预测变量,那么一些最初不重要的预测变量将变得很重要。这使我想到了一个问题:如何确定要在模型中包括哪些预测变量?在我看来,您应该对所有预测变量运行一次模型,删除不重要的预测变量,然后重新运行。但是,如果只删除其中一些预测变量会使其他预测变量变得重要,那么我想知道我是否对所有这些方法都采用了错误的方法。 我认为该主题与我的问题类似,但是我不确定我是否正确解释了讨论内容。也许这更多是一个实验性设计主题,但也许有人可以分享一些经验。

5
识别交互作用的最佳实践是什么?
除了从字面上测试模型(x1:x2或x1*x2 ... xn-1 * xn)中每个可能的变量组合之外。您如何确定您的独立(希望)变量之间是否应该存在交互作用? 尝试识别交互的最佳实践是什么?有没有可以使用或可以使用的图形技术?

3
如何用R拟合ARIMAX模型?
我有四个不同的每小时测量时间序列: 房屋内部的热量消耗 屋外温度 太阳辐射 风速 我希望能够预测房屋内部的热量消耗。每年和每天都有明显的季节性趋势。由于不同系列之间存在明显的相关性,因此我想使用ARIMAX模型拟合它们。可以使用包TSA中的arimax函数在R中完成。 我试图阅读有关此函数的文档,并阅读传递函数,但到目前为止,我的代码是: regParams = ts.union(ts(dayy)) transferParams = ts.union(ts(temp)) model10 = arimax(heat,order=c(2,1,1),seasonal=list(order=c(0,1,1),period=24),xreg=regParams,xtransf=transferParams,transfer=list(c(1,1)) pred10 = predict(model10, newxreg=regParams) 给我: 黑线是实际测量的数据,绿线是我的比较模型。这不仅不是一个好的模型,而且显然有些错误。 我承认我对ARIMAX模型和传递函数的了解有限。在函数arimax()中(据我了解),xtransf是我要使用(使用传递函数)来预测我的主要时间序列的外生时间序列。但是xreg和xtransf到底有什么区别? 一般来说,我做错了什么?我希望能够获得比从lm(热〜临时辐射风*时间)获得的更好的拟合度。 编辑: 基于一些评论,我删除了transfer,并添加了xreg: regParams = ts.union(ts(dayy), ts(temp), ts(time)) model10 = arimax(heat,order=c(2,1,1),seasonal=list(order=c(0,1,1),period=24),xreg=regParams) 其中dayy是“一年中的第几天”,而时间是一天中的小时。温度再次是外界温度。这给了我以下结果: 更好,但远不及我所期望的。

1
负二项式回归问题-模型是否较差?
我正在阅读Sellers和Shmueli撰写的关于计数数据回归模型的非常有趣的文章。在开始时(第944页),他们援引McCullaugh和Nelder(1989)的话说负二项式回归不受欢迎,并且在规范上存在问题。我找到了提到的段落,并说(M和N的第374页) “在应用程序中似乎很少使用负二项式分布;特别是,规范链接的使用是有问题的,因为它使线性预测变量成为方差函数的参数的函数。” 在上一页中,他们将链接功能设置为 η= 日志(α1 + α) = 日志( μμ + k)η=日志⁡(α1个+α)=日志⁡(μμ+ķ)\eta = \log\left(\frac{\alpha}{1 + \alpha} \right) = \log\left( \frac{\mu}{\mu + k}\right) 和方差函数 V= μ + μ2ķ。V=μ+μ2ķ。V = \mu + \frac{\mu^2}{k}. 分布为 P[R (ÿ= y; α ,k )= (y+ k − 1 )!ÿ!(k − 1 )!αÿ(1 + α )ÿ= kP[R(ÿ=ÿ;α,ķ)=(ÿ+ķ-1个)!ÿ!(ķ-1个)!αÿ(1个+α)ÿ=ķPr(Y …

3
为什么需要变量选择?
常见的基于数据的变量选择过程(例如,向前,向后,逐步,所有子集)倾向于产生具有不良特性的模型,包括: 系数偏离零。 标准误差太小,置信区间太窄。 测试不具有广告含义的统计信息和p值。 对模型拟合的估计过于乐观。 可能无意义的包含术语(例如,排除低阶术语)。 但是,变量选择过程仍然存在。考虑到变量选择的问题,为什么需要这些程序?是什么促使他们使用它? 一些提议开始讨论。 是否希望获得可解释的回归系数?(在具有多个IV的模型中被误导了吗?) 消除不相关变量引入的方差? 在自变量中消除不必要的协方差/冗余吗? 减少参数估计的数量(功效,样本量) 还有其他吗?变量选择技术所解决的问题是否比变量选择程序所引入的问题重要?什么时候应该使用它们?什么时候不应该使用它们?

2
SVM算法背后的统计模型是什么?
我了解到,在使用基于模型的方法处理数据时,第一步是将数据过程建模为统计模型。然后,下一步就是基于此统计模型开发有效/快速的推理/学习算法。所以我想问问支持向量机(SVM)算法背后的统计模型是什么?


1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 


6
如何在ROC AUC和F1分数之间进行选择?
我最近完成了一场Kaggle比赛,根据比赛要求使用了roc auc得分。在进行此项目之前,我通常使用f1分数作为衡量模型性能的指标。展望未来,我想知道如何在这两个指标之间进行选择?什么时候使用,它们各自的优缺点是什么? 顺便说一句,我在这里阅读了这篇文章AUC和F1评分之间有什么区别?,但没有告诉我何时使用。 在此先感谢您的帮助!

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.