Questions tagged «modeling»

该标签描述了创建统计或机器学习模型的过程。始终添加更具体的标签。

2
给定两个线性回归模型,哪种模型效果更好?
我在学院上过机器学习课程。在其中一项测验中,有人问了这个问题。 模型1:y=θx+ϵy=θx+ϵ y = \theta x + \epsilon 模型2:y=θx+θ2x+ϵy=θx+θ2x+ϵ y = \theta x + \theta^2 x + \epsilon 以上哪个模型更适合数据?(假设数据可以使用线性回归建模) 正确的答案(根据教授)是,两个模型的性能都一样好。但是我相信第一个模型会更合适。 这就是我回答背后的原因。第二个模型,其可以被重写为,α = θ + θ 2将不一样的第一模型。α事实上是一个抛物线,因此具有一个最小值(- 0.25在这种情况下)。因此,第一模型中的θ的范围大于第二模型中的α的范围。因此,如果数据是这样的,最适合的有坡度小于- 0.25,所述第二模式将非常差相比于第一个作为执行。但是,如果最佳拟合的斜率大于αx+ϵαx+ϵ \alpha x + \epsilon α=θ+θ2α=θ+θ2\alpha = \theta + \theta^2αα\alpha−0.25−0.25 -0.25 θθ \theta αα \alpha −0.25−0.25-0.25,两个模型的性能相同。−0.25−0.25-0.25 那么第一个比较好,还是两者完全一样?

3
固定/随机效应模型背后的概念
有人可以帮助我了解固定/随机效应模型吗?如果您已经消化了这些概念,则可以自己解释,也可以将我定向到具有特定地址(页码,章节等)的资源(书,笔记,网站),以便我可以毫无困惑地学习它们。 这是真的吗:“一般来说,我们有固定的影响,而具体情况是随机的”?如果描述从一般模型到具有固定和随机影响的特定模型,我将特别感谢您的帮助。

1
回归比率,又称克朗马尔问题
最近,随机浏览的问题引发了我的一位教授几年前对临时评论的记忆,并警告说在回归模型中使用比率。因此,我开始阅读此书,最终导致Kronmal 1993。 我想确保我正确解释了他关于如何建模这些建议的建议。 对于在从属和独立方面均具有相同分母比率的模型: ž− 1ÿ= Z− 11个ñβ0+ Z− 1XβX+ βž+ Z− 1ϵž-1个ÿ=ž-1个1个ñβ0+ž-1个XβX+βž+ž-1个ϵ Z^{-1}Y = Z^{-1}1_n\beta_0 + Z^{-1}X\beta_X + \beta_Z + Z^{-1}\epsilon 除其他比率外,还依赖于(反)分母变量的回归相关比率 分母变量(反)的权重 对于具有因变量作为比率的模型: ÿ= β0+ βXX+ Z1个ñα0+ ZXαX+ Z− 1ϵÿ=β0+βXX+ž1个ñα0+žXαX+ž-1个ϵ Y = \beta_0 + \beta_XX + Z1_n\alpha_0 + ZX\alpha_X + Z^{-1}\epsilon 用原始变量,分母和分母乘以原始变量的回归分子[分类变量是什么?] 权重(反分母) 对于仅具有独立变量比率的模型: ÿ= β0+ XβX+ Z− …

2
人口密度估计模型
通过为每个形状(例如人口普查区,地区,县,州等多边形)分配恒定的人口/面积值,可以使用(人口,面积,形状)数据库来绘制人口密度图。但是,种群通常在其多边形内并不是均匀分布的。 对称映射是通过辅助数据细化这些密度估计的过程。正如最近的评论所指出的,这是社会科学中的一个重要问题。 然后,假设我们有一个辅助的土地覆盖图(或任何其他离散因子)。在最简单的情况下,我们可以使用明显不适合居住的区域(例如水域)来划定人口不在的区域,并相应地将所有人口分配到其余区域。更一般地,每个单元人口普查被雕刻成具有表面区域部分,。因此,我们的数据集被扩充到元组列表ķ X Ĵ 我我= 1 ,2 ,... ,ķjjjkkkxjixjix_{ji}i=1,2,…,ki=1,2,…,ki = 1, 2, \ldots, k (yj,xj1,xj2,…,xjk)(yj,xj1,xj2,…,xjk)(y_{j}, x_{j1}, x_{j2}, \ldots, x_{jk}) 其中是单位的总体(假定无误差地测量),并且-尽管并非严格如此-我们可以假设每个也都被精确测量。用这些术语,目标是将每个分成一个总和 j x j i y jyjyjy_{j}jjjxjixjix_{ji}yjyjy_{j} yj=zj1+zj2+⋯+zjkyj=zj1+zj2+⋯+zjk y_j = z_{j1} + z_{j2} + \cdots + z_{jk} 其中每个和估计居住在土地覆盖类别单元的人口。估计需要无偏见。此分区通过将密度分配给人口普查多边形与土地覆盖类别的交点来细化人口密度图。 ž Ĵ 我 Ĵ 我ž Ĵ 我 / X Ĵ 我 Ĵ …

2
用简单的英语解释模型调整
阅读有关统计分析的方法和结果,尤其是流行病学方面的信息时,我经常听到有关模型调整或控制的信息。 您如何向非统计人员解释其目的?控制某些变量后,如何解释结果? 只需在Stata或R中进行少量漫游,或在线指向一个指针,便会成为真正的瑰宝。

3
在Logistic回归中用WoE(证据权重)替换变量
这是我的一些同事遵循的有关实践或方法的问题。在建立逻辑回归模型时,我已经看到人们用各自的证据权重(WoE)代替了分类变量(或分类的连续变量)。据说这样做是为了在回归变量和因变量之间建立单调关系。现在,据我了解,一旦建立了模型,方程式中的变量就不是数据集中的变量。相反,方程式中的变量现在在隔离因变量时就显得很重要或很重要。 我的问题是:我们现在如何解释模型或模型系数?例如,对于以下等式: 日志( p1 − p) =β0+ β1个X1个log⁡(p1−p)=β0+β1x1 \log\bigg(\frac{p}{1-p}\bigg) = \beta_0 + \beta_1x_1 我们可以说, 是奇数的比率为在可变增加1个单位相对增加X 1。经验值(β1个)exp⁡(β1)\exp(\beta_1) X1个x1x_1 但是,如果将变量替换为其WoE,则解释将更改为:变量的重要性/重量增加1单位时,奇数比的相对增加 我已经在互联网上看到了这种做法,但是没有一个地方找到这个问题的答案。来自该社区本身的此链接与某个类似的查询相关,其中有人写道: WoE与优势比的自然对数显示线性关系,优势比是对数回归中的因变量。因此,当我们使用WoE而不是变量的实际值时,逻辑回归中不会出现模型错误指定的问题。 但是我仍然没有得到解释。请帮助我了解我所缺少的。

2
预测是判断统计学家能力的“黄金标准”吗?
上周末,我正在阅读Faraway的带有R(第一版)的线性模型教科书。Faraway有一章称为“统计策略和模型不确定性”。他描述(第158页)时,他使用非常复杂的模型人工生成了一些数据,然后要求学生对数据进行建模,并将学生的预测结果与读取结果进行比较。不幸的是,大多数学生过度拟合了测试数据,并给出了完全超出预期的预测值。为了解释这种现象,他给我写了一些令人印象深刻的话: “模型之所以如此不同,是因为学生以不同的顺序应用了各种方法。有些人在变换之前进行了变量选择,而另一些则相反。有些人在模型更改后重复了一种方法,而其他人则没有。我研究了这些策略那几个用于学生和找不到什么明显的错误与他们所做的一切。有一个学生在计算犯了错误他或她的预测值,但没有什么明显错误的其余部分。在这个任务中的表现并没有表现出与考试有任何关系。 ” 我受过教育,模型预测的准确性是我们选择最佳模型性能的“黄金标准”。如果我没记错的话,这也是Kaggle比赛中常用的方法。但是在这里Faraway观察到了一些不同的性质,即模型预测性能可能与无关具有相关统计人员的能力。换句话说,我们能否根据预测能力建立最佳模型并不能真正取决于我们的经验。相反,它取决于巨大的“模型不确定性”(运气不佳?)。我的问题是:在现实生活中的数据分析中也是如此吗?还是我对基本的东西感到困惑?因为如果这是真的,那么对真实数据分析的意义是巨大的:在不知道数据背后的“真实模型”的情况下,经验丰富/经验不足的统计学家所做的工作之间就没有本质的区别:两者都只是前面的疯狂猜测。可用的培训数据。

1
参数与潜在变量
我以前曾问过这个问题,并且一直在努力确定什么使模型参数以及什么使它成为潜在变量。因此,在本站点上有关该主题的各种主题中,主要区别似乎是: 不会观察到潜在变量,但它们具有相关的概率分布,因为它们是变量,也未观察到参数,也没有与它们相关的分布,据我所知,这些变量是常数,并且具有固定但未知的值,我们正在尝试找。同样,我们可以对参数进行先验表示,以表示我们对这些参数的不确定性,即使只有一个真实值与它们相关联,或者至少是我们所假设的。我希望到目前为止我是对的吗? 现在,我一直在从期刊论文中查看贝叶斯加权线性回归的示例,并且确实在努力理解什么是参数和什么是变量: yi=βTxi+ϵyiyi=βTxi+ϵyi y_i = \beta^T x_i + \epsilon_{y_i} 这里观察到和,但是只有被视为变量,即具有与之关联的分布。ÿ ÿxxxyyyyyy 现在,建模假设为: y∼N(βTxi,σ2/wi)y∼N(βTxi,σ2/wi) y \sim N(\beta^Tx_i, \sigma^2/w_i) 因此,的方差被加权。yyy 和上也有一个先验分布,分别是正态分布和gamma分布。 w ^ββ\betawww 因此,完整的对数可能性由下式给出: logp(y,w,β|x)=ΣlogP(yi|w,β,xi)+logP(β)+ΣlogP(wi)log⁡p(y,w,β|x)=Σlog⁡P(yi|w,β,xi)+log⁡P(β)+Σlog⁡P(wi) \log p(y, w, \beta |x) = \Sigma \log P(y_i|w, \beta, x_i) + \log P(\beta) + \Sigma \log P(w_i) 现在,据我了解,和都是模型参数。但是,在本文中,他们一直将它们称为潜在变量。我的推论是和都是变量的概率分布的一部分,它们都是模型参数。但是,作者将它们视为潜在的随机变量。那是对的吗?如果是这样,模型参数是什么?w ^ β w ^ ÿββ\betawwwββ\betawwwyyy 可以在这里找到该论文(http://www.jting.net/pubs/2007/ting-ICRA2007.pdf)。 本文是Ting等人的《自动离群值检测:贝叶斯方法》。

1
加法误差还是乘法误差?
我是统计学的新手,不胜感激可以帮助您更好地理解这一点。 在我的领域中,有以下形式的常用模型: PŤ= PØ(五Ť)αPt=Po(Vt)αP_t = P_o(V_t)^\alpha 当人们将模型拟合到数据时,他们通常将模型线性化并符合以下条件 日志(PŤ)= 日志(PØ)+ α 日志(五Ť)+ ϵlog⁡(Pt)=log⁡(Po)+αlog⁡(Vt)+ϵ\log(P_t) = \log(P_o) + \alpha \log(V_t) + \epsilon 这个可以吗?我在某处读到,由于信号中的噪声,实际模型应该是 PŤ= PØ(五Ť)α+ ϵPt=Po(Vt)α+ϵP_t = P_o(V_t)^\alpha + \epsilon 并且不能像上面那样线性化。这是真的?如果是这样,是否有人知道我可以阅读和参考的参考文献,并且可能在报告中引用?

1
AIC / BIC:排列计数多少个参数?
假设我有一个模型选择问题,我正在尝试使用AIC或BIC评估模型。这是简单的有一些数量模型的实值参数。ķkk 但是,如果我们的模型之一(例如Mallows模型)具有置换,加上一些实值参数而不是实值参数,该怎么办?我仍然可以使模型参数的似然性最大化,例如获得置换和参数。但是,为计算AIC / BIC计入多少个参数?p πππ\pipppππ\pi

1
比率分析技术
我正在寻找有关比率和费率分析的建议和意见。在我工作的领域中,尤其是比率的分析非常普遍,但是我已经阅读了几篇论文,表明这可能是有问题的,我在想: Kronmal,Richard A.1993。重新讨论了比率标准的虚假相关和谬误。皇家统计协会杂志A 156(3):379-392 及相关论文。根据我到目前为止所读的内容,比率似乎可以产生虚假的相关性,迫使回归线穿过原点(这并不总是合适的),并且如果不正确地进行建模,可能会违反边际原理(在理查德·戈德斯坦(Richard Goldstein)中使用比率回归))。但是,在某些情况下必须合理使用比率,我希望统计学家对此发表一些意见。

2
在结构方程模型中拥有非常小的样本的复杂性
我正在Amos 18中运行结构方程模型(SEM)。我正在为我的实验寻找100名参与者(宽松使用),这可能不足以进行成功的SEM。反复告诉我,SEM(以及EFA,CFA)是一种“大样本”统计程序。长话短说,我没有参加100名参与者(这真是令人惊讶!),并且在排除两个有问题的数据点之后只有42个参与者。出于兴趣,我还是尝试了该模型,令我惊讶的是,它看起来非常合适!CFI> .95,RMSEA <.09,SRMR <.08。 该模型并不简单,实际上我会说它相对复杂。我有两个潜在变量,一个有两个观测变量,另一个有5个观测变量。我在模型中还有四个观察到的变量。间接变量和直接变量之间存在许多关系,例如,某些变量是其他四个变量内生的。 我对SEM有点陌生;但是,我认识的两个非常熟悉SEM的人告诉我,只要拟合指标良好,效果是可以解释的(只要它们很重要),并且该模型没有任何明显的“错误”。我知道某些适合度指标在暗示良好适合度方面偏向或反对小样本,但我前面提到的三个指标似乎不错,而且我相信也没有类似偏见。为了测试间接影响,我使用引导程序(2000个样本左右),90%的偏差校正了信心,蒙特卡洛。另外需要注意的是,我针对三种不同的条件运行三种不同的SEM。 我有两个问题,我希望一些人可以考虑,如果您有贡献,请回答: 我的模型是否存在没有通过拟合指数证明的重大弱点?小样本将突出显示该研究的弱点,但我想知道是否存在一些我完全没有注意到的巨大统计问题。我计划将来再增加10至20名参与者,但这仍将为我提供相对较小的样本进行此类分析。 给我很小的样本,或者在使用它的上下文中,我使用引导程序是否有任何问题? 我希望这些问题对本论坛来说不是太“基本”。我已经阅读了许多关于SEM和相关问题的章节,但是我发现人们在这方面的观点非常分散! 干杯

1
套索的LARS与坐标下降
使用LARS [1]与使用坐标下降来拟合L1正则化线性回归有什么优缺点? 我主要对性能方面感兴趣(我的问题往往有N成千上万且p小于20。)但是,任何其他见解也将受到赞赏。 编辑:自从我发布问题以来,chl亲切地指出了Friedman等人的论文[2],其中坐标下降比其他方法快得多。如果是这样,作为执业医生,我是否应该忘掉LARS来支持协调下降? [1]埃弗隆·布拉德利;海蒂·特雷弗;约翰·斯通,伊恩和蒂布希拉尼·罗伯特(2004)。“最小角度回归”。统计年鉴32(2):第407-499页。 [2] Jerome H. Friedman,Trevor Hastie,Rob Tibshirani,“通过坐标下降的广义线性模型的正则化路径”,《统计软件》,第1卷。33,第1期,2010年2月。

5
何时使用多个模型进行预测?
这是一个相当普遍的问题: 我通常发现,在尝试从样本中预测时间序列时,使用多个不同的模型要优于一个模型。有没有好的论文证明模型的组合将胜过单个模型?结合多个模型是否有最佳实践? 一些参考: Hui Zoua,Yuhong Yang “结合时间序列模型进行预测” International Journal of Forecasting 20(2004)69– 84

1
GBM软件包与使用GBM的插入符
我一直在使用进行模型调整caret,但随后使用该gbm软件包重新运行模型。据我了解,caret程序包使用gbm的输出应相同。然而,data(iris)使用RMSE和R ^ 2作为评估指标,使用进行的快速测试显示模型中的差异约为5%。我想使用来找到最佳模型性能,caret但要重新运行gbm以利用部分依赖图。下面的代码具有可重复性。 我的问题是: 1)为什么即使这两个软件包应该相同,我仍会看到这两个软件包之间的差异(我知道它们是随机的,但5%的差异还是很大的,尤其是当我没有使用iris建模时使用的很好的数据集时) 。 2)同时使用这两个软件包有什么优点或缺点? 3)不相关:使用iris数据集时,最佳interaction.depth值为5,但高于我所阅读的最大值,使用最大值floor(sqrt(ncol(iris)))为2。这是严格的经验法则还是非常灵活? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) print(gbm.caret) # …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.