Questions tagged «bias»

参数估计量的期望值与参数真实值之间的差。请勿使用该标签来引用[bias-term] / [bias-node](即[intercept])。

3
稀有事件逻辑回归偏差:如何用一个最小的例子模拟被低估的p?
CrossValidated对于何时以及如何应用King和Zeng(2001)的罕见事件偏差校正有几个问题。我正在寻找与众不同的东西:一个基于模拟的最小演示,证明存在偏差。 特别是国王和曾国 “……在极少数事件数据中,几千个样本量的概率偏差可能实际上是有意义的,并且处于可预测的方向:估计的事件概率太小。” 这是我尝试模拟R中的这种偏差: # FUNCTIONS do.one.sim = function(p){ N = length(p) # Draw fake data based on probabilities p y = rbinom(N, 1, p) # Extract the fitted probability. # If p is constant, glm does y ~ 1, the intercept-only model. # If p is not constant, assume …

1
当被字“偏见”杜撰的意思
当被字“偏见”杜撰的意思 E[θ^−θ]E[θ^−θ]\mathbb{E}[\hat{\theta}-\theta]? 我现在正在考虑这个问题的原因是因为我似乎想起了Jaynes,在他的概率论课本中,批评了使用“ bias”一词来描述该公式,并提出了另一种选择。 根据Jaynes的概率论,第17.2节“无偏估计”: 为什么东正教徒这么偏重偏见?我们怀疑其主要原因仅仅是因为他们陷入了自己制造的心理狂陷阱中。当我们调用量(⟨β⟩−α)(⟨β⟩−α)(\langle\beta\rangle-\alpha)“偏见”,这听起来像是应该谴责的,我们必须不惜一切代价消除它。如果按照毕达哥拉斯式(17.2)的建议,将其称为“与方差正交的误差分量”,则很明显,这两个对误差的贡献是相等的;减少一个以牺牲另一个为代价是愚蠢的。这只是选择一种技术术语所付出的代价,该术语承载着情感上的负担,暗示着价值的判断;正统思想不断陷入这种战术错误。

7
机器学习中的有偏数据
我正在一个机器学习项目中,该项目的数据已经(严重)受到数据选择的影响。 假设您有一组硬编码规则。当它可以使用的所有数据都是已经被这些规则过滤的数据时,您如何构建一个机器学习模型来替换它? 为了明确起见,我猜最好的例子是信用风险评估:任务是过滤所有可能无法付款的客户。 现在,您拥有的唯一(带有标签的)数据来自该组规则已接受的客户,因为只有在接受之后,您才能看到有人付款(显然)。您不知道这套规则有多好,它们将对有偿分配到无偿分配产生多大影响。此外,再次由于规则集,您已经拒绝了来自客户端的未标记数据。因此,您不知道如果这些客户被接受,将会发生什么情况。 例如,规则之一可能是:“如果客户年龄小于18岁,则不接受” 分类器无法学习如何处理已被这些规则过滤的客户端。分类器应如何在此处学习模式? 忽略此问题,将导致模型暴露于从未遇到过的数据中。基本上,我想在x在[a,b]之外时估计f(x)的值。

2
线性回归中是否存在偏差方差折衷的图形表示?
我正在停电。为我提供了以下图片,以展示线性回归背景下的偏差方差折衷: 我可以看到,这两个模型都不是很好的拟合-“简单”不能理解XY关系的复杂性,而“复杂”只是过拟合,基本上是从心里学习训练数据。但是,我完全看不到这两张图片中的偏差和差异。有人可以告诉我吗? PS:对偏差方差折衷的直观解释的答案?并没有真正帮助我,如果有人可以根据上述图片提供其他方法,我将感到非常高兴。

6
是否有一个示例,其中MLE产生了均值的偏差估计?
您能否提供一个偏向均值​​的MLE估计器的示例? 我不是要寻找一个通过违反规则性条件而破坏MLE估计值的示例。 我在互联网上看到的所有示例均涉及方差,但似乎找不到与均值相关的任何内容。 编辑 @MichaelHardy提供了一个示例,其中在某些建议的模型下,我们使用MLE得到均匀分布平均值的偏差估计。 然而 https://zh.wikipedia.org/wiki/Uniform_distribution_(连续)#Estimation_of_midpoint 表明MLE是平均的一致最小无偏估计,显然在另一个提出的模型。 在这一点上,对于我来说,如果MLE估计是非常假设的模型依赖的,而不是模型中立的样本均值估计器,那么对MLE估计的含义还不是很清楚。最后,我对估计总体有兴趣,并且并不真正在乎假设模型的参数估计。 编辑2 正如@ChristophHanck展示的那样,该模型带有附加信息,但引入了偏差,但未能降低MSE。 我们还有其他结果: http://www.maths.manchester.ac.uk/~peterf/CSI_ch4_part1.pdf(P61) http://www.cs.tut.fi/~hehu/SSP/lecture6.pdf(幻灯片2) 的http:/ /www.stats.ox.ac.uk/~marchini/bs2a/lecture4_4up.pdf(幻灯片5) “如果存在θ的最有效的无偏估计量ˆθ(即ˆθ是无偏的,并且其方差等于CRLB),则将使用最大似然估计法进行估计。” “此外,如果一个有效的估计存在,它是ML估计”。 由于具有免费模型参数的MLE是无偏且有效的,因此根据定义,这是“最大似然估计器”吗? 编辑3 @AlecosPapadopoulos在数学论坛上有一个具有Half Normal分布的示例。 /math/799954/can-the-maximum-likelihood-estimator-be-unbiased-and-fail-to-achieve-cramer-rao 它没有像在统一情况下那样锚定其任何参数。我想说这可以解决,尽管他还没有证明均值估计器的偏见。

1
Logistic回归中的遗漏变量偏差与普通最小二乘回归中的遗漏变量偏差
我有一个关于逻辑回归和线性回归中忽略的变量偏差的问题。 说我省略了线性回归模型中的一些变量。假设那些省略的变量与我包含在模型中的变量不相关。这些遗漏的变量不会使我的模型中的系数产生偏差。 但是在逻辑回归中,我才知道这不是真的。即使省略的变量与包含的变量不相关,省略的变量也会使包含的变量的系数产生偏差。我找到了有关该主题的论文,但无法做出正面或反面的结论。 这是论文和一些幻灯片。 偏差显然总是朝着零。谁能解释这是如何工作的?

2
关于偏差方差权衡的问题
我正在尝试了解偏差-方差折衷,估算器的偏差与模型的偏差之间的关系以及估算器的方差与模型的方差之间的关系。 我得出以下结论: 当我们忽略估计量的偏差时,即当我们仅旨在最小化模型偏差而不考虑模型的方差时,我们倾向于过度拟合数据(换句话说,我们仅旨在最小化估计量的方差而不考虑估计量的偏差) 反之亦然,当我们忽略估计量的方差时,即当我们仅旨在最小化模型方差而忽略模型的偏差时,我们倾向于使数据拟合不足(换句话说,我们仅旨在最小化模型的偏差)。估算器,也无需考虑估算器的方差)。 我的结论正确吗?

1
最小化解释模型中的偏见,为什么?(Galit Shmueli的“解释或预测”)
这个问题参考了Galit Shmueli的论文“解释或预测”。 具体而言,Shmueli教授在1.5节“解释和预测不同”中写道: 在解释性建模中,重点是最小化偏差以获得最准确的基础理论表示。 每当我读这篇论文时,这都会使我感到困惑。从什么意义上说,最小化估计偏差可以最准确地表示基础理论吗? 我还在这里观看了Shmueli教授在2017年JMP探索峰会上的演讲,她说: ...像收缩模型,集合体之类的东西,您将永远不会看到它们。因为这些模型通过设计引入了偏差,以减少总体偏差/方差。这就是为什么他们不在那里的原因,这样做没有任何理论意义。您为什么要使模型有目的地偏见? 这并不能真正阐明我的问题,只是重申我不理解的说法。 如果理论有很多参数,而我们没有足够的数据来估计它们,那么估计误差将由方差决定。为什么在这种情况下使用像岭回归这样的有偏估计程序(导致较低方差的有偏估计)是不合适的?


3
我们真的需要包括“所有相关的预测变量”吗?
使用回归模型进行推理的基本假设是,“所有相关的预测变量”已包含在预测方程式中。理由是未能包含重要的现实因素会导致系数出现偏差,从而导致推论不准确(即省略了可变偏差)。 但是,在研究实践中,我从未见过任何类似 “所有相关预测变量”的事物。许多现象有许多重要原因,要把它们全部包括在内,将是非常困难的,即使不是不可能的话。一个现成的例子就是将抑郁症建模为结果:没有人建立类似于“所有相关变量”的模型的任何东西:例如,父母的历史,人格特质,社会支持,收入,他们的互动等,等等... 此外,除非有非常大的样本量,否则拟合这样一个复杂的模型将导致高度不稳定的估计。 我的问题很简单:“包含所有相关预测变量”的假设/建议是否只是我们“说”但实际上没有表达的意思?如果不是,那么我们为什么要提供它作为实际的建模建议? 这是否意味着大多数系数可能会产生误导?(例如,仅使用几种预测因子的人格因素和抑郁症研究)。换句话说,对于我们的科学结论而言,这有多大的问题?

2
留一法交叉验证的高方差
我一遍又一遍地读到,由于训练折叠的大量重叠,“留一法”交叉验证具有很大的差异。但是,我不明白为什么这样:正是因为训练集几乎相同,交叉验证的性能不应该非常稳定(方差低)吗?还是我对“方差”的概念有完全错误的理解? 我也不太了解LOO如何保持公正,但差异很大?如果LOO估计值等于期望的真实估计值-那么它怎么会有高方差? 注意:我知道这里有一个类似的问题: 为什么关于误差的平均估计的留一法交叉验证(LOOCV)方差很高?但是,回答该问题的人稍后在评论中说,尽管提出了反对,但他已经意识到他的回答是错误的。

1
附带参数问题
我总是在努力获取偶发参数问题的真正实质。我读过几次,非线性面板数据模型的固定效果估计量可能由于“众所周知的”附带参数问题而严重偏倚。 当我要求对此问题进行清晰的解释时,典型的答案是:假设面板数据在T个时间段内有N个人。如果T是固定的,则随着N的增长,协变量估计将变得有偏差。发生这种情况的原因在于,随着N的增加,干扰参数的数量会快速增长。 我将不胜感激 更精确但仍然简单的解释(如果可能) 和/或我可以使用R或Stata进行计算的具体示例。

2
对于什么模型,MLE的偏差下降快于方差?
θ^\hat\thetaθ∗\theta^*nn‖ˆθ−θ∗‖∥θ^−θ∗∥\lVert\hat\theta-\theta^*\rVertO(1/√n)O(1/n−−√)O(1/\sqrt n)‖Eˆθ−θ∗‖∥Eθ^−θ∗∥\lVert \mathbb E\hat\theta - \theta^*\rVert‖Eˆθ−ˆθ‖∥Eθ^−θ^∥\lVert \mathbb E\hat\theta - \hat\theta\rVertO(1/√n)O(1/n−−√)O(1/\sqrt{n}) 我对具有比更快地收缩的偏差的模型感兴趣,但是其中的误差不会以这种更快的速率收缩,因为偏差仍以收缩。特别是,我想知道足够的条件来使模型的偏差以的速率收缩。O(1/√n)O(1/n−−√)O(1/\sqrt n)O(1/√n)O(1/n−−√)O(1/\sqrt n)O(1/n)O(1/n)O(1/n)

4
评审团的偏见?
刑事审判后,一位朋友代表客户提出上诉,陪审团的选择似乎带有种族偏见。 评审团由4个种族组成的30人组成。检方使用了强制性的挑战,以从池中消除了10个人。每个种族群体的人数和实际挑战的数量分别是: A: 10, 1 B: 10, 4 C: 6, 4 D: 4, 1 total: 30 in pool, 10 challenges 被告来自种族C组,受害者来自种族A和D组,因此先验问题是C组是否受到过挑战,而A和D组受到了挑战。从法律上讲(IIUC; IANAL),辩方不需要证明种族偏见,而只是表明数据似乎表明存在偏见,这便使控方有责任从非种族角度解释每项挑战。 以下分析的方法正确吗?(我认为计算很好。): 有10个池成员的nCr(30,10)= 30,045,015个不同的集合。在这些不同的集合中,我计算出433,377个集合同时包含(不超过A组和D组的2个成员)和(不少于C组的4个成员)。 因此,达到观察到的明显偏见水平的机会比A组和D组优于C组(其中10项挑战中不包括偏爱)是它们的比率,即433/30045 = 1.44%。 因此,原假设(无此类偏差)在5%的显着性水平上被拒绝。 如果这种分析在方法上是正确的,那么向法院描述它的最简洁方法是什么,包括学术/专业参考文献(即不是Wikipedia)?虽然论点看起来很简单,但如何能最清楚,最简洁地向法院证明它是正确的,而不是恶作剧呢? 更新:在上诉摘要中,该问题已作为三级辩论进行了审议。考虑到此处讨论的技术复杂性(从律师的角度来看)以及明显缺乏法律先例,律师选择不提出建议,因此在这一点上,问题主要是理论上/教育上的。 要回答一个细节:我相信挑战的数量是10个。 在研究了周到且具有挑战性的答案和评论(谢谢!)之后,似乎这里有4个独立的问题。至少对我来说,将它们分开考虑(或听听为什么它们不可分离的争论)是最有帮助的。 1)在陪审团的挑战中,是否优先考虑被告人和受害者的种族?上诉论点的目的仅是引起合理关注,这可能导致司法命令,要求检方陈述每个单独质疑的理由。在我看来,这不是一个统计问题,而是一个社会/法律问题,由律师酌情决定是否提出。 2)假设(1),我对替代假设的选择(定性:对分享被告人的种族的陪审员的偏见,而赞成分享被害人的种族的偏见)是合理的,还是事后不允许?从我的外行角度来看,这是最令人困惑的问题-是的,如果一个人不遵守,当然不会提出!据我了解,问题在于选择偏见:一个人的测试不仅应考虑这个陪审团池,还应考虑所有此类陪审团池的范围,包括所有未发现辩护方存在差异并因此不愿意提出该问题的陪审员池。 。如何解决这个问题?(例如,安迪的测验如何解决这个问题?)看来,尽管我对此可能有误,但大多数受访者并未为可能的事后调查感到困扰1尾测试,仅针对被告所在的群体进行偏见测试。假设(1),同时测试受害者群体的偏见在方法上有何不同? 3)如果有人规定我选择(2)中所述的定性替代假设,那么检验它的合适统计量是什么?这是我最困惑的地方,因为我建议的比率似乎与安迪关于更简单的“偏于C的”替代假设的检验的保守度稍高(更保守,因为我的检验也将所有情况都排除在外)在尾部,而不仅仅是观察到的确切数字。) 两种检验都是简单的计数检验,具有相同的分母(样本的相同宇宙),并且分子精确地对应于与各个替代假设相对应的那些样本的频率。那么,@ whuber,为什么它和安迪的计数测试不一样,因为它“可以基于规定的空值[相同]和替代性的[描述的]假设,并使用内曼-皮尔森引理证明是正确的”? 4)如果有人规定(2)和(3),那么在判例法中是否存在可以说服怀疑上诉法院的内容?从迄今为止的证据来看,可能还没有。同样,在上诉的这个阶段,没有任何“专家证人”的机会,因此参考就是一切。

2
逐步回归是否提供总体r平方的有偏估计?
在心理学和其他领域,通常采用逐步回归的形式,涉及以下内容: 查看其余的预测变量(最初在模型中没有),并确定导致最大r平方变化的预测变量; 如果r平方变化的p值小于alpha(通常为.05),则包括该预测变量并返回步骤1,否则停止。 例如,请参阅SPSS中的此过程。 出于各种原因,通常会对该程序进行批判(请参阅Stata网站上的讨论并提供参考资料)。 特别是,Stata网站总结了Frank Harrell的一些评论。我对索赔感兴趣: [逐步回归]产生严重偏高的R平方值。 具体来说,我目前的一些研究集中在估计总体r平方。通过总体r平方,我指的是总体中由总体数据生成方程式解释的方差百分比。我正在审查的许多现有文献都使用了逐步回归程序,我想知道所提供的估计数是否有偏差,以及有多少偏差。特别是,典型的研究将有30个预测变量,n = 200,输入的alpha为0.05,r平方估计约为0.50。 我所知道的: 渐近地,具有非零系数的任何预测变量将是统计上显着的预测变量,并且r平方将等于调整后的r平方。因此,渐进式逐步回归应该估计真实的回归方程和真实的总体r平方。 对于较小的样本量,与模型中所有预测变量相比,某些预测变量的可能省略将导致较小的r平方。但是,通常r平方对样本数据的偏见也会增加r平方。因此,我天真的想法是,这两个相反的力在一定条件下可能导致无偏的r平方。更一般而言,偏差的方向将取决于数据的各种特征和alpha包含标准。 设置更严格的alpha包含准则(例如.01,.001等)应会降低预期的估计r平方,因为在任何数据生成中包含任何预测变量的可能性都较小。 通常,r平方是总体r平方的向上偏差估计,并且随着更多的预测变量和较小的样本量,该偏差的程度也会增加。 题 最后,我的问题是: 逐步回归的r平方在多大程度上导致总体r平方的估计偏差? 这种偏差在多大程度上与样本数量,预测变量数量,alpha包含标准或数据属性有关? 是否有关于此主题的参考?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.