Questions tagged «error»

估计或预测的误差是其与真实值的偏差,它可能是不可观察的(例如,回归参数)或可观察的(例如,未来的实现)。使用[error-message]标签询问软件错误。

2
误差传播SD与SE
在两个不同的条件下(A和B),我对每个人的性状有3到5个度量。 我绘制平均每个个体在每个条件和我使用标准的误差(即,,其中N=测量次数)作为误差线。小号D / N--√SD/NSD/\sqrt{N}ñNN 现在,我要绘制条件A和条件B中每个人的平均度量之间的差异。我知道我可以确定传播的误差: 但是如何传播标准误差(因为我正在处理测量的平均值)而不是标准偏差?这有道理吗?小号D = Sd2一个+ Sd2乙----------√SD=SDA2+SDB2SD=\sqrt{SD_A^2+SD_B^2}

1
校正正态分布的时钟精度
我有一个实验,该实验在分布于世界各地的数百台计算机上执行,以测量某些事件的发生。这些事件彼此依赖,因此我可以按升序对它们进行排序,然后计算时间差。 事件应该按指数分布,但是当绘制直方图时,这就是我得到的: 计算机上时钟的不精确性导致某些事件的时间戳早于它们所依赖的事件的时间戳。 我想知道是否可以将时钟同步归咎于PDF的峰值不为0(它们将整个对象向右移)吗? 如果时钟差异是正态分布的,我是否可以仅假设效果会相互补偿,从而仅使用计算出的时间差?

2
为什么我们要使用残差来检验回归误差的假设?
假设我们有一个模型Yi=β0+β1Xi1+β2Xi2+⋯+βkXik+ϵiYi=β0+β1Xi1+β2Xi2+⋯+βkXik+ϵiY_i = \beta_0 + \beta_1X_{i1} + \beta_2X_{i2} + \dots + \beta_kX_{ik} + \epsilon_i。 回归有许多假设,例如误差ϵiϵi\epsilon_i应该以均值为零和恒定方差的正态分布。我被教导要检查使用正常的QQ阴谋测试残差的常态这些假设ei=Yi−Y^iei=Yi−Y^ie_i = Y_i - \hat{Y}_i和残差对拟合曲线图,以检查残差与不断变化而改变零附近。 但是,这些测试全部针对残差,而不是误差。 据我所知,误差被定义为每个观察值与其“真实”平均值的偏差。因此,我们可以写ϵi=Yi−E[Yi]ϵi=Yi−E[Yi]\epsilon_i = Y_i - \mathbb{E}[Y_i]。我们无法观察到这些错误。* 我的问题是:残差在模仿错误方面做得如何? 如果对残差似乎满足假设,是否也就对误差也满意?还有其他(更好)的方法来测试假设吗,例如将模型拟合到测试数据集并从中获取残差? *此外,这是否不需要正确指定模型?也就是说,响应确实有与预测的关系在该模型中指定的方式等。X1,X2,X1,X2,X_1, X_2, 如果我们缺少某些预测(比方说,),则期望ë [ ÿ 我 ] = β 0 + β 1 X 我1 + β 2 X 我2 + ⋯ + β …

2
通过使用一组样本估算多个集合的交集的大小
我正在研究一种算法,该算法需要计算由至少2个集合的交集生成的集合的大小。进一步来说: z=|A0∩…∩An|z=|A0∩…∩An| z = \left |A_0 \cap \ldots \cap A_n \right | 相交的集合是由SQL查询生成的,为了保持运行速度,我提前获取了每个查询的计数,然后以计数最小()的集合为准,并使用这些ID作为其余的大查询,因此交集实际上变为:A0A0A_0 z=|(A0∩A1)∩…∩(A0∩An)|z=|(A0∩A1)∩…∩(A0∩An)| z = \left |\left ( A_0 \cap A_1 \right ) \cap \ldots \cap \left ( A_0 \cap A_n \right ) \right | 即使这个策略也让我有一些相当大的查询要运行,因为有时可能很大。我要解决的想法是随机抽取样本,并将其与其余集合相交,然后外推回的适当估计。我的问题是:进行采样然后外推以返回到值(如果不是完全准确的话)具有可预测的误差范围的最佳方法是什么?|A0||A0|\left | A_0 \right |A0A0A_0zzzzzz 到目前为止,这是我尝试过的(使用伪代码): sample_threshold := 10000 factor := 1 if (len(A0) …
10 error  sample 

1
根据测量误差选择先验
如果您有仪器的测量误差,如何计算适当的先验值?本段摘自Cressie的书“时空数据统计”: 通常情况下,可以使用一些有关测量误差方差的先验信息,从而可以指定相当有用的参数模型。例如,如果我们假设条件独立的测量误差为iid ,那么我们应该为指定一个信息先验。假设我们对环境空气温度感兴趣,并且我们看到仪器制造商的技术指标表明“误差”为±0.1°C。假定此“错误”对应于2个标准差(应检查的假设!),然后我们可以指定\ sigma _ {\ epsilon} ^ {2}的先前平均值为(0.1 / 2)^ 2 = 0.0025Gau(0,σ2ϵ)Gau(0,σϵ2)Gau(0, \sigma_{\epsilon}^2)σ2ϵσϵ2\sigma_{\epsilon}^2±0.1°C±0.1°C±0.1°Cσ2ϵσϵ2\sigma_{\epsilon}^{2}(0.1/2)2=0.0025(0.1/2)2=0.0025(0.1/2)^2 = 0.0025。由于仪器制造商的规范,我们假设分布在0.0025处具有明确定义且相当窄的峰(例如,反伽马)。实际上,我们可以将其固定为0.0025;但是,数据模型错误也可能具有其他不确定性因素(第7.1节)。为避免过程模型错误可能引起的可识别性问题,建模人员应尽可能减少《科学》杂志的不确定性,包括进行旨在复制数据的辅助研究,这一点非常重要。 有谁知道如上所述获得先验值的一般程序是什么(尽管该段仅涉及获得先验均值)?

1
什么时候合适的评分规则可以更好地估计分类设置中的泛化?
解决分类问题的一种典型方法是识别一类候选模型,然后使用诸如交叉验证之类的过程执行模型选择。通常,人们会选择精度最高的模型,或者选择一些编码特定问题信息的相关函数,例如。FβFβ\text{F}_\beta 假设最终目标是产生一个准确的分类器(准确度的定义再次取决于问题,则取决于问题),在哪种情况下,最好使用适当的评分规则来进行模型选择,而不是诸如准确性,准确性,召回率之类的不正确内容等等?此外,让我们忽略模型复杂性的问题,并假设我们认为所有模型具有同等可能性。 以前我不会说。从形式上讲,我们知道分类比回归[1],[2]更容易解决,并且我们可以得出前者比后者()更严格的界限。此外,在某些情况下,尝试准确匹配概率可能会导致错误的决策边界或过度拟合。但是,基于此处的对话和社区对此类问题的投票方式,我一直对此观点提出质疑。∗∗* 露芙·德沃罗伊。模式识别的概率论。卷 31. springer,1996年,第6.7节 Kearns,Michael J.和Robert E. Schapire。高效无分布学习概率概念。计算机科学基础,1990年。会议论文集,第31届年度研讨会。IEEE,1990年。 (∗)(∗)(*)这句话可能有点草率。我具体是指给定形式为带标签数据,其中和,它似乎更容易估计比准确估计的条件概率判定边界。S={(x1,y1),…,(xn,yn)}S={(x1,y1),…,(xn,yn)}S = \{(x_1, y_1), \ldots, (x_n, y_n)\}xi∈Xxi∈Xx_i \in \mathcal{X}yi∈{1,…,K}yi∈{1,…,K}y_i \in \{1, \ldots, K\}

2
乐观偏差-预测误差的估计
《统计学习的元素》(在线提供PDF版本)讨论了最佳偏差(7.21,第229页)。它指出,乐观偏差是训练误差与样本误差(如果我们在每个原始训练点采样新的结果值时观察到的误差)之间的差(见下)。 接下来,它声明这种乐观偏差()等于我们的估计y值与实际y值的协方差(公式如下)。我很难理解为什么这个公式表示乐观偏见。天真的,我会认为实际与预测之间的强协方差仅描述准确性,而不是乐观。让我知道是否有人可以帮助您推导公式或分享直觉。 ωω\omegayyyyyy

3
通过所谓的平均观测值归一化的RMSE是多少?
我一直在使用Root Mean Squared Error(RMSE)来衡量使用模型预测的值的准确性。我知道返回的值使用的是我的度量单位(而不是百分比)。但是,我想用百分比来表示我的值。我采用的方法是RMSE通过观察值的平均值标准化。 有RMSE/mean什么用吗?

1
使用二阶泰勒级数传播误差
我正在阅读John Rice的文章“数学统计和数据分析”。我们关注随机变量的期望值和方差的近似值。我们能够计算随机变量的期望值和方差,并且我们知道关系。因此,可以使用关于的泰勒级数展开来逼近的期望值和方差。YYYXXXY=g(X)Y=g(X)Y = g(X)YYYgggμXμX\mu_X 在第162页上,他列出了3个方程式。 使用一阶泰勒级数展开式的的期望值。它是:。这在我的问题后面称为。YYYμY≈g(μX)μY≈g(μX)\mu_Y \approx g(\mu_X)E(Y1)E(Y1)E(Y_1) 使用一阶泰勒级数展开式的的方差。它是:。这在我的问题后面称为。YYYσ2Y≈σ2X(g′(μX))2σY2≈σX2(g′(μX))2\sigma_Y^2 \approx \sigma_X^2 (g'(\mu_X))^2Var(Y1)Var(Y1)Var(Y_1) 使用二阶泰勒级数展开式的的期望值。它是。在我的问题中稍后将其称为E(Y_2)。YYYμY≈g(μX)+12σ2Xg′′(μX)μY≈g(μX)+12σX2g″(μX)\mu_Y \approx g(\mu_X) + \frac12 \sigma_X^2 g''(\mu_X)E(Y2)E(Y2)E(Y_2) 请注意,Y有两个不同的表达式,YYY因为我们在泰勒级数展开中使用了两个不同的阶数。等式1和2表示Y1=g(X)≈g(μX)+(X−μX)g′(μX)Y1=g(X)≈g(μX)+(X−μX)g′(μX)Y_1 = g(X) \approx g(\mu_X) + (X-\mu_X)g'(\mu_X)。等式3表示Y2=g(X)≈g(μX)+(X−μX)g′(μX)+12(X−μX)2g′′(μX)Y2=g(X)≈g(μX)+(X−μX)g′(μX)+12(X−μX)2g″(μX)Y_2 = g(X) \approx g(\mu_X) + (X-\mu_X)g'(\mu_X) + \frac12 (X-\mu_X)^2 g''(\mu_X)。 注意,没有具体给出Var(Y_2)的方程Var(Y2)Var(Y2)Var(Y_2)。后来,当作者实际上指的是Y_2的期望值(公式3)时,作者似乎将其用于Y_1的方差Y1Y1Y_1(公式2 )。这似乎暗示Var(Y_2)= Var(Y_1)。Y2Y2Y_2Var(Y2)=Var(Y1)Var(Y2)=Var(Y1)Var(Y_2) = Var(Y_1) 我尝试手动计算,但表达式却变得有些复杂。这是我的工作(我停了下来,因为最终我得到了期望的项): Var(Y2)Var(Y2)Var(Y_2)X3X3X^3Var(Y2)=E[(g(μX)+(X−μX)a+12(X−μX)2b−g(μX)−12σ2Xb)2]=E[((X−μX)a+(12(X−μX)2−12σ2X)b)2]=E[(ca+(12c2−12σ2X)b)2]=E[c2a2+ca(c2−σ2X)b+14(c2−σ2X)2b2]=E[(X2−2XμX+μ2X)a2+(X−μX)a((X2−2XμX+μ2X)−σ2X)b+14((X2−2XμX+μ2X)−σ2X)2b2]Var(Y2)=E[(g(μX)+(X−μX)a+12(X−μX)2b−g(μX)−12σX2b)2]=E[((X−μX)a+(12(X−μX)2−12σX2)b)2]=E[(ca+(12c2−12σX2)b)2]=E[c2a2+ca(c2−σX2)b+14(c2−σX2)2b2]=E[(X2−2XμX+μX2)a2+(X−μX)a((X2−2XμX+μX2)−σX2)b+14((X2−2XμX+μX2)−σX2)2b2] \begin{aligned} Var(Y_2) &= E[( g(\mu_X) + (X-\mu_X)a …
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.