Questions tagged «error»

估计或预测的误差是其与真实值的偏差,它可能是不可观察的(例如,回归参数)或可观察的(例如,未来的实现)。使用[error-message]标签询问软件错误。

1
加法误差还是乘法误差?
我是统计学的新手,不胜感激可以帮助您更好地理解这一点。 在我的领域中,有以下形式的常用模型: PŤ= PØ(五Ť)αPt=Po(Vt)αP_t = P_o(V_t)^\alpha 当人们将模型拟合到数据时,他们通常将模型线性化并符合以下条件 日志(PŤ)= 日志(PØ)+ α 日志(五Ť)+ ϵlog⁡(Pt)=log⁡(Po)+αlog⁡(Vt)+ϵ\log(P_t) = \log(P_o) + \alpha \log(V_t) + \epsilon 这个可以吗?我在某处读到,由于信号中的噪声,实际模型应该是 PŤ= PØ(五Ť)α+ ϵPt=Po(Vt)α+ϵP_t = P_o(V_t)^\alpha + \epsilon 并且不能像上面那样线性化。这是真的?如果是这样,是否有人知道我可以阅读和参考的参考文献,并且可能在报告中引用?

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
平均绝对误差的名称类似于Brier分数?
昨天的问题是确定模型的准确性,该模型估计事件的概率使我对概率评分感到好奇。 的石南木得分 是均方误差度量。类似的平均绝对错误性能是否测量 也有名字吗1N∑i=1N(predictioni−referencei)21N∑i=1N(predictioni−referencei)2\frac{1}{N}\sum\limits _{i=1}^{N}(prediction_i - reference_i)^2 1N∑i=1N|predictioni−referencei|1N∑i=1N|predictioni−referencei|\frac{1}{N}\sum\limits _{i=1}^{N}|prediction_i - reference_i|

4
Bootstrap vs蒙特卡洛,误差估计
我正在阅读《地球化学计算中的蒙特卡洛方法的误差传播》一书,安德森(Anderson,1976年),有些事情我不太了解。 考虑一些测量数据和程序,其处理它,并返回一个给定值。在本文中,此程序用于首先使用数据手段(即)获得最佳值。{A±σA,B±σB,C±σC}{A±σA,B±σB,C±σC}\{A\pm\sigma_A, B\pm\sigma_B, C\pm\sigma_C\}{A,B,C}{A,B,C}\{A, B, C\} 然后,作者使用蒙特卡洛方法,通过在不确定性范围内改变输入参数(由均值和标准偏差给出的高斯分布来确定),将不确定性分配给该最佳值。),然后再将其提供给程序。如下图所示:{A,B,C}{A,B,C}\{A, B, C\}{σA,σB,σC}{σA,σB,σC}\{\sigma_A, \sigma_B, \sigma_C\} (版权:ScienceDirect) 可以从最终的分布中获得不确定性。ZZZ 如果我应用了bootstrap方法而不是Monte Carlo方法,将会发生什么情况?像这样: 这是:我不是在不确定性范围内更改数据,而是先将它们替换为样本,然后再将其提供给程序。 在这种情况下,这两种方法有什么区别?应用任何警告之前,我应该注意哪些注意事项? 我知道这个问题,蒙特卡洛(Bootstrap)引导程序,但是它并不能完全解决我的疑问,因为在这种情况下,数据包含分配的不确定性。

3
线性回归中误差的方差-协方差矩阵
实际上,统计分析软件包如何计算var / cov误差矩阵? 从理论上我很清楚这个想法。但实际上没有。我的意思是,如果我有一个随机变量向量,我知道方差/协方差矩阵将得到均值偏差向量的外部乘积:。ΣX =( X1个,X2,… ,Xñ)⊤X=(X1,X2,…,Xn)⊤\textbf{X}=(X_{1}, X_{2}, \ldots, X_{n})^\topΣΣ\SigmaΣ = E [(X - E(X))(X - E(X))⊤]Σ=E[(X−E(X))(X−E(X))⊤]\Sigma=\mathrm{E}\left[(\textbf{X}-\mathrm{E}(\textbf{X}))(\textbf{X}-\mathrm{E}(\textbf{X}))^\top\right] 但是当我有一个样本时,我观察到的误差不是随机变量。甚至更好,但只有在我从相同人群中抽取了多个相同样本的情况下才可以。否则,他们被给予。因此,我的问题再次是:一个统计软件包如何从研究人员提供的观察结果列表(即样本)开始生成var / cov矩阵?

3
要报告的有效位数
在比较标准的情况下(例如,大学一年级),是否有更科学的方法来确定要报告的平均位数或置信区间的有效位数。 我已经看到要在表格中放置有效数字的数量,为什么我们不使用有效数字和卡方拟合的有效数字的数量,但是这些似乎并没有使问题产生影响。 在我的课堂上,我试图向学生解释,当他们的成绩有如此大的标准误差时,报告15位有效数字是浪费墨水-我的直觉是应该将其四舍五入到大约。这与ASTM- 报告测试结果所指的E29并没有太大区别,在E29中,该值应介于和。0.05 σ 0.5 σ0.25σ0.25σ0.25\sigma0.05σ0.05σ0.05\sigma0.5σ0.5σ0.5\sigma 编辑: 当我有如下一组数字时x,我应该使用几位数来打印均值和标准差? set.seed(123) x <- rnorm(30) # default mean=0, sd=1 # R defaults to 7 digits of precision options(digits=7) mean(x) # -0.04710376 - not far off theoretical 0 sd(x) # 0.9810307 - not far from theoretical 1 sd(x)/sqrt(length(x)) # standard error of mean …

2
错误率是正则化参数lambda的凸函数吗?
在Ridge或Lasso中选择正则化参数lambda时,建议的方法是尝试使用不同的lambda值,测量验证集中的错误,最后选择返回最低错误的lambda值。 如果函数f(lambda)= error是凸的,这对我来说并不束手无策。会是这样吗?即,该曲线是否可以具有多个局部最小值(这意味着在lambda的某个区域中找到Error的最小值并不排除在某些其他区域中存在返回较小的Error的Lambda的可能性) 您的建议将不胜感激。

3
拟合曲线的可靠性?
我想估计拟合曲线的不确定性或可靠性。由于我不知道它的确切含义,因此我故意不指定要查找的精确数学量。 这里,ËËE(能量)是因变量(响应),VVV(体积)是自变量。我想找到某种材料的能量-体积曲线Ë(五)Ë(V)E(V)。因此,我使用量子化学计算机程序进行了一些计算,以获取某些样品体积(图中的绿色圆圈)的能量。 然后,我用Birch–Murnaghan函数拟合这些数据样本: 这取决于四个参数: ë 0,V 0,乙0,乙' 0。我还假定这是正确的拟合函数,因此所有误差仅来自样本的噪声。在下文中,拟合函数(ē)将被写成函数 V。E(E|V)=E0+9V0B016⎧⎩⎨[(V0V)23−1]3B′0+[(V0V)23−1]2[6−4(V0V)23]⎫⎭⎬,E(E|V)=E0+9V0B016{[(V0V)23−1]3B0′+[(V0V)23−1]2[6−4(V0V)23]}, \mathbb{E}(E|V) = E_0 + \frac{9V_0B_0}{16} \left\{ \left[\left(\frac{V_0}{V}\right)^\frac{2}{3}-1\right]^3B_0^\prime + \left[\left(\frac{V_0}{V}\right)^\frac{2}{3}-1\right]^2 \left[6-4\left(\frac{V_0}{V}\right)^\frac{2}{3}\right]\right\}\;, Ë0,V0,B0,B′0E0,V0,B0,B0′E_0, V_0, B_0, B_0'(E^)(E^)(\hat{E})VVV 在这里,您可以看到结果(使用最小二乘算法进行拟合)。y轴变量是和x轴变量是V。蓝线是拟合点,绿色圆圈是采样点。ËEEVVV 我现在需要(在体积的依赖性充其量)这个拟合曲线的可靠性一定程度È(V ),因为我需要它来计算像过渡压力或焓进一步的数量。Ë^(五)E^(V)\hat{E}(V) 我的直觉告诉我,拟合曲线在中间是最可靠的,所以我猜想不确定性(例如不确定性范围)应该在样本数据的末尾增加,就像这个草图所示: 但是,我正在寻找什么样的量度,如何计算呢? 准确地说,这里实际上只有一个错误源:由于计算限制,计算出的样本有噪声。因此,如果我要计算一组密集的数据样本,它们将形成颠簸的曲线。 我想要找到所需不确定度估计值的想法是,在学校学习时根据参数计算以下“误差”(不确定性的传播): 的Δë0,ΔV0,Δ乙0和Δ乙'0,由拟合软件给出。Δ è(五)= (∂Ë(五)∂Ë0Δ è0)2+ (∂Ë(五)∂V0Δ V0)2+ (∂Ë(五)∂乙0Δ 乙0)2+ (∂Ë(五)∂乙′0Δ 乙′0)2----------------------------------------------------------√ΔË(V)=(∂Ë(V)∂Ë0ΔË0)2+(∂Ë(V)∂V0ΔV0)2+(∂Ë(V)∂乙0Δ乙0)2+(∂Ë(V)∂乙0′Δ乙0′)2 \Delta E(V) = \sqrt{ \left(\frac{\partial E(V)}{\partial E_0} \Delta E_0\right)^2 + …

1
R神经网络-计算给出恒定答案
我正在尝试使用R的neuralnet软件包(此处的文档)进行预测。 这是我想做的: library(neuralnet) x <- cbind(runif(50, min=1, max=500), runif(50, min=1, max=500)) y <- x[, 1] * x[, 2] train <- data.frame(x, y) n <- names(train) f <- as.formula(paste('y ~', paste(n[!n %in% 'y'], collapse = ' + '))) net <- neuralnet(f, train, hidden = c(5, 5), threshold=0.01) print(net) all: neuralnet(formula = …

3
如何从正态分布中找到样本标准偏差的标准偏差?
如果我错过了一些显而易见的事情,请原谅我。 我是一位物理学家,本质上是(直方图)分布,其中心是一个近似于正态分布的平均值。对我来说,重要的值是该高斯随机变量的标准偏差。我将如何尝试查找样本标准偏差上的误差?我感觉到它与原始直方图中每个bin上的错误有关。

4
如何在回归模型中概念化误差?
我正在参加数据分析课程,而我一些根深蒂固的想法正在动摇。即,误差(ε)以及任何其他类型的方差的想法仅(据我认为)适用于一组(样本或整个人群)。现在,我们被告知回归假设之一是方差“对于所有个体都是相同的”。这在某种程度上令我震惊。我一直认为,假设所有X值中Y的方差都是恒定的。 我与教授聊天,他告诉我,当我们进行回归分析时,我们认为我们的模型是正确的。我认为那是棘手的部分。对我而言,误差项(epsilon)始终表示“诸如我们不知道的任何元素,它们可能会影响我们的结果变量,以及一些测量误差”。在课堂教学中,没有“其他东西”之类的东西。我们的模型假设是真实完整的。这意味着必须将所有残差视为测量误差的乘积(因此,一次测量20个人将产生与一次测量20个人相同的方差)。 我觉得某处有问题,对此我希望有一些专家意见...从概念上来讲,关于错误术语是什么还可以解释吗?

1
使用中位数和图形表示来报告错误吗?
我已经对论文数据进行了广泛的测试,从参数方差分析和t检验到非参数Kruskal-Wallis检验和Mann-Whitneys检验,以及经过秩转换的2向方差分析和带有二进制的GzLM,泊松和比例数据。现在,当我在结果中写下所有内容时,我需要报告所有内容。 我已经在这里问过如何报告比例数据的不对称置信区间。我知道标准偏差,标准误差或置信区间适用于均值,如果我的所有测试都很好地参数化,这就是我要报告的结果。但是,对于我的非参数测试,我应该报告中位数而不是平均值吗?如果是这样,我将报告什么错误? 与此相关的是如何最好地以图形方式显示非参数测试结果。由于我在类别中主要包含连续或间隔数据,因此通常使用条形图,条形图的顶部是平均值,误差条形图显示95%CI。对于NP测试,我是否仍可以使用条形图,但是条形的顶部代表中位数吗? 感谢您的建议!


2
平均数据然后拟合与拟合数据然后平均之间的差异
如果有,则在将一条线拟合到多个单独的“实验”之间进行平均,然后对拟合进行平均,或者对来自单独实验的数据进行平均,然后对平均数据进行拟合。让我详细说明: 我执行计算机仿真,生成一条曲线,如下所示。我们提取一个数量,通过拟合图的线性区域(长时间)将其称为“ A”。该值只是线性区域的斜率。当然,与线性回归有关的误差。 我们通常在不同的初始条件下运行100个左右的模拟,以计算平均值“ A”。有人告诉我,最好将原始数据(如下图所示)平均分成10组,然后拟合“ A”,然后再对这10个“ A”进行平均。 我没有直觉可言,它是否有任何优点,或者比拟合100个单独的“ A”值取平均值还要好。
10 error  fitting  average 

1
数据处理错误是否已经“纳入”统计分析?
好的,合理的警告-这是一个不涉及数字的哲学问题。我一直在思考错误将如何随着时间逐渐潜入数据集中,以及分析人员应如何处理这些错误,或者它是否真的很重要? 就背景而言,我正在一项长期研究中进行分析,该研究涉及大约7-8年内可能由25个人收集的许多数据集-没有人将所有数据整合到一个一致的结构中(这是我的职责)。我一直在进行大量数据输入(从旧实验室笔记本的影印本抄录),并且不断发现其他人犯的小抄录错误,并且发现难以或无法读取的数据条目-主要是因为墨水随着时间的流逝而消失。我正在使用上下文对数据的含义做出“最佳猜测”,如果我不太确定,则将数据完全指出。但是我一直在考虑这样一个事实,每次复制数据时,错误的频率不可避免地会增加,直到原始数据完全丢失为止。 因此,这使我想到:除了仪器/测量错误和记录错误之外,还有一个基本的“数据处理错误”组件会随着时间的推移以及对数据的更多处理而增加(注意:这可能是由于这只是说明热力学第二定律的另一种方式,对吗?数据熵将一直增加)。因此,我想知道是否应该引入某种“校正”来说明数据集的寿命历史(类似于Bonferroni校正)?换句话说,我们是否应该假设较旧或复制较多的数据集的准确性较低;如果是,则应相应地调整发现结果吗? 但是,我的另一种想法是错误是数据收集和数据处理的固有部分,并且既然所有统计测试都是使用真实数据开发的,那么这些错误源可能已经被分析所“价”了吗? 另外,值得一提的另一点是,由于数据错误是随机的,因此降低发现强度的可能性远大于改善发现的强度-换句话说,数据处理错误将导致类型2错误,而不是类型1错误。 。因此,在许多情况下,如果您使用的是旧的/有问题的数据并且仍然发现了一种影响,则可以增加您对这种影响是真实存在的信心(因为它足够强大,可以承受向数据集添加随机误差的影响)。因此,出于这个原因,也许“校正”应该采取另一种方式(增加“查找”所需的Alpha水平),还是不给我们带来麻烦? 无论如何,很抱歉如此冗长和晦涩,我不确定如何更简洁地提出这个问题。感谢您的支持。
10 dataset  error 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.