要报告的有效位数


12

在比较标准的情况下(例如,大学一年级),是否有更科学的方法来确定要报告的平均位数或置信区间的有效位数。

我已经看到要在表格中放置有效数字的数量为什么我们不使用有效数字卡方拟合的有效数字的数量,但是这些似乎并没有使问题产生影响。

在我的课堂上,我试图向学生解释,当他们的成绩有如此大的标准误差时,报告15位有效数字是浪费墨水-我的直觉是应该将其四舍五入到大约。这与ASTM- 报告测试结果所指的E29并没有太大区别,在E29中,该值应介于和。0.05 σ 0.5 σ0.25σ0.05σ0.5σ

编辑:

当我有如下一组数字时x,我应该使用几位数来打印均值和标准差?

set.seed(123)
x <- rnorm(30) # default mean=0, sd=1
# R defaults to 7 digits of precision options(digits=7)
mean(x) # -0.04710376 - not far off theoretical 0
sd(x) # 0.9810307 - not far from theoretical 1
sd(x)/sqrt(length(x)) # standard error of mean 0.1791109

问题:详细说明均值和标准差的精度(当有双精度数的矢量时),并编写一个简单的R教学函数,该函数将均值和标准差打印为有效位数反映在向量中x


我不明白为什么“要放入表格中的有效数字数量”不能完全解决您的问题:这个问题遗漏了什么?
ub

我喜欢您对这个问题的回答@whuber,但我想提供更多细节。
肖恩

1
但是有关什么的细节?无论如何,听起来您的问题确实是该问题的完全重复,并且您希望看到的是对问题答案的改进 我对么?顺便说一句,如果您正在寻找教学指导,我想向您指出我在gis.stackexchange.com/questions/8650上发布的一个有关报告地理坐标的(专门的)示例:想法是将重要的数字关联起来具有大多数读者可以轻松,直观地掌握其大小的对象的数字。类似的方法可能在其他应用程序中也能很好地工作。
whuber

1
@whuber是的,您是正确的,我喜欢那个例子。我想我正在寻找有关精度与标准偏差的关系的更多详细信息。例如R,x <-rnorm(30); 均值(x); sd(x)#此处sd显然为1,但在R中,默认情况下以7位精度打印均值。sd(x)/ 30约为0.18。谢谢
肖恩

R(以及几乎所有软件中),打印是由全局值控制的(请参阅参考资料options(digits=...)),而不是出于对精度的考虑。
whuber

Answers:


9

测量不确定度指南(GUM)建议以不超过2位的数字报告不确定度,并以使不确定度与不确定性一致所需的有效数字位数报告结果。请参阅下面的7.2.2节

http://www.bipm.org/utils/common/documents/jcgm/JCGM_100_2008_E.pdf

以下代码是我在R中实现此建议的尝试。Noe,R尝试保留输出中的尾随零可能会不合作,即使它们很重要。

gumr <- function(x.n,x.u) {
  z2 <- trunc(log10(x.u))+1
  z1 <- round(x.u/(10^z2),2)
  y1 <- round(x.n*10^(-z2),2)
  list(value=y1*10^z2,uncert=z1*10^z2)
}

x.val <- 8165.666
x.unc <- 338.9741
gumr(x.val,x.unc)

为了完整性: > gumr(x.val,x.unc) $value [1] 8170 $uncert [1] 340
rhombidodecahedron '16

@rhombidodecahedron不确定性不应该在这里只有一个有效数字吗?82±3(×10²)
jfs

@jfs建议建议在不确定性中使用两个有效数字,不是吗?
rhombidodecahedron

@rhombidodecahedron回答说“不超过2个”对我而言,胶中的标准尚不清楚。arxiv.org/pdf/1301.1034.pdf的表3 建议报告少于7个测量值的1个有效数字。
jfs

示例代码不遵循建议的GUM规则。如果val = 8165.666unc = 338.9741,测量应报告为val = 8.17(34)*10^3(不val = 8170unc = 340给出),明确指出,只有两个数字的不确定性是显著。
潜水

6

如果显示置信区间和统计值,那么给出所需的有效数字就没有问题,因为在这种情况下,大量有效数字并不意味着虚假精度,因为置信区间给出了的指示的可能的实际精度(一个可信的间隔会更好)。因此,本质上是使表格整洁,简洁和易读的问题,因此从本质上讲不可能有一个适用于所有场合的简单规则。

可重复性在科学研究中很重要,因此理想情况下,应该可以将结果复制到任意数量的数字(无论它们是否具有实际意义)。四舍五入到少量有效数字可能会降低对研究重复的信心,因为结果的四舍五入可能掩盖错误,因此在某些情况下四舍五入可能会有不利的影响。

不舍得太远的另一个原因是,它可能会使其他人无法扩展您的学习而又没有真正重复它。例如,我可能会发表一篇论文,比较使用弗里德曼测试的各种机器学习算法,这取决于不同算法在一组基准数据集上的排名。如果将每个数据集上各个分类器的统计信息根据其标准误差提供给大量有效数字,则无疑会在排名中产生许多明显的联系。这意味着(i)该论文的阅读者/审阅者将无法从该论文给出的结果复制弗里德曼测试,并且(ii)然后其他人将无法在基准数据集上评估其算法并使用弗里德曼测试以将其纳入我的研究结果的背景中。


4

当然,客观地或主观地做出的任何决定都将在很大程度上取决于您要测量的内容以及测量仪器的精度。后者只是观察到的变化的一部分,并不总是容易辨别或找到现有证据。因此,我强烈怀疑没有客观的,普遍适用的决定。您只需要动脑筋,在每种情况下做出最佳判断即可。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.