Questions tagged «reporting»

在研究手稿,演示文稿中或向公众展示统计分析结果的指南。

4
如何报告微小的
对于在某些测试中R,存在对一个下限p值的计算2.22 ⋅ 10− 162.22⋅10-162.22 \cdot 10^{-16}。我不确定为什么是这个数字,是否有充分的理由,或者它是任意的。许多其他统计信息包都可以使用0.0001,因此精度更高。但是我没有看到太多的论文报告或。p &lt; 2.22 ⋅ 10− 16p&lt;2.22⋅10-16p < 2.22\cdot 10^{-16}p = 2.22 ⋅ 10− 16p=2.22⋅10-16p = 2.22\cdot 10^{-16} 报告此计算值是常见/最佳做法,还是报告其他内容(例如p &lt; 0.000000000000001)更典型?

4
报告描述性统计数据有什么意义?
我刚刚使用Logistic回归对数据进行了分析,但是还需要在报告中包含描述性的统计部分。老实说,我没有明白这一点,我希望有人能够解释为什么这样做是必要的。 例如,如果我绘制了一个独立连续变量的直方图,并且显示了正态性或显示了偏度,这将如何为报表添加任何值? 我的数据包含一份工作的正确或错误因变量,独立变量是期中成绩,期末考试成绩以及男女。


6
更重要的统计数据是:“所有妇女中90%幸存”或“所有妇女中90%是妇女”?
考虑以下有关泰坦尼克号的陈述: 假设1:只有男人和女人在船上 假设2:有很多男人和女人 陈述1:90%的妇女幸存 陈述2:在所有幸存者中,有90%是女性 第一个表明,挽救妇女可能是重中之重(无论是否挽救男性) 第二种统计数据什么时候有用? 我们可以说其中一个几乎总是比另一个有用吗?

4
样本量很大时的置信区间
我的问题可以改写为“如何使用大数据评估抽样误差”,特别是对于期刊出版物。这是说明挑战的示例。 通过一个非常大的数据集(来自100多家医院的100000例独特患者及其处方药),我有兴趣估算服用特定药物的患者比例。得到这个比例很简单。它的置信区间(例如,参数或自举)非常紧密/狭窄,因为n非常大。尽管样本量很大很幸运,但我仍在寻找一种方法来评估,呈现和/或可视化某些形式的错误概率。尽管置入/可视化置信区间似乎无益(如果没有误导)(例如95%CI:.65878-.65881),但似乎也无法避免一些不确定性陈述。 请让我知道你的想法。我将不胜感激有关该主题的任何文献。即使样本量很大也可以避免对数据过度自信的方法。

2
报告Welch t检验的自由度
不等方差的Welch t检验(也称为Welch-Satterthwaite或Welch-Aspin)通常具有非整数的自由度。报告测试结果时应如何引用这些自由度? 根据各种消息来源,“通常在查询标准t表之前先四舍五入为最接近的整数” *-这很有意义,因为这种舍入方向是保守的。**一些较旧的统计软件也可以这样做(例如,版本之前的Graphpad Prism 6),一些在线计算器仍然可以使用。如果已使用此程序,则报告四舍五入的自由度似乎是适当的。(尽管使用一些更好的软件可能更合适!) 但是绝大多数现代软件包都使用小数部分,因此在这种情况下,似乎应该引用小数部分。我看不出引用多于两个小数位是适当的,因为千分之一的自由度只会对p值产生微不足道的影响。 环顾Google学者,我可以看到一些论文用df整数,小数点后一位或小数点后两位。是否有关于使用多少精度的准则?此外,如果软件使用完整的小数部分,应在引用DF进行四舍五入向下到的数字的期望数目(例如7.5845...→7.57.5845...→7.57.5845... \rightarrow 7.5至1个DP或→7→7\rightarrow 7作为整体数目),为是适当的与保守计算,或者对我来说似乎更明智,按常规取整(至最接近的整数),以使7.5845...→7.67.5845...→7.67.5845... \rightarrow 7.6至1 dp或→8→8\rightarrow 8至最接近的整数? 编辑:除了了解报告非整数df的理论上最合理的方法外,了解人们在实践中的工作也将是一件好事。大概期刊和风格指南有其自己的要求。我很好奇,像APA这样需要有影响力的风格指南。据我所知(他们的手册不能在线免费获得),APA普遍认为几乎所有内容都应显示到小数点后两位,除了p值(可能是2或3 dp)和百分比(四舍五入为整数)。最接近的百分比) -覆盖回归斜率,吨统计,˚F统计,χ2χ2\chi^2统计资料等等。考虑到第二个小数位在有效位数上的差异非常大,这很不合逻辑,并且在2.47中表示的精度与982.47中的精度完全不同,但是这可能解释了我在不科学的样本中看到的带有两个小数位的Welch df的数量。 ∗∗*例如Ruxton,GD不等方差t检验是学生t检验和Mann–Whitney U检验的未充分使用的替代方法,行为生态学(2006年7月/八月)17(4):688-690 doi:10.1093 / beheco / ark016 ∗∗∗∗**虽然韦尔奇-萨特思韦特近似本身可能会或可能不会是保守的,在它不是保守的,舍去自由度的情况下是没有整体补偿的保证。

1
线性混合效应模型的报告结果
线性混合效应模型在我的生物学研究中并不常用,我需要报告我试图写的论文中使用的统计检验。我知道生物科学的某些领域(对依赖性的解决方案:使用多层次分析来容纳嵌套数据)已经开始出现对多层次建模的意识,但是我仍在尝试学习如何报告结果! 我的实验设计简而言之: *将受试者分配到四个治疗组中的一个 *在开始治疗后的不同天对因变量进行测量 *设计不平衡(治疗组中受试者人数不等,并且缺少某些天的测量值) *治疗A是参考类别 *我将数据集中在治疗的最后一天 我想知道治疗A(参考类别)是否比其他治疗(治疗结束)产生明显更好的结果。 我使用nlme在R中进行了分析: mymodel &lt;- lme(dv ~ Treatment*Day, random = ~1|Subject, data = mydf, na.action = na.omit, + correlation = corAR1(form = ~1 |Subject), method = "REML") 输出(部分内容;为了简洁起见被截断)为: &gt;anova(mymodel) numDF denDF F-value p-value (Intercept) 1 222 36173.09 &lt;.0001 Treat 3 35 16.61 &lt;.0001 Day …

3
要报告的有效位数
在比较标准的情况下(例如,大学一年级),是否有更科学的方法来确定要报告的平均位数或置信区间的有效位数。 我已经看到要在表格中放置有效数字的数量,为什么我们不使用有效数字和卡方拟合的有效数字的数量,但是这些似乎并没有使问题产生影响。 在我的课堂上,我试图向学生解释,当他们的成绩有如此大的标准误差时,报告15位有效数字是浪费墨水-我的直觉是应该将其四舍五入到大约。这与ASTM- 报告测试结果所指的E29并没有太大区别,在E29中,该值应介于和。0.05 σ 0.5 σ0.25σ0.25σ0.25\sigma0.05σ0.05σ0.05\sigma0.5σ0.5σ0.5\sigma 编辑: 当我有如下一组数字时x,我应该使用几位数来打印均值和标准差? set.seed(123) x &lt;- rnorm(30) # default mean=0, sd=1 # R defaults to 7 digits of precision options(digits=7) mean(x) # -0.04710376 - not far off theoretical 0 sd(x) # 0.9810307 - not far from theoretical 1 sd(x)/sqrt(length(x)) # standard error of mean …

2
我应该报告不重要的结果吗?
我已经进行了Kruskal Wallis测试,对于某些问题,p值并不重要。我是否会以有意义的方式报告此问题,并说明df,检验统计量和p值?因此,将进行这样的Kruskal Wallis检验,但发现结果并不显着H(3)= 2.119,p&gt; 0.05(或者我在此处声明确切的p值(.548))

2
为什么报告中位数的置信区间如此罕见?
为什么发现应用科学论文中报道的置信区间如此罕见?我主要从事计算机科学方面的工作,但经常阅读(社会)心理学,社会学和城市规划方面的论文。我不记得曾经看到过报告中位数的CI。 同时,在研究置信区间等时,对我来说很明显,在所有情况下,中位数是一个人的数据的更好描述者,这是应该给出的估计值。 是否有任何理论上的原因导致为什么不常见中位数的CI?

3
平均数
我正在处理高度偏斜的数据,因此我使用中位数而不是均值来概括中心趋势。我想测量分散度虽然我经常看到人们报告平均值标准偏差±±\pm或中值四分位数±±\pm以总结中心趋势,但报告中值中值绝对分散度(MAD)±±\pm 是否可以?这种方法是否存在潜在问题? 与报告上下四分位数相比,我会发现这种方法更加紧凑和直观,尤其是在充满数字的大表中。

2
简单线性回归的报告结果:要包括哪些信息?
我刚刚在Genstat中执行了一些(非常简单的)线性回归,并希望在报告中包含输出的简要且有意义的摘要。我不确定我应该包括哪些信息或多少信息。 Genstat输出的主要部分如下所示: Summary of analysis Source d.f. s.s. m.s. v.r. F pr. Regression 1 8128935. 8128935. 814.41 &lt;.001 Residual 53 529015. 9981. Total 54 8657950. 160332. Percentage variance accounted for 93.8 Standard error of observations is estimated to be 99.9. Estimates of parameters Parameter estimate s.e. t(53) t pr. Constant …

1
您如何报告曼惠特尼检验?
我正在做我的论文,并且正在进行一些测试。使用Kruskal–Wallis检验后,我通常会报告如下结果: 有一个显著差异的平均值之间...(χ2(2)=7.448,p=.024)(χ(2)2=7.448,p=.024)(\chi^2_{(2)}=7.448, p=.024) 但是现在我进行了一次Mann-Whitney测验,我不确定要显示哪些值。SPSS为我提供了Mann–Whitney ,Wilcoxon W,Z和P值。我是否要提供所有这四个值?还是无关紧要的?UUUWWWZZZPPP

1
为什么在论文中很少报道Anova结果中使用哪种平方和?
根据我短暂的统计经验,似乎用于获得方差分析结果的平方和类型(I,II,III,IV等)可能会极大地影响测试结果(尤其是存在相互作用且缺失的模型)数据)。但是,我还没有看到一篇报告它的论文。为什么会这样? 如果有人能提供一种示例文件以某种方式报告该报告(而不是统计信息本身),或者不常见的原因,我将不胜感激。

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.