Questions tagged «quality-control»

8
生成与现有变量具有定义的相关性的随机变量
对于模拟研究,我必须生成随机变量,这些变量显示与现有变量的预定义(填充)相关性。ÿYY 我研究了这些R软件包copula,CDVine它们可以生成具有给定依赖关系结构的随机多变量分布。但是,不可能将结果变量之一固定为现有变量。 任何想法和现有功能的链接表示赞赏! 结论: 提出了两个有效的答案,有不同的解决方案: 一个R 脚本由卡拉卡尔,其计算与一个随机变量精确(样品)的相关性,以一个预定义的变量 我发现了一个R 函数,该函数计算与预定义变量具有定义的总体相关性的随机变量 [@ttnphns的补充:我可以自由地将问题标题从单个固定变量的情况扩展到任意数量的固定变量;即如何生成具有预定义正确性和一些固定的现有变量的变量]

8
如何使人们更好地处理数据?
我的工作场所拥有来自不同学科的员工,因此我们以许多不同的形式生成数据。因此,每个团队都开发了自己的存储数据系统。有些使用Access或SQL数据库。有些团队(令我恐惧的是)几乎完全依赖Excel电子表格。通常,数据格式因项目而异。在某些情况下,称其为“系统”太客气了。 这带来的问题是,我必须编写新代码来清理每个项目的数据,这很昂贵;手动编辑电子表格的人几乎不可能进行数据的可重复性和审计。甚至更糟的是,数据可能会丢失或变得不正确。 我有机会与公司董事会成员讨论这些问题,我需要弄清楚该如何告诉他。我认为我已经说服了他我们有一个问题,正确解决这个问题将使科学更好并节省资金。问题是:我们应该瞄准什么,如何到达那里? 进一步来说: 我们应该如何存储数据,以使我们能够跟踪数据从创建到发布的过程?(数据库存储在中央服务器上吗?) 您如何实现数据库格式的标准化? 有什么好的资源可以教育人们如何护理数据?(通常,职业卫生师和炸药工程师不是数据呆子;因此,非技术性内容优先。)

1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

3
为什么贝叶斯统计在统计过程控制中不受欢迎?
我对贝叶斯与频繁主义者辩论的理解是,频繁主义者统计数据: 是(或声称是)客观的 或至少没有偏见 所以不同的研究人员,使用不同的假设仍然可以获得定量可比的结果 贝叶斯统计 声称做出“更好”的预测(即较低的预期损失),因为它可以使用先验知识(在其他原因中) 需要较少的“临时”选择,而由具有现实世界解释的先验/模型选择(至少在原则上)代替它们。 鉴于此,我本以为贝叶斯统计将在SPC中非常流行:如果我是一家工厂老板,试图控制自己的过程质量,那么我将主要关注预期的损失;如果我可以减少这种情况,因为我比竞争对手拥有更多/更好的先验知识,甚至更好。 但是实际上,我所阅读的有关SPC的所有内容似乎都是常客(例如,没有先验分布,所有参数的点估计,关于样本大小,p值的许多临时选择)。 这是为什么?我可以看到为什么在1960年代使用笔和纸完成SPC时,经常性统计数据是更好的选择。但是从那以后为什么没有人尝试过不同的方法呢?

2
数据库的质量保证和质量控制(QA / QC)准则
背景 我正在监督从原始文献到数据库的数据输入。数据输入过程容易出错,尤其是因为用户必须解释实验设计,从图形和表格中提取数据并将结果转换为标准化单位。 数据通过Web界面输入到MySQL数据库中。到目前为止,已包含来自> 20个变量,> 100个物种和> 500个引用的超过10,000个数据点。我不仅要检查变量数据的质量,还要检查查询表中包含的数据的质量,例如与每个数据点相关的种类,研究位置等。 数据输入正在进行中,因此QA / QC将需要间歇运行。数据尚未公开发布,但我们计划在未来几个月内发布。 目前,我的质量检查/质量控制涉及三个步骤: 第二个用户检查每个数据点。 直观检查直方图每个变量的异常值。 用户获得虚假结果后报告可疑数据。 问题 是否有可用于为该数据库开发健壮的QA / QC程序的指南? 第一步是最耗时的;有什么我可以做的以提高效率吗?

3
如何验证极低的错误率
我面临尝试通过测试证明传感器的错误率极低(在1,000,000次尝试中不超过1个错误)的问题。我们进行实验的时间有限,因此我们预计无法获得超过4,000次尝试。我看不出传感器不符合要求的问题,因为即使在4,000次尝试中发生一个错误,对于错误率的下限仍大于0.000001的情况,也会产生95%的置信区间。然而,表明它确实满足要求是问题,因为即使4,000次尝试中的0个错误仍然会导致下限大于0.000001。任何建议将不胜感激。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.