我和我的团队想向公司的非统计学家介绍实验设计的实用性。这些非统计人员也是我们的客户,在收集数据之前,他们通常不咨询我们。您是否知道一些真实的例子,可以很好地说明费舍尔的名言:“在实验完成后打电话给统计学家,可能只不过是要求他进行验尸检查:他只能说出实验死了什么的。” ?优选地,我们正在工业/制药/生物环境中寻找例证。我们想到一个无定论的统计分析示例,如果初步设计合理,它可能会成功,但也许还有其他可能的例证。
我和我的团队想向公司的非统计学家介绍实验设计的实用性。这些非统计人员也是我们的客户,在收集数据之前,他们通常不咨询我们。您是否知道一些真实的例子,可以很好地说明费舍尔的名言:“在实验完成后打电话给统计学家,可能只不过是要求他进行验尸检查:他只能说出实验死了什么的。” ?优选地,我们正在工业/制药/生物环境中寻找例证。我们想到一个无定论的统计分析示例,如果初步设计合理,它可能会成功,但也许还有其他可能的例证。
Answers:
我遇到了一些实验,实验者想在主体效果之间进行测试,但该设计更适合主体效果。
例如,一个实验由8只大鼠组成,其中四只饮食A,四只饮食B,每天测量大鼠的体重,持续4周。如果他们对每种饮食的时间影响感兴趣,这很好,但目标是研究饮食之间的差异。
他们认为通过对每只大鼠进行28次测量可以得出很多数据,但是饮食效果的实验单位是大鼠,每只老鼠只有4只。他们本可以每天测量10次大鼠,但没有任何区别,最终需要更多的大鼠。
我为一个名为国家乳糜泻国家基金会的组织做过一些工作。该组织提高公众对乳糜泻的认识,并提供该疾病症状清单,其中包括对含麸质食物的不耐受性。他们只是向想参加的任何人开放互联网,从而进行了一项调查。多年来,他们收集了成千上万的公众反馈。但是,他们希望根据调查结果得出有关公众的结论。我不得不告诉他们,受访者是自我选择的,而不是随机的,这可能会产生偏差。由于偏差的程度未知,因此尽管有大量数据,我们也无法进行任何推断。
现在,受访者似乎是一个特殊的群体。许多人非常认真,回答说他们或他们的亲戚可能患有这种疾病。但也有很多人以明智的方式回答。从他们提供的答案的假名,奇怪的电子邮件地址和邮政地址中可以明显看出这一点。
我认为这些数据仅在探索意义上有用,而答复的频率可能对于可以在计划周密的未来调查中检验的假说产生影响。但是到目前为止,我的建议还没有得到重视,他们正在互联网上进行另一项易于选择的自我调查。
前段时间,我被要求分析光伏太阳能电池阵列的夜间储存位置如何影响土壤在电池阵列上积累的速率的实验结果。(这些大型集中式光伏阵列整日跟踪太阳,但通常在夜间将它们垂直指向上方存储,因为这是跟踪器的最小应力位置。)弄脏是一个大问题,因为弄脏会大大减少能量产生和清洁不便宜。该实验已在大约120个追踪器上进行过;西半部是垂直存放的,东半部是水平存放的(这与跟踪器到两个逆变器的连接对齐),如果有显着效果并且没有特殊的污染方式,这将在实验过程中传达能量的优势,因此不是,
不幸的是,从西南偏南,整个沙漠都有强烈的盛行风型,在田野西侧的南部有一栋大建筑物,使田野西侧的大部分被风吹散的颗粒“遮盖了”(多少) 。另外,跟踪器在某种程度上可以避开风。因此,土壤累积的机制(例如,风吹或沉降)在整个田间的相对大小上有所不同。反过来,这意味着阵列根据位置以不同的速率累积土壤。这是不小的影响。
从根本上说,该分析的最终结果是,存储位置产生了变化也不令人难以置信,但是我们不能以任何方式排除这种影响是微不足道的可能性,也不能以很大的信心来确定(基于在数据上)效果的迹象。然后,我设计了一个后续实验,根据阵列位置分配存储位置,目的是能够估计出两个存储位置在整个田间的污染“响应面”,估算“沉降”与“风吹”污染率,以及当然,存储角度对这两者的影响。这项实验非常成功,几个月后我们就能清楚地了解到垂直存放的好处。
一位同事要求我对一项研究进行“统计”,研究某种天气事件与通常归因于简单磨损的某种基础设施故障之间的相关性。同事想看看天气事件是否实际上是导致故障的原因。一个团队已经花费了大量时间和精力来收集大量数据,并且研究论文已经基本完成,他们只需要有人来“做统计”并填写结果部分的最后一部分。
问题是,他们尽力确保数据集仅包含发生相关天气事件的“有趣”时期。这意味着无法将事件期间的故障率与非事件时间进行比较。我反复尝试解释这个问题,但是他们从未真正说服他们,因为简单的数据太多了,我肯定可以从中得到一些东西。
幸运的是,天气事件的严重程度仍然存在一定范围,严重程度与故障率之间的对应关系较弱,因此我们至少可以从中挽救一些东西,但是如果他们考虑如何处理,结果可能会更加确定。着手进行数据收集之前先“做统计”。