为治疗组寻找可比的对照组？

我有一个30人的治疗小组（加利福尼亚州30所学校），使用的是数学补充软件。通过简单的分析，我想比较我们的治疗组和可比较的对照组之间学生的平均数学增长。加州有许多学校没有使用该软件。我希望对照组包括表现相似的学校（他们的基线分数与治疗学校相近，但误差范围合理）。另外，我希望对照组的样本量是我的治疗量的3倍（这里是90所学校）。在CA的1000余所学校中，有90所学校可供选择。您将如何选择对照组？

mathematical-statistics descriptive-statistics computational-statistics

— 山姆
source

您可能会说，信息越多越好。使用所有CA学校并设置ANCOVA（假设控制和治疗的分配重叠）。我同意，这很好。但是，我想证明两组的平均基线得分和基线得分的差异非常相似，如果我们特别考虑整个CA，认为治疗组的表现较差，那是不可能的。

— 山姆

抱歉，这听起来无济于事，但我已投票结束了这个问题。在撰写本文时，没有一个正确的答案，而且我不确定问题是否与统计有关。最好的回应可能是“阅读研究设计上的所有内容”。但是，如果您打算针对这种情况征求对某个特定方面的意见，请着重注意这一点-这样可以提高Q + A的生产率。

— rolando2

@ rolando2：谢谢您的回答。我是交叉验证的新手。我以为可以为它做贡献。我两天前就开始为Stackoverflow做贡献，尽管确实花了一点时间，但我的声誉还是113。我的第一次经历是令人失望的，有人投票给我-1，您认为我们应该结束这个问题。我是一名统计学家，在此领域工作了3年，根据我在处理现实世界数据方面的经验，我认为这是一个重要的问题。

— 山姆

@jbowman：谢谢。我知道这个网站。通过写这个问题，我想问一个普遍的问题，人们如何看待可比较的对照组。假设我们有300所可比较的学校，您如何选择其中90所进行分析？

— 山姆

@Sepehr我不同意roland2在这里对您的问题的适当性。我认为这与实验性设计有关，因此适用于简历。关于效率问题，我提出了一个隐含的假设，即两个总体具有相同的方差（或至少方差接近相等）。在那种情况下，当样本大小不相等时，基于固定的总样本大小n的均值差估计将不太准确，并且随着不平衡的增加而变得更糟。

— Michael R. Chernick

如果我理解正确，您想在对照组和治疗组之间找到协变量的最佳平衡。如果是这样，我将使用匹配过程。

R包匹配具有此所需的所有功能，包括一些工具，用于评估匹配后是否已实现组之间的平衡。查阅本文，详细了解其用法和一些示例。

— 阿吉拉
source