如何应对具有多重回答的调查问题？

我有一个数据集，询问人们是否去过某些地方（例如A，B，C，D），他们可以做出多种选择，然后从他们的鼻子上取一个标本，看他们是否感染了某些疾病。

我需要找出去某个地方被感染的相对风险，我现在只能想到逻辑回归，还有其他建议吗？

谢谢。

logistic

— 乐心
source

您仍然可以使用逻辑回归，因为您的结果是二分的，受感染的还是未感染的。我只是简单地采用虚拟变量方法，并且不使用任何差旅作为参考类别（即，对于您的每个地点，如果他们访问该地点，则变量编码为1；如果他们未访问该地点，则变量编码为0）。这样，如果将beta系数转换为几率（即，对数几率取幂），则位置A的虚拟变量的解释将是访问位置A相对于未访问位置A的比值比（控制其他一个访问过的位置）。还要注意，在这种方法中，多重共线性是一个问题（例如，如果许多去A的人也去B，那么它们的每个系数都可能有偏差）。

— 安迪·W
source

该模型假设响应是旅行到每个地方的加和函数，这种可能性很小。通过包含交互项，仍然可以使其正常工作。可能需要一整套所有可能的交互作用（除了双向交互作用之外）。（从数学

— 上讲，

如果您使用所有交互（15个参数）而不是仅使用主要效果（4个参数），则最好拥有大量数据……

— Stephan Kolassa 2010年

@whuber和@Stephen，谢谢您的答复，我完全同意你们每个人。如果多重回答不是那么普遍，我个人可以使用主要效果虚拟变量方法，考虑到最初的发帖人，这可能不是一个成立的假设。如果原始海报对前往A vs B的风险感兴趣（例如某种匹配程序），我可能会建议其他设计。我同意，除非发生某些选择偏见，否则加性风险没有任何意义。

— 安迪W