第5个回答选项（“我不知道”）已添加到5点李克特量表中。数据丢失了吗？

16

我需要一些帮助，以从问卷调查中挽救数据。

我的一位同事使用了问卷，但无意中没有使用原始的5点李克特量表（强烈不同意表示强烈同意），而是在量表中插入了第六个答案。而且，更糟糕的是，第六个响应选项是……“我不知道”。

问题在于，在某一点或另一点选择“我不知道”的受访者比例很大。如果它们只是一个很小的百分比，我将把它们从数据库中排除掉。但是，研究的核心在于概念模型，排除如此多的记录会给模型带来问题。

有人可以在这里指出正确的方向吗？是否有任何“良好做法”，或者我可以做些什么来使用（转换，转换等）那些“我不知道”的回答？

另外，如果我对相关数据进行了任何处理（即，如果我通过替换，插补等方式转换“我不知道”的响应），则什么样的“免责声明”，“警告”，注释，我应该使用吗？

我知道这是一个漫长的过程，但是我承认，除了挽救回应之外，我还很好奇在这种情况下达成的共识做法（如果有）。

PS：我知道这听起来很幼稚，但是不，“同事”不是我:)

likert data-imputation

— 精简
source

22

想象一下，您的同事没有包括“我不知道”类别。这些人会回答什么？也许他们会在某个随机类别上打勾，也许会将其留空。现在您知道您的变量存在问题，并做出明智的决定。从这个角度看，同事帮了你一个忙。

— Maarten Buis

好吧，就我挠头而言，他确实确实帮了我一个忙……您对回答的随机性是正确的，这可能是一种推论的方法，但是，我想知道是否有任何好的方法做法或至少一些类似的经验

— 精简了

4

我发现没有这样的“ 我不知道 ”选项的问卷特别令人沮丧（尤其是当您不能不拣选东西就无法提交时）。假设您提出类似“ 太空火箭的新功能正在改进 ”之类的问题，然后您被迫充其量只能保持中立，然后有人可以解释这种调查并得出结论：“我们问了1000人们，而100％的人并不介意……”，而实际上，对于使用该功能的人来说，该功能可能是完全错误的。在那些情况下，对于我从未使用过的东西几乎就像是默默地赞同。

— Bruno

3

更明确地说：如果模型假设5分制可以代表受访者的观点，那么您的数据就证明该模型不充分。如果正确，那么您的“我不知道”的数量可以忽略不计，因为人们可以回答1-5。因此，这些数据“将为模型带来问题”，就像水星的轨道为牛顿物理学带来了问题一样。我以为您唯一的出路就是中间点是“既不同意也不不同意”，而您可以证明“我不知道”是多余的，其含义与此相同。

— 史蒂夫·杰索普

嗨，@ SteveJessop，虽然从理论上/原则上来说，您认为DK答案的数量是正确的，因为这表明问卷存在问题（不是模型，请注意，该模型不是CFA，而是回归分析）对于一堆变量，包括比例尺），称其为不足仍然有点强。我将进行量表分析，然后看看，确实如此，DK答案的剪切数可能证明是有问题的。但是，这也可能意味着受访者不想回答（顺便说一句，大部分DK答案来自一群学生在考试后……）

— 精简了

28

为什么要尝试对不正确的东西进行校准？正如Maarten所说，这不是丢失数据，而是获取信息。如果您要寻找的神奇药丸存在，则意味着对您的人口有一些假设，例如，即使用户说“我不知道”，也偏向于使用一个特定的标签。

我完全理解您的无奈，但是解决问题的正确方法是根据真实的现有数据修改模型以适合您的需求，而不是反过来（修改数据）。

— Hatim Khouzaimi
source

嗨，哈蒂姆（Hatim），我认为无法修改模型。量表是有序的，并假定了一个合理而明确的选择，而第六个答案“我不知道”可以用多种方式来解释。这可能意味着“我从未遇到过这种情况/我不记得了”，它可能代表某种“中介”选择。以我的名义进行的任何此类解释/假设都是自负的，没有根据。Maarten的回答是指“获取信息”，我认为可以使用特定的“随机”归因，但这并不是您所说的“修改模型”。

— 精简

继续...但是，尽管我曾经并且仍然很想进一步研究这种“随机化”的推论，但是大量的“我不知道”的答案使我担心变量之间的真实（真实）关系会被改变了。

— 精简

8

+1。我知道这很不舒服，但如果要测试模型或修改计划的分析，[OP]可以选择其他数据集。您已经问过这个问题，希望得到不同的答案，但是在我看来，没有任何可以辩护的问题。如果我是这样的调查表的回应者，我会因为试图将我的“不知道的东西”当作其他东西而产生的扭曲和缺乏信任而感到生气。实际上，作为社会研究的偶然消费者，我也感到不安。

— Nick Cox

1

您自然是对的，这是以前发生过的很多次了。这就是为什么那些对某些项目有一定经验的人说了些什么，这些项目由于无法预料的问题而被转移或复杂了，因此，分析将有所不同，并且本文也不会像想象中的那样。甚至，有时候项目只是无法完成，所以就去了。（如果您不知怎地受到了指示或强迫，请执行此操作，这特别不幸，但这不会影响我对如何思考的建议。）

— Nick Cox

8

@ user2836366我不理解您关于无法修改模型的主张。当然，“不知道”不是顺序回答的一部分，但这完全是重点。“不知道”表示由于某种原因（包括实际知道的事实），该人没有选择顺序响应之一。因此，这样的修改之一是您可以为该过程提供一些模型（选择“不知道”与“选择其他选项之一”），然后为第二类案件提供常规模型。这样的模型可能有点类似于跨栏模型或零膨胀模型。

— Glen_b-恢复莫妮卡

10

如果这是经过独立验证的标准化调查表，则您不能声称新调查表是等效的，并且数据不再具有可比性。您可以尝试在单独的实验中验证和检查调查表（非常耗时且费力，尤其是如果您还想显示与旧版本的可比性），或者只是接受您正在处理的证据质量较低（因为数据来自来自未经验证的问卷）。

使用数据时，必须考虑更改。面对态度问题时，人们不会以某种方式给您“客观上正确的”答案，而是给您他们认为是正确的答案-这当然会受到可用答案选项的影响（他们“规范”了他们的答案）规模）和他们对主题的知识（已知偏见会以不同的方式起作用，有时会在不同的方向上起作用（取决于参与者对主题的了解是多少）。

因此，如果我们要处理已建立的问卷调查，那么您可以选择比较问卷的版本和原始问卷。如果最初的假设是人们知道他们在选择什么，而事实却并非如此，那么您可以讨论旧模型如何基于错误的假设，以及其后果。请注意，这是一个“附带”发现，它提出了一个不错的新研究问题，但使您背离了原始问题，并且确实表明，回答原始问题比想象的要困难得多，因此肯定会使您的工作成倍增加。

如果您不使用既定的调查表，则可以顺其自然，并假装以这种方式计划了您的即席调查表，并相应地评估了结果。再次，这可能意味着您希望使用此方法无法获得结果，但这也是一件很重要的事情。

为了更好地理解措辞和选项如何影响问卷的回答方式，我建议阅读Tourangeau等人的“调查回答心理学”。对于曾经创建问卷的每个人来说都是一本好书。

— 朗姆斯乔
source

2

如果您问答答者生育了多少个孩子，答案“零”和“不适用”并不意味着完全相同，因为男人无法生育。

在某些情况下，将“我不知道”等同于中立反应同样可能是一个概念上的错误。

实际上，您有两个问题：一分为二的“您有意见吗？” 和序数“这是什么？”，就像上面一样，您隐含的“您是女性吗？” 超越您的明确问题。

当然，您可以引入一些假设（有时是正确的，有时只是为了方便起见，有时是强制性的）以使您能够进行一些建模，但是如果不进入现象的具体领域，我将看不到普遍适用的策略。

最后要考虑的是，试图从女性生殖力的答案中推断出男性人口是没有意义的。

— 马塞洛·文图拉
source

2

是否应该在由李克特类型的等级量表组成的问卷中包括“不知道答复”选项的难题是永恒的。通常，当项目要求征求意见时，会包括DK，因为无意见本身就是重要的地位，因此受访者会期望这样的选择。在人们将归因于目标DK选项的品质归因于个人特征的清单中，通常是因为人们通常期望受访者能够评估特征的亲和程度（即，总是认为受访者是合格的）。并且当他偶尔发现困难时（根据指示）他被允许跳过该项目。在个人特征清单中，人们描述目标（行为项目）DK（或不

@Hatim在回答中，@ Maarten和OP问题的其他一些评论者明智地提出，在当前研究中观察到的大量DK反应表明项目存在问题（内容有效性或面部有效性），或者受试者没有不适合向他们订购的问卷。

但是您永远无法说出这个故事，最终障碍的解释就在您身上（除非您在单独的调查中解决）。例如，有人可能声称在该调查表中将DK选项包括在李克特中（例如，这是一个特征归因清单）是不好的，而不是好的。它没有给您提供信息（评论员说的是it proves that the [rating] model is inadequate），而是分散了注意力/吸引了受访者。如果没有提供，就可以得出隐含的认知特质图式指导的评级决策；但是看到冷却选项排除了该架构，因此匆忙退出。

如果您进一步承认-自担风险，那为什么不呢？-一个容易分心或懒惰的对象是一种潜在的，隐蔽的观点是有效的，但趋于微弱地区分的对象-也就是说，他会轻易地调用传统的das Man来代替个人的Erlebnis模式-那么您可以试探性地推测他缺少的回答是关于该项目的样本或总体均值。如果是这样，为什么不对缺失的响应进行平均（+噪声）替换？或者，您可以进行EM或回归（+噪声）估算以考虑相关性。

重复一遍：归因于大量丢失数据，插补决策是可能的，但有风险，而且不太可能恢复“真正”的缺失数据。正如@rumtscho所说，可以肯定的是，带有DK的新调查表与不带有DK的原始调查表不相同，并且数据不再具有可比性。

这些是猜测。但是首先，您应该尝试调查观察到的失踪模式。谁选择了DK？它们会聚在一起成亚型吗？在“ okay”子样本的其余项目上，它们有何不同？某些软件具有“缺失值分析”软件包。然后，您可以决定是全部还是部分删除人员，还是进行归因，还是将其作为单独的子样本进行分析。

PS还请注意，受访者是“愚蠢的”。他们通常只是与秤的等级混在一起。例如，如果将DK点放置在标尺的一个极点附近，则由于对该极点的疏忽常常会感到困惑。我不是在开玩笑。

— ttnphns
source

嗨，@ttnphns，好吧，您的答案太长了，无法逐点讲解（我已经对您在此处提出的一些要点的其他答案进行了评论）。老实说，我将不得不再次阅读几次。但是，它满足了我想要的所有内容。

— 精简

0

您现在可以自行选择受访者，以对此事发表意见。无论您得出什么结论，都只会涉及那些人。这可能是可以的，因为按定义轮询那些“不知道”的用处不大。

— 亚伦砖
source

2

固执，但过于悲观。那些人就可以做什么，不能做什么，应该做什么不应该做的事情提出争论，应该权衡这些争论。可以在此处的任何线程上给出相同的答案，但是那些不开口说的人没有发言权。

— Nick Cox