从连续数据到分类总是错误的吗？

当我读到有关如何设置数据的知识时，经常遇到的一件事是将一些连续数据转换为分类数据并不是一个好主意，因为如果阈值确定不当，您很可能会得出错误的结论。

但是，我目前有一些数据（前列腺癌患者的PSA值），我认为普遍的共识是，如果您低于4岁，您可能没有，如果您高于4岁，则您处于危险之中，然后高于10和20，您可能已经拥有了。这样的东西。在那种情况下，将我的连续PSA值分类为0-4、4-10和> 10的组是否仍然不正确？还是可以说阈值是“确定的”，实际上可以吗？

categorical-data continuous-data

— 丹佛当
source

（视情况而定）。例如，如果您正在研究医生如何做出决定，并且他们根据这些类别做出决定，那么您应该使用相同的类别。相反，如果您正在研究与PSA升高相关的生物学后果，那么很可能根本就不想对PSA进行分类。因此，对于您的广泛问题“可以吗？”没有明确的答案。

— ub

您打算如何处理数据？像这样的界限通常与您想弄清楚的地方不相关，因此用手将它们放在一边是在乞求问题吗？

— RemcoGerlich

我正在为逻辑回归模型设置数据。因此，主要的问题实际上是使用连续数据还是使用离散数据。

— 丹佛当

我不清楚什么是“连续”数据。这不是现实中存在的东西。没有诸如精确度无限的度量/统计之类的东西。

— JimmyJames

@BillHorvath是的，我不是医生，所以我不确定这是如何确定的。如果仅查看Wiki页面，它会指出一个地方：“ PSA水平在4到10 ng / mL（毫微克每毫升）之间是可疑的，应考虑通过重复测试来确认异常PSA。 ” 然后是另一个地方：“低风险：PSA <10，格里森评分≤6，并且临床分期≤T2a中度风险：PSA 10-20，格里森得分7，或临床分期T2b / c高风险：PSA> 20 ，格里森评分≥8，或临床阶段≥T3”

— 丹佛·当

Answers:

您的门槛是否存在急剧的间断性？

例如，假设您有两个患者A和B的值分别为3.9和4.1，另外两个患者C和D的值分别为6.7和6.9。A和B之间的癌症可能性差异是否比C和D之间的相应差异大得多？

如果是，则离散化是有意义的。

如果没有，则阈值可能对理解数据有意义，但从统计学意义上讲它们不是“确定的”。不要离散化。相反，请按原样使用测试成绩，如果您怀疑某种非线性，请使用样条线。

非常推荐这样做。

— 斯蒂芬·科拉萨（Stephan Kolassa）
source

底部的链接充满了很多要点。将来的读者可以参考这个答案。

— eric_kernfeld，

我认为，离散化是没有意义的，除非在建议的休息时间结果有较大的跳跃，并且如果这些组中的结果相对一致。否则，有更好的方法可以在函数@Stephan Kolassa中实现“跳转”

— LSC

我认为标准答案总是不好，因为您在此过程中会丢失信息。很难相信在任何情况下，您都可以通过获取自然间隔数据并将其分类来获得任何收益。

— 用户名
source

适当的情况是该特定x与DV的关系确实存在真正的间断，并且在“类别”内结果相对均一。

— LSC