当我读到有关如何设置数据的知识时,经常遇到的一件事是将一些连续数据转换为分类数据并不是一个好主意,因为如果阈值确定不当,您很可能会得出错误的结论。
但是,我目前有一些数据(前列腺癌患者的PSA值),我认为普遍的共识是,如果您低于4岁,您可能没有,如果您高于4岁,则您处于危险之中,然后高于10和20,您可能已经拥有了。这样的东西。在那种情况下,将我的连续PSA值分类为0-4、4-10和> 10的组是否仍然不正确?还是可以说阈值是“确定的”,实际上可以吗?
5
(视情况而定)。例如,如果您正在研究医生如何做出决定,并且他们根据这些类别做出决定,那么您应该使用相同的类别。相反,如果您正在研究与PSA升高相关的生物学后果,那么很可能根本就不想对PSA进行分类。因此,对于您的广泛问题“可以吗?”没有明确的答案。
—
ub
您打算如何处理数据?像这样的界限通常与您想弄清楚的地方不相关,因此用手将它们放在一边是在乞求问题吗?
—
RemcoGerlich
我正在为逻辑回归模型设置数据。因此,主要的问题实际上是使用连续数据还是使用离散数据。
—
丹佛当
我不清楚什么是“连续”数据。这不是现实中存在的东西。没有诸如精确度无限的度量/统计之类的东西。
—
JimmyJames
@BillHorvath是的,我不是医生,所以我不确定这是如何确定的。如果仅查看Wiki页面,它会指出一个地方:“ PSA水平在4到10 ng / mL(毫微克每毫升)之间是可疑的,应考虑通过重复测试来确认异常PSA。 ” 然后是另一个地方:“低风险:PSA <10,格里森评分≤6,并且临床分期≤T2a中度风险:PSA 10-20,格里森得分7,或临床分期T2b / c高风险:PSA> 20 ,格里森评分≥8,或临床阶段≥T3”
—
丹佛·当