我想知道以下所述的过程是否有效/可以接受,并且有任何合理的理由。
想法:监督学习算法不假设数据的基础结构/分布。最终,他们输出点估计。我希望以某种方式量化估计的不确定性。现在,ML模型的建立过程本质上是随机的(例如,在用于超参数调整的交叉验证的采样中以及在随机GBM中的子采样中),因此建模管道将为每个具有不同种子的相同预测变量提供不同的输出。我的想法(天真)是一遍又一遍地运行此过程以得出预测的分布,我希望可以对预测的不确定性做出陈述。
如果重要的话,我使用的数据集通常很小(约200行)。
这有意义吗?
需要说明的是,我实际上并没有按照传统意义引导数据(即,我没有对数据进行重新采样)。每次迭代都使用相同的数据集,我只是利用xval和随机GBM中的随机性。