因此,我读了几篇关于为什么应始终避免合并的文章。该链接的流行参考是此链接。
主要的缺点是分档点(或切点)相当随意,并且会导致信息丢失,因此应首选样条线。
但是,我目前正在使用Spotify API,该API对它们的某些功能有很多连续的置信度度量。
看一下“工具性”这一功能,引用指出:
预测曲目是否不包含人声。在这种情况下,“哦”和“啊”的声音被视为乐器。说唱或说出的单词轨迹显然是“声音”。器乐性值越接近1.0,则曲目中没有人声内容的可能性越大。高于0.5的值旨在表示乐器轨迹,但随着该值接近1.0,置信度更高。
考虑到我的数据分布非常偏左(大约90%的样本几乎不超过0,我发现将此功能转换为两个分类特征是明智的:“ instrumental”(所有值均大于0.5的样本)和“ non_instrumental” ”(对于所有小于0.5的样本)。
错了吗 当我几乎所有(连续)数据都围绕一个值旋转时,将会有什么选择呢?根据我对样条曲线的了解,它们也不能解决分类问题(我在做什么)。