为什么要不惜一切代价避免装仓?


10

因此,我读了几篇关于为什么应始终避免合并的文章。该链接的流行参考是此链接

主要的缺点是分档点(或切点)相当随意,并且会导致信息丢失,因此应首选样条线。

但是,我目前正在使用Spotify API,该API对它们的某些功能有很多连续的置信度度量。

看一下“工具性”这一功能,引用指出:

预测曲目是否不包含人声。在这种情况下,“哦”和“啊”的声音被视为乐器。说唱或说出的单词轨迹显然是“声音”。器乐性值越接近1.0,则曲目中没有人声内容的可能性越大。高于0.5的值旨在表示乐器轨迹,但随着该值接近1.0,置信度更高。

考虑到我的数据分布非常偏左(大约90%的样本几乎不超过0,我发现将此功能转换为两个分类特征是明智的:“ instrumental”(所有值均大于0.5的样本)和“ non_instrumental” ”(对于所有小于0.5的样本)。

错了吗 当我几乎所有(连续)数据都围绕一个值旋转时,将会有什么选择呢?根据我对样条曲线的了解,它们也不能解决分类问题(我在做什么)。


10
您描述的设置似乎并不意味着装箱是个好主意。您自己说过,有一个信息表明接近1.0。恕我直言,您最好拥有一个连续的功能,该功能与使用工具的可能性有关。也许您可以扩展您的问题。
弗兰克·哈雷尔

我的问题基本上是,何时可以使用装箱(如果有的话)。就我而言,我是基于领域(工具性/非工具性)使用它的,因为我认为它比说一个轨道离工具性有多接近(因为一个轨道是有工具性的还是非工具性的)更具说服力。但是,您在帖子的第8点中反对这种逻辑。作为新手,我很难理解为什么要这么做。
Readler

1
:我写了一个很长的帖子关于这个在预测模型的情况下madrury.github.io/jekyll/update/statistics/2017/08/04/...
马修·特鲁

非常翔实和彻底,谢谢。但是,我没有看到与我的问题的关系(尽管我仍然获得了一些新见解,所以一切都很好!)。您的文章谈论的是在回归问题中对预测变量进行分类,以及为什么是一个坏主意(您的文章令人信服地反对),以及为什么使用样条曲线有助于建模回归。我在问一个问题,为什么在分类问题(其预测变量本质上是“ bins”,即类)中离散化连续特征(输入)的值是不好的。
Readler

2
如果几乎所有功能都在某一点上,那么不管您做什么,这都可能对您的模型没有帮助。
累积

Answers:


15

说应该不惜一切代价避免分箱是有点夸张的说法,但是分箱引入了分箱选择确实是这种情况,分箱选择给分析带来了一定的随意性。使用现代统计方法,通常不需要进行合并,因为可以对离散化“合并”数据进行的所有操作通常都可以对基础连续值进行。

统计中“合并”的最常见用法是直方图的构建。直方图与一般类别的核密度估计器(KDE)相似,只要它们涉及所选分箱上的阶跃函数的聚集,而KDE涉及较平滑核的聚集。直方图中使用的阶跃函数不是平滑函数,通常情况下,可以选择更好的内核函数,这些函数在KDE方法下具有较低的任意性,这也可以更好地估计数据的底层密度。我经常告诉学生,直方图只是“穷人的KDE”。就我个人而言,我永远不会使用它,因为在不对数据进行装箱的情况下获取KDE非常容易,并且无需任何装箱选择即可获得出色的结果。

当分析人员希望将连续数据离散化为bin,以便使用使用离散值的分析技术时,会发生“ binning”的另一种常见用法。这似乎是您引用的有关预测声音的部分中建议的内容。在这种情况下,合并会引入一些随意性,并且还会丢失信息。如果可能的话,最好还是避免这种情况,方法是尝试直接在基础连续值上形成模型,而不是在离散的“合并”值上形成模型。

作为一般规则,统计学家希望避免引入任意假设的分析技术,尤其是在可以使用其他技术轻松避免这些假设的情况下。因此,我同意通常不需要分箱的观点。由于成本很重要,当然不应该不惜一切代价避免这种情况,但是,当有简单的替代技术可以避免这种情况而又不带来任何严重不便时,通常应该避免这种情况。


我知道了。但是,跟进问题:查看上面提到的示例的分布(在讽刺直方图),我只是看不到连续变量中的有用数,在该变量中,几乎所有样本都围绕一个值(此处为0)旋转,即最初是导致我对该功能进行分级的原因。您提到了替代方案-您能否详细说明或指出我在哪里可以学到更多的正确方向?
雷德勒


在那个直方图中,我看到的数值遍布整个地方(但是,是的,大多数情况下接近零)。使用样条拟合不应该带来任何不便,这肯定会提供更多信息。绘制拟合的样条!并且,如果由于某些原因您必须谨慎,那么该图可以帮助您。对于您的特定用途,可能另一个极限值是0.5更好。
kjetil b halvorsen

2
直方图不能正确地解释为KDE。内核是什么?
ub

1
关于您的第三段,当我尝试使用一些数字数据来计算信息增益时,我遇到了类似的问题。您能否看一下这个问题并解释在这种情况下该怎么办?stats.stackexchange.com/questions/384684/…–
astel,

4

我通常会强烈反对连续变量的分类,原因是其他著名的Frank Harrell很好地表达了这个理由。在这种情况下,询问自己产生分数的过程可能会有所帮助。似乎大多数分数实际上为零,也许还加上了一些噪音。他们中的一些人再次与噪音再次接近统一。介于两者之间的人很少。在这种情况下,似乎有更多分类的理由,因为有人可能认为对噪声取模是一个二进制变量。如果将其作为连续变量拟合,则系数在预测变量的变化方面具有意义,但是在这种情况下,在变量的大部分范围内,该变量的分布非常稀疏,因此似乎没有吸引力。


4
我对何时可以使用合并的简短回答是:在查看数据之前已经知道了不连续点(这些是bin端点),以及是否知道每个bin中具有非零长度是平坦的。
弗兰克·哈雷尔

2

假设您有只只显示小时的手表。我的意思是说,它只有小时箭头,表示每小时一次将1/12跳到另一个小时,所以它无法平稳移动。这样的时钟不是很有用,因为您不知道是两点五分,两点半还是十点三分。这就是这个问题分级数据,它失去了细节,并介绍了“跳跃”的转变。


1
(+1)是,此外,制表者可能不会选择小时增量,而可能会任意决定他的手表将以19分钟增量,这是一个额外的问题,除了信息丢失之外,您还有另一个问题。
本-恢复莫妮卡

2

对于某些应用程序,显然包括您正在考虑的应用程序,分装可能是绝对必要的。显然,要执行分类问题,有时必须从模型中提取分类数据,并且除非输入也全部是分类的,否则您将需要执行合并。考虑一个例子:

复杂的AI在玩扑克。该公司评估了其手牌胜过其他玩家的手牌的可能性为70%。现在轮到他下注了,但是被告知应该避免不惜一切代价进行分箱,因此永远不要下注;默认情况下会折叠。

但是,您所听到的可能是正确的,因为过早地对中间值进行分箱会放弃本来可以保留的信息。如果您的项目的最终目的是确定您是否会“喜欢”相关的歌曲(这可能由两个因素决定:“乐器性”和“摇滚度”),那么您最好将它们保留为连续变量,直到您需要拉出“喜好”作为分类变量。

一世ķË={0[RØCķ一世ŤüdË3+一世ñsŤ[RüËñŤ一个ñËss2<31个[RØCķ一世ŤüdË3+一世ñsŤ[RüËñŤ一个ñËss23

或您认为最合适的系数,或其他适合您训练集的模型。

相反,如果您决定某物是“工具性”(是或否)和“摇滚”(是或否),那么您将4个类别布置为一天之前:

  1. 器乐,岩石
  2. 非仪器仪表,岩石
  3. 乐器,没有岩石
  4. 非仪器仪表,无岩石

但是,您所要决定的只是“喜欢”这4个类别中的哪个类别。您已在最终决定中放弃了灵活性。

决定是否分类的决定完全取决于您的目标。祝好运。


2

[R

[R{b1个bñ}b一世=[一世ü一世]一世ü一世一世

=0w0ü0=0+www一世ñw一个X

P[R=w=w一世ñw一个X=00+wP[R|wPwPw2ü0-0w一个X+w一世ñ×w一个X-w一世ñ

当然,现在你已经出台w一个Xw一世ñ0,所以在技术上P[RP[R|w一个Xw一世ñ0P[RP[R|w一个Xw一世ñ0=P[R

在OP的问题中,如果将任意阈值0.5设置为可信的最小值和最大值之间的各种值,我将感到满意,并且看到他的分析的基本结果在很大程度上与选择无关。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.