为什么要不惜一切代价避免装仓？

10

因此，我读了几篇关于为什么应始终避免合并的文章。该链接的流行参考是此链接。

主要的缺点是分档点（或切点）相当随意，并且会导致信息丢失，因此应首选样条线。

但是，我目前正在使用Spotify API，该API对它们的某些功能有很多连续的置信度度量。

看一下“工具性”这一功能，引用指出：

预测曲目是否不包含人声。在这种情况下，“哦”和“啊”的声音被视为乐器。说唱或说出的单词轨迹显然是“声音”。器乐性值越接近1.0，则曲目中没有人声内容的可能性越大。高于0.5的值旨在表示乐器轨迹，但随着该值接近1.0，置信度更高。

考虑到我的数据分布非常偏左（大约90％的样本几乎不超过0，我发现将此功能转换为两个分类特征是明智的：“ instrumental”（所有值均大于0.5的样本）和“ non_instrumental” ”（对于所有小于0.5的样本）。

错了吗当我几乎所有（连续）数据都围绕一个值旋转时，将会有什么选择呢？根据我对样条曲线的了解，它们也不能解决分类问题（我在做什么）。

— 雷德勒
source

10

您描述的设置似乎并不意味着装箱是个好主意。您自己说过，有一个信息表明值接近1.0。恕我直言，您最好拥有一个连续的功能，该功能与使用工具的可能性有关。也许您可以扩展您的问题。

— 弗兰克·哈雷尔

我的问题基本上是，何时可以使用装箱（如果有的话）。就我而言，我是基于领域（工具性/非工具性）使用它的，因为我认为它比说一个轨道离工具性有多接近（因为一个轨道是有工具性的还是非工具性的）更具说服力。但是，您在帖子的第8点中反对这种逻辑。作为新手，我很难理解为什么要这么做。

— Readler

1

：我写了一个很长的帖子关于这个在预测模型的情况下madrury.github.io/jekyll/update/statistics/2017/08/04/...

— 马修·特鲁

非常翔实和彻底，谢谢。但是，我没有看到与我的问题的关系（尽管我仍然获得了一些新见解，所以一切都很好！）。您的文章谈论的是在回归问题中对预测变量进行分类，以及为什么这是一个坏主意（您的文章令人信服地反对），以及为什么使用样条曲线有助于建模回归。我在问一个问题，为什么在分类问题（其预测变量本质上是“ bins”，即类）中离散化连续特征（输入）的值是不好的。

— Readler

2

如果几乎所有功能都在某一点上，那么不管您做什么，这都可能对您的模型没有帮助。

— 累积

15

说应该不惜一切代价避免分箱是有点夸张的说法，但是分箱引入了分箱选择确实是这种情况，分箱选择给分析带来了一定的随意性。使用现代统计方法，通常不需要进行合并，因为可以对离散化“合并”数据进行的所有操作通常都可以对基础连续值进行。

统计中“合并”的最常见用法是直方图的构建。直方图与一般类别的核密度估计器（KDE）相似，只要它们涉及所选分箱上的阶跃函数的聚集，而KDE涉及较平滑核的聚集。直方图中使用的阶跃函数不是平滑函数，通常情况下，可以选择更好的内核函数，这些函数在KDE方法下具有较低的任意性，这也可以更好地估计数据的底层密度。我经常告诉学生，直方图只是“穷人的KDE”。就我个人而言，我永远不会使用它，因为在不对数据进行装箱的情况下获取KDE非常容易，并且无需任何装箱选择即可获得出色的结果。

当分析人员希望将连续数据离散化为bin，以便使用使用离散值的分析技术时，会发生“ binning”的另一种常见用法。这似乎是您引用的有关预测声音的部分中建议的内容。在这种情况下，合并会引入一些随意性，并且还会丢失信息。如果可能的话，最好还是避免这种情况，方法是尝试直接在基础连续值上形成模型，而不是在离散的“合并”值上形成模型。

作为一般规则，统计学家希望避免引入任意假设的分析技术，尤其是在可以使用其他技术轻松避免这些假设的情况下。因此，我同意通常不需要分箱的观点。由于成本很重要，当然不应该不惜一切代价避免这种情况，但是，当有简单的替代技术可以避免这种情况而又不带来任何严重不便时，通常应该避免这种情况。

— Ben-恢复莫妮卡
source

我知道了。但是，跟进问题：查看上面提到的示例的分布（在此讽刺直方图），我只是看不到连续变量中的有用数，在该变量中，几乎所有样本都围绕一个值（此处为0）旋转，即最初是导致我对该功能进行分级的原因。您提到了替代方案-您能否详细说明或指出我在哪里可以学到更多的正确方向？

— 雷德勒

尝试阅读有关KDE的文章，并考虑一些绘制单变量数据的替代方法。

— 本-恢复莫妮卡

在那个直方图中，我看到的数值遍布整个地方（但是，是的，大多数情况下接近零）。使用样条拟合不应该带来任何不便，这肯定会提供更多信息。绘制拟合的样条！并且，如果由于某些原因您必须谨慎，那么该图可以帮助您。对于您的特定用途，可能另一个极限值是0.5更好。

— kjetil b halvorsen

2

直方图不能正确地解释为KDE。内核是什么？

— ub

1

关于您的第三段，当我尝试使用一些数字数据来计算信息增益时，我遇到了类似的问题。您能否看一下这个问题并解释在这种情况下该怎么办？stats.stackexchange.com/questions/384684/…–

— astel，

4

我通常会强烈反对连续变量的分类，原因是其他著名的Frank Harrell很好地表达了这个理由。在这种情况下，询问自己产生分数的过程可能会有所帮助。似乎大多数分数实际上为零，也许还加上了一些噪音。他们中的一些人再次与噪音再次接近统一。介于两者之间的人很少。在这种情况下，似乎有更多分类的理由，因为有人可能认为对噪声取模是一个二进制变量。如果将其作为连续变量拟合，则系数在预测变量的变化方面具有意义，但是在这种情况下，在变量的大部分范围内，该变量的分布非常稀疏，因此似乎没有吸引力。

— 麦迪威
source

4

我对何时可以使用合并的简短回答是：在查看数据之前已经知道了不连续点（这些是bin端点），以及是否知道每个bin中具有非零长度是平坦的。

— 弗兰克·哈雷尔

2

假设您有只只显示小时的手表。我的意思是说，它只有小时箭头，表示每小时一次将1/12跳到另一个小时，所以它无法平稳移动。这样的时钟不是很有用，因为您不知道是两点五分，两点半还是十点三分。这就是这个问题分级数据，它失去了细节，并介绍了“跳跃”的转变。

— 蒂姆
source

1

（+1）是，此外，制表者可能不会选择小时增量，而可能会任意决定他的手表将以19分钟增量，这是一个额外的问题，除了信息丢失之外，您还有另一个问题。

— 本-恢复莫妮卡

2

对于某些应用程序，显然包括您正在考虑的应用程序，分装可能是绝对必要的。显然，要执行分类问题，有时必须从模型中提取分类数据，并且除非输入也全部是分类的，否则您将需要执行合并。考虑一个例子：

复杂的AI在玩扑克。该公司评估了其手牌胜过其他玩家的手牌的可能性为70％。现在轮到他下注了，但是被告知应该避免不惜一切代价进行分箱，因此永远不要下注；默认情况下会折叠。

但是，您所听到的可能是正确的，因为过早地对中间值进行分箱会放弃本来可以保留的信息。如果您的项目的最终目的是确定您是否会“喜欢”相关的歌曲（这可能由两个因素决定：“乐器性”和“摇滚度”），那么您最好将它们保留为连续变量，直到您需要拉出“喜好”作为分类变量。

升 一世 ķ Ë = {\begin{cases} 0 & [R Ø C ķ 一世 Ť ü d Ë * 3 + 一世 ñ s Ť [R ü 米 Ë ñ Ť 一个 升 ñ Ë s s * 2 < 3 \\ 1个 & [R Ø C ķ 一世 Ť ü d Ë * 3 + 一世 ñ s Ť [R ü 米 Ë ñ Ť 一个 升 ñ Ë s s * 2 \geq 3 \end{cases}

$\mathrm{like} = \begin{cases} 0 & \mathrm{rockitude} * 3 + \mathrm{instrumentalness} * 2 < 3 \\ 1 & \mathrm{rockitude} * 3 + \mathrm{instrumentalness} * 2 \ge 3 \end{cases}$

或您认为最合适的系数，或其他适合您训练集的模型。

相反，如果您决定某物是“工具性”（是或否）和“摇滚”（是或否），那么您将4个类别布置为一天之前：

器乐，岩石
非仪器仪表，岩石
乐器，没有岩石
非仪器仪表，无岩石

但是，您所要决定的只是“喜欢”这4个类别中的哪个类别。您已在最终决定中放弃了灵活性。

决定是否分类的决定完全取决于您的目标。祝好运。

— Guenthmonstr
source

2

$R$

$R$ $\{b_1 \cdots b_N\}$ $b_i=[l_i,u_i]$ $l_i$ $u_i$ $i$

$l=l_0$ $w$ $l_0$ $u_0=l_0+w$ $w$ $(w_{min},w_{max})$

P （ [R ） = \sum_{w = w_{米 一世 ñ}}^{w_{米 一个 X}} \sum_{升 = 升_{0}}^{升_{0} + w} P （ [R | 升 ， w ） P （ 升 ， w ） P （ 升 ， w ） 〜 \frac{2 （ ü_{0} - 升_{0} ）}{w_{米 一个 X} + w_{米 一世 ñ}} \times （ w_{米 一个 X} - w_{米 一世 ñ} ）

$P(R) = \sum_{w=w_{min}}^{w_{max}}\sum_{l=l_0}^{l_0+w} P(R|l,w) P(l,w) \\ P(l,w) \sim \frac{2(u_0-l_0)}{w_{max}+w_{min}} \times (w_{max}-w_{min})$

当然，现在你已经出台 $w_{max}, w_{min},$ 和 $l_0$ ，所以在技术上 $P(R) \rightarrow P(R|w_{max}, w_{min},l_0)$ $P(R)$ $P(R|w_{max}, w_{min},l_0)=P(R)$

在OP的问题中，如果将任意阈值0.5设置为可信的最小值和最大值之间的各种值，我将感到满意，并且看到他的分析的基本结果在很大程度上与选择无关。

— 彼得·利奥波德
source