统计和大数据 binning

4

假设我想根据直方图查看数据是否为指数（即向右倾斜）。根据我对数据进行分组或分类的方式，我可以获得截然不同的直方图。一组直方图将使数据看起来像指数。另一组将使数据看起来不是指数的。如何使定义好的直方图分布确定？

111 distributions data-visualization histogram binning

7

我想知道在模型中使用它之前，取一个连续的预测变量并将其分解（例如分解为五分位数）的价值是什么。在我看来，通过对变量进行分类，我们会丢失信息。这样是否可以为非线性效应建模？如果我们保持变量连续并且不是真正的线性关系，我们是否需要提出某种曲线以最适合数据？

78 regression modeling continuous-data binning regression-strategies

3

在直方图中使用QQ绘图的好处

在此评论中，尼克·考克斯写道：归类是一种古老的方法。尽管直方图可能有用，但现代统计软件可以轻松且明智地使分布适合原始数据。分档只是丢弃了细节，这对于确定合理的分布至关重要。此评论的内容建议使用QQ绘图作为评估拟合度的替代方法。该声明听起来很合理，但我想知道一个支持该声明的可靠参考。除了简单的“嗯，这听起来很明显”之外，是否有论文对这一事实进行了更彻底的研究？对结果或类似内容进行任何实际的系统比较吗？我还想了解QQ曲线相对于直方图的优势可以扩展到模型拟合以外的其他应用程序。关于这个问题的答案同意“ QQ图[…]只是告诉您“某事是错误的””。我正在考虑使用它们作为一种工具来识别与零模型相比观察到的数据中的结构，并想知道是否存在任何建立的过程可以使用QQ图（或其基础数据）不仅检测而且描述非随机观测数据中的结构。因此，包括该方向的参考文献将特别有用。

22 references histogram binning qq-plot

2

我们什么时候应该离散化/合并连续的独立变量/特征，什么时候不应该离散化/合并它们？

我们何时应该离散化/绑定自变量/特征，何时不应该离散化/组合？我试图回答这个问题：通常，我们不应该进行合并，因为合并会丢失信息。合并实际上增加了模型的自由度，因此，合并后可能导致过度拟合。如果我们有一个“高偏差”模型，合并可能不是坏事，但是如果我们有一个“高方差”模型，则应该避免合并。这取决于我们使用的模型。如果是线性模式，并且数据具有很多“异常值”，则装箱概率会更好。如果我们有一个树模型，那么离群值和合并将有很大的不同。我对吗？还有什么？我以为应该多次问这个问题，但我只能在这些帖子中找到简历我们应该对连续变量进行分类吗？分解一个连续的预测变量有什么好处？

21 machine-learning continuous-data feature-construction binning

2

基于数据的bin边界对卡方拟合优度的影响？

撇开这种情况下卡方功率低的明显问题，想象通过对数据进行装箱，对未指定参数的某些密度进行卡方检验。具体来说，假设平均值未知的指数分布和样本量为100。为了获得每个bin合理数量的预期观察值，需要考虑一些数据（例如，如果我们选择将6个bin置于均值以下，将4个bin置于均值之下，则仍将使用基于数据的bin边界）。但是，这种基于查看数据的垃圾箱的使用可能会影响零值下测试统计量的分布。我已经看到了很多关于以下事实的讨论：- 如果通过合并数据以最大似然来估计参数-每个估计参数会损失1 df（这个问题可以追溯到Fisher与Karl Pearson的问题）-但是我不记得了阅读有关根据数据本身查找bin边界的任何信息。（如果估计它们从未像素合并数据，然后用kkk仓检验统计量介于之间的分布χ2kχk2\chi^2_{k}和χ2k−pχk−p2\chi^2_{k-p}）。这种基于数据的垃圾箱选择是否会严重影响重要程度或效力？有一些方法比其他方法更重要吗？如果有很大的影响，在大样本中会消失吗？如果确实有实质性影响，那么在许多情况下，未知参数几乎毫无用处（尽管在很多文本中仍然提倡使用），这似乎将使用卡方检验，除非您有很好的经验。 -参数的先验估计。讨论问题或引用参考（最好提及其结论）将很有用。编辑，除了主要问题：在我看来，对于指数*的特定情况（并可以考虑使用）有可能的解决方案，但是我仍然对影响选择箱边界的更普遍的问题感兴趣。 *例如，对于指数，可以使用最小的观测值（例如等于mmm）来粗略地了解将垃圾箱放置在哪里（因为最小的观测值的平均值为μ/nμ/n\mu/n）。测试剩余的n−1n−1n-1差异（xi−mxi−mx_i - m）的指数性。当然，这可能会得出非常差的μ估计值μμ\mu，因此选择了不正确的箱，尽管我想人们可能会递归地使用该参数，以便从最低的两个或三个观测值中选择合理的箱，然后测试其余观测值的差异，以求取最小的最小顺序统计量中的最大值指数）

18 chi-squared goodness-of-fit binning

3

将两个直方图按相同比例放置的最佳方法？

假设我有两个分布要详细比较，即以使形状，比例和偏移容易看到的方式比较。做到这一点的一种好方法是绘制每个分布的直方图，将它们放在相同的X比例尺上，然后在另一个下方堆叠。执行此操作时，应如何进行装箱？即使一个分布比另一个分布更分散，两个直方图是否也应使用相同的bin边界，如下面的图像1所示？是否应在缩放之前针对每个直方图分别进行合并，如下面的图像2所示？在这方面是否有很好的经验法则？

14 data-visualization histogram pdf binning

2

关于给定响应变量的最佳分箱

我正在寻找相对于给定响应（目标）二进制变量并以最大间隔数为参数的连续变量的最佳合并方法（离散化）。示例：我对“身高”（数字连续）和“ has_back_pains”（二进制）变量的人有一组观察。我想将高低离散化为最多3个间隔（组），以不同比例的背部疼痛患者来做，这样算法就可以最大程度地使各组之间的差异最大化（例如，在给定限制的情况下，每个间隔至少有x个观察值）。解决此问题的明显方法是使用决策树（一个简单的单变量模型），但我在R中找不到任何将“最大分支数”作为参数的函数-它们全部将变量除分成2块（<= x和> x）。SAS矿工具有“最大分支”参数，但我正在寻找非商业解决方案。我的一些变量只有几个唯一值（可以视为离散变量），但我想将它们离散化为较小的间隔。与我的问题最接近的解决方案是在R中的smbinning包中实现的（依赖于party包中的ctree函数），但是它有两个缺点：无法设置间隔数（但是，您可以通过更改间隔找到解决方法p参数），并且当数据向量的唯一值少于10个时无效。无论如何，您可以在此处看到示例输出（Cutpoint和Odds列至关重要）： Cutpoint CntRec CntGood CntBad CntCumRec CntCumGood CntCumBad PctRec BadRate Odds LnOdds WoE IV 1 <= 272 9081 169 8912 9081 169 8912 0.1874 0.9814 0.0190 -3.9653 -0.6527 0.0596 2 <= 311 8541 246 8295 17622 415 17207 0.1762 0.9712 0.0297 -3.5181 -0.2055 …

11 r dataset optimization discrete-data binning

5

贝叶斯定理的解释适用于乳腺X线摄影阳性结果

我正在尝试将贝叶斯定理的结果应用于经典的乳房X射线照片示例，而乳房X射线照片的扭曲是完美的。那是，癌症发生率：.01.01.01 假设患者患有癌症，则乳房X光检查阳性的可能性：1个1个1 假设患者未患癌症，乳房X光检查呈阳性的可能性：.01.01.01 贝叶斯： P（癌症|乳房X线照片+）= 1个 ⋅ 0.01（1 ⋅ 0.01 ）+ （0.091 ⋅ 0.99 ）1个⋅.01（1个⋅.01）+（.091⋅.99）\dfrac {1 \cdot .01}{(1 \cdot .01) + (.091 \cdot .99)} = .5025=.5025 = .5025 因此，如果人口中有一个随机的人进行乳房X光检查并获得阳性结果，那么他们有50％的机会患上癌症吗？我无法直觉地理解在1％的人口中只有1％的假阳性几率会触发50％的结果。从逻辑上讲，我认为具有很小的假阳性率的完全正确的乳房X线照片会更加准确。

11 bayesian bayes binning diagnosis

2

如何“智能化”分类数据的集合？

我正在尝试智能地对已排序的集合进行分类。我有条数据的集合。但我知道，这个数据拟合到不平等的大小分档。我不知道如何智能地选择端点以正确适合数据。例如：nnnmmm 假设我的收藏夹中有12件商品，并且我知道数据可以放入3个容器中： Index: 1 2 3 4 5 6 7 8 9 10 11 12 Value: 1 1 1 3 3 3 3 3 3 5 5 6 如何智能地为的bin选择断点？i={1−3},{4−9},{10−12}i={1−3},{4−9},{10−12}i = \{1-3\}, \{4-9\}, \{10-12\} 我目前的实现方式是将数据分成大小均匀的容器，然后取端点的平均值，以找到容器末端的索引。所以它是这样的： Index: 1 2 3 4 5 6 7 8 9 10 11 12 Value: 1 1 …

11 clustering histogram binning

5

为什么要不惜一切代价避免装仓？

因此，我读了几篇关于为什么应始终避免合并的文章。该链接的流行参考是此链接。主要的缺点是分档点（或切点）相当随意，并且会导致信息丢失，因此应首选样条线。但是，我目前正在使用Spotify API，该API对它们的某些功能有很多连续的置信度度量。看一下“工具性”这一功能，引用指出：预测曲目是否不包含人声。在这种情况下，“哦”和“啊”的声音被视为乐器。说唱或说出的单词轨迹显然是“声音”。器乐性值越接近1.0，则曲目中没有人声内容的可能性越大。高于0.5的值旨在表示乐器轨迹，但随着该值接近1.0，置信度更高。考虑到我的数据分布非常偏左（大约90％的样本几乎不超过0，我发现将此功能转换为两个分类特征是明智的：“ instrumental”（所有值均大于0.5的样本）和“ non_instrumental” ”（对于所有小于0.5的样本）。错了吗当我几乎所有（连续）数据都围绕一个值旋转时，将会有什么选择呢？根据我对样条曲线的了解，它们也不能解决分类问题（我在做什么）。

10 classification categorical-data continuous-data splines binning

2

计算互信息时的箱数

我想使用互信息来量化两个变量A和B之间的关系。计算它的方法是对观察值进行分箱（请参见下面的示例Python代码）。但是，什么因素决定合理数量的箱？我需要计算速度快，所以我不能简单地使用很多垃圾箱来保证安全。 from sklearn.metrics import mutual_info_score def calc_MI(x, y, bins): c_xy = np.histogram2d(x, y, bins)[0] mi = mutual_info_score(None, None, contingency=c_xy) return mi

10 information-theory mutual-information binning

1

R线性回归分类变量“隐藏”值

这只是我多次遇到的示例，因此我没有任何示例数据。在R中运行线性回归模型： a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的，具有三个值，例如“低”，“中”和“高”。但是，R给出的输出将类似于： summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素（x2是一个因素）上引入了某种虚拟编码。我只是想知道，如何解释x2“高”值？例如，x2在此处给出的示例中，“ High” 对响应变量有什么影响？我在其他地方（例如这里）已经看到了这样的示例，但是还没有找到我能理解的解释。

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

2

Doane直方图合并的公式

我正在实现各种算法，以估计用于直方图的最佳bin数量。我要实现的大多数方法在Wikipedia“直方图”页面上的“ 箱数和宽度 ” *部分中进行了描述。我对Doane的公式感到困惑： 1 + log(n) + log(1 + kurtosis(data) * sqrt(n / 6.)) n数据大小在哪里。问题是峰度为负，并且n >> 1因为的参数log变为负。 *（该页面自发布以来已更改，链接已编辑为指向发布时的页面）

9 histogram binning

Questions tagged «binning»