统计和大数据 categorical-data

3

我知道以下事实：具有k个级别的分类变量应使用虚拟编码中的k-1个变量进行编码（与多值分类变量类似）。我想知道针对不同的回归方法，主要是线性回归，惩罚线性回归（Lasso，Ridge，ElasticNet），基于树的（随机森林），单次热编码（即使用k个变量代替）比虚拟编码有多少问题？，梯度增强机）。我知道在线性回归中会出现多重共线性问题（即使实际上我使用OHE拟合线性回归也没有任何问题）。但是，是否需要在所有编码中都使用伪编码？如果使用一热编码，结果将有多大错误？我的重点是在具有多个（高基数）分类变量的回归模型中进行预测，因此我对置信区间不感兴趣。

11 regression multiple-regression categorical-data many-categories

5

为什么要不惜一切代价避免装仓？

因此，我读了几篇关于为什么应始终避免合并的文章。该链接的流行参考是此链接。主要的缺点是分档点（或切点）相当随意，并且会导致信息丢失，因此应首选样条线。但是，我目前正在使用Spotify API，该API对它们的某些功能有很多连续的置信度度量。看一下“工具性”这一功能，引用指出：预测曲目是否不包含人声。在这种情况下，“哦”和“啊”的声音被视为乐器。说唱或说出的单词轨迹显然是“声音”。器乐性值越接近1.0，则曲目中没有人声内容的可能性越大。高于0.5的值旨在表示乐器轨迹，但随着该值接近1.0，置信度更高。考虑到我的数据分布非常偏左（大约90％的样本几乎不超过0，我发现将此功能转换为两个分类特征是明智的：“ instrumental”（所有值均大于0.5的样本）和“ non_instrumental” ”（对于所有小于0.5的样本）。错了吗当我几乎所有（连续）数据都围绕一个值旋转时，将会有什么选择呢？根据我对样条曲线的了解，它们也不能解决分类问题（我在做什么）。

10 classification categorical-data continuous-data splines binning

1

在因子分析中计算二元变量的皮尔逊相关性（而不是四项式）有什么危险？

我从事教育游戏的研究，目前的一些项目涉及使用BoardGameGeek（BGG）和VideoGameGeek（VGG）的数据来检查游戏设计元素之间的关系（例如“第二次世界大战”，“涉及掷骰子” ）和这些游戏的玩家评分（例如，满分10分）。这些设计元素中的每个元素都与BGG或VGG系统中的标签相对应，因此每个元素本质上都是二分变量。游戏在数据库中为每个存在的标签提供1，为每个不存在的标签提供0。这些标记有数十种，因此我想使用探索性因子分析（EFA）提出可管理数量的“类型”，以捕获游戏设计中的模式。咨询几个来源，据我所知，因为我有工作二元变量，我应该使用polychoric相关（四项，特别是在这里），而不是皮尔森用我的因素，即将到来的时候（也有其他的选择，喜欢的潜在特质分析-那些那里，但这是我现在正在探索的那个）。出于好奇，我想出了两套因素，一套使用Pearson相关，另一套使用多色相关（每次使用相同数量的因素）。我的问题是，使用Pearson相关性计算出的因子比使用多色相关性计算出的因子更有意义并且更易于解释。换句话说，来自第一组因素的“类型”具有直觉意义，并且与我对游戏设计的理解相一致。第二组因素则不是这样。一方面，我想确保我符合正在使用的测试的假设，即使这样做会使我的结果不太美观。另一方面，我认为因素分析和（更广泛的）模型构建的目标的一部分是想出一些有用的东西，而当我“违反规则”时，就会出现更多有用的信息。对有用模型的需求是否足以超过违反该检验假设的条件？使用Pearson相关而不是多选相关的结果到底是什么？

10 r categorical-data factor-analysis binary-data

3

为什么要在逻辑回归中对分类预测变量进行WOE转换？

类别变量的证据权重（WOE）转换何时有用？该示例可以在WOE转换中看到（因此，对于一个响应，＆与分类预测类，＆成功出试验的内个这种预测器的类别，对于所述WOE个类别被定义为k y j n j j jÿÿyķķkÿĴÿĴy_jñĴñĴn_jĴĴjĴĴj 日志ÿĴ∑ķĴÿĴ∑ķĴ（nĴ- ÿĴ）ñĴ- ÿĴ日志⁡ÿĴ∑ĴķÿĴ∑Ĵķ（ñĴ-ÿĴ）ñĴ-ÿĴ\log \frac{y_j} {\sum_j^k {y_j}} \frac{\sum_j^k (n_j-y_j)}{n_j-y_j} ＆转换包括使用其WOE对分类预测器的每个类别进行编码，以形成新的连续预测器。）我想了解WOE转换有助于逻辑回归的原因。这背后的理论是什么？

10 logistic categorical-data regression-strategies

4

这个图叫什么

谁能告诉我这种图表的名称是什么（如果有的话）？还有谁能建议任何工具（无论多么简单）来绘制这种图表？

10 categorical-data proportion

2

数据类型（标称/有序/间隔/比率）是否真的应视为变量类型？

例如，这是我从标准教科书中获得的定义变量-总体或样本的特征。例如测试中股票或等级的价格数据-实际观测值因此，对于两列报表[名称| 收入]列名称将是变量和实际观察值{dave | 100K}，{jim | 200K}将是数据因此，如果我说[名称]列是名义数据，[收入]是比率数据，那么将其描述为变量类型而不是像大多数教科书那样将其描述为数据类型不是更准确吗？我知道这可能是语义，这很好，那就是全部。但是我担心这里可能会丢失一些东西。

10 dataset ordinal-data categorical-data ratio

1

如何解释Cochran-Mantel-Haenszel检验？

我正在测试由C分层的两个变量A和B的独立性。A和B是二进制变量，C是分类变量（5个值）。运行费舍尔对A和B（所有层的总和）的精确测试，我得到： ## (B) ## (A) FALSE TRUE ## FALSE 1841 85 ## TRUE 915 74 OR: 1.75 (1.25 -- 2.44), p = 0.0007 * 其中OR是优势比（估计值和95％置信区间），*意味着p <0.05。对每个层（C）运行相同的测试，我得到： C=1, OR: 2.31 (0.78 -- 6.13), p = 0.0815 C=2, OR: 2.75 (1.21 -- 6.15), p = 0.0088 * C=3, OR: 0.94 (0.50 …

10 categorical-data interpretation inference contingency-tables fishers-exact

1

如何在ARIMA模型的观察值48中加入创新的离群值？

我正在处理数据集。使用一些模型识别技术后，我得出了一个ARIMA（0,2,1）模型。我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值（IO）。如何将这个离群值合并到模型中，以便将其用于预测？我不想使用ARIMAX模型，因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗？以下是我的价值观： VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …

10 r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

3

浓度参数具有超先验分布的多项式-Dirichlet模型

我将尝试尽可能概括地描述当前的问题。我正在将观察建模为具有参数概率向量theta 的分类分布。然后，我假设参数向量theta遵循Dirichlet先验分布，参数为。α1个，α2，… ，αķα1,α2,…,αk\alpha_1,\alpha_2,\ldots,\alpha_k 那么是否可以对参数施加超先验分布呢？它必须是多元分布，例如分类分布和狄利克雷分布吗？在我看来，alpha总是为正，因此应优先使用gamma hyperprior。α1个，α2，… ，αķα1,α2,…,αk\alpha_1,\alpha_2,\ldots,\alpha_k 不知道是否有人尝试拟合这种（可能）过参数化的模型，但对我而言，认为阿尔法不应该是固定的而是来自伽马分布的，似乎是合理的。请尝试为我提供一些参考，以及在实践中如何尝试这种方法的见解。

10 categorical-data multinomial dirichlet-distribution hierarchical-bayesian dirichlet-process

2

多重共线性是否隐含在分类变量中？

我注意到，在修补多元回归模型时，在分类变量的类别内（当然，在排除参考类别之后），有一个很小但引人注目的多元共线性效应，以方差膨胀因子来衡量。例如，假设我们有一个包含连续变量y和一个名义分类变量x的数据集，该变量具有k个可能的互斥值。我们将这可能的值编码为0/1虚拟变量。然后，我们运行回归模型。虚拟变量的VIF分数结果为非零。实际上，随着类别数量的增加，VIF也随之增加。使虚拟变量居中似乎不会更改VIF。x 1，x 2，… ，x k y = b 0 + b 1 x 1 + b 2 x 2 + ⋯ + b k - 1 x k - 1 k - 1ķkkX1个，X2，… ，xķx1,x2,…,xkx_1, x_2,\dots ,x_kÿ= b0+ b1个X1个+ b2X2+ ⋯ + bk − 1Xk − 1y=b0+b1x1+b2x2+⋯+bk−1xk−1y = b_0 + …

10 regression categorical-data multicollinearity

2

二分和连续变量之间的相关性

我试图找到二分和连续变量之间的相关性。从我对此的基础工作中，我发现我必须使用独立的t检验，其前提是变量的分布必须是正态的。我进行了Kolmogorov-Smirnov检验以测试正态性，发现连续变量是非正态变量并且存在偏斜（针对约4,000个数据点）。我对变量的整个范围进行了Kolmogorov-Smirnov检验。我应该将它们分组并进行测试吗？就是说，如果我有risk level（0=没有危险，1=有危险）和胆固醇水平，那么我应该：将它们分为两组，例如 Risk level =0 (Cholestrol level) -> Apply KS Risk level =1 (Cholestrol level) -> Apply KS 一起带他们参加考试吗？（我仅对整个数据集执行了此操作。）之后，如果仍然不正常，该怎么办？编辑：上面的情况只是我试图提供我的问题的描述。我有一个数据集，其中包含1000多个变量和大约4000个样本。它们本质上是连续的或绝对的。我的任务是根据这些变量预测一个二分变量（也许想出一个逻辑回归模型）。因此，我认为最初的调查将涉及发现二分法和连续变量之间的相关性。我试图查看变量的分布情况，因此尝试进行t检验。在这里，我发现正常性是一个问题。在大多数这些变量中，Kolmogorov-Smirnov检验的显着性值为0.00。我应该在这里假设正常吗？这些变量的偏斜度和峰度还表明，几乎在所有情况下数据都偏斜（> 0）。根据下面给出的注释，我将进一步研究点-二元相关性。但是关于变量的分布，我仍然不确定。

10 normal-distribution categorical-data continuous-data kolmogorov-smirnov association-measure

3

如何在逻辑回归（SPSS）中处理非二元分类变量

我必须使用许多自变量进行二进制逻辑回归。它们大多数是二进制的，但是一些分类变量具有两个以上的级别。处理此类变量的最佳方法是什么？例如，对于一个具有三个可能值的变量，我假设必须创建两个虚拟变量。然后，在逐步回归过程中，最好同时测试两个虚拟变量，或者分别测试它们？我将使用SPSS，但我不太清楚，所以：SPSS如何处理这种情况？此外，对于序数分类变量，使用伪变量重新创建序数标度是一件好事吗？（例如，使用三个虚拟变量为一个4状态定序变量，把0-0-0用于电平，为电平2，为电平3和用于电平4，而不是，，和为4个级别）。1个111-0-02221-1-03331-1-14440-0-01-0-00-1-00-0-1

10 logistic categorical-data spss ordinal-data categorical-encoding

2

是否可以直接读取CSV列作为分类数据？

我需要使用R分析来自CSV格式的医学调查（带有100多个编码列）的数据。我将使用拨浪鼓进行一些初步分析，但在后台它仍然是R。如果我读取.csv（）文件，则将带有数字代码的列视为数字数据。我知道我可以使用factor（）从它们创建分类列，但是要对100多个列执行此操作很麻烦。我希望有一种更好的方法告诉R直接将列作为因素导入。或至少在以后将它们转换到位。谢谢！

10 r categorical-data data-transformation

4

如何使用Python统计证明列是否具有分类数据

我在python中有一个数据框，我需要在其中查找所有类别变量。检查列的类型并不总是可行的，因为int类型也可以是分类的。因此，我在寻找正确的假设检验方法以识别列是否为分类方面寻求帮助。我正在尝试进行卡方检验以下的测试，但是我不确定这是否足够好 import numpy as np data = np.random.randint(0,5,100) import scipy.stats as ss ss.chisquare(data) 请指教。

10 hypothesis-testing categorical-data python chi-squared categorical-encoding

1

分类数据的惩罚方法：将级别合并为一个因子

惩罚模型可用于估计参数数量等于或大于样本大小的模型。在大型稀疏分类或计数数据表的对数线性模型中可能会出现这种情况。在这些情况下，通常还希望通过组合某个因子的级别来折叠表格，而这些因子的级别在它们与其他因子的交互方式方面是无法区分的。两个问题：有没有办法使用诸如LASSO或弹性网之类的惩罚模型来测试每个因素中各个级别的可折叠性？如果第一个问题的答案是肯定的，那么是否可以而且应该以这样的方式进行设置：水平崩溃和模型系数的估计可以一步完成？

10 categorical-data lasso elastic-net log-linear many-categories

Questions tagged «categorical-data»