统计和大数据 categorical-data

5

可视化离散变量和连续变量之间的关系的最佳方法是什么？

显示以下两者之间的关系的最佳方法是：连续变量和离散变量两个离散变量？到目前为止，我已经使用散点图研究了连续变量之间的关系。但是，在离散变量的情况下，数据点将以一定间隔进行累积。因此，最佳拟合线可能会产生偏差。

19 data-visualization categorical-data random-variable

5

如何研究连续变量和分类变量之间的“相关性”？

研究这两种类型的变量之间的关系的有意义的“相关”度量是什么？在R中，该怎么做？

19 r correlation categorical-data association-measure

5

使用SVM或神经网络时如何将分类变量重新编码为数值变量

要使用SVM或神经网络，需要将分类变量转换（编码）为数字变量，在这种情况下，通常的方法是使用0-1二进制值，将第k个分类值转换为（0,0，.. 。，1,0，... 0）（1在第k个位置）。还有其他方法可以做到这一点，尤其是当存在大量分类值（例如10000），使得0-1表示将在神经网络中引入大量额外的维度（输入单位）时，这似乎不是很理想或期望的？我在问一般策略。

19 machine-learning neural-networks categorical-data svm categorical-encoding

4

对于分类数据，是否存在没有变量相关的聚类？

当试图解释聚类分析时，人们常误认为该过程与变量是否相关有关。让人们摆脱困惑的一种方法是像这样的情节：这清楚地显示了是否存在聚类问题和变量是否相关的问题之间的区别。但是，这仅说明了连续数据的区别。我在考虑具有分类数据的类比时遇到麻烦： ID property.A property.B 1 yes yes 2 yes yes 3 yes yes 4 yes yes 5 no no 6 no no 7 no no 8 no no 我们可以看到有两个清晰的集群：拥有属性A和B的人，以及没有财产的人。但是，如果我们查看变量（例如，使用卡方检验），则它们显然是相关的： tab # B # A yes no # yes 4 0 # no 0 4 chisq.test(tab) # X-squared = 4.5, …

19 clustering categorical-data independence

4

我在博客上找到了以下解释，我想获得有关相关性的非传递性的更多信息：我们有以下不争的事实：平均而言，男性和女性的大脑容量存在差异智商与大脑大小之间存在相关性。相关系数为0.33，因此相当于智商变异性的10％从这些前提1和2看来，逻辑上是这样的：女性平均智商比男性低。但这是谬论！在统计中，相关性不是传递的。证明是，您只需要查看智商测试的结果，即可证明男人和女人的智商平均没有差异。我想更深入地了解这种相关性。如果智商与大脑大小之间的相关性是0.9（我知道不是（1）），那么推断女性平均智商比男性低会仍然是谬论吗？拜托，我不是在这里谈论智商（以及测试的局限性），性别歧视，女性刻板印象，自大等（2）。我只想了解谬论背后的逻辑推理。（1）据我所知并非如此：尼安德特人的大脑比智人的大脑更大，但并不聪明。（2）我是一个女人，总的来说，我不认为自己，或者其他女人不如男人聪明，我不在乎智商测试，因为什么才是人们的价值所在，而不是基于人的价值。智力能力。法语原文：毫无疑问，顽固的杀手iv：女人与女人之间的差异气质与体积的关系相关系数估计为0.33，对应的变量为10％《预案》第1期和第2期，以“découlerdécouler”的形式进行质问：“ les femmes ont en moyenne un QIinférieuraux hommes”。 Mais c'est une erreur de raisonnement！从统计上看，所有关联都没有和解。拉普里夫（La Preuve），最令人心动的媒体，无意为QI进行测试的人，以及ceux-ci montrent QUE homs et des femmes nediffèrentpas en moyenne。

18 correlation categorical-data mean descriptive-statistics neuroscience

2

有多个类别变量时对Beta的解释

我理解是分类变量等于0（或参考组）时的均值的概念，最终解释为回归系数是两个类别的均值之差。即使有> 2个类别，我也会假设每个解释该类别的均值和参考之间的差异。β^0β^0\hat\beta_0β^β^\hat\beta 但是，如果将更多变量引入多变量模型，该怎么办？现在，截距是什么意思，意味着它不能作为两个分类变量的参考？例如性别（M（参考）/ F）和种族（白人（参考）/黑人）都在模型中。是平均仅为白人男性？一个人如何解释其他可能性？β^0β^0\hat\beta_0 作为单独的注释：对比声明是否可作为一种方法来研究效果修改？还是只是看到不同级别的效果（）？β^β^\hat\beta

18 multiple-regression categorical-data interpretation regression-coefficients contrast

1

如何处理具有分类属性的SVM

我有35个维度的空间（属性）。我的分析问题是一个简单的分类问题。在35个维度中，超过25个是分类类别，每个属性采用50多种类型的值。在这种情况下，引入虚拟变量对我也不起作用。如何在具有很多分类属性的空间上运行SVM？

18 categorical-data svm

5

什么是分类或定性变量汇总统计？

为了澄清，当我指的是摘要统计量时，我指的是均值，四分位数中位数范围，方差，标准差。在归纳分类或定性的单变量时，考虑标称和序数情况，找到其均值，中位数，四分位数范围，方差和标准偏差是否有意义？如果是这样，则与汇总连续变量不同吗？如何？

18 categorical-data descriptive-statistics

2

具有虚拟功能（和其他离散/分类功能）的异常检测

tl; dr discrete在执行异常检测时，推荐的处理数据的方法是什么？ categorical在执行异常检测时，推荐的处理数据的方法是什么？该答案建议使用离散数据仅过滤结果。也许用观察的机会代替类别值？介绍这是我第一次在此处发布信息，因此，如果在格式或使用正确的定义方面在技术上似乎不正确，那么我很想知道应该使用什么代替。向前。我最近参加了Andrew Ng 的机器学习课程对于异常检测，我们已经教过如何确定给定特征/变量在数据集中的正态/高斯分布参数，然后在给定特定条件下确定一组选定的训练示例/观测值的概率高斯分布，然后取特征概率的乘积。xixi{x_i} 方法选择我们认为可以解释所讨论活动的特征/变量： { x 1，x 2，… ，x i }xixix_i{x1,x2,…,xi}{x1,x2,…,xi}\{x_1, x_2,\dots,x_i\} 适合高斯的参数对于每个特征： σ2=1μj=1m∑i=1mx(i)jμj=1m∑i=1mxj(i)\mu_j = \frac{1}{m}\sum_{i = 1}^m x_j^{(i)} σ2=1m∑i=1m(x(i)j−μj)2σ2=1m∑i=1m(xj(i)−μj)2\sigma^2 = \frac{1}{m}\sum_{i = 1}^m (x_j^{(i)} - \mu_j)^2 对于每个训练样例，，计算： p （X ）= Ñ Π Ĵ = 1个 p （X Ĵ …

18 machine-learning categorical-data outliers discrete-data anomaly-detection

1

如何检验线性回归中分类变量的统计显着性？

如果在线性回归中我有分类变量...我怎么知道分类变量的静态意义？假设因子X1X1个X_1有10个级别...在一个因子变量的保护下将有10个不同的最终t值X1X1X_1... 在我看来，是否对因子变量的每个水平都进行了统计意义检验？没有？ @Macro：根据您的建议，我建立了以下示例：通过下面的模型比较，似乎x3很有用，并且必须将其包括在模型中。但是实际上那是错误的... n=100 x1=1:n x2=(1:n)^2 x3=rnorm(n) ee=rnorm(n) y=3*x1-2*x2+x3+3+ee lm1=lm(y~x1+x2+x3) summary(lm1) lm2=lm(y~x1+x2) summary(lm2) anova(lm1, lm2) > anova(lm1, lm2) Analysis of Variance Table Model 1: y ~ x1 + x2 + x3 Model 2: y ~ x1 + x2 Res.Df RSS Df Sum of Sq F Pr(>F) 1 …

18 regression statistical-significance categorical-data

3

构建一个多类分类器是否优于几个二进制分类器？

我需要将URL分类。假设我有15个类别，我打算将每个URL归零。 15向分类器更好吗？我有15个标签，并为每个数据点生成特征。还是建立15个二元分类器，例如：电影或非电影，并使用从这些分类中获得的数字来构建等级，以选择最佳类别，从而变得更好？

18 machine-learning classification categorical-data svm feature-selection

1

如何处理LASSO中的分类预测变量

我运行的LASSO具有一些分类变量预测变量和一些连续变量预测变量。我对分类变量有疑问。我了解的第一步是将它们分成假人，对它们进行标准化以进行公平的惩罚，然后回归。处理虚拟变量有几种选择：包括每个因素中除一个假人以外的所有假人，将其作为参考水平。虚拟系数的解释是相对于排除的“参考”类别而言的。截距现在是参考类别的平均响应。将每个因素中的变量分组，以便将它们全部排除或全部排除。我相信这就是@Glen_b 在这里建议的内容：通常，是的，您将所有因素放在一起。有几个R软件包可以做到这一点，包括glmnet 包括各个层面，如经@Andrew中号建议在这里：您可能还需要更改默认的对比功能，默认情况下，该功能不使用每个因子的一个级别（处理编码）。但是由于套索罚分，对于可识别性而言，这不再是必需的，并且实际上使所选变量的解释更加复杂。为此，请设置 contr.Dummy <- function(contrasts, ...){ conT <- contr.treatment(contrasts=FALSE, ...) conT } options(contrasts=c(ordered='contr.Dummy', unordered='contr.Dummy')) 现在，无论选择了哪个因子水平，您都可以认为它暗示着这些特定水平相对于所有省略的水平都很重要。在机器学习中，我已经看到这种编码称为“单热编码”。问题：在每种方法下，截距和系数的解释是什么？选择其中之一需要考虑哪些因素？我们是否要对虚拟系数进行缩放，然后将其解释为从关到开的变化？

17 categorical-data regression-coefficients lasso intercept categorical-encoding

2

回归中的定性变量编码导致“奇异”

我有一个称为“质量”的自变量；此变量具有3种响应方式（质量差；质量中等；质量高）。我想将此自变量引入我的多元线性回归中。当我有一个二进制自变量（虚拟变量，我可以编写代码0/ 1）时，很容易将其引入多元线性回归模型。但是，通过3种响应方式，我尝试像下面这样编写此变量： Bad quality Medium quality High quality 0 1 0 1 0 0 0 0 1 0 1 0 但是当我尝试进行多元线性回归时存在一个问题：模态Medium quality给我NA： Coefficients: (1 not defined because of singularities) 如何使用3种方式对变量“质量”进行编码？我是否必须创建一个变量作为因子（factorin R），但是可以在多元线性回归中引入该因子吗？

17 r regression categorical-data multicollinearity categorical-encoding

2

列联表的筛子/镶嵌图的替代品

我曾经偶然发现过一种我非常喜欢的用于Internet上分类数据（即列联表）的图表，但是我再也找不到了，甚至不知道它叫什么。它本质上就像一个筛图，因为行高和列宽是相对于边际概率缩放的。因此，将每个框缩放到独立时预期的相对频率。但是，它与筛网图的不同之处在于，它不是在每个框内绘制交叉影线，而是在每个观测值的双变量均匀变量中随机选择的位置绘制了一个点（类似于散点图）。这样，点的密度反映了观察到的计数与预期计数的匹配程度。也就是说，如果每个框中的密度都相似，则空模型是合理的，我，Ĵ一世，Ĵi,j）在空模型下可能不太可能。因为是绘制点而不是阴影线，所以绘制的元素与观察到的计数之间存在简单直观的对应关系，对于筛网图不一定是正确的（见下文）。此外，点的随机放置使绘图具有“有机”感觉。此外，颜色可用于突出显示与零模型有很大差异的框/单元格，并且图矩阵可用于检查许多不同变量之间的成对关系，因此可以结合相似图的优点。有谁知道这个阴谋叫什么？是否有可以在R或其他软件（例如Mondrian）中轻松实现此功能的软件包/功能？我在vcd中找不到类似的东西。当然，从头开始可能很难对其进行编码，但这会很痛苦。这是一个筛分图的简单示例，请注意，很容易看出在空模型下不同类别的预期计数应如何发挥作用，但很难将交叉影线与实际数字相协调，从而产生了一个不相当容易阅读并且在美学上很丑陋： B ~B A 38 4 ~A 3 19 就其价值而言，镶嵌图具有相反的问题：尽管更容易查看哪些单元格具有“太多”或“太少”的计数（相对于null模型），但更难于识别出它们之间的关系。预期数会是。具体来说，列宽是相对于边际概率缩放的，而行高却不是，因此几乎无法提取该信息。现在换个完全不同的东西... 有谁知道使用蓝色表示“太多”而使用红色表示“太少”的约定从何而来？这对我一直都是违反直觉的。在我看来，是非常高的密度（或太多的意见）去与热，低密度去与冷，而且（至少在舞台灯光）红色是变暖和蓝色是库尔斯。更新：如果我没记错的话，我看到的情节是一本书的pdf文件（简介或ch1），该书是作为市场营销预告片免费在线提供的。这是我从头开始编写的想法的粗略版本：即使使用此粗略版本，我认为它也比筛图更易于阅读，并且在某些方面比镶嵌图更容易理解（例如，更容易识别它们之间的关系）。单元频率之间的差异将是独立的）。这将是很好的函数是：一。将使用任何列联表自动执行此操作；b。可以用作绘图矩阵的构建块，并且c。会具有上述图所附带的出色功能（例如镶嵌图上的标准化残差图例）。

17 r data-visualization categorical-data

2

虚拟变量的功能重要性

我试图了解如何获得已分解为虚拟变量的分类变量的功能重要性。我正在使用scikit-learn，它不像R或h2o那样为您处理分类变量。如果将分类变量分解为虚拟变量，则该变量中每个类的功能重要性都不同。我的问题是，将这些虚拟变量的重要性通过简单地求和重新组合为分类变量的重要性值是否有意义？从《统计学习的要素》第368页开始：变量的平方相对重要性XℓXℓX_{ℓ}是在所有的内部节点，例如平方改进它为之选择作为分割变量的总和这使我认为，由于重要性值已经通过在每个节点上选择一个变量的总和来创建，因此我应该能够组合虚拟变量的变量重要性值以“恢复”分类变量的重要性。当然，我不希望它是完全正确的，但是无论如何这些值实际上都是准确的值，因为它们是通过随机过程找到的。我已经编写了以下python代码（以jupyter格式）作为调查： import numpy as np import pandas as pd import matplotlib.pyplot as plt from matplotlib import animation, rc from sklearn.datasets import load_diabetes from sklearn.ensemble import RandomForestClassifier import re #%matplotlib inline from IPython.display import HTML from IPython.display import set_matplotlib_formats plt.rcParams['figure.autolayout'] = False plt.rcParams['figure.figsize'] = 10, …

17 categorical-data random-forest interpretation importance

Questions tagged «categorical-data»