统计和大数据 categorical-data

3

当我将分类和连续预测变量混合使用时，可以使用多元回归吗？

看起来您可以对一个分类变量使用编码，但是我有两个分类变量和一个连续的预测变量。我可以在SPSS中为此使用多元回归吗？谢谢！

12 regression spss categorical-data continuous-data

3

哪些算法需要一键编码？

我永远不确定何时对非排序分类变量使用一键编码，何时不使用。每当算法使用距离度量来计算相似性时，我都会使用它。谁能给出一般的经验法则，即哪些类型的算法需要对非有序分类特征进行一次热编码，而哪些则不需要？

12 machine-learning categorical-data categorical-encoding data-preprocessing

2

为什么R需要很长时间才能拟合具有多级因子的模型？

我用一个具有多个水平因子的模型拟合模型，并且R花费很长时间才能拟合该模型。为什么是这样？例如，如果我拟合回归来预测球员的薪水，并包括针对所有球员各自国籍的因子预测器，那么与使用像球员的连续预测器那样的球员的薪资模型拟合起来相比，这将花费更长的时间。高度。

12 regression categorical-data

2

（非二项式）名义变量与数值（区间）或序数变量之间的相关系数

我已经阅读了本网站的所有页面，试图找到解决我问题的方法，但是似乎没有人适合我。首先，我向您解释我正在使用的数据类型... 假设我有一个包含多个城市名称的数组矢量，每300个用户一个。我还有另一个数组向量，其分数响应每个用户的调查或每个用户的连续值。我想知道是否存在相关系数来计算这两个变量之间的相关性，因此可以计算名义变量与数字/连续或有序变量之间的相关性。我在互联网上搜索过，在某些页面中，他们建议使用权变系数或Cramer的V或Lambda系数或Eta。只需说一说，就可以将它们应用于具有标称变量和区间或数值变量的此类数据。事实是，如果您有二等标称变量（除了Cramer's V之外），那么有时会写一些或试图理解它们，尝试理解它们的示例或观看它们合理地使用它们的示例，而其他时间则没有写任何要求数据类型。许多其他页面都说应用回归是正确的，那是正确的，但是我只是想知道是否存在像这类数据的皮尔森/皮尔曼系数。我还认为使用Spearman Correlation coeff不太合适，因为这些城市无法分类。我还自己建立了Cramer'sV和Eta的函数（我正在与Matlab一起工作），但对于Eta，他们不会谈论任何p值以查看系数是否在统计上显着... 在matlabWorks网站上，还有一个不错的工具箱，用于计算eta ^ 2，但所需的输入类型却无法理解。这里有人做过像我这样的测试吗？如果您需要更多详细信息以了解我使用的数据类型，请问我，我会尽力向您解释。

12 correlation matlab ordinal-data categorical-data continuous-data

1

当属性是名义的时，个人的最佳距离函数是什么？

我不知道在名义（无序分类）属性的情况下要使用个体之间的距离函数。我正在阅读一些教科书，他们建议使用简单匹配功能，但有些书则建议我将标称值更改为二进制属性，并使用Jaccard系数。但是，如果名义属性的值不是2怎么办？如果该属性中有三个或四个值怎么办？应该为名义属性使用哪个距离函数？

12 distance-functions distance similarities association-measure categorical-data

2

glmnet：如何理解多项式参数化？

接下来的问题：我想使用glmnet（）预测一个（或多个）分类变量的分类响应变量。但是，我无法理解glmnet给我的输出。好的，首先让我们生成两个相关的分类变量：产生资料 p <- 2 #number variables mu <- rep(0,p) sigma <- matrix(rep(0,p^2), ncol=p) sigma[1,2] <- .8 #some relationship .. diag(sigma) <- 1 sigma <- pmax(sigma, t(sigma)) n <- 100 set.seed(1) library(MASS) dat <- mvrnorm(n, mu, sigma) #discretize k <- 3 # number of categories d <- apply(dat, …

11 categorical-data multinomial glmnet

2

如何找到两个名义变量之间的相关性度量？

进行了一项调查，人们选择了使用某种笑脸来表示的东西并进入了原籍国。我已将文本回复重新编码为数字。应该使用哪种形式的分析（最好是在SPSS中）来检查人们来自何处与他们选择的表示形式之间的相关程度？

11 correlation spss categorical-data

2

例如基于星期几的回归

我需要一点帮助才能朝着正确的方向前进。自从我研究了任何统计数据以来已有很长时间了，术语似乎已经改变。想象一下，我有一组与汽车相关的数据，例如从A镇到B镇的旅程时间 A镇到B镇的距离马达的尺寸驾驶员鞋码汽车的型号星期几我想预测出行时间。我认为时间和距离之间存在很强的相关性，而与引擎尺寸之间的相关性可能较弱（与鞋子尺寸无关）。大概是多元回归分析/ ANOVA是要使用的工具。但是，如何将星期几包括在内，因为仅将其编码为Sunday = 1，Monday = 2等感觉很错误？例如，使用过Excel的回归工具后，如何解释结果？大概如果R接近1，这是很好的（尽管如果有很多数据项，看起来好像很小但仍然很重要）。但是某些资料来源将r平方看成SD，因此值接近零是好的。它还显示t Stat，P值，F和重要性F，无论它们是多少。谁能推荐一个好的参考资料？

11 regression categorical-data categorical-encoding

2

分类变量之间的共线性

关于连续预测变量的共线性有很多，但我在分类预测变量上找不到太多。我的数据如下所示。第一个因素是遗传变量（等位基因计数），第二个因素是疾病类别。显然，基因在疾病之前，并且是显示导致诊断的症状的因素。但是，像SPSS心理中通常使用的II型或III型平方和的常规分析会失去效果。输入适当的订单（因为它与订单有关）时，我进行平方和分析的类型就会选择它。此外，疾病过程中可能存在与基因无关的额外成分，这些成分与II型或III型不能很好地鉴定，请参阅下面的anova （lm1） vs lm2或Anova。示例数据： set.seed(69) iv1 <- sample(c(0,1,2), 150, replace=T) iv2 <- round(iv1 + rnorm(150, 0, 1), 0) iv2 <- ifelse(iv2<0, 0, iv2) iv2 <- ifelse(iv2>2, 2, iv2) dv <- iv2 + rnorm(150, 0, 2) iv2 <- factor(iv2, labels=c("a", "b", "c")) df1 <- data.frame(dv, iv1, iv2) library(car) chisq.test(table(iv1, …

11 r anova categorical-data multicollinearity sums-of-squares

2

我应该为每个社区运行单独的回归，还是社区可以简单地作为聚合模型中的控制变量？

我正在运行带有连续资产索引变量作为DV的OLS模型。我的数据来自三个相似的社区，彼此之间的地理位置非常接近。尽管如此，我认为使用社区作为控制变量很重要。事实证明，社区在1％的水平（-4.52的t评分）上具有重要意义。社区是3个不同社区中的1个的名义/类别变量，编码为1,2,3。我的问题是，这种高度的意义是否意味着我应该对社区进行个别回归，而不是作为一个整体。否则，使用社区作为控制变量是否可以做到这一点？

11 regression categorical-data stata multiple-regression aggregation

2

快速评估（可视化）R中有序分类数据之间的相关性？

我在调查中寻找不同问题的答案之间的相关性（“嗯，让我们看看问题11的答案是否与问题78的答案相关”）。所有答案都是分类的（大多数答案的范围是从“非常不高兴”到“非常高兴”），但是有几个答案却有所不同。它们中的大多数都可以视为序数，因此让我们在这里考虑这种情况。由于我无权使用商业统计程序，因此必须使用R。我尝试了Rattle（R的一个免费软件数据挖掘程序包，非常漂亮），但是不幸的是它不支持分类数据。我可以使用的一种技巧是在R中导入具有数字（1..5）的调查的编码版本，而不是“非常不高兴” ...“高兴”，并让Rattle相信它们是数字数据。我当时想做一个散点图，并且使点的大小与每对数字的数量成正比。经过一番谷歌搜索后，我发现http://www.r-statistics.com/2010/04/correlation-scatter-plot-matrix-for-ordered-categorical-data/，但是（对我来说）这似乎很复杂。我不是统计学家（而是程序员），但是对此事有一定的了解，如果我理解正确的话，Spearman的观点是合适的。因此，对于那些急着想解决问题的人来说，这是一个简短的问题：是否有办法快速将Spearman的rho绘制在R中？图形比数字矩阵更可取，因为它更易于观察，也可以包含在材料中。先感谢您。 PS我考虑了一段时间，是将其发布在主要的SO网站还是此处。在两个网站上搜索R相关性后，我觉得这个网站更适合这个问题。

11 r correlation categorical-data data-visualization

6

如何在R中的data.frame中查找因子的所有唯一组合的摘要统计信息？[关闭]

关闭。这个问题是题外话。它当前不接受答案。想改善这个问题吗？更新问题，使它成为交叉验证的主题。 2年前关闭。我想为data.frame中每个唯一的因素组合计算data.frame中变量的摘要。我应该使用plyr做到这一点吗？我可以使用循环而不是apply（）; 因此只要找出每种独特的组合就足够了。

11 r categorical-data aggregation plyr

4

多项卡方检验

我在2 x 2 x 6表格中交叉分类了数据。让我们叫的尺寸response，A和B。我用模型对数据进行逻辑回归response ~ A * B。对该模型偏差的分析表明，术语及其相互作用都是重要的。但是，从数据的比例来看，似乎只有2个左右的水平B对这些重要影响负责。我想测试一下是哪个级别的罪魁祸首。现在，我的方法是在的2 x 2表上执行6个卡方检验response ~ A，然后针对多个比较对这些检验的p值进行调整（使用Holm调整）。我的问题是，对于这个问题是否有更好的方法。是否有更原则的建模方法或多重卡方检验比较方法？

11 categorical-data logistic multiple-comparisons chi-squared

1

R / mgcv：为什么te（）和ti（）张量积产生不同的曲面？

的mgcv软件包R具有两个功能，用于拟合张量积相互作用：te()和ti()。我了解两者之间的基本分工（拟合非线性交互与将这种交互分解为主要效果和交互）。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生（略）不同的结果。 MWE（改编自?ti）： require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

2

如何在线性回归中对二元/二分法独立预测变量执行残差分析？

我正在下面的R中执行多元线性回归，以预测所管理基金的回报。 reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata) 在这里，只有GRI和MBA是二元/二分法预测因子；其余的预测变量是连续的。我正在使用此代码生成二进制变量的残差图。 plot(rawdata$GRI, reg$residuals) abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) plot(rawdata$MBA, reg$residuals) abline(lm(reg$residuals~rawdata$MBA, data=rawdata), col="red") # regression line (y~x) 我的问题：我知道如何检查残差图是否为连续的预测变量，但是当自变量为二进制时，如何测试线性回归的假设，例如均方差？残留图：

11 r multiple-regression categorical-data heteroscedasticity residuals

Questions tagged «categorical-data»