Questions tagged «categorical-data»

分类(也称为标称)数据可以具有有限数量的可能的值,称为类别。分类值“标签”,而不是“度量”。请对离散但有序的数据类型使用[ordinal-data]标签。

2
是否可以使用R创建“平行集”图?
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 感谢Tormod的问题(在此处发布),我遇到了“ 平行集”图。这是一个看起来像的例子:( 这是泰坦尼克号数据集的可视化。例如,显示了大多数未幸存的妇女是属于第三类的。) 我希望能够用R复制这样的情节。这有可能吗? 谢谢,塔尔

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

2
名义/分类数据的“虚拟变量”与“指标变量”
“虚拟变量”和“指示变量”是标签常用术语,用于描述使用0/1编码的类别中的成员资格;通常为0:不属于类别成员; 1:属于类别成员。 2014年11月26日,对Scholar.google.com(带引号)进行了快速搜索,发现约有318,000篇文章使用了“虚拟变量”,而约112,000篇文章中使用了“指标变量”。术语“虚拟变量”在“ 绑定变量 ”的非统计数学中也具有含义,这很可能有助于在索引文章中更多地使用“虚拟变量”。 我的局部关联问题: 这些术语是否始终是同义词(在统计范围内)? 这些术语中的任何一个是否曾经被接受地应用于其他形式的分类编码(例如,效果编码,Helmert编码等)? 有什么统计学或学科原因比一个术语更喜欢一个术语?

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
使用线性SVM混合连续数据和二进制数据?
因此,我一直在使用SVM,我想知道这是否是一件好事: 我有一组连续特征(0到1)和一组分类特征,这些特征已转换为虚拟变量。在这种情况下,我将测量日期编码为一个虚拟变量: 我有3个期间的数据,并为它们保留了3个特征号: 20:21:22: 因此,根据数据来自哪个周期,将为不同的功能分配1;其他人将获得0。 SVM是否可以与此同时正常工作,或者这是一件坏事? 我使用SVMLight和线性内核。

2
如何在R中使用效果编码而不是伪编码进行回归?
我目前正在开发一个回归模型,其中我仅将分类/因子变量作为自变量。我的因变量是对数转换比率。 只需在R中运行正常回归就相当容易,因为R一旦它们成为“ factor”类型,R就会自动知道如何编写假人。但是,这种类型的编码还意味着将每个变量的一个类别用作基线,这使其难以解释。 我的教授告诉我,请改用效果编码(-1或1),因为这意味着对截距使用了均值。 有人知道如何处理吗? 到目前为止,我尝试过: gm <- mean(tapply(ds$ln.crea, ds$month, mean)) model <- lm(ln.crea ~ month + month*month + year + year*year, data = ds, contrasts = list(gm = contr.sum)) Call: lm(formula = ln.crea ~ month + month * month + year + year * year, data = ds, contrasts …

1
glmnet logistic回归可以直接处理因子(类别)变量而不需要虚拟变量吗?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 3年前关闭。 我正在使用LASSO方法在R中构建逻辑回归,并具有cv.glmnet用于选择lambda和glmnet用于最终模型的功能。 我已经知道关于自动模型选择的所有缺点,但是无论如何我都需要这样做。 我的问题是我需要在模型中包括因子(分类)变量,有什么方法可以在不创建大量虚拟变量的情况下做到这一点?此变量几乎是所有字符串,而不是数字。


2
从连续数据到分类总是错误的吗?
当我读到有关如何设置数据的知识时,经常遇到的一件事是将一些连续数据转换为分类数据并不是一个好主意,因为如果阈值确定不当,您很可能会得出错误的结论。 但是,我目前有一些数据(前列腺癌患者的PSA值),我认为普遍的共识是,如果您低于4岁,您可能没有,如果您高于4岁,则您处于危险之中,然后高于10和20,您可能已经拥有了。这样的东西。在那种情况下,将我的连续PSA值分类为0-4、4-10和> 10的组是否仍然不正确?还是可以说阈值是“确定的”,实际上可以吗?

3
当其中一个变量是分类变量时,为什么相关性不是很有用?
这只是一个小小的检查,请帮助我看看我是否误解了这个概念,以及以什么方式。 我对相关性有一个功能上的理解,但我感到有些困惑,要真正自信地解释该功能性理解背后的原理。 据我了解,统计相关性(相对于该术语的更一般用法)是一种理解两个连续变量以及它们以相似的方式趋向或不趋于上升或下降的方式。 您无法对一个连续的和一个分类变量进行相关性的原因是,由于无法计算两者之间的协方差,因此无法计算 两者之间的协方差,因为按定义,分类变量不能产生均值,因此甚至不能输入第一个统计分析的步骤。 那正确吗?


1
可用于分类变量(R中)的不同编码类型是什么?何时使用它们?
如果您拟合线性模型或混合模型,则可以使用不同类型的编码将类别或名义变量转换为估计参数的多个变量,例如虚拟编码(R默认)和效果编码。 我听说在进行交互时最好使用效果编码(有时称为偏差编码或对比度编码),但是可能存在哪些对比度,何时使用哪种类型的对比度? 上下文是R中使用的混合建模lme4,但我认为可以使用更广泛的响应。抱歉,如果我错过了类似的问题。 编辑:两个有用的链接是:效果编码和伪编码说明。

2
合并/减少序数或名义数据类别的方法?
我正在努力寻找一种方法来减少名义或有序数据中的类别数量。 例如,假设我要在具有多个名义和有序因素的数据集上构建回归模型。尽管此步骤没有问题,但我经常遇到这样的情况:名义特征在训练集中没有观测值,但随后存在于验证数据集中。当模型出现(到目前为止)看不见的情况时,这自然会导致错误。我想要合并类别的另一种情况是,当类别过多而观察不到时。 所以我的问题是: 虽然我认识到最好根据它们代表的先前真实世界的背景信息来组合许多名义(和次序)类别,但是否有系统的方法(R最好是软件包)可用? 您将针对阈值等提出什么指导和建议? 文学中最受欢迎的解决方案是什么? 除了将较小的名义类别合并为新的“ OTHERS”类别之外,还有其他策略吗? 如果您还有其他建议,请随时输入。

8
训练神经网络以区分偶数和奇数
问题:是否有可能仅使用数字本身作为输入来训练NN来区分奇数和偶数? 我有以下数据集: Number Target 1 0 2 1 3 0 4 1 5 0 6 1 ... ... 99 0 100 1 我使用一种非常简单的遗传算法训练了一个带有两个输入神经元(一个是变量Number,另一个是偏向神经元),隐藏层中的9个神经元和一个输出神经元的NN:在每个时期,两组权重“互相对抗;错误率最高的人将输掉,并由获胜者的修改版本代替。 该脚本可以轻松解决诸如AND,OR和XOR运算符之类的简单问题,但是在尝试对奇数和偶数进行分类时会遇到困难。目前,最好的方法是从100个数字中识别出53个数字,这花费了几个小时。我是否将输入归一化似乎没有什么区别。 如果我想作弊,我可以对数据进行预处理,并将%2作为输入提供给NN,但我不想这样做。NN应该能够近似所有函数,包括模运算符(我相信)。我究竟做错了什么?

3
在Logistic回归中用WoE(证据权重)替换变量
这是我的一些同事遵循的有关实践或方法的问题。在建立逻辑回归模型时,我已经看到人们用各自的证据权重(WoE)代替了分类变量(或分类的连续变量)。据说这样做是为了在回归变量和因变量之间建立单调关系。现在,据我了解,一旦建立了模型,方程式中的变量就不是数据集中的变量。相反,方程式中的变量现在在隔离因变量时就显得很重要或很重要。 我的问题是:我们现在如何解释模型或模型系数?例如,对于以下等式: 日志( p1 − p) =β0+ β1个X1个log⁡(p1−p)=β0+β1x1 \log\bigg(\frac{p}{1-p}\bigg) = \beta_0 + \beta_1x_1 我们可以说, 是奇数的比率为在可变增加1个单位相对增加X 1。经验值(β1个)exp⁡(β1)\exp(\beta_1) X1个x1x_1 但是,如果将变量替换为其WoE,则解释将更改为:变量的重要性/重量增加1单位时,奇数比的相对增加 我已经在互联网上看到了这种做法,但是没有一个地方找到这个问题的答案。来自该社区本身的此链接与某个类似的查询相关,其中有人写道: WoE与优势比的自然对数显示线性关系,优势比是对数回归中的因变量。因此,当我们使用WoE而不是变量的实际值时,逻辑回归中不会出现模型错误指定的问题。 但是我仍然没有得到解释。请帮助我了解我所缺少的。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.