Questions tagged «categorical-data»

分类(也称为标称)数据可以具有有限数量的可能的值,称为类别。分类值“标签”,而不是“度量”。请对离散但有序的数据类型使用[ordinal-data]标签。


1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

4
具有连续和分类特征的预测
一些预测建模技术更适合处理连续的预测变量,而另一些则更适合处理分类变量或离散变量。当然,存在将一种类型转换为另一种类型的技术(离散,伪变量等)。但是,是否有任何设计用来同时处理两种类型的输入而无需简单地转换要素类型的预测建模技术?如果是这样,这些建模技术是否倾向于在更适合它们的数据上更好地工作? 最接近的事,我知道的是,通常决策树处理离散数据很好,他们处理连续的数据,而不需要在前面离散化。但是,这并不是我一直在寻找的东西,因为有效地分割连续特征只是动态离散化的一种形式。 作为参考,以下是一些相关的,不可重复的问题: 预测连续变量时应如何实施决策树拆分? 当我将分类预测变量和连续预测变量混合使用时,可以使用多元回归吗? 将分类数据视为连续的有意义吗? 连续和分类变量数据分析

3
用分类变量解释logit回归中的交互项
我从一项调查实验获得的数据中,将受访者随机分配到以下四个组之一: > summary(df$Group) Control Treatment1 Treatment2 Treatment3 59 63 62 66 尽管三个治疗组在施加的刺激方面确实略有不同,但我关心的主要区别是对照组和治疗组之间。所以我定义了一个虚拟变量Control: > summary(df$Control) TRUE FALSE 59 191 在调查中,受访者(除其他外)被要求选择他们偏好的两件事中的哪一项: > summary(df$Prefer) A B NA's 152 93 5 然后,在接受治疗组确定的刺激(如果不在对照组中则没有刺激)后,要求受访者在相同的两件事之间进行选择: > summary(df$Choice) A B 149 101 我想知道三个治疗组之一的存在是否对受访者在最后一个问题中做出的选择有影响。我的假设是,接受治疗的受访者比接受治疗的可能性A更大B。 鉴于我正在使用分类数据,因此我决定使用logit回归(如果您认为这是不正确的,请随时鸣叫)。由于受访者是随机分配的,我的印象是我不一定需要控制其他变量(例如,人口统计学),因此我将那些变量留给了这个问题。我的第一个模型如下: > x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit")) > summary(x0) Call: glm(formula …



3
一天中的时间是分类变量吗?
值可以为0、1、2,...,23的“一天中的小时”是分类变量吗?我很想说不,因为例如5比4或3更接近4或6。 另一方面,在23和0之间存在不连续性。 那么,它通常被认为是绝对的吗?请注意,“小时”是自变量之一,而不是我要预测的变量。


3
为什么我们需要虚拟代码分类变量
我不确定为什么我们需要虚拟代码分类变量。例如,如果我有一个类别变量,它具有四个可能的值0、1、2、3,则可以用二维替换它。如果变量的值为0,则它​​在二维中的值为0,0,如果变量为3,则它在二维中的值为1,1,依此类推。 我不确定为什么我们需要这样做?

1
使用单热编码时删除列之一
我的理解是,如果您的数据集具有高度相关的特征,则在机器学习中可能会出现问题,因为它们有效地编码了相同的信息。 最近有人指出,当对分类变量进行单次编码时,最终会具有相关功能,因此应删除其中一个作为“参考”。 例如,将性别编码为两个变量is_male和is_female会产生两个完全负相关的特征,因此他们建议仅使用其中一个,有效地将基线设置为男性,然后查看is_female列在预测算法中是否重要。 这对我来说很有意义,但是我没有在网上找到任何东西来暗示可能是这种情况,所以这是错误的还是我遗漏了一些东西? 可能的(未回答的)重复项:一键编码特征的共线性对SVM和LogReg是否重要?

8
您如何可视化3个类别变量之间的关系?
我有一个包含三个分类变量的数据集,我想在一张图中直观地显示所有三个变量之间的关系。有任何想法吗? 目前,我正在使用以下三个图形: 每张图都针对基线抑郁水平(轻度,中度,严重)。然后,在每个图表中,我查看治疗(0,1)与抑郁改善之间的关系(无,中等,严重)。 这3个图可以查看三向关系,但是有一种已知的方法可以处理一个图吗?

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 


4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
分类预测因子在逻辑回归中的意义
我在解释逻辑回归时无法解释类别变量的z值。在下面的示例中,我有3个类别的分类变量,根据z值,CLASS2可能是相关的,而其他则不相关。 但是现在这是什么意思呢? 我可以将其他班级合并成一个班级吗? 整个变量可能不是一个好的预测指标? 这仅是一个示例,此处的实际z值并非来自实际问题,我对其解释有困难。 Estimate Std. Error z value Pr(>|z|) CLASS0 6.069e-02 1.564e-01 0.388 0.6979 CLASS1 1.734e-01 2.630e-01 0.659 0.5098 CLASS2 1.597e+00 6.354e-01 2.514 0.0119 *

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.