Questions tagged «categorical-data»

分类(也称为标称)数据可以具有有限数量的可能的值,称为类别。分类值“标签”,而不是“度量”。请对离散但有序的数据类型使用[ordinal-data]标签。

1
分类变量和连续变量之间相互作用的解释系数
我对连续变量和分类变量之间的相互作用系数的解释有疑问。这是我的模型: model_glm3=glm(cog~lg_hag+race+pdg+sex+as.factor(educa)+(lg_hag:as.factor(educa)), data=base_708) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 21.4836 2.0698 10.380 < 2e-16 *** lg_hag 8.5691 3.7688 2.274 0.02334 * raceblack -8.4715 1.7482 -4.846 1.61e-06 *** racemexican -3.0483 1.7073 -1.785 0.07469 . racemulti/other -4.6002 2.3098 -1.992 0.04687 * pdg 2.8038 0.4268 6.570 1.10e-10 *** sexfemale 4.5691 1.1203 …

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

3
虚拟变量陷阱问题
我正在运行一个大型OLS回归,其中所有自变量(大约400)都是虚拟变量。如果包括所有变量,则存在完美的多重共线性(虚拟变量陷阱),因此在运行回归之前,我必须忽略其中一个变量。 我的第一个问题是,应该忽略哪个变量?我已经读到,最好忽略许多观测值中存在的变量,而不是仅少数观测值中存在的变量(例如,如果几乎所有观测值都是“男性”或“女性”,而只有少数是“未知” ”,则省略“男性”或“女性”)。这合理吗? 在使用省略的变量进行回归之后,我能够估算出省略的变量的系数值,因为我知道我所有自变量的总体均值应为0。因此,我使用这一事实来移动所有变量的系数值。包含变量,并获得省略变量的估计值。我的下一个问题是,是否可以使用某种类似的技术来估算被忽略变量的系数值的标准误差。因为这样,我必须重新运行回归,省略其他变量(并包括我在第一次回归中省略的变量),以获取最初省略的变量的系数的标准误差估计。 最后,我注意到,我得到的系数估计值(在重新定零附近之后)根据省略的变量而略有不同。从理论上讲,最好进行多个回归,每个回归都忽略一个不同的变量,然后对所有回归的系数估计值求平均?


4
进行统计测试以区分两种产品
我有一个来自客户调查的数据集,我想部署一个统计测试以查看产品1和产品2之间是否存在显着差异。 这是客户评论的数据集。 速度是从很差,很差,可以,很好到非常好。 customer product1 product2 1 very good very bad 2 good bad 3 okay bad 4 very good okay 5 bad very good 6 okay good 7 bad okay 8 very good very bad 9 good good 10 good very good 11 okay okay 12 very good good …

1
个人问题调查方法
我的一位统计学家朋友告诉我,一种有趣的技术可用于在处理敏感问题的调查中获得诚实的答复。我记得该方法的基本要点,但想知道是否有人知道细节,是否有人引用它。 故事是,佛罗里达州AMA希望评估医生之间的药物使用情况。他们发出了一个死者的问卷。IIRC上的指示大致是“滚死。如果您曾经吸毒或得到6,则写下6;否则写下任何数字”。这样的想法是,如果有人拿出医生的问卷调查表并看到一个六,他可以说他没有服药,他只是碰巧一个六。


2
分类名义变量之间的类别之间的相关性
我有一个包含两个分类名义变量的数据集(均包含5个分类)。我想知道是否(以及如何)能够从这两个变量中识别类别之间的潜在关联。 换句话说,例如类别的结果 一世一世i变量1中的变量与变量2中的特定类别有很强的相关性。由于我有两个具有5个类别的变量,因此所有类别的总相关性分析将归结为25个结果(至少以我希望的方式/希望它能正常工作)。ĴĴj 我试图将问题表达为具体的问题: 问题1:假设我将分类变量转换为每个值(类别)5个不同的虚拟变量。我也为第二个变量运行相同的过程。然后,我想确定虚拟1.i和2.i之间的相关性(例如)。对我来说,通过普通的相关系数过程执行此过程在统计上是否正确?通过此过程得出的相关系数是否可以正确了解两个虚拟变量之间的相关性? 问题2:如果问题一中描述的过程是有效过程,是否可以同时对所有2个(或更多)分类名义变量类别进行分析? 我正在使用的程序是SPSS(20)。

2
混合模型的参数,半参数和非参数引导
接下来的嫁接摘自本文。我是新手,要引导并尝试为带有R boot包的线性混合模型实现参数,半参数和非参数自举。 R代码 这是我的R代码: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out 问题 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 


1
如何在R中拟合Bradley–Terry–Luce模型,而无需复杂的公式?
Bradley-Terry-Luce(BTL)模型指出,其中是对象被判定为“更好” 的概率,参数比对象,而和是参数。pĴ 我= 升Ô 克一世Ť− 1(δĴ-δ一世)pĴ一世=升ØG一世Ť-1个(δĴ-δ一世)p_{ji} = logit^{-1}(\delta_j - \delta_i)p我Ĵp一世Ĵp_{ij}ĴĴj一世一世iδ一世δ一世\delta_iδĴδĴ\delta_j 这似乎是glm函数的候选者,family =二项式。但是,公式将类似于“成功〜S1 + S2 + S3 + S4 + ...”,其中Sn是虚拟变量,如果对象n是比较中的第一个对象,则为1,如果为n,则为-1。第二个,否则为0。那么Sn的系数将是对应的。dÈ 升吨一个ñdË升Ť一个ñdelta_n 仅使用几个对象,这将相当容易管理,但可能导致公式很长,并且需要为每个对象创建一个虚拟变量。我只是想知道是否有更简单的方法。假设要比较的两个对象的名称或数量是变量(因数),对象1和对象2,如果判断对象1更好,则成功为1,如果对象2为更好,则成功为0。


2
将范围数据视为连续数据时的最佳做法
我正在查看丰度是否与大小有关。大小(当然)是连续的,但是,以这样的规模记录了丰度: A = 0-10 B = 11-25 C = 26-50 D = 51-100 E = 101-250 F = 251-500 G = 501-1000 H = 1001-2500 I = 2501-5000 J = 5001-10,000 etc... A至Q ... 17级。我在想一种可能的方法是给每个字母分配一个数字:最小,最大或中位数(即A = 5,B = 18,C = 38,D = 75.5 ...)。 潜在的陷阱是什么?因此,将这些数据视为分类会更好吗? 我已经阅读了这个问题,提供了一些想法-但此数据集的关键之一是类别不均匀-因此将其视为类别将假定A和B之间的差异与A之间的差异相同B和C ...(可以通过使用对数进行纠正-感谢Anonymouse) 最终,在考虑其他环境因素之后,我想看看是否可以将大小用作丰度的预测指标。预测也将在一个范围内:给定大小X以及因子A,B和C,我们预测丰度Y会介于最小和最大之间(我想这可能跨越一个或多个尺度点:大于最小D而小于最大F ...虽然越精确越好)。

3
随机效应可以仅应用于分类变量吗?
这个问题听起来可能很愚蠢,但是... 随机效应仅适用于分类变量(例如个体ID,人口ID等)是正确的吗,例如说是分类变量:X一世X一世x_i ÿ一世ÿ一世y_i〜βX一世βX一世\beta_{x_i} βX一世βX一世\beta_{x_i}〜ñø ř 米(μ ,δ2)ñØ[R米(μ,δ2)Norm(\mu, \delta^2) 但是根据原理,随机效应不能应用于连续变量(例如高度,质量...),例如:ž一世ž一世z_i ÿ一世ÿ一世y_i〜α + β⋅ž一世α+β⋅ž一世\alpha + \beta \cdot z_{i} 因为只有一个系数不能约束?听起来合乎逻辑,但我想知道为什么统计文献中从未提及它!谢谢!ββ\beta 编辑:但是如果我约束像〜?那是随机效应吗?但这与我对施加的约束不同-在这里,我约束变量,而在前面的示例中,我约束了系数!对我来说,它开始看起来像是一团糟。。。不管怎么说,放这个约束没有多大意义,因为是已知值,所以也许这个想法很奇怪:-)ž一世ž一世z_iž一世ž一世z_iñø ř 米(μ ,δ2)ñØ[R米(μ,δ2)Norm(\mu, \delta^2)βX一世βX一世\beta_{x_i}ž一世ž一世z_i

2
耶茨连续性校正2 x 2列联表
我想收集有关2 x 2列联表的Yates连续性校正领域的人们的意见。维基百科文章提到它可能会调整得太远,因此仅在有限的意义上使用。这里的相关文章没有提供更多的见解。 那么对于定期使用这些测试的人,您有何想法?使用校正是否更好? 一个真实的例子,在95%的置信水平下会产生不同的结果。请注意,这是一个作业问题,但是我们的班级根本不处理Yates的连续性校正,因此,即使您没有为我做作业,也请入睡。 samp <- matrix(c(13, 12, 15, 3), byrow = TRUE, ncol = 2) colnames(samp) <- c("No", "Yes") rownames(samp) <- c("Female", "Male") chisq.test(samp, correct = TRUE) chisq.test(samp, correct = FALSE)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.