Questions tagged «categorical-data»

分类(也称为标称)数据可以具有有限数量的可能的值,称为类别。分类值“标签”,而不是“度量”。请对离散但有序的数据类型使用[ordinal-data]标签。

1
用分类数据解释负二项式GLM的.L和.Q输出
我只是运行负二项式GLM,这是输出: Call: glm.nb(formula = small ~ method + site + depth, data = size.dat, init.theta = 1.080668549, link = log) Deviance Residuals: Min 1Q Median 3Q Max -2.2452 -0.9973 -0.3028 0.3864 1.8727 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.6954 0.1152 14.720 < 2e-16 *** method.L -0.6828 0.1637 -4.171 …

3
对中和缩放虚拟变量
我有一个包含分类变量和连续变量的数据集。建议我将分类变量转换为每个级别的二进制变量(即A_level1:{0,1},A_level2:{0,1})-我认为有些人将其称为“虚拟变量”。 话虽这么说,然后使用新变量对整个数据集进行居中和缩放会产生误导吗?似乎我将失去变量的“开/关”含义。 如果产生误导,是否意味着我应该分别对连续变量进行居中和缩放,然后将其重新添加到我的数据集中? TIA。

6
随机森林:如何处理测试集中的新因子水平?
我正在尝试使用R中的随机森林模型进行预测。 但是我得到了错误,因为某些因素在测试集中与训练集中具有不同的值。例如,一个因子在测试集中的Cat_2值34, 68, 76等不出现在训练集中。不幸的是,我无法控制测试集...我必须原样使用它。 我唯一的解决方法是使用将问题因子转换回数值as.numeric()。它的工作原理,但我不是很满意,因为这些值是没有意义的数字代码... 您是否认为还有另一种解决方案,可以从测试集中删除新值?但是,不删除1, 2, 14, 32训练和测试中所有其他因素值(比如说值等),并且包含可能对预测有用的信息。

2
如何将问卷中的顺序数据转换为适当的间隔数据?
是否有任何简单的方法可以将序数级别的数据转换为间隔级别(正好相反)?可以在Excel或SPSS中执行吗? 有了数据,说:序数级别上的10个问题(例如0-5比例,其中0 =“完全不”,5 =“一直”),我想对其进行转换,以便可以将其视为适当的问题用于参数测试目的的时间间隔级别数据(正态分布,无法进行的非参数测试)。 将非常感谢您的回答!

4
如何总结分类数据?
我一直在为以下问题而苦苦挣扎,希望对统计学家来说这是一个简单的问题(我是一个有统计学知识的程序员)。 我需要总结对调查的答复(用于管理)。该调查有100多个问题,分为不同区域(每个区域约5到10个问题)。所有答案都是分类的(按顺序,它们就像“一点也不”,“很少” ...“每天或更频繁”)。 管理层希望获得每个领域的摘要,这是我的问题:如何在相关问题中汇总分类答案?。问题太多了,无法为每个区域绘制图形甚至是格子图。与数字表相比,如果可能的话,我更喜欢采用视觉方法(例如,数字表不会读取)。 我唯一能想到的是计算每个区域中答案的数量,然后绘制直方图。 还有其他可用于分类数据的东西吗? 我使用R,但不确定是否相关,我觉得这更像是一个一般的统计问题。

2
通过多元回归捕获季节性以获取每日数据
我有一个季节性很强的产品的每日销售数据。我想在回归模型中捕获季节性。我已经读到,如果您有季度或每月数据,那么在这种情况下,您可以分别创建3和11个虚拟变量-但是我可以处理每日数据吗? 我有三年的每日数据。自变量是价格点,促销标志(是/否)和温度。因变量是该产品的销售额。我不是在寻找时间序列模型,而是在使用多元回归模型。

2
了解GLM中的虚拟(手动或自动)变量创建
如果在glm公式中使用了因子变量(例如,具有M和F级的性别),则会创建一个或多个虚拟变量,并且可以在glm模型摘要中找到它们以及相关的系数(例如,genderM) 如果不是代替R以此方式分解因子,而是将因子编码为一系列数字0/1变量(例如,genderM(1表示M,0表示F),genderF(1表示F,0表示0)。 M),然后将这些变量用作glm公式中的数字变量,系数结果会有所不同吗? 基本上,问题是:在使用因子变量和数值变量时,R是否使用不同的系数计算? 后续问题(可能由上述方法回答):除了让R创建虚拟变量的效率高之外,将因子重新编码为一系列数字0,1变量并在模型中使用这些变量是否还有其他问题?

2
为决策树分类功能编码的最佳做法?
在为线性回归编码分类特征时,有一条规则:假人的数量应比级别总数少一个(以避免共线性)。 决策树是否存在类似的规则(袋装,增强)?我之所以这样问是因为,Python的标准做法似乎是将n级别扩展到对我而言似乎不是最佳的n虚拟对象(sklearns OneHotEncoder或Pandas pd.get_dummies)。 作为编码决策树分类功能的最佳做法,您有何建议?

1
Python中的顺序逻辑回归
我想在Python中运行顺序逻辑回归-对于具有三个级别并具有一些解释性因素的响应变量。该statsmodels软件包支持二进制logit和多项式logit(MNLogit)模型,但不支持有序logit。由于基础数学没有太大不同,我想知道是否可以使用这些方法轻松实现?(或者,其他可以使用的Python软件包也受到赞赏。)

3
仅给出边际计数的联合分布的最大似然估计
令是两个类别变量的联合分布,其中。说从该分布中抽取了样本,但仅给出了边际计数,即: X ,ÿ X ,ÿ ∈ { 1 ,... ,ķ } Ñ Ĵ = 1 ,... ,ķpx,ypx,yp_{x,y}X,YX,YX,Yx,y∈{1,…,K}x,y∈{1,…,K}x,y\in\{1,\ldots,K\}nnnj=1,…,Kj=1,…,Kj=1,\ldots,K Sj=∑i=1nδ(Xi=l),Tj=∑i=1nδ(Yi=j),Sj=∑i=1nδ(Xi=l),Tj=∑i=1nδ(Yi=j), S_j = \sum_{i=1}^{n}{\delta(X_i=l)}, T_j = \sum_{i=1}^{n}{\delta(Y_i=j)}, 给定,的最大似然估计是?这是已知的吗?计算上可行吗?除了机器学习之外,还有其他合理的方法来解决这个问题吗?小号Ĵ,Ť Ĵpx,ypx,yp_{x,y}Sj,TjSj,TjS_j,T_j

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
贝瑞反演
我拥有关于美国葡萄酒销售的大量市场数据集,我想估计对某些优质葡萄酒的需求。这些市场份额基本上来自于以下形式的随机效用模型: 其中包括观察到的产品特征,表示产品价格,是影响需求且与价格相关的未观察到的产品特征,是误差项,索引个人,索引产品和指数市场(在这种情况下为城市)。Uijt=X′jtβ−αpjt+ξjt+ϵijt≡δjt+ϵjtUijt=Xjt′β−αpjt+ξjt+ϵijt≡δjt+ϵjtU_{ijt} = X’_{jt}\beta - \alpha p_{jt} + \xi_{jt} + \epsilon_{ijt} \equiv \delta_{jt} + \epsilon_{jt}XXXξ ε 我Ĵ 吨pppξξ\xiϵϵ\epsiloniiijjjttt 由于无法使用质量术语,因此我无法使用通常的条件logit模型,并且我没有好的仪器。但是,Berry(1994)开发了一种在多项式logit框架中线性化市场方程组非线性系统的策略,但我无法弄清楚他如何进行反演步骤。ξξ\xi 在真正的参数值,他说,估计市场份额应该等于“真实的”市场份额:为然后他建议将市场份额从 为 可以解决并将其消除。如果有人可以阐明该反演步骤的工作原理,甚至可以在Stata中实现它,那就太好了。非常感谢。小号Ĵ吨=小号 Ĵ吨(δ,α,β)δ=小号 -1(小号,α,β)ξsˆjt(X,β,α,ξ)=Sjts^jt(X,β,α,ξ)=Sjt\widehat{s}_{jt} (X, \beta , \alpha , \xi) = S_{jt}Sjt=sˆjt(δ,α,β)Sjt=s^jt(δ,α,β)S_{jt} = \widehat{s}_{jt}(\delta , \alpha , \beta)δ=sˆ−1(S,α,β)δ=s^−1(S,α,β)\delta = \widehat{s}^{-1}(S, \alpha, \beta)ξξ\xi Berry,ST 1994,“估计产品差异的离散选择模型”,兰德经济学期刊,第25卷,第2期,第242-62页

3
Mundlak固定效应程序是否适用于假人的逻辑回归?
我有一个包含8000个聚类和400万个观测值的数据集。不幸的是xtlogit,即使使用10%的子样本,我的统计软件Stata在使用其面板数据函数进行logistic回归时运行也相当缓慢。 但是,使用非面板logit功能时,结果会更快出现。因此,我可能会受益于使用logit修正后的数据来解决固定效应。 我相信该程序是“ Mundlak固定效应程序”的创造(Mundlak,Y。1978年。时间序列和横截面数据的合并。Econometrica,46(1),69-85)。 我在Antonakis,J.,Bendahan,S.,Jacquart,P.,&Lalive,R.(2010)的论文中找到了对此过程的直观解释。关于提出因果主张:审查和建议。《领导力季刊》 21(6)。1086-1120。我引用: 解决遗漏固定效应问题并仍然包含2级变量的一种方法是将所有1级协变量的聚类均值包括在估计模型中(Mundlak,1978)。聚类平均值可以作为回归变量包括在内,也可以从1级协变量中减去(即聚类平均居中)。聚类均值在聚类内是不变的(并且在聚类之间有所不同),并且允许对一级参数进行一致的估计,就像已包含固定效应一样(参见Rabe-Hesketh和Skrondal,2008年)。 因此,聚类平均居中似乎是解决我的计算问题的理想选择。但是,这些论文似乎是针对线性回归(OLS)的。 这种聚类平均居中的方法是否也适用于“复制”固定效应二进制逻辑回归? 一个更技术性的问题应该得出相同的答案:当数据集B是数据集A的均值中心版本时,数据集A是否xtlogit depvar indepvars, fe等于logit depvar indepvars数据集B? 我在这种聚类均值居中发现的另一个困难是如何应对假人。由于虚拟变量为0或1,它们在随机效应和固定效应回归中是否相同?他们不应该“居中”吗?

1
PROC Mixed和LME / LMER在R自由度上的区别
注意:这个问题是一个转贴,因为我的上一个问题出于法律原因不得不删除。 在比较SAS的PROC MIXED与R中lme的nlme软件包的功能时,我偶然发现了一些相当混乱的差异。更具体地说,不同测试的自由度在PROC MIXED和之间有所不同lme,我想知道为什么。 从以下数据集(以下给出的R代码)开始: ind:指示进行测量的个人的因子 fac:进行测量的器官 trt:表示治疗的因素 y:一些连续响应变量 这个想法是建立以下简单模型: y ~ trt + (ind):ind作为随机因子 y ~ trt + (fac(ind)):fac嵌套在ind作为随机因子 需要注意的是最后一个模型应引起奇异性,因为只有1的值y对每一个组合ind和fac。 第一模型 在SAS中,我建立以下模型: PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; 根据教程,R中使用的相同模型nlme应为: > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 两种模型对系数及其SE均给出相同的估计,但是在对F的影响进行F检验时trt,它们使用的自由度不同: SAS : Type …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

3
处理三级列联表的适当方法
我有一个三级列联表,其中包含几种物种的计数数据,收集它们的寄主植物以及该收集是否在下雨天发生(这实际上很重要!)。使用R,假数据可能是这样的: count <- rpois(8, 10) species <- rep(c("a", "b"), 4) host <- rep(c("c","c", "d", "d"), 2) rain <- c(rep(0,4), rep(1,4)) my.table <- xtabs(count ~ host + species + rain) , , rain = 0 species host a b c 12 15 d 10 13 , , rain = 1 species …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.