Questions tagged «stratification»

一种采样技术,其中根据采样前所有单元已知的特征将感兴趣的种群划分为子集(“层”)。

3
了解分层的交叉验证
分层交叉验证和交叉验证有什么区别? 维基百科说: 在分层k折交叉验证中,选择折数以使平均响应值在所有折数中均大致相等。在二分类的情况下,这意味着每个折页包含两种类标签的大致相同的比例。 但是我还是很困惑。 mean response value在这种情况下是什么意思? 为什么#1重要? 一个人如何在实践中获得第一?

2
为什么要使用分层交叉验证?为什么这不损害与差异相关的利益?
有人告诉我使用分层交叉验证是有益的,尤其是在响应类不平衡时。如果交叉验证的一个目的是帮助解释我们原始训练数据样本的随机性,那么除非您确定原始训练集具有代表性的阶级分布,否则确保使每一折具有相同的类别分布将不利于此。 我的逻辑有缺陷吗? 编辑 我对这种方法是否会损害简历的价值很感兴趣。我可以理解为什么如果您的样本量很小/类别非常不平衡/两者都有,那么为了避免没有一个代表次要类别的代表,为什么有必要这样做。 本文苹果对苹果在交叉验证研究:陷阱在分类绩效考核提出了分层的情况很好,但所有的论据似乎量“分层提供了保障和更多的一致性”,但没有安全保障就需要给予足够的数据。 答案仅仅是“由于缺乏足够的数据,我们出于必要而使用它”。?

1
分层抽样与随机抽样在分类中生成训练数据的好处
我想知道在将原始数据集分为训练和测试集进行分类时,使用分层抽样而不是随机抽样是否有任何/某些优势。 另外,分层抽样是否比随机抽样给分类器带来更大的偏差? 我想使用分层抽样进行数据准备的应用程序是一个随机森林分类器,在2上进行了训练2323\frac{2}{3}原始数据集的 3。在分类器之前,还有一个合成样本生成的步骤(SMOTE [1]),可以平衡类的大小。 [1] Chawla,Nitesh V.等。“ SMOTE:合成少数族群过采样技术。 ”人工智能研究杂志16(2002):321-357。

1
用层和层-协变量相互作用拟合Cox模型与拟合两个Cox模型是否不同?
在Harrell的《回归建模策略》(第二版)中,有一节(第20.1.7节)讨论了Cox模型,其中包括我们也要估计其对生存率有主要影响的协变量(年龄在以下示例中)与我们不想估计其主要影响的协变量(在以下示例中为性别)。 具体而言:假设在总体中,(未知,真实)危险遵循模型ħ (吨)h(t)h(t) h (t )= { hF(t )经验(β1个年龄),H米(t )经验((β1个+ β2)年龄),对于女性患者男性患者h(t)={hf(t)exp⁡(β1age),for female patienshm(t)exp⁡((β1+β2)age),for male patiensh(t) = \begin{cases} h_f(t) \exp(\beta_1 \textrm{age}), & \textrm{for female patiens} \\ h_m(t) \exp((\beta_1 + \beta_2) \textrm{age}), & \textrm{for male patiens} \end{cases} 其中HFhfh_f,H米hmh_m是未知的,真实的,不应被估计的基准风险函数和β1个β1\beta_1,β2β2\beta_2是未知的,真正的参数来从数据中估算出来。 (这个例子几乎是从书中摘录的。) 现在,Harrell表示可以将以上情况重写为分层Cox模型模型1: h (t )= h性别(t )经验(β1个年龄 + β2X)h(t)=hgender(t)exp⁡(β1age+β2X)h(t) = h_{\textrm{gender}}(t) \exp(\beta_1 \textrm{age} + …

2
经验分布替代
赏金: 完整的奖金将颁发给别人谁提供任何发表的论文,它使用或提及的估计参考以下。F~F~\tilde{F} 动机: 本部分对您可能并不重要,我怀疑它不会帮助您获得赏金,但是由于有人问了动机,这就是我正在努力的目标。 我正在研究统计图论问题。标准稠密图限制性目的是在这个意义上的对称函数,w ^ (Û ,v )= w ^ (v ,Ú )。取样在图上Ñ顶点可以被认为是取样Ñ在单位间隔均匀值(û 我为我= 1 ,... ,ÑW:[0,1]2→[0,1]W:[0,1]2→[0,1]W : [0,1]^2 \to [0,1]W(u,v)=W(v,u)W(u,v)=W(v,u)W(u,v) = W(v,u)nnnnnnUiUiU_ii=1,…,ni=1,…,ni = 1, \dots, n),那么边的概率为W (U i,U j)。我们得到的邻接矩阵被称为一个。(i,j)(i,j)(i,j)W(Ui,Uj)W(Ui,Uj)W(U_i, U_j)AAA 我们可以把作为密度˚F = w ^ / ∬ W¯¯假设∬ w ^ > 0。如果我们基于A来估计f,而对f没有任何约束,那么我们将无法获得一致的估计。我发现一个有趣的结果,当f来自一组可能的函数时,不断估计f。从这个估计和Σ 一,我们可以估算w ^。WWWf=W/∬Wf=W/∬Wf = W / \iint W∬W>0∬W>0\iint …

1
随机森林(或其他分类器)的分层分类
因此,我得到了大约60 x 1000的矩阵。我将其视为具有1000个特征的60个对象。这60个对象分为3类(a,b,c)。每个类别20个对象,我们知道真正的分类。我想在这60个训练示例集上进行有监督的学习,并且我对分类器的准确性(和相关指标)以及对1000个特征的特征选择都感兴趣。 首先,我的命名方式如何? 现在真正的问题是: 如我所述,我可以在上面添加随机森林,或者其他任何数量的分类器。但是有一个微妙之处-我真的只关心区分c类与a类和b类。我可以合并类a和b,但是有一种很好的方法来使用先验知识,即所有非c对象都可能形成两个不同的集群吗?我更喜欢使用随机森林或其变体,因为事实证明它对类似于我的数据有效。但是我可以说服我尝试其他方法。

2
在R randomForest中进行替换采样
randomForest实现不允许采样超过观察次数,即使使用替换采样也是如此。为什么是这样? 工作正常: rf <- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE) rf <- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE) 我想做的事: rf <- randomForest(Species ~ ., iris, sampsize=c(51, 1, 1), replace=TRUE) Error in randomForest.default(m, y, ...) : sampsize can not be larger than class frequency 没有分层样本的类似错误: rf <- randomForest(Species ~ …


1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
从训练集中删除重复项以进行分类
假设我有很多关于分类问题的行: X1,...XN,YX1,...XN,YX_1, ... X_N, Y 其中是 /预测变量,是该行的要素组合所属的类。X1,...,XNX1,...,XNX_1, ..., X_NYYY 许多特征组合及其类在数据集中重复进行,我正在使用它来拟合分类器。我只是想知道是否可以删除重复项(我基本上group by X1 ... XN Y在SQL中执行a )?谢谢。 PS: 这是针对仅二进制存在的数据集,其中类先验非常偏斜
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.