Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

3
使用R制作通过处理分离数据的散点图的好方法是什么?
一般而言,我对R和统计资料非常陌生,但我需要做一个散点图,我认为这可能超出了它的本机能力。 我有几个观测向量,我想用它们作一个散点图,每对都属于三类之一。我想创建一个散点图,以颜色或符号将每个类别分开。我认为这比生成三个不同的散点图更好。 我的另一个问题是,在每个类别中,一个点上都有大的群集,但是一组中的群集比其他两组中的群集大。 有人知道这样做的好方法吗?我应该安装软件包并学习如何使用?有人做过类似的事情吗? 谢谢

3
如何知道时间序列是固定的还是非固定的?
我使用R,我搜索在谷歌和了解到kpss.test(),PP.test()和adf.test()用来了解时间序列的平稳性。 但是我不是统计学家,他可以解释他们的结果 > PP.test(x) Phillips-Perron Unit Root Test data: x Dickey-Fuller = -30.649, Truncation lag parameter = 7, p-value = 0.01 > kpss.test(b$V1) KPSS Test for Level Stationarity data: b$V1 KPSS Level = 0.0333, Truncation lag parameter = 3, p-value = 0.1 Warning message: In kpss.test(b$V1) : p-value greater than …

6
折线图有太多线,是否有更好的解决方案?
我试图绘制一段时间内用户的操作数(在这种情况下为“点赞”)。 因此,我将“操作次数”作为我的y轴,我的x轴是时间(周),每行代表一个用户。 我的问题是,我想查看一组约100个用户的数据。折线图很快就变成了100条折线。我可以使用一种更好的图形来显示此信息吗?还是我应该考虑能够打开/关闭单独的行? 我想一次查看所有数据,但是能够高精度地识别动作的数量并不是很重要。 为什么我要这样做 对于我的一部分用户(主要用户),我想找出哪些用户可能不喜欢某个日期推出的应用程序的新版本。我正在寻找单个用户的操作数量大幅下降。

2
主成分分析中双峰的解释
我遇到了一个很好的教程:《使用R进行统计分析的手册》。第13章。主成分分析:奥林匹克七项全能,其中涉及如何用R语言进行PCA。我不理解图13.3的解释: 因此,我正在绘制第一个特征向量与第二个特征向量。这意味着什么?假设对应于第一特征向量的特征值解释了数据集中60%的变化,第二特征值-特征向量解释了20%的变化。将它们相互绘制意味着什么?

3
R对文本分类任务的缩放程度如何?[关闭]
我试图与R同步。最终我想使用R库进行文本分类。我只是想知道人们在进行文本分类时对R的可伸缩性有何经验。 我可能会遇到高维数据(约30万维)。我正在研究使用SVM和随机森林作为分类算法。 R库会扩展到我的问题规模吗? 谢谢。 编辑1:只是为了澄清,我的数据集可能有1000-3000行(也许更多)和10个类。 编辑2:由于我是R的新手,因此我将要求海报在可能的情况下更加具体。例如,如果您建议一个工作流程/管道,请确保尽可能提及每个步骤中涉及的R库。一些额外的指针(例如示例,示例代码等)将锦上添花。 编辑3:首先,谢谢大家的评论。其次,我很抱歉,也许我应该为这个问题提供更多的背景信息。我是R的新手,但对文本分类却不太了解。我已经使用tm包对我的数据的某些部分进行了预处理(删除,删除停用词,tf-idf转换等),以使您对事物有所了解。即使只有大约200个文档,tm也是如此缓慢,以至于我担心可伸缩性。然后我开始玩FSelector,即使那真的很慢。这就是我进行操作的关键所在。 编辑4:我刚想到我有10个班级,每个班级大约有300份培训文档,实际上我是在整个培训集中构建termXdoc矩阵,从而产生了很高的维度。但是,如何将每个千分之一分类问题简化为一系列二进制分类问题呢?这将大大减少k-1步骤每一步的培训文档的数量(并因此减少维度),不是吗?那么这是一种好方法吗?与普通的多类实现相比,它的准确性如何?

1
居中如何使PCA有所不同(对于SVD和本征分解)?
将数据居中(或取消定义)对PCA有什么区别?我听说它可以简化数学运算,也可以防止第一台PC被变量的均值控制,但是我觉得我还不能完全掌握这个概念。 例如,此处的最佳答案是如何使数据居中摆脱回归和PCA中的截距?描述了不居中如何将第一个PCA拉过原点,而不是点云的主轴。基于我对如何从协方差矩阵的特征向量中获得PC的理解,我不明白为什么会发生这种情况。 而且,我自己进行的有无居中的计算似乎毫无意义。 考虑irisR 中的数据集中的setosa花。我按如下方式计算了样本协方差矩阵的特征向量和特征值。 data(iris) df <- iris[iris$Species=='setosa',1:4] e <- eigen(cov(df)) > e $values [1] 0.236455690 0.036918732 0.026796399 0.009033261 $vectors [,1] [,2] [,3] [,4] [1,] -0.66907840 0.5978840 0.4399628 -0.03607712 [2,] -0.73414783 -0.6206734 -0.2746075 -0.01955027 [3,] -0.09654390 0.4900556 -0.8324495 -0.23990129 [4,] -0.06356359 0.1309379 -0.1950675 0.96992969 如果我首先对数据集进行居中,则会得到完全相同的结果。这似乎很明显,因为居中根本不会改变协方差矩阵。 df.centered <- scale(df,scale=F,center=T) e.centered<- …
30 r  pca  svd  eigenvalues  centering 

3
其方差膨胀因子I应该是使用:
我正在尝试使用vifR包中的函数解释方差膨胀因子car。该函数既打印广义并且还GVIF 1 /(2 ⋅ DF )。根据帮助文件,这后一个值VIFVIF\text{VIF}GVIF1/(2⋅df)GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})} 为了调整置信椭圆的尺寸,该函数还会打印GVIF ^ [1 /(2 * df)],其中df是与该项相关的自由度。 我不明白这个解释在帮助文件的意思,所以我不知道我是否应该使用或GVIF 1 /(2 ⋅ DF )。对于我的模型这两个值有很大的不同(最大GVIF为〜60 ;最大GVIF 1 /(2 ⋅ DF )为〜3)。GVIFGVIF\text{GVIF}GVIF1/(2⋅df)GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})}GVIFGVIF\text{GVIF}606060GVIF1/(2⋅df)GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})}333 有人可以向我解释我应该使用哪一个,调整置信椭球的尺寸意味着什么?

4
McNemar检验和卡方检验有什么区别,您如何知道何时使用它们?
我尝试阅读不同的资料,但仍不清楚哪种测试适合我的情况。关于数据集,我要问三个不同的问题: 在不同的时间测试受试者的X感染。我想知道X之后的X的正比例与X之前的X的正比例是否相关: After |no |yes| Before|No |1157|35 | |Yes |220 |13 | results of chi-squared test: Chi^2 = 4.183 d.f. = 1 p = 0.04082 results of McNemar's test: Chi^2 = 134.2 d.f. = 1 p = 4.901e-31 根据我的理解,由于数据是重复测量的,所以我必须使用麦克尼马尔检验,该检验用于检验X的正数比例是否已更改。 但是我的问题似乎需要卡方检验-测试X之后的阳性比例是否与X之前的阳性比例相关。 我什至不确定我是否正确理解了麦克尼马尔检验与卡方检验之间的区别。如果我的问题是:“与以前不同的X感染对象的比例是多少?”将是正确的检验方法? 类似的情况,但我在某个时间点测量了两种不同的感染,而不是之前和之后: Y |no |yes| X|No |1157|35 | |Yes |220 …

5
GBM中的交互深度是什么意思?
我对R中gbm中的交互深度参数有一个疑问。这可能是一个菜鸟问题,对此我深表歉意,但是我认为该参数表示树中终端节点的数量基本上是X方向的,预测变量之间的相互作用?只是想了解它是如何工作的。另外,如果我有一个数据集,其中包含两个不同的因子变量,而同一个数据集,则我得到的模型就完全不同了,除了将这两个因子变量合并为一个因子(例如,因子1中的X级别,因子2中的Y级别,合并变量具有X * Y因子)。后者比前者更具预测性。我曾以为,增加互动深度会促进这种关系。


5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
使用glmnet进行甲基化数据的特征选择和建模(p >> N)
我想使用GLM和Elastic Net来选择那些相关功能+建立一个线性回归模型(即预测和理解,因此最好保留相对较少的参数)。输出是连续的。这是每基因50的情况。我一直在阅读有关该软件包的信息,但是我不确定要执行的步骤:200002000020000505050glmnet 执行CV选择lambda: cv <- cv.glmnet(x,y,alpha=0.5) (Q1)给定输入数据,您会选择其他alpha值吗? (Q2)在建立模型之前,我还需要做其他事情吗? 拟合模型: model=glmnet(x,y,type.gaussian="covariance",lambda=cv$lambda.min) (Q3)有什么比“协方差”更好的选择? (Q4)如果CV选择了lambda,为什么需要此步骤nlambda=? (Q5)使用lambda.min还是更好lambda.1se? 获取系数,看看哪些参数掉了(“。”): predict(model, type="coefficients") 在帮助页面有很多种predict方法(例如predict.fishnet,predict.glmnet,predict.lognet等)。但是,正如我在一个示例中看到的那样,任何“简单”的预测都是如此。 (Q6)我应该用predict或者predict.glmnet还是其他? 尽管我已经读过有关正则化方法的文章,但我在R和这些统计软件包中还是一个新手,因此很难确定我是否正在使我的问题适应代码。任何建议都将受到欢迎。 更新 基于 “如前所述,类train的对象包含一个称为的元素finalModel,这是具有通过重采样选择的调整参数值的拟合模型。该对象可以按传统方式用于生成新样本的预测,模型的预测功能。” 使用caret调整α和拉姆达: trc = trainControl(method=cv, number=10) fitM = train(x, y, trControl = trC, method="glmnet") 是否fitM取代先前的步骤2?如果是这样,如何立即指定glmnet选项(type.gaussian="naive",lambda=cv$lambda.min/1se)? 接下来的predict步骤,我可以替换model为fitM吗? 如果我做 trc = trainControl(method=cv, number=10) fitM = train(x, y, trControl = trC, method="glmnet") …

1
如何通过逻辑回归计算拟合值的标准误差?
当您从逻辑回归模型预测拟合值时,如何计算标准误差?我的意思是拟合值,而不是系数(涉及Fishers信息矩阵)。 我只发现了如何获得与数字R(例如,这里的R-帮助,或在这里对堆栈溢出),但我找不到公式。 pred <- predict(y.glm, newdata= something, se.fit=TRUE) 如果您可以提供在线资源(最好是在大学网站上),那就太好了。


2
计算R中的转移矩阵(Markov)
R(内置函数)中是否有一种方法可以根据一组观测值计算马尔可夫链的转移矩阵? 例如,采用如下数据集并计算一阶转换矩阵? dat<-data.frame(replicate(20,sample(c("A", "B", "C","D"), size = 100, replace=TRUE)))
29 r  markov-process 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.