Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

4
GLM的伪R平方公式
我在《用R扩展线性模型》一书朱利安·J·法拉维(第59页)中找到了伪的公式。[R2[R2R^2 1 - ResidualDeviance空距离1个-残差空距离1-\frac{\text{ResidualDeviance}}{\text{NullDeviance}}。 这是GLM的伪的通用公式吗?[R2[R2R^2

3
认真研究R的时间序列
如果回想一下,可以追溯到首次进行时间序列分析的时间。您希望了解哪些工具,R软件包和Internet资源? 我想问的是,应该从哪里开始?具体来说,对于R的时间序列分析“新手”来说,R是否有任何资源可以真正解决它。
28 r  time-series 

1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

3
R中是否有用于离散均匀分布的默认函数?
R中的大多数标准发行版都有一系列命令-pdf / pmf,cdf / cmf,分位数,随机偏差(例如dnorm,pnorm,qnorm,rnorm)。 我知道使用一些标准命令来为离散均匀分布再现这些函数很容易,但是我是否已经意识到我不知道的用于内置建模R中离散均匀分布的首选函数家族?


3
使用带有R的引导程序计算p值
我使用“ boot”包来计算近似的两面自举p值,但是结果与使用t.test的p值相差太远。我无法弄清楚我在R代码中做错了什么。有人可以给我一个提示吗 time = c(14,18,11,13,18,17,21,9,16,17,14,15, 12,12,14,13,6,18,14,16,10,7,15,10) group=c(rep(1:2, each=12)) sleep = data.frame(time, group) require(boot) diff = function(d1,i){ d = d1[i,] Mean= tapply(X=d$time, INDEX=d$group, mean) Diff = Mean[1]-Mean[2] Diff } set.seed(1234) b3 = boot(data = sleep, statistic = diff, R = 5000, strata=sleep$group) pvalue = mean(abs(b3$t) > abs(b3$t0)) pvalue 两面自举的p值(pvalue)= 0.4804,但t.test的两面p值为0.04342。两个p值的差约为11倍。怎么会这样

26
您觉得哪些R包在日常工作中最有用?
重复线程: 我刚安装了R的最新版本。我应该获得哪些软件包? 您无法想象日常使用数据的R包是什么?请同时列出常规工具和特定工具。 更新:至于24.10.10 ggplot2似乎以7票成为赢家。 提到的不止一个的其他软件包是: plyr -4 RODBC,RMySQL-4 sqldf -3 lattice -2 zoo -2 Hmisc/rms -2 Rcurl -2 XML -2 谢谢大家的回答!
28 r 

3
执行变量选择时如何处理多重共线性?
我有一个包含9个连续自变量的数据集。我正在尝试从这些变量中进行选择,以使模型适合单个百分比(因变量)变量Score。不幸的是,我知道几个变量之间将存在严重的共线性。 我尝试使用stepAIC()R中的函数进行变量选择,但是奇怪的是,该方法似乎对方程中列出变量的顺序很敏感... 这是我的R代码(因为它是百分比数据,所以我对得分使用了logit转换): library(MASS) library(car) data.tst = read.table("data.txt",header=T) data.lm = lm(logit(Score) ~ Var1 + Var2 + Var3 + Var4 + Var5 + Var6 + Var7 + Var8 + Var9, data = data.tst) step = stepAIC(data.lm, direction="both") summary(step) 由于某种原因,我发现方程式开头列出的变量最终被stepAIC()函数选择,结果可以通过列出来操纵,例如,Var9首先(跟随波浪号)。 在这里拟合模型的一种更有效(且争议较小)的方法是什么?我使用线性回归并没有真正陷入僵局:我唯一想做的就是能够了解9个变量中的哪一个真正驱动了变量的Score变化。优选地,这将是考虑这9个变量的共线性的强大潜力的某种方法。

4
如何在R中进行降维
我有一个矩阵,其中a(i,j)告诉我我浏览过页面j的次数。有27K个人和95K页。我想在页面空间中有一些“尺寸”或“方面”,它们对应于经常一起查看的页面集。我的最终目标是能够计算出个人浏览过1维,2维等页面的频率。 我已经阅读了有关主成分分析和单值分解的R文档,并执行了这些命令,但是我不确定如何继续。 如何使用降维方法来做到这一点?还是这确实是一个聚类问题,而我应该研究聚类算法? 非常感谢您的见解〜l

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

4
使用R进行尺寸缩减的t-SNE vs PCA有什么问题?
我有一个336x256浮点数的矩阵(336个细菌基因组(列)x 256个标准化四核苷酸频率(行),例如,每列总计1)。 使用主成分分析运行分析时,我得到很好的结果。首先,我根据数据计算kmeans聚类,然后运行PCA并基于2D和3D中的初始kmeans聚类为数据点着色: library(tsne) library(rgl) library(FactoMineR) library(vegan) # read input data mydata <-t(read.csv("freq.out", header = T, stringsAsFactors = F, sep = "\t", row.names = 1)) # Kmeans Cluster with 5 centers and iterations =10000 km <- kmeans(mydata,5,10000) # run principle component analysis pc<-prcomp(mydata) # plot dots plot(pc$x[,1], pc$x[,2],col=km$cluster,pch=16) # plot …
27 r  pca  tsne 


2
在多层次模型中,估计与不估计随机效应相关参数的实际含义是什么?
在多层次模型中,估计与不估计随机效应相关参数的实际和解释相关的含义是什么?提出此问题的实际原因是,在R中的lmer框架中,当在参数之间的相关性模型中进行估算时,没有通过MCMC技术估算p值的已实现方法。 例如,看这个例子(下面引用的部分),M2与M3的实际含义是什么。显然,在一种情况下不会估计P5,而在另一种情况下会估计。 问题 出于实际原因(希望通过MCMC技术获得p值),即使P5基本不为零,也可能希望在随机效应之间没有相关性的情况下拟合模型。如果执行此操作,然后通过MCMC技术估算p值,结果是否可以解释?(我知道@Ben Bolker之前曾提到过,“虽然从统计学上讲,将显着性测试与MCMC相结合有点不连贯,尽管我理解这样做的冲动(更容易获得置信区间)”,所以,如果这样做会使您睡得更好在晚上假装我说出置信区间。) 如果一个人无法估计P5,是否等于断言它为0? 如果P5确实非零,那么P1-P4的估计值会受到什么影响? 如果P5确实非零,那么P1-P4的误差估计会受到什么影响? 如果P5确实非零,那么以何种方式无法包含P5的模型解释有缺陷? 借用@Mike Lawrence的答案(比我更了解的人可以随意用完整的模型表示法替换它,我并不完全相信我可以以合理的忠诚度做到这一点): M2 :( V1 ~ (1|V2) + V3 + (0+V3|V2)估计P1-P4) M3 :( V1 ~ (1+V3|V2) + V3估计P1-P5) 可以估计的参数: P1:全局拦截 P2:V2的随机效应截距(即,对于V2的每个级别,该级别的截距与全局截距的偏差) P3:对V3的效果(斜率)的单个全局估计 P4:V2的每个级别内的V3效果(更具体地说,给定级别内的V3效果偏离V3的整体效果的程度),同时使跨级别的截距偏差和V3效果偏差之间的相关性为零V2。 P5:跨V2级别的截距偏差和V3偏差之间的相关性 从足够大和广泛的模拟以及使用lmer的R中附带的代码中得出的答案是可以接受的。


4
在R中生成视觉上吸引人的密度热图
虽然我知道在R中有一系列用于生成热图的函数,但问题是我无法生成视觉上吸引人的图。例如,以下图像是我要避免的热图的很好示例。第一个明显缺乏细节,而另一个(基于相同的观点)太详细而无法使用。这两个图都是由spatstat R包中的density()函数生成的。 如何获得更多的“流量”?我的目标是获得更多商用SpatialKey(屏幕截图)软件能够产生的外观。 有什么提示,算法,程序包或代码行可以带我朝这个方向前进吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.