Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

3
重塑/重组数据的最佳方法是什么?
我是实验室(志愿者)的研究助理。我和一小群人被要求进行数据分析,以从大型研究中提取一组数据。不幸的是,这些数据是通过某种在线应用程序收集的,并且没有编程为以最可用的形式输出数据。 下图说明了基本问题。有人告诉我这叫做“重塑”或“重组”。 问题:从图1到图2进入具有超过10k条目的大数据集的最佳过程是什么?
12 r  excel  data-cleaning 

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
Lmer模型无法收敛
我的数据在这里描述当拟合重复测量方差分析时,什么会导致aov中的“ Error()模型为奇异误差”? 我试图使用来查看交互的效果,lmer所以我的基本情况是: my_null.model <- lmer(value ~ Condition+Scenario+ (1|Player)+(1|Trial), data = my, REML=FALSE) my.model <- lmer(value ~ Condition*Scenario+ (1|Player)+(1|Trial), data = my, REML=FALSE) 运行anova会给我带来显着的结果,但是当我尝试考虑随机斜率((1+Scenario|Player))时,模型将失败,并显示以下错误: Warning messages: 1: In commonArgs(par, fn, control, environment()) : maxfun < 10 * length(par)^2 is not recommended. 2: In optwrap(optimizer, devfun, getStart(start, rho$lower, rho$pp), : convergence …
12 r  lme4-nlme 


2
方差-协方差矩阵解释
假设我们有一个线性模型,Model1并vcov(Model1)给出以下矩阵: (Intercept) latitude sea.distance altitude (Intercept) 28.898100 -23.6439000 -34.1523000 0.50790600 latitude -23.643900 19.7032500 28.4602500 -0.42471450 sea.distance -34.152300 28.4602500 42.4714500 -0.62612550 altitude 0.507906 -0.4247145 -0.6261255 0.00928242 对于此示例,此矩阵实际显示什么?我们可以为模型及其独立变量安全地做出哪些假设?

1
手动计算对数似然,以进行广义非线性最小二乘回归(nlme)
我正在尝试为函数优化的广义非线性最小二乘回归计算对数似然功能在R包,使用由距离上AA进化树假设(布朗运动产生的方差协方差矩阵从包中)。以下可重现的R代码使用x,y数据和具有9个分类单元的随机树来拟合gnls模型:f(x)=β1(1+xβ2)β3f(x)=β1(1+xβ2)β3f(x)=\frac{\beta_1}{(1+\frac x\beta_2)^{\beta_3}}gnlsnlmecorBrownian(phy=tree)ape require(ape) require(nlme) require(expm) tree <- rtree(9) x <- c(0,14.51,32.9,44.41,86.18,136.28,178.21,262.3,521.94) y <- c(100,93.69,82.09,62.24,32.71,48.4,35.98,15.73,9.71) data <- data.frame(x,y,row.names=tree$tip.label) model <- y~beta1/((1+(x/beta2))^beta3) f=function(beta,x) beta[1]/((1+(x/beta[2]))^beta[3]) start <- c(beta1=103.651004,beta2=119.55067,beta3=1.370105) correlation <- corBrownian(phy=tree) fit <- gnls(model=model,data=data,start=start,correlation=correlation) logLik(fit) 我想logLik根据从获得的估计参数来“手动”计算对数似然(在R中,但不使用函数),gnls因此它与的输出匹配logLik(fit)。注意:我不是要估计参数;我只想计算该函数估计的参数的对数似然gnls性(尽管如果有人提供了一个可重现的示例,说明了如何在不使用的情况下估计参数gnls,我将非常感兴趣!)。 我不确定如何在R中执行此操作。S和S-Plus的混合效果模型(Pinheiro和Bates)中描述的线性代数表示法让我非常头疼,而且我的尝试都没有logLik(fit)。以下是Pinheiro和Bates描述的详细信息: 对数似然为广义非线性最小二乘模型 其中的计算方法如下:φ 我 = 甲我 βÿ一世= f一世(ϕ一世,v一世)+ ϵ一世yi=fi(ϕi,vi)+ϵiy_i=f_i(\phi_i,v_i)+\epsilon_iϕ一世= A一世βϕi=Aiβ\phi_i=A_i\beta 升(β,σ2,δ| ÿ)= − 12{ N日志(2 πσ2)+ ∑我= …

4
假设检验用于两个以上样本之间的中位数差异
题 将三组人的测试成绩另存为R中的向量。 set.seed(1) group1 <- rnorm(100, mean = 75, sd = 10) group2 <- rnorm(100, mean = 85, sd = 10) group3 <- rnorm(100, mean = 95, sd = 10) 我想知道这些群体之间的中位数是否存在显着差异。我知道我可以使用Wilcoxon测试来测试第1组和第2组。 wilcox.test(group1, group2) 但是,这一次只比较两个组,我想同时比较所有三个组。我想进行统计检验,得出p值为0.05的显着性水平。有人可以帮忙吗? 编辑#1-情绪中位数测试 按照用户Hibernating的建议答案,我尝试了Mood的中位数测试。 median.test <- function(x, y){ z <- c(x, y) g <- rep(1:2, c(length(x), length(y))) m …

5
术语频率/文档反向频率(TF / IDF):加权
我有一个数据集,代表1000个文档以及其中出现的所有单词。因此,行代表文档,列代表单词。因此,例如,单元格代表单词j在文档i中出现的时间。现在,我必须使用tf / idf方法找到单词的“权重”,但实际上我不知道该怎么做。有人可以帮我吗?(i,j)(i,j)(i,j)jjjiii

4
在R中如何计算ROC下面积的p值
我努力寻找一种方法来计算接收器操作员特征(ROC)下面积的p值。我有一个连续变量和诊断测试结果。我想看看AUROC是否具有统计意义。 我发现许多处理ROC曲线的软件包:pROC,ROCR,caTools,验证,Epi。但是,即使花了很多时间阅读文档和测试,我仍然找不到方法。我想我只是想念它。
12 r  p-value  roc 

1
对lmer和p值的困惑:memisc包中的p值与MCMC的p值相比如何?
我的印象是,该功能下lmer()的lme4包没有产生p值(见lmer,p值和所有)。 我一直在按以下问题使用MCMC生成的p值:混合模型中的显着效果,lme4以及以下问题:在的包中的输出中找不到p值lmer()lm4R。 最近,我尝试了一个名为memisc的程序包,并将其getSummary.mer()模型的固定效果保存到一个csv文件中。就像是魔术一样,p出现了一个名为的列,该列与我的MCMC p值非常紧密地匹配(并且不会遭受使用带来的处理时间pvals.fnc())。 我试探了其中的代码,getSummary.mer并发现了生成p值的行: p <- (1 - pnorm(abs(smry@coefs[, 3]))) * 2 这是否意味着可以直接从lmer输出生成p值,而不是运行pvals.fnc?我意识到这无疑将引发“ p值拜物教”辩论,但我很想知道。我没有听说过memisc,当涉及到前面提到的lmer。 更加简洁:与使用MCMC p值生成的值相比,使用MCMC p值有什么好处(如果有)getSummary.mer()?

1
如何将与三次样条曲线拟合的lm()的输出转换为回归方程
我有一些代码和输出,我想构建一个模型。我不知道如何使用此输出来构建模型: require("splines") x <- c(0.2, 0.23, 0.26, 0.29, 0.33, 0.46, 0.53 ) y <- c(0.211, 0.2026, 0.2034, 0.2167, 0.2177, 0.19225, 0.182) fit <- lm(y ~ ns(x,3)) summary(fit) 请注意,ns()将为自然三次样条生成B样条基础矩阵。因此,该模型y针对x使用三个自由度的B样条回归。这样的模型的方程是什么样的?
12 r  splines 

4
简单存储数据以在R中进行统计分析的最佳方法
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 6年前关闭。 一段时间以来,我一直在使用文本文件来存储我的R数据。但是对于最近的项目,文件的大小太大了,原始文本文件无法处理。最好的简单替代方法是什么?
12 r  dataset 

1
在隐马尔可夫模型中选择“最佳”模型的标准
我有一个时间序列数据集,试图将其拟合隐马尔可夫模型(HMM),以便估计数据中的潜在状​​态数。我的伪代码是这样的: for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } 现在,在通常的回归模型中,BIC倾向于支持最简约的模型,但对于HMM,我不确定这是在做什么。谁真的知道BIC标准倾向于哪种HMM?我也能够获得AIC和似然值。由于我试图推断出真实的州总数,因此其中一个标准是否比另一个标准“更好”?

2
每级1个观察值的混合模型
我正在glmer为一些业务数据拟合随机效应模型。目的是分析分销商的销售业绩,并考虑到地区差异。我有以下变量: distcode:发行商ID,大约有800个级别 region:顶级地理ID(北,南,东,西) zone:嵌套在中层地理区域内region,总共约30个层级 territory:嵌套在zone约150层中的低层地理 每个分销商仅在一个地区运营。棘手的部分是这是汇总数据,每个分发服务器只有一个数据点。因此,我有800个数据点,尽管有规律地尝试,但我试图(至少)容纳800个参数。 我已经安装了一个模型,如下所示: glmer(ninv ~ 1 + (1|region/zone/territory) + (1|distcode), family=poisson) 尽管可以打印出注释,但运行没有问题: 随机效应的分组因子的级别数等于 n,即观察数 这是明智的做法吗?我得到了所有系数的有限估计,而且AIC也不是不合理的。如果我尝试使用带身份链接的泊松GLMM,则AIC会更糟,因此日志链接至少是一个不错的起点。 如果我绘制拟合值与响应的关系图,我得到的基本上是完美拟合,我猜这是因为每个分配器有一个数据点。那合理吗,还是我做的事完全愚蠢? 这正在使用一个月的数据。我可以获取多个月的数据并以这种方式进行一些复制,但是我必须添加新的术语来表示逐月的变化以及可能的交互作用,对吗? ETA:我再次运行了上面的模型,但是没有family参数(所以只是一个高斯LMM而不是GLMM)。现在lmer给我以下错误: (函数(fr,FL,start,REML,verbose)中的错误:用于随机效应的分组因子的数量级必须小于观察值的数量 因此,我想我做的事情不明智,因为改变家庭不会产生影响。但是现在的问题是,为什么它首先起作用?

1
使用机器学习学习预测财务时间序列的第一步
我正在尝试掌握如何使用机器学习来预测未来的财务时间序列1或更多步骤。 我有一个包含描述性数据的财务时间序列,我想形成一个模型,然后使用该模型预测未来的n步。 到目前为止,我一直在做的是: getSymbols("GOOG") GOOG$sma <- SMA(Cl(GOOG)) GOOG$range <- GOOG$GOOG.High-GOOG$GOOG.Low tail(GOOG) GOOG.Open GOOG.High GOOG.Low GOOG.Close GOOG.Volume GOOG.Adjusted sma range 2013-05-07 863.01 863.87 850.67 857.23 1959000 857.23 828.214 13.20 2013-05-08 857.00 873.88 852.91 873.63 2468300 873.63 834.232 20.97 2013-05-09 870.84 879.66 868.23 871.48 2200600 871.48 840.470 11.43 2013-05-10 875.31 880.54 872.16 …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.