Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

4
将数据分为N个相等的组
我有一个数据框,其中包含4列中的值: 例如:ID,price,click count,rating 我想做的是将此数据帧“拆分”为N个不同的组,其中每个组将具有相同数量的行,且行,点击数和评级属性的分布相同。 任何建议都将受到高度赞赏,因为我对如何解决这个问题丝毫不了解!
11 r  distributions 

2
如何在线性回归中对二元/二分法独立预测变量执行残差分析?
我正在下面的R中执行多元线性回归,以预测所管理基金的回报。 reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata) 在这里,只有GRI和MBA是二元/二分法预测因子;其余的预测变量是连续的。 我正在使用此代码生成二进制变量的残差图。 plot(rawdata$GRI, reg$residuals) abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) plot(rawdata$MBA, reg$residuals) abline(lm(reg$residuals~rawdata$MBA, data=rawdata), col="red") # regression line (y~x) 我的问题: 我知道如何检查残差图是否为连续的预测变量,但是当自变量为二进制时,如何测试线性回归的假设,例如均方差? 残留图:

4
如何处理缺失值,以便为使用LASSO进行特征选择准备数据?
我的情况: 小样本数量:116 二元结果变量 解释变量的长列表:44 解释变量并非来自我的头上;他们的选择基于文献。 样本中的大多数情况和大多数变量的值都缺失。 选择特征的方法:LASSO R的glmnet程序包不允许我运行glmnet例程,这显然是由于我的数据集中缺少值。似乎有多种方法可以处理丢失的数据,所以我想知道: LASSO是否对我可以使用的估算方法施加任何限制? 插补方法的最佳选择是什么?理想情况下,我需要一种可以在SPSS(最好)或R上运行的方法。 UPDATE1:从下面的一些答案中可以明显看出,在考虑插补方法之前,我确实处理了一些更基本的问题。我想在此添加新的问题。在回答中建议将其编码为常数值并创建一个新变量,以处理“不适用”值和组套索的用法: 您是否可以说,如果我使用组LASSO,我将能够对连续预测变量和分类预测变量使用建议的方法?如果是这样,我认为这相当于创建一个新类别-我很警惕这可能会带来偏差。 有人知道R的glmnet软件包是否支持组LASSO吗?如果没有,有人会建议将逻辑回归与之结合的另一种方法吗?在CRAN资料库中可以找到提及LASSO组的几个选项,最适合我的情况的建议是什么?也许是SGL? 这是我的上一个问题(如何从我的原始长列表中选择变量的子集以执行逻辑回归分析?)的后续文章。 OBS:我不是统计学家。

1
似然比检验和Wald检验为R中的glm提供了不同的结论
我正在从通用模型,线性模型和混合模型复制示例。我的MWE如下: Dilution <- c(1/128, 1/64, 1/32, 1/16, 1/8, 1/4, 1/2, 1, 2, 4) NoofPlates <- rep(x=5, times=10) NoPositive <- c(0, 0, 2, 2, 3, 4, 5, 5, 5, 5) Data <- data.frame(Dilution, NoofPlates, NoPositive) fm1 <- glm(formula=NoPositive/NoofPlates~log(Dilution), family=binomial("logit"), data=Data) summary(object=fm1) 输出量 Call: glm(formula = NoPositive/NoofPlates ~ log(Dilution), family = binomial("logit"), …


3
累积/累积图(或“可视化洛伦兹曲线”)
我不知道这些图被称为什么,因此我给这个问题一个愚蠢的标题。 假设我有一个如下的有序数据集 4253 4262 4270 4383 4394 4476 4635 ... 每个数字对应于某个用户在网站上发布的帖子数量。我正在根据经验调查这里定义的“参与不平等”现象。 为了便于掌握,我想制作一个图表,使读者可以快速推断出诸如“ 10%的用户贡献50%的数据”之类的陈述。它看起来应该类似于这个公认的糟糕的油漆草图: 我不知道如何称呼它,因此我不知道在哪里寻找。另外,如果有人在中实现R,那将是非常棒的。


2
Cox PH分析和协变量选择中的倾向得分加权
关于对事件生存时间进行Cox比例风险建模时的倾向得分加权(IPTW): 我有前瞻性的注册表数据,我们希望了解大多数情况下患者已经在基线时服用的药物的治疗效果。因此,我不确定如何最好地分析数据。潜在地,一些基线变量在很大程度上受到治疗的影响,而不是相反(例如某些生物标志物)。我对于应该在倾向评分模型中估计权重的哪些协变量以及应该在coxph模型中作为协变量的哪些协变量(如果有的话)不知所措。正确方向的任何提示都将有所帮助!到目前为止,我还没有找到任何有关CoxPh建模的文献。 我认为协变量代表Cox PH协变量应包括代表基线(可能)影响治疗结果的基线治疗,但我不确定。 如何确定应将哪些变量作为协变量包括在Cox模型中,而不是用于计算倾向得分权重? 后续问题: 我了解评估已经开始的某种干预措施的治疗效果的继承问题-即在开始观察之前在患者中普遍存在。关于引入与风险的时间变化相关的偏见(例如,不良副作用在治疗的第一年更加普遍)以及受治疗影响的协变量。如果我没记错的话,这是由于心血管终点和激素替代疗法引起的观察性和随机性差异的原因。另一方面,在我的数据集中,我们有兴趣查看治疗的可能不利影响。 如果我使用倾向评分调整来调查普遍使用者的治疗效果,即在观察开始之前已经使用过药物,则在队列数据中,我们会观察到药物治疗的不利影响(这就是我们所要寻找的)。我可以排除高估与治疗相关的风险的可能性吗?即是说,只要风险显着增加,它是“绝对”没有保护意义的吗? 我无法完全想象一个例子,在这种情况下,这种偏见会导致高估虚假风险关联的风险。

6
识别离群值以进行非线性回归
我正在研究螨的功能响应领域。我想做一个回归来估计Rogers II型函数的参数(攻击率和处理时间)。我有一个测量数据集。 我怎样才能最好地确定异常值? 对于我的回归,我在R中使用以下脚本(非线性回归):(日期集是一个简单的2列文本文件,称为data.txt文件,具有N0值(初始猎物数量)和FR值(24小时内被猎物食用的数量): library("nlstools") dat <- read.delim("C:/data.txt") #Rogers type II model a <- c(0,50) b <- c(0,40) plot(FR~N0,main="Rogers II normaal",xlim=a,ylim=b,xlab="N0",ylab="FR") rogers.predII <- function(N0,a,h,T) {N0 - lambertW(a*h*N0*exp(-a*(T-h*N0)))/(a*h)} params1 <- list(attackR3_N=0.04,Th3_N=1.46) RogersII_N <- nls(FR~rogers.predII(N0,attackR3_N,Th3_N,T=24),start=params1,data=dat,control=list(maxiter= 10000)) hatRIIN <- predict(RogersII_N) lines(spline(N0,hatRIIN)) summary(RogersII_N)$parameters 为了绘制残差图,我使用以下脚本: res <- nlsResiduals (RogersII_N) plot (res, type = 0) hist …

2
如何改善神经网络的稳定性?
我在R中使用神经网络来构建具有14个输入和一个输出的NN。我使用相同的输入训练数据和相同的网络体系结构/设置几次构建/训练网络。 生成每个网络之后,我将其用于独立的一组测试数据上以计算一些预测值。我发现,尽管每次构建网络时所有输入(训练数据和测试数据)都保持不变,但预测数据的每次迭代都存在较大差异。 我知道每次在NN中产生的权重都会有所不同,并且没有两个神经网络会是相同的,但是在给定相同数据的情况下,我该如何尝试在每个列车上产生更一致的网络?

1
基尼系数和误差范围
我有一个时间序列的数据,每个时间点的N = 14个计数,我想在每个时间点计算此估计的基尼系数和标准误差。 由于我在每个时间点只有N = 14个计数,因此我通过计算折刀方差来进行计算,即从方程7汤臣Ogwang的标准误差”“计算基尼系数和它的一种方便的方法”。其中G ^(Ñ,ķ)是N个值的无元件的基尼系数ķ和 ˉ ģ(X)是平均的的G ^(Ñ,ķ)。变种(G )= n − 1ñ× ∑ñk = 1(G (n ,k )− G¯(n ))2变种⁡(G)=ñ-1个ñ×∑ķ=1个ñ(G(ñ,ķ)-G¯(ñ))2\operatorname{var}(G) = \frac{n-1}{n} \times \sum_{k=1}^n (G(n,k)-\bar{G}(n))^2G (n ,k )G(ñ,ķ)G(n,k)ķķkG¯(x )G¯(X)\bar{G}(x)G (n ,k )G(ñ,ķ)G(n,k) 上面的方差公式的直接天真实现。 calc.Gini.variance <- function(x) { N <- length(x) # using jacknifing as suggested by Tomson Ogwang …

2
在R中从因子转换为数值变量时遇到问题[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 7年前关闭。 我想将因子变量转换为数字变量,但as.numeric没有达到我期望的效果。 下面,我将基于原始变量获取该变量的数字版本的摘要统计信息。均值以1递增。...(他推测)因子的水平同时具有名称和数字,并且我希望新变量的值来自于何时as.numeric使用该数字的名称? > describe.by(as.numeric(df$sch), df$sch) group: var n mean sd median trimmed mad min max range skew kurtosis se 1 1 5389 1 0 1 1 0 1 1 0 NaN NaN 0 --------------------------------------------------------- group: 001 var n mean sd median trimmed mad min max range …


1
GLM使用哪种残差和库克距离?
有人知道库克距离的公式是什么吗?最初的库克距离公式使用学生化残差,但是为什么R使用std。计算GLM的库克距离图时的皮尔逊残差。我知道没有为GLM定义学生化残差,但是用于计算Cook距离的公式如何? 假设以下示例: numberofdrugs <- rcauchy(84, 10) healthvalue <- rpois(84,75) test <- glm(healthvalue ~ numberofdrugs, family=poisson) plot(test, which=5) 库克距离的公式是什么?换句话说,计算红色虚线的公式是什么?标准化皮尔逊残差的公式从何而来?

2
通过名称在R中查找列索引[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 6年前关闭。 在数据框中,我想按名称获取列的索引。例如: x <- data.frame(foo=c('a','b','c'),bar=c(4,5,6),quux=c(4,5,6)) 我想知道“酒吧”的列索引。 我想出了以下内容,但看起来不太雅致。我缺少更直接的内置函数吗? seq(1,length(names(x)))[names(x) == "bar"] [1] 2
11 r 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.