Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

3
多次表面接触后手指上的细菌积聚:非正常数据,重复测量,交叉参与者
介绍 我有一些参与者在两种情况下反复接触被大肠杆菌污染的表面(A =戴手套,B =不戴手套)。我想知道戴着和不戴着手套的指尖上的细菌数量之间以及接触数之间是否存在差异。这两个因素都是参与者。 实验方法: 参与者(n = 35)用同一根手指触摸每个方块一次,最多8个接触点(见图a)。 然后,我擦拭参与者的手指,并在每次接触后测量指尖上的细菌。然后,他们用一根新手指触摸不同数量的表面,以此类推,从1到8个触点(见图b)。 这是真实数据:真实数据 该数据是非正态的,因此请参见下面的细菌边际分布| NumberContacts。x =细菌。每个方面都是不同数量的联系人。 模型 根据使用gamma(link =“ log”)和NumberContacts的多项式的变形虫的建议,从lme4 :: glmer尝试: cfug<-glmer(CFU ~ Gloves + poly(NumberContacts,2) + (-1+NumberContacts|Participant), data=(K,CFU<4E5), family=Gamma(link="log") ) plot(cfug) 注意 Gamma(link =“ inverse”)不会说PIRLS减半未能减少偏差。 结果: cfug的拟合vs残差 qqp(resid(cfug)) 题: 是否正确定义了我的glmer模型,以纳入每个参与者的随机影响以及每个人都同时进行实验A和实验B的事实? 加成: 参与者之间似乎存在自相关。这可能是因为没有在同一天对它们进行测试,并且细菌瓶随着时间的推移而增长和下降。有关系吗? acf(CFU,lag = 35)显示一个参与者与另一个参与者之间的显着相关性。

3
如何处理等于1或-1的随机效应相关性?
当处理复杂的最大混合模型时(估计给定数据和模型的所有可能随机效应)是完美的(+1或-1)或在某些随机效应之间几乎完美的相关性,这种情况并不罕见。为了讨论的目的,让我们观察以下模型和模型摘要 Model: Y ~ X*Cond + (X*Cond|subj) # Y = logit variable # X = continuous variable # Condition = values A and B, dummy coded; the design is repeated # so all participants go through both Conditions # subject = random effects for different subjects Random effects: Groups Name …

2
在梯度下降中使用固定步长时,为什么步长会变小?
假设我们正在做一个关于梯度合适的玩具示例,使用固定步长最小化二次函数。()α = 0.03 甲= [ 10 ,2 ; 2 ,3 ]XŤ一个XxTAxx^TAxα = 0.03α=0.03\alpha=0.03甲= [ 10 ,2 ; 2 ,3 ]A=[10,2;2,3]A=[10, 2; 2, 3] 如果在每次迭代中绘制的轨迹,我们将得到下图。当我们使用固定步长时,为什么点变得“非常密集” ?直观地,它看起来不像固定步长,而是递减的步长。Xxx PS:R代码包括情节。 A=rbind(c(10,2),c(2,3)) f <-function(x){ v=t(x) %*% A %*% x as.numeric(v) } gr <-function(x){ v = 2* A %*% x as.numeric(v) } x1=seq(-2,2,0.02) x2=seq(-2,2,0.02) df=expand.grid(x1=x1,x2=x2) contour(x1,x2,matrix(apply(df, …

1
使用lme4 glmer和glmer.nb帮助解释计数数据GLMM-负二项式与Poisson
我对GLMM的规范和解释有一些疑问。3个问题绝对是统计学上的问题,2个是关于R的更具体的问题。我在这里发布,因为最终我认为问题是GLMM结果的解释。 我目前正在尝试安装GLMM。我使用的是美国经纬度数据库中的美国人口普查数据。我的观察是人口普查区。我的因变量是空置住房的数量,我对空置与社会经济变量之间的关系很感兴趣。这里的示例很简单,仅使用两个固定的影响:非白人人口百分比(种族)和家庭收入中位数(阶级)及其相互作用。我想包括两个嵌套的随机效应:几十年和几十年之内的片段,即(十年/片段)。我正在考虑这些随机变量,以控制空间(即区域之间)和时间(即数十年之间)的自相关。但是,我也对十年作为固定影响感兴趣,因此我也将它作为固定因素包括在内。 由于我的自变量是非负整数计数变量,因此我一直在尝试拟合泊松和负二项式GLMM。我使用的是房屋总数的对数。这意味着系数被解释为对空置率的影响,而不是对空置房屋总数的影响。 我目前有使用lme4的glmer和glmer.nb估计的泊松和负二项式GLMM的结果。根据我对数据和研究领域的了解,对系数的解释对我来说很有意义。 如果您需要数据和脚本,它们位于我的Github上。该脚本包括我在构建模型之前所做的更多描述性调查。 这是我的结果: 泊松模型 Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) ['glmerMod'] Family: poisson ( log ) Formula: R_VAC ~ decade + P_NONWHT + a_hinc + P_NONWHT * a_hinc + offset(HU_ln) + (1 | decade/TRTID10) Data: scaled.mydata AIC BIC logLik deviance df.resid 34520.1 34580.6 …

1
自适应GAM在mgcv中平滑
Simon Wood关于GAM的书及其相关的R包mgcv在谈到GAM理论以及对真实数据和模拟数据进行模型拟合时都非常详尽且内容丰富。 对于一维平滑,除了决定是否实施循环基函数和自适应基函数外,实际上没有什么可担心的,与三次,薄板和P样条平滑相比,它可以提供非常不同的预测结果,因为适应性情况下,多个GAM沿着样条曲线拟合到不同区域。据我所知,时间序列建模中循环基数很常见,而当数据相对于响应变量变化很大时,应该考虑采用自适应平滑。但是,应该“谨慎并谨慎地”使用自适应平滑。 我已经研究GAM一段时间了,考虑到我的研究问题,我发现自己在实施顺利方面的想法很多。mgcv包括17种不同的平滑效果(根据我的数量)。我已经考虑了三次和P样条平滑。 我现在的问题是:如果最终目标是将拟合的GAM用于预测目的,那么何时应考虑对非自适应对应变量进行自适应平滑?就我的目的而言,我坚持使用默认的GCV平滑度标准,即使该标准可能会变得不够平滑。 应用生态GAM的文献在不断增长,但是我还没有遇到能够实现自适应平滑的研究。 任何建议表示赞赏。
9 r  mgcv 

2
Kaplan-Meier曲线似乎与Cox回归不同
在R中,我正在对癌症患者进行生存数据分析。 我已经在CrossValidated和其他地方阅读了有关生存分析的非常有用的文章,并认为我了解如何解释Cox回归结果。然而,一个结果仍然困扰着我... 我正在比较生存与性别。Kaplan-Meier曲线显然对女性患者有利(我检查了几次我添加的图例是正确的,最大存活时间为4856天的患者确实是女性): 而Cox回归正在返回: Call: coxph(formula = survival ~ gender, data = Clinical) n= 348, number of events= 154 coef exp(coef) se(coef) z Pr(>|z|) gendermale -0.3707 0.6903 0.1758 -2.109 0.035 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 exp(coef) exp(-coef) lower .95 …

1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

4
如何解释考克斯风险模型的生存曲线?
您如何从考克斯比例风险模型解释生存曲线? 在这个玩具示例中,假设我们对数据age变量有一个cox比例风险模型kidney,并生成了生存曲线。 library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() 例如,在时间,哪个说法是正确的?还是两者都不对?200200200 陈述1:我们将剩下20%的主题(例如,如果我们有人,那么到200天时,我们应该剩下200个左右), 100010001000200200200200200200 陈述2:对于一个给定的人,他/她有200 20%20%20\%机会在200天生存200200200。 我的尝试:我不认为这两个陈述是相同的(如果我错了,请纠正我),因为我们没有iid假设(所有人的生存时间不是独立地来自一个分布)。在这里我的问题类似于逻辑回归,每个人的危险率取决于该人的。βTxβTx\beta^Tx

1
具有模拟功能的重要性抽样低于预期的覆盖率
我正在尝试回答R中的重要性抽样评估方法积分问题。基本上,用户需要计算 ∫π0f(x)dx=∫π01cos(x)2+x2dx∫0πf(x)dx=∫0π1cos⁡(x)2+x2dx\int_{0}^{\pi}f(x)dx=\int_{0}^{\pi}\frac{1}{\cos(x)^2+x^2}dx 使用指数分布作为重要性分布 q(x)=λ exp−λxq(x)=λ exp−λxq(x)=\lambda\ \exp^{-\lambda x} 并找到的值,该值可以更好地逼近积分(是)。我重铸问题,因为平均值的评价μ的˚F (X )超过[ 0 ,π ]:积分然后只是π μ。 λλ\lambdaself-studyμμ\muf(x)f(x)f(x)[0,π][0,π][0,\pi]πμπμ\pi\mu 因此,让是的PDF X 〜ù(0 ,π ),并且让ÿ 〜˚F (X ):现在的目标是估计p(x)p(x)p(x)X∼U(0,π)X∼U(0,π)X\sim\mathcal{U}(0,\pi)Y∼f(X)Y∼f(X)Y\sim f(X) μ=E[Y]=E[f(X)]=∫Rf(x)p(x)dx=∫π01cos(x)2+x21πdxμ=E[Y]=E[f(X)]=∫Rf(x)p(x)dx=∫0π1cos⁡(x)2+x21πdx\mu=\mathbb{E}[Y]=\mathbb{E}[f(X)]=\int_{\mathbb{R}}f(x)p(x)dx=\int_{0}^{\pi}\frac{1}{\cos(x)^2+x^2}\frac{1}{\pi}dx 使用重要性抽样。我在R中进行了仿真: # clear the environment and set the seed for reproducibility rm(list=ls()) gc() graphics.off() set.seed(1) # function to be integrated f <- function(x){ 1 …

1
根据数学理论从“倾斜均匀分布”生成随机数
出于某种目的,我需要从“倾斜均匀”分布中生成随机数(数据)。该分布的“斜率”可能会在某个合理的间隔内变化,然后我的分布应基于该斜率从均匀变为三角形。这是我的推论: 让我们简化一下,生成数据格式为到000(蓝色,红色是均匀分布)。为了获得蓝线的概率密度函数,我只需要那条线的方程式。从而:乙BB F(x )= t g(φ )X + ÿ(0 )f(x)=tg(φ)x+Y(0)f(x) = tg(\varphi)x + Y(0) 由于(图片): Ť g ^(φ )ÿ(0 )= 1 / B - Y(0 )B / 2= 1乙- 吨克(φ )B2tg(φ)=1/B−Y(0)B/2Y(0)=1B−tg(φ)B2\begin{align} tg(\varphi) &= \frac{1/B - Y(0)}{B/2} \\[5pt] Y(0) &= \frac{1}{B} - tg(\varphi)\frac{B}{2} \end{align} 我们有: F(x )= t g(φ )X + …

1
Kruskal-Wallis内置的R函数与手动计算之间略有不一致
我对以下内容感到困惑,并且无法在其他地方找到答案。 我试图在做一些统计的同时学习R,并且作为练习,我尝试通过像在R中一样“手动”执行这些内置R函数的结果来仔细检查。 ,对于Kruskal-Wallis考试,我一直得到不同的结果,但我不知道为什么。 例如,我正在查看练习中分发的以下数据 activity <- c(2, 4, 3, 2, 3, 3, 4, 0, 4, 3, 4, 0, 0, 1, 3, 1, 2, 0, 3, 1, 0, 3, 4, 0, 1, 2, 2, 2, 3, 2) group <- c(rep("A", 11), rep("B", 10), rep("C", 9)) group <- factor(group) data.raw <- data.frame(activity, …

2
为什么不能通过XX'和X'X的特征值分解来获得X的有效SVD?
我正在尝试手工制作SVD: m<-matrix(c(1,0,1,2,1,1,1,0,0),byrow=TRUE,nrow=3) U=eigen(m%*%t(m))$vector V=eigen(t(m)%*%m)$vector D=sqrt(diag(eigen(m%*%t(m))$values)) U1=svd(m)$u V1=svd(m)$v D1=diag(svd(m)$d) U1%*%D1%*%t(V1) U%*%D%*%t(V) 但是最后一行不会返回m。为什么?似乎与这些特征向量的迹象有关...还是我误解了该过程?
9 r  svd  eigenvalues 

1
r中套索的多元线性回归
我正在尝试创建一个简化的模型来预测许多高度相关的因变量(DV)(〜450)。 我的自变量(IV)也很多(〜2000)并且高度相关。 如果我使用套索分别为每个输出选择一个简化的模型,那么当我遍历每个因变量时,不能保证获得相同的独立变量子集。 是否有在R中使用套索的多元线性回归? 这不是组套索。套索组IV。我想要多元线性回归(意味着DV是矩阵,而不是标量的向量),它也实现套索。(注意:正如NRH所指出的,这是不正确的。组套索是一个通用术语,它包括对IV进行分组的策略,但也包括对其他参数(如DV)进行分组的策略) 我发现本文进入了所谓的稀疏重叠集套索 这是一些进行多元线性回归的代码 > dim(target) [1] 6060 441 > dim(dictionary) [1] 6060 2030 > fit = lm(target~dictionary) 这是在单个DV上执行套索的一些代码 > fit = glmnet(dictionary, target[,1]) 这就是我想做的: > fit = glmnet(dictionary, target) Error in weighted.mean.default(y, weights) : 'x' and 'w' must have the same length 一次选择适合所有目标的特征

2
用异方差模拟线性回归
我正在尝试模拟与我拥有的经验数据匹配的数据集,但是不确定如何估算原始数据中的错误。经验数据包括异方差性,但是我不希望将其转换掉,而是使用带有误差项的线性模型来再现经验数据的模拟。 例如,假设我有一些经验数据集和一个模型: n=rep(1:100,2) a=0 b = 1 sigma2 = n^1.3 eps = rnorm(n,mean=0,sd=sqrt(sigma2)) y=a+b*n + eps mod <- lm(y ~ n) 使用plot(n,y)我们得到以下内容。 但是,如果尝试模拟数据simulate(mod),则异方差性将被删除并且不会被模型捕获。 我可以使用广义最小二乘法模型 VMat <- varFixed(~n) mod2 = gls(y ~ n, weights = VMat) 可以基于AIC提供更好的模型拟合,但是我不知道如何使用输出来模拟数据。 我的问题是,如何创建一个模型,使我能够模拟数据以匹配原始的经验数据(上述n和y)。具体来说,我需要一种使用模型来估算sigma2的方法吗?

1
样条混合效果模型
我正在用样条曲线项拟合混合效果模型,该应用程序的随时间变化的趋势是曲线线性的。但是,我要评估的是曲线趋势是否是由于个体偏离线性而出现的,还是在组水平上使组水平拟合显得曲线线性的一种影响。我给出了一个可重现的示例,该示例使JM包中的数据集变得无聊。 library(nlme) library(JM) data(pbc2) fitLME1 <- lme(log(serBilir) ~ ns(year, 2), random = ~ year | id, data = pbc2) fitLME2 <- lme(log(serBilir) ~ year, random = ~ ns(year, 2) | id, data = pbc2) 本质上,我想知道其中哪一个更适合我的数据。但是通过比较anova给了我一个不祥的警告: Model df AIC BIC logLik Test L.Ratio p-value fitLME1 1 7 3063.364 3102.364 -1524.682 fitLME2 …
9 r  splines  lme4-nlme 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.