Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

4
在R与SciPy中拟合对数正态分布
我已经使用R与一组数据拟合了对数正态模型。结果参数为: meanlog = 4.2991610 sdlog = 0.5511349 我想将此模型转移到Scipy,这是我以前从未使用过的模型。使用Scipy,我可以得到1和3.1626716539637488488 + 90的形状和比例-非常不同的数字。我也尝试过使用meanlog和sdlog的exp,但是继续得到奇怪的图形。 我已经阅读了所有关于scipy的文档,但是对于这种情况下的形状和比例参数仍然感到困惑。自己编写该函数是否有意义?不过,这似乎容易出错,因为我是scipy的新手。 SCIPY对数正态(BLUE)与R对数正态(RED): 对采取什么方向有任何想法吗?顺便说一下,这些数据非常适合R模型,因此,如果看起来像Python中的其他内容,请随时共享。 谢谢! 更新: 我正在运行Scipy 0.11 这是数据的子集。实际样本为38k +,平均值为81.53627: 子集: x [60,170,137,138,81,140,78,46,1,168,138,148,145,35,82,126,66,147,88,106,80,54,83,13, 102、54、134、34 ] numpy.mean(x) 99.071428571428569 或者: 我正在研究捕获pdf的功能: def lognoral(x, mu, sigma): a = 1 / (x * sigma * numpy.sqrt(2 * numpy.pi) ) b = - (numpy.log(x) - mu) …
10 r  python  numpy  scipy 

2
R中的Wilcoxon-Mann-Whitney临界值
我注意到,当我尝试使用R查找Mann-Whitney U的临界值时,该值始终为1+临界值。例如,对于α = .05 ,n = 10 ,m = 5α=.05,n=10,m=5\alpha=.05, n = 10, m = 5,(两尾)临界值是8;而对于α = .05 ,n = 12 ,m = 8α=.05,n=12,m=8\alpha=.05, n=12, m=8,(两尾)临界值值是22(请检查表格),但是: > qwilcox(.05/2,10,5) [1] 9 > qwilcox(.05/2,12,8) [1] 23 我当然不在考虑什么,但是...谁能解释我为什么?

2
如何解释这些自定义对比?
我正在使用自定义对比度进行单因素方差分析(每个物种)。 [,1] [,2] [,3] [,4] 0.5 -1 0 0 0 5 1 -1 0 0 12.5 0 1 -1 0 25 0 0 1 -1 50 0 0 0 1 我将强度0.5与5、5与12.5进行比较,依此类推。这些是我正在处理的数据 具有以下结果 Generalized least squares fit by REML Model: dark ~ intensity Data: skofijski.diurnal[skofijski.diurnal$species == "niphargus", ] AIC BIC logLik …

1
异步(不规则)时间序列分析
我正在尝试分析两个股票价格的时间序列之间的提前期。在定期的时间序列分析中,我们可以进行VECM(格兰杰因果关系)的Cross Correlaton。但是,如何在不规则间隔的时间序列中处理相同的内容。 假设是其中一种工具领先于另一种。 我的两个符号的数据都以微秒为单位。 我查看了RTAQ软件包,并尝试应用VECM。RTAQ在单变量时间序列上更多,而VECM在这些时间尺度上不重要。 > dput(STOCKS[,])) structure(c(29979, 29980, 29980, 29980, 29981, 29981, 29991, 29992, 29993, 29991, 29990, 29992), .Dim = c(6L, 2L), .Dimnames = list(NULL, c("Pair_Bid", "Calc_Bid" )), index = structure(c(1340686178.55163, 1340686181.40801, 1340686187.2642, 1340686187.52668, 1340686187.78777, 1340686189.36693), class = c("POSIXct", "POSIXt"), tzone = ""), class = "zoo")

1
为什么对poly(raw = T)与poly()会得到截然不同的结果?
我想对两个不同的时间变量建模,其中一些在我的数据中高度共线性(年龄+同​​类=周期)。这样做会给lmer和的相互作用带来麻烦poly(),但可能不限于lmer与nlmeIIRC 取得相同的结果。 显然,我对poly()函数的功能缺乏了解。我了解是什么poly(x,d,raw=T),我认为没有raw=T它就可以构成正交多项式(我不能说我真的很明白这是什么意思),这使拟合更容易,但不能让您直接解释系数。 我读到这是因为我使用的是预测函数,所以预测应该相同。 但是,即使模型正常收敛,它们也不是。我正在使用居中变量,我首先想到,正交多项式可能会导致与共线交互作用项有更高的固定效应相关性,但似乎具有可比性。我在这里粘贴了两个模型摘要。 这些图有望说明差异的程度。我使用了仅在开发人员中可用的预测功能。版本是lme4的版本(在这里听说过),但是固定效果在CRAN版本中是相同的(并且它们本身也看起来不一样,例如,当我的DV的范围为0-4时,交互作用约为5)。 lmer电话是 cohort2_age =lmer(churchattendance ~ poly(cohort_c,2,raw=T) * age_c + ctd_c + dropoutalive + obs_c + (1+ age_c |PERSNR), data=long.kg) 该预测仅是对假数据(所有其他预测变量= 0)的固定影响,其中我将原始数据中存在的范围标记为外推=F。 predict(cohort2_age,REform=NA,newdata=cohort.moderates.age) 如果需要的话,我可以提供更多背景信息(我无法轻松地产生一个可复制的示例,但是当然可以更加努力地尝试),但是我认为这是一个更基本的要求:poly()请向我解释该功能。 原始多项式 正交多项式(在Imgur处为修剪的,未修剪的)

2
使用负二项式回归时,R等于聚类选项
我正在尝试复制同事的工作,并将分析从Stata转移到R。她使用的模型调用nbreg函数中的“ cluster”选项来聚类标准错误。 有关此选项的内容和原因的完整说明,请参见http://repec.org/usug2007/crse.pdf。 我的问题是如何在R中为负二项式回归调用相同的选项? 我们在Stata中指定了本文的主要模型,如下所示 xi: nbreg cntpd09 logpop08 pcbnkthft07 pccrunion07 urbanpop pov00 pov002 edu4yr /// black04 hispanic04 respop i.pdpolicy i.maxloan rollover i.region if isser4 != 1, cluster(state) 我已经用 pday<-glm.nb(cntpd09~logpop08+pcbnkthft07+pccrunion07+urbanpop+pov00+pov002+edu4yr+ black04+hispanic04+respop+as.factor(pdpolicy)+as.factor(maxloan)+rollover+ as.factor(region),data=data[which(data$isser4 != 1),]) 这显然缺少聚集错误部分。 是否可以进行精确复制?如果可以,怎么办?如果没有,有什么合理的选择? 谢谢 [编辑]正如评论中所指出的那样,我希望找到一种不会将我带入多级模型领域的解决方案。尽管我的培训使我看到了这些事情应该相关,但是这比我自己独自承担更多的飞跃。因此,我一直在挖掘并找到以下链接:http : //landroni.wordpress.com/2012/06/02/fama-macbeth-and-cluster-robust-by-firm-and-time-standard-errors-in- r / 指向一些相当简单的代码来执行我想要的操作: library(lmtest) pday<-glm.nb(cntpd09~logpop08+pcbnkthft07+pccrunion07+urbanpop+pov00+pov002+edu4yr+ black04+hispanic04+respop+as.factor(pdpolicy)+as.factor(maxloan)+rollover+ as.factor(region),data=data[which(data$isser4 != 1),]) summary(pday) …

1
样条和非样条项的相互作用是什么意思?
如果我使用lm(y~a*b)R语法将数据拟合为,其中R a是二进制变量且b是数字变量,则a:b交互项是y~bat a= 0和at a= 1的斜率之差。 现在,假设y和之间的关系b是曲线的。如果我现在适合lm(y~a*poly(b,2)),则a:poly(b,2)1是y~b条件的变化在上述水平上的变化a,并且a:poly(b,2)2是y~b^2条件的变化在上水平a。这需要花费一些时间,但是如果这些相互作用系数中的任何一个都明显不同于零,那么我可以说这意味着a不仅影响y峰的垂直位移,而且影响峰的位置以及接近y~b+b^2曲线峰的陡度。 如果我合适lm(y~a*bs(b,df=3))怎么办?我该如何解释a:bs(b,df=3)1,a:bs(b,df=3)2和a:bs(b,df=3)3条件?这些y来自样条线的垂直位移是否可归因于a三个部分的每一个?

6
如何评估二元结果分类预测变量集的预测能力?计算概率还是逻辑回归?
我试图确定简单概率是否可以解决我的问题,或者使用(学习)逻辑回归等更复杂的方法是否更好。 此问题中的响应变量是二进制响应(0,1)。我有许多都是分类无序的预测变量。我正在尝试确定预测变量的哪些组合产生最高的1。我需要逻辑回归吗?仅针对分类预测变量的每种组合计算样本集中的比例会有什么好处?

2
正则化
执行正则化的方法有很多- 例如基于,L 1和L 2范数的正则化。根据Friedman Hastie和Tibsharani的说法,最佳正则化器取决于问题:即真正目标函数的性质,所使用的特定基础,信噪比和样本大小。大号0L0L_0大号1个L1L_1大号2L2L_2 是否有任何比较方法和各种正则化方法性能的实证研究?

2
对于三向重复测量方差分析,什么是有效的事后分析?
我已经执行了三向重复测量方差分析;事后分析有效吗? 这是一个完全平衡的设计(2x2x2),其中一个因素具有重复进行内部测量的功能。我知道R中重复测量ANOVA的多变量方法,但是我的第一个直觉是继续进行ANOVA的简单aov()风格: aov.repeated <- aov(DV ~ IV1 * IV2 * Time + Error(Subject/Time), data=data) DV =响应变量 IV1 =自变量1(2个级别,A或B) IV2 =自变量2(2个级别,是或否) IV3 =时间(2级,之前或之后) 主题=主题ID(总共40个主题,每个IV1级别20个:nA = 20,nB = 20) summary(aov.repeated) Error: Subject Df Sum Sq Mean Sq F value Pr(>F) IV1 1 5969 5968.5 4.1302 0.049553 * IV2 1 3445 3445.3 2.3842 …

1
交叉随机效应和不平衡数据
我正在建模一些我认为有两个交叉随机效应的数据。但是数据集不平衡,我不确定需要做些什么来说明它。 我的数据是一组事件。当客户端与提供者会面以执行成功或失败的任务时,将发生事件。有数千个客户和提供者,每个客户和提供者都参与不同数量的事件(大约5到500个)。每个客户和提供者都有一定的技能水平,任务成功的机会取决于两个参与者的技能。客户和提供者之间没有重叠。 我对客户和提供者人数的各自差异感兴趣,因此我们可以知道哪个来源对成功率有更大的影响。我还想知道我们实际拥有数据的客户和提供者之间技能的具体价值,以确定最佳/最差的客户或提供者。 最初,我想假设成功的可能性仅由客户和提供者的综合技能水平决定,而没有其他固定影响。因此,假设x是客户端的一个因素,y是提供者的一个因素,那么在R中(使用程序包lme4),我将模型指定为: glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events) 一个问题是客户端在提供者之间分布不均。较高技能的客户更有可能与较高技能的提供者匹配。我的理解是,随机效应必须与模型中的任何其他预测变量均不相关,但是我不确定如何对其进行解释。 同样,一些客户和提供者的事件很少(少于10个),而其他事件和事件却很多(最多500个),因此我们在每个参与者上拥有的数据量分布广泛。理想情况下,这将反映在每个参与者技能估计值的“置信区间”中(尽管我认为“置信区间”一词在这里并不十分正确)。 由于数据不平衡,交叉随机效应会成为问题吗?如果是这样,我应该考虑哪些其他方法?

1
SEM建模帮助(OpenMx,polycor)
我尝试将SEM应用于一个数据集时遇到很多问题。 我们假设存在5个潜在因子A,B,C,D,E,分别具有指标。A1至A5(有序因子),B1至B3(定量),C1,D1,E1(所有后三个有序因子,E1只有2个水平。我们对所有因子之间的协方差很感兴趣。 我曾尝试OpenMx这样做。这是我的一些尝试: 我首先尝试对所有有序因子使用阈值矩阵,但是收敛失败。 我决定hetcor通过库中的函数使用多色/多序列相关性来代替原始数据polycor(我计划自举样本以获得置信区间)。它也无法收敛! 我试图限制个人使用完整的数据,但是它也失败了! 我的第一个问题是:是否有一种自然的方式来解释这些故障? 我的第二个问题是:我该怎么办??? 编辑:对于将来可能遇到相同问题的读者,在阅读完polycor... 中的功能代码后,解决方案仅是hetcor()与option 一起使用std.err=FALSE。这给出的估计与StasK给出的估计非常相似。我现在没有时间去更好地了解这里发生的事情!StasK很好地回答了以下问题。 我还有其他问题,但在此之前,这里是一个带有RData文件的URL,该文件包含一个L1仅包含完整数据的数据框:data_sem.RData 这里的几行代码显示的失败hetcor。 > require("OpenMx") > require("polycor") > load("data_sem.RData") > hetcor(L1) Erreur dans cut.default(scale(x), c(-Inf, row.cuts, Inf)) : 'breaks' are not unique De plus : Il y a eu 11 avis (utilisez warnings() pour les visionner) > head(L1) A1 A2 …

3
当lm的预测值无方差时,为什么会有R ^ 2值(由它决定)?
考虑以下R代码: example <- function(n) { X <- 1:n Y <- rep(1,n) return(lm(Y~X)) } #(2.13.0, i386-pc-mingw32) summary(example(7)) #R^2 = .1963 summary(example(62)) #R^2 = .4529 summary(example(4540)) #R^2 = .7832 summary(example(104))) #R^2 = 0 #I did a search for n 6:10000, the result for R^2 is NaN for #n = 2, 4, 16, …
10 r  regression 

3
重复测量结构方程建模
我需要分析临床康复数据的数据集。我对量化“输入”(治疗量)与健康状况变化之间由假设驱动的关系感兴趣。尽管数据集相对较小(n〜70),但我们有重复的数据反映了两者的时间变化。我熟悉R中的非线性混合效应建模,但是对此处输入和输出之间的潜在“因果”关系感兴趣,因此正在考虑SEM的重复测量应用 我希望您能就R中的任何SEM软件包(sam,lavaan,openmx?)最适合重复测量数据提出建议,尤其是针对教科书的建议(该领域是否有“ Pinheiro和Bates”?),我对此表示赞赏。 。

4
有没有一种方法可以使用交叉验证在R中进行变量/特征选择?
我有一个约70个要减少的变量的数据集。我想要做的是使用CV以下列方式查找最有用的变量。 1)随机选择说20个变量。 2)使用stepwise/ LASSO/ lars/ etc选择最重要的变量。 3)重复〜50x,查看最常选择(未消除)的变量。 这与a的randomForest做法类似,但是该rfVarSel软件包似乎仅适用于因子/分类,我需要预测一个连续的因变量。 我正在使用R,因此任何建议都可以在此处理想地实现。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.