Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

1
如何在R中拟合Bradley–Terry–Luce模型,而无需复杂的公式?
Bradley-Terry-Luce(BTL)模型指出,其中是对象被判定为“更好” 的概率,参数比对象,而和是参数。pĴ 我= 升Ô 克一世Ť− 1(δĴ-δ一世)pĴ一世=升ØG一世Ť-1个(δĴ-δ一世)p_{ji} = logit^{-1}(\delta_j - \delta_i)p我Ĵp一世Ĵp_{ij}ĴĴj一世一世iδ一世δ一世\delta_iδĴδĴ\delta_j 这似乎是glm函数的候选者,family =二项式。但是,公式将类似于“成功〜S1 + S2 + S3 + S4 + ...”,其中Sn是虚拟变量,如果对象n是比较中的第一个对象,则为1,如果为n,则为-1。第二个,否则为0。那么Sn的系数将是对应的。dÈ 升吨一个ñdË升Ť一个ñdelta_n 仅使用几个对象,这将相当容易管理,但可能导致公式很长,并且需要为每个对象创建一个虚拟变量。我只是想知道是否有更简单的方法。假设要比较的两个对象的名称或数量是变量(因数),对象1和对象2,如果判断对象1更好,则成功为1,如果对象2为更好,则成功为0。

2
如何在R中模拟重复测量的多元结果?
@whuber已经演示了如何在一个时间点上模拟多元结果(,和)。ÿ1个y1y_1ÿ2y2y_2ÿ3y3y_3 众所周知,纵向数据经常出现在医学研究中。我的问题是如何在R中模拟重复测量的多元结果?例如,对于两个不同的治疗组,我们在5个不同的时间点重复测量,和。ÿ1个y1y_1y2y2y_2y3y3y_3

1
用偏移量预测GLM泊松
我知道这可能是一个基本问题...但是我似乎找不到答案。 我正在为Poisson系列安装GLM,然后尝试查看预测,但是似乎确实考虑了偏移量: model_glm=glm(cases~rhs(data$year,2003)+lhs(data$year,2003), offset=(log(population)), data=data, subset=28:36, family=poisson()) predict (model_glm, type="response") 我得到的情况不是费率... 我也尝试过 model_glm=glm(cases~rhs(data$year,2003)+lhs(data$year,2003)+ offset(log(population)), data=data, subset=28:36, family=poisson()) 结果相同。但是,当我使用mgcv从GAM进行预测时,这些预测会考虑偏移量(我得到比率)。 我想念什么吗?

1
如何从R中的线性SVM获取决策边界?
我需要一个可以为我提供线性SVM模型方程式的软件包。目前,我正在像这样使用e1071: library(e1071) m = svm(data, labels, type='C', kernel='linear', cost=cost, probability=FALSE, scale=scale) w = t(m$coefs) %*% data[m$index,] #Weight vector b = -model$rho #Offset 但是,我不确定如何e1071::svm()选择肯定和否定类,因此我认为这可能会使不同的数据集搞砸。谁能确认该函数如何确定哪个类别为正,哪个类别为负? 另外,有更好的包装吗?
9 r  svm  e1071 

3
R中矩阵之间的相关性
我在使用cor()和cor.test()函数时遇到问题。 我只有两个矩阵(只有数值,行和列的数目相同),我想拥有相关数和相应的p值。 当我使用时,cor(matrix1, matrix2)我得到所有细胞的相关系数。我只需要一个数字作为cor的结果。 此外,我cor.test(matrix1, matrix2)收到以下错误消息 Error in cor.test.default(matrix1, matrix2) : 'x' must be a numeric vector 如何获得矩阵的p值? 您可以在此处找到我想要关联的简单表: http://dl.dropbox.com/u/3288659/table_exp1_offline_MEANS.csv http://dl.dropbox.com/u/3288659/table_exp2_offline_MEANS.csv
9 r  correlation 

1
季节性调整后的每月逐月增长以及潜在的每周季节性
作为附带的兴趣,我一直在探索预测时间序列(尤其是使用R)。 就我的数据而言,我有每天的访问次数,可以追溯到将近4年的每天。在此数据中,有一些不同的模式: 周一至周五的访问量很多(周一/周二最高),但周六至周日的访问量则大大减少。 一年中的某些时段下降(例如,美国假期前后的访问量减少,夏季显示出较少的增长) 年比显着增长 能够使用这些数据来预测未来的一年,并使用它来进行季节性调整后的逐月增长,这将是很好的。每月查看的主要内容是: 某些月份的星期一/星期二会比其他月份要多(而且多年以来也不一致)。因此,需要对平日较多的一个月进行相应的调整。 探索周似乎也很困难,因为周编号系统会根据年份从52-53更改,并且似乎ts无法解决这一问题。 我正在考虑为一个月的工作日取平均值,但是结果得出的单位有点奇怪(平均工作日访问次数的增长),并且会删除有效的数据。 我觉得这种数据在时间序列中很常见(例如,办公楼中的用电量可能是这样的),有人对如何建模有任何建议,尤其是在R中? 我正在使用的数据非常简单,它开始如下: [,1] 2008-10-05 17607 2008-10-06 36368 2008-10-07 40250 2008-10-08 39631 2008-10-09 40870 2008-10-10 35706 2008-10-11 18245 2008-10-12 23528 2008-10-13 48077 2008-10-14 48500 2008-10-15 49017 2008-10-16 50733 2008-10-17 46909 2008-10-18 22467 并以这种方式一直延续到现在,总体呈增长趋势,在美国假期周前后有所下降,而夏季的增长总体上放缓。

2
如何在R中为SVM输入变量执行遗传算法变量选择?
我在R中使用kernlab软件包来构建SVM,以对某些数据进行分类。 SVM运行良好,因为它提供了不错的准确性的“预测”,但是我的输入变量列表比我想要的要大,而且我不确定不同变量的相对重要性。 我想实现一个遗传算法,以选择产生最佳训练/最适合的SVM的输入变量子集。 在尝试此GA实施时(可能是一个简短的psuedo示例),我想选择使用哪个R包时需要一些帮助。 我已经查看了大部分R GA / P软件包(RGP,genalg,subselect,GALGO),但是我在概念上很难解决如何将ksvm函数作为健身函数的一部分传递并输入我的变量数组作为人口池...? 在正确的方向上得到的任何帮助,想法或推动都将不胜感激。 谢谢 解决此问题的代码在稍后的EDIT中添加 # Prediction function to be used for backtesting pred1pd = function(t) { print(t) ##add section to select the best variable set from those available using GA # evaluation function - selects the best indicators based on miminsied training error …

2
如何对R中的生存数据执行Wilcoxon符号秩检验?
假设您有以下生存数据: obs <- data.frame( time = c(floor(runif(100) * 30), floor((runif(100)^2) * 30)), status = c(rbinom(100, 1, 0.2), rbinom(100, 1, 0.7)), group = gl(2,100) ) 要执行标准的日志等级测试,可以使用 survdiff(Surv(time, status) ~ group, data = obs, rho = 0) 对? 但是其他测试呢?您如何执行Wilcoxon签名秩检验,Peto检验或Fleming-Harrington检验? R提供了执行Wilcoxon测试的可能性,但是我没有找到如何让它考虑审查的方法。 此外,文档指出,设置rho = 1将使测试成为“ Gehan-Wilcoxon测试的Peto和Peto修改”。但这是否与Peto测试相同?

4
学习LaTeX,Sweave和Beamer的最有效命令?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 3年前关闭。 我对学习如何从我的R代码和ggplot2可视化文件创建重复报告非常感兴趣。 我了解LaTeX似乎是一个可能的答案,并且将其与R一起使用时,大多数使用Sweave。对于从R到LaTeX的演示,人们可以使用Beamer。 我的问题是,我应该首先学习什么,或者我应该同时学习什么?我不知道Sweave或LaTeX。我应该学习LaTeX(至少一点),然后学习Sweave吗?还是建议您同时学习? 链接到支持您的答案的教程非常感谢。
9 r 

1
R中的粒子过滤器–简单代码示例
我正在寻找一个如何在R中运行粒子过滤器的简单代码示例。pomp程序包似乎支持状态空间数学位,但是对于像我这样的简单OO开发人员,这些示例很难以编程方式进行遵循如何将观察到的数据加载到pomp对象中。 此处的示例:http : //cran.r-project.org/web/packages/pomp/vignettes/intro_to_pomp.pdf 可以说我有一个带有1列嘈杂数据的csv文件作为输入,并且我希望通过“粒子过滤器”运行它,以便希望将其清理为输出,并将其输出为另一个csv文件。 y <- read.csv("C:/Dev/VeryCleverStatArb/inputData.csv", header=FALSE) #CSV to Pomp object ??? #Run Particle Filter #Write estimates to csv. 这些示例的主要困难是将csv数据加载到pomp对象中。 现在,一个非常简单的状态空间模型应该已经足够了。 对R好奇有什么想法吗?
9 r 

1
生存Coxph和RMS CPH的不同预测图
我已经创建了本示例中使用的术语图的略微增强版本,您可以在此处找到它。我以前在SO上发布过文章,但我想得更多,我认为这可能与Cox比例危害模型的解释有关,而不是与实际编码有关。 问题 当我查看危害比图时,我希望有一个参考点,其置信区间自然为0,这是当我从中使用cph()rms package而不是从中使用coxph()时的情况survival package。coxph()的行为是否正确,如果是,参考点是什么?另外,coxph()中的哑变量具有一个间隔,并且其值不是?Ë0Ë0e^0 例 这是我的测试代码: # Load libs library(survival) library(rms) # Regular survival survobj <- with(lung, Surv(time,status)) # Prepare the variables lung$sex <- factor(lung$sex, levels=1:2, labels=c("Male", "Female")) labels(lung$sex) <- "Sex" labels(lung$age) <- "Age" # The rms survival ddist <- datadist(lung) options(datadist="ddist") rms_surv_fit <- cph(survobj~rcs(age, 4)+sex, data=lung, x=T, y=T) …
9 r  survival  cox-model 

2
在多项式中运行glmnet时出错
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 9个月前关闭。 在R包glmnet的1.7.3版本中解决了此问题中提到的问题。 我在使用family = multinomial运行glmnet时遇到一些问题,并且想知道是否遇到了类似的问题,或者是否能够告诉我我在做什么错。 当我放入自己的虚拟数据时,运行时会报告错误“ apply(nz,1,中位数):dim(X)必须具有正长度的错误” cv.glmnet,除了说“它没有用”之外,对我来说并没有提供太多信息。 y=rep(1:3,20) #=> 60 element vector set.seed(1011) x=matrix(y+rnorm(20*3*10,sd=0.4),nrow=60) # 60*10 element matrix glm = glmnet(x,y,family="multinomial") #=> returns without error crossval = cv.glmnet(x,y,family="multinomial") #=> Error in apply(nz, 1, median) : dim(X) must have a positive length crossval = cv.glmnet(x,y,family="multinomial",type.measure="class") #=> Error …
9 r  multinomial  glmnet 

2
如何在R中拟合像的回归?
我有一些时间序列数据,其中测得的变量是离散的正整数(计数)。我想测试一下是否随着时间的推移出现上升趋势(或没有)。自变量(x)的范围是0-500,因变量(y)的范围是0-8。 我以为我可以通过y = floor(a*x + b)使用普通最小二乘法(OLS)拟合形式的回归来回答这个问题。 我将如何使用R(或Python)执行此操作?是否有现有的程序包,还是最好编写自己的算法? PS:我知道这不是理想的技术,但是我需要做一个我可以理解的相对简单的分析-我的背景是生物学而不是数学。我知道我违反了有关测量变量误差以及测量随时间变化的独立性的假设。
9 r  regression  python 


1
可视化连续比例
我正在尝试可视化一些消费者数据,该数据有4个类别。用户可以自由在不同类别之间切换。我想将每个人的最后三个或四个开关可视化。 因此,我们将从具有4个堆叠比例的列的图开始。在那之后,我们将有16个类别,每个类别细分为上次人们所做的事情,然后是64个,依此类推,直到垃圾箱变得太小而无法使用。 我认为在marimekko图表和堆积的条形图或树状图之间的某个位置应该起作用,但我什至不知道该怎么称呼! 如果有人可以帮助我解决我应该使用的绘图类型,并且,如果您想变得更好,那么如何在R中实现它,我将非常感激。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.