Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

1
在LSI中了解奇异值分解
我的问题通常是关于奇异值分解(SVD),尤其是关于潜在语义索引(LSI)。 假设我有一个,其中包含7个文档中5个单词的频率。Aword×documentAword×document A_{word \times document} A = matrix(data=c(2,0,8,6,0,3,1, 1,6,0,1,7,0,1, 5,0,7,4,0,5,6, 7,0,8,5,0,8,5, 0,10,0,0,7,0,0), ncol=7, byrow=TRUE) rownames(A) <- c('doctor','car','nurse','hospital','wheel') 我得到的矩阵分解通过使用SVD:。AAAA=U⋅D⋅VTA=U⋅D⋅VTA = U \cdot D \cdot V^T s = svd(A) D = diag(s$d) # singular value matrix S = diag(s$d^0.5 ) # diag matrix with square roots of singular values. 在1和2中指出: WordSim=U⋅SWordSim=U⋅SWordSim = …

2
使用Poisson回归估算二元数据中调整后的风险比率
我对估算调整后的风险比率很感兴趣,类似于人们如何使用logistic回归估算调整后的优势比率。一些文献(例如this)表明,将泊松回归与Huber-White标准误差一起使用是基于模型的方法 我没有找到关于调整连续协变量如何影响这一点的文献。下面的简单模拟表明此问题并非那么简单: arr <- function(BLR,RR,p,n,nr,ce) { B = rep(0,nr) for(i in 1:nr){ b <- runif(n)<p x <- rnorm(n) pr <- exp( log(BLR) + log(RR)*b + ce*x) y <- runif(n)<pr model <- glm(y ~ b + x, family=poisson) B[i] <- coef(model)[2] } return( mean( exp(B), na.rm=TRUE ) ) } set.seed(1234) arr(.3, …

3
使用R进行K折或保留交叉验证以进行岭回归
我正在对200个主题和1000个变量的数据预测进行交叉验证。我对岭回归很感兴趣,因为变量数(我想使用)大于样本数。所以我想使用收缩估计量。以下是示例数据: #random population of 200 subjects with 1000 variables M <- matrix(rep(0,200*100),200,1000) for (i in 1:200) { set.seed(i) M[i,] <- ifelse(runif(1000)<0.5,-1,1) } rownames(M) <- 1:200 #random yvars set.seed(1234) u <- rnorm(1000) g <- as.vector(crossprod(t(M),u)) h2 <- 0.5 set.seed(234) y <- g + rnorm(200,mean=0,sd=sqrt((1-h2)/h2*var(g))) myd <- data.frame(y=y, M) myd[1:10,1:10] y X1 …

1
GLMM的Anova III型测试
我正在R包中拟合glmer模型lme4。我正在寻找其中显示p值的方差分析表,但找不到适合它的包装。有可能在R中做到吗? 我适合的模型具有以下形式: model1<-glmer(dmn~period*teethTreated+(1|fullName), family="poisson", data=subset(dataset, group=='Four times a year'), control=glmerControl(optimizer="bobyqa"))

5
大数据的逻辑回归
我有大约5000个功能的数据集。对于这些数据,我首先使用卡方检验进行特征选择。之后,我得到了大约1500个变量,这些变量与响应变量之间显示出显着的关系。 现在,我需要对此进行逻辑回归。我正在为R使用glmulti软件包(glmulti软件包为vlm提供了有效的子集选择),但一次只能使用30个功能,否则其性能会下降,因为数据集中的行数约为20000。 是否有其他方法或技术可以解决上述问题?如果我采用上述方法,将需要太多时间来拟合模型。

2
广义线性模型的参数估计
默认情况下,当我们glm在R中使用函数时,它使用迭代加权最小二乘(IWLS)方法来找到参数的最大似然估计。现在我有两个问题。 IWLS估计是否可以保证似然函数的全局最大值?根据本演示文稿的最后一张幻灯片,我认为事实并非如此!我只是想确保这一点。 我们可以说上述问题1的原因是因为几乎所有数值优化方法都可能停留在局部最大值而不是全局最大值吗?

4
如何进行多元机器学习?(预测多个因变量)
我希望预测某人会购买的物品组...即,我有多个共线性因变量。 我不应该建立7个左右的独立模型来预测某人购买这7个项目中的每一个的概率,然后结合结果,而是应该采用什么方法来建立一个模型来说明7个相关的因变量之间的关系(他们可以购买的东西)。 我将R用作编程语言,因此请特别感谢R的任何建议。

2
列联表的贝叶斯分析:如何描述效应大小
我正在研究Kruschke的《做贝叶斯数据分析》中的示例,特别是ch中的泊松指数方差分析。22,他作为对偶发表独立性的频繁卡方检验的替代品。 我可以看到我们如何获得有关变量交互比独立变量(即,当HDI排除零时)所期望的交互频率更高或更低的信息。 我的问题是如何在此框架中计算或解释效果大小?例如,克鲁什克(Kruschke)写道:“蓝眼睛和黑发的组合发生的频率要比如果眼睛的颜色和头发的颜色独立的情况下发生的频率要低”,但是我们如何描述这种关联的强度?我如何分辨哪些互动比其他互动更极端?如果我们对这些数据进行卡方检验,则可以计算Cramér的V,作为整体效果大小的度量。如何在这种贝叶斯语境中表达效果大小? 这是本书中的独立示例(代码为R),以防万一答案在我眼前隐藏在我眼前…… df <- structure(c(20, 94, 84, 17, 68, 7, 119, 26, 5, 16, 29, 14, 15, 10, 54, 14), .Dim = c(4L, 4L), .Dimnames = list(c("Black", "Blond", "Brunette", "Red"), c("Blue", "Brown", "Green", "Hazel"))) df Blue Brown Green Hazel Black 20 68 5 15 Blond 94 7 16 …

2
R检测时间序列的增加/减少趋势
我有很多时间周期,包括时期:日,周或月。通过stl()功能或通过loess(x ~ y)我可以看到特定时间序列的趋势。我需要检测时间序列的趋势是增加还是减少。我该如何处理? 我尝试使用来计算线性回归系数lm(x ~ y)并使用斜率系数。(If |slope|>2 and slope>0 then上升趋势,else if |slope|>2 and slope<0–下降)。也许还有另一种更有效的趋势检测方法?谢谢! 例如:我有timeserie1,timeserie2。我需要一个简单的算法,告诉我这timeserie2是一个递增的算法,在中timeserie1,趋势没有增加或减少。我应该使用什么标准? timeserie1: 1774 1706 1288 1276 2350 1821 1712 1654 1680 1451 1275 2140 1747 1749 1770 1797 1485 1299 2330 1822 1627 1847 1797 1452 1328 2363 1998 1864 2088 2084 594 884 1968 1858 …
9 r  time-series  trend 

1
拟合时变系数DLM
我想使DLM具有随时间变化的系数,即通常线性回归的扩展, yt=θ1+θ2x2yt=θ1+θ2x2y_t = \theta_1 + \theta_2x_2。 我有一个预测变量()和一个响应变量(y_t),分别是1950年至2011年的海洋和内陆年度鱼获量。我希望遵循DLM回归模型,x2x2x_2ytyty_t yt=θt,1+θt,2xtyt=θt,1+θt,2xty_t = \theta_{t,1} + \theta_{t,2}x_t 系统演化方程在哪里 θt=Gtθt−1θt=Gtθt−1\theta_t = G_t \theta_{t-1} 摘自Petris等人的“带R的动态线性模型”的第43页。 一些编码, fishdata <- read.csv("http://dl.dropbox.com/s/4w0utkqdhqribl4/fishdata.csv", header=T) x <- fishdata$marinefao y <- fishdata$inlandfao lmodel <- lm(y ~ x) summary(lmodel) plot(x, y) abline(lmodel) 显然,回归模型的时变系数在这里更为合适。我从第121页至第125页沿用他的示例,并将其应用于我自己的数据。这是示例中的代码 ############ PAGE 123 require(dlm) capm <- read.table("http://shazam.econ.ubc.ca/intro/P.txt", header=T) capm.ts <- ts(capm, …

1
在Excel vs R中计算卡方的奇怪方法
我正在查看一个自称正在计算的Excel工作表,但我不知道这样做的方式,我想知道是否丢失了某些东西。χ2χ2\chi^2 这是它正在分析的数据: +------------------+----------+----------+ | Total Population | Observed | Expected | +------------------+----------+----------+ | 2000 | 42 | 32.5 | | 2000 | 42 | 32.5 | | 2000 | 25 | 32.5 | | 2000 | 21 | 32.5 | +------------------+----------+----------+ 这是为计算卡方而对每个组所做的总和: P = (sum of all observed)/(sum of total …
9 r  chi-squared  excel 

3
为什么线性回归不能预测简单确定性序列的结果?
我的一位同事向我发送了这个问题,显然是在互联网上巡回演出: If $3 = 18, 4 = 32, 5 = 50, 6 = 72, 7 = 98$, Then, $10 =$ ? 答案似乎是200。 3*6 4*8 5*10 6*12 7*14 8*16 9*18 10*20=200 当我在R中进行线性回归时: data <- data.frame(a=c(3,4,5,6,7), b=c(18,32,50,72,98)) lm1 <- lm(b~a, data=data) new.data <- data.frame(a=c(10,20,30)) predict <- predict(lm1, newdata=new.data, interval='prediction') 我得到: fit lwr …
9 r  regression  lm 

1
R:方差分析和线性回归
我是统计学的新手,我试图了解ANOVA和线性回归之间的区别。我正在使用R进行探索。我阅读了许多有关为何方差分析和回归分析为何不同但仍然相同以及如何可视化等方面的文章。我认为我的确很不错,但仍然缺少一点。 我了解到,方差分析将组内的方差与组间的方差进行比较,以确定任何测试组之间是否存在差异。(https://controls.engin.umich.edu/wiki/index.php/Factor_analysis_and_ANOVA) 对于线性回归,我在该论坛上找到了一篇帖子,其中说到当我们测试b(斜率)= 0时,也可以进行测试。) 对于两个以上的小组,我发现一个网站指出: 零假设是:H0:µ1=µ2=µ3H0:µ1=µ2=µ3\text{H}_0: µ_1 = µ_2 = µ_3 线性回归模型为:y=b0+b1X1+b2X2+ey=b0+b1X1+b2X2+Ëy = b_0 + b_1X_1 + b_2X_2 + e 但是,线性回归的输出是一组的截距,其他两组的截距之差。(http://www.real-statistics.com/multiple-regression/anova-using-regression/) 对我来说,这看起来像是实际上比较了截距,而不是斜率? 在这里可以找到截距而不是斜率的另一个示例:(http://www.theanalysisfactor.com/why-anova-and-linear-regression-are-the-same-analysis/) 我现在正在努力了解线性回归中实际比较的是什么?斜坡,拦截或两者兼而有之?
9 r  regression  anova 

3
评估正态性检验的功效(用R表示)
我想评估R中不同样本量的正态性检验的准确性(我意识到正态性检验可能会产生误导)。例如,要查看Shapiro-Wilk检验,我正在进行以下模拟(以及绘制结果),并希望随着样本数量的增加,拒绝null的可能性降低: n <- 1000 pvalue_mat <- matrix(NA, ncol = 1, nrow = n) for(i in 10:n){ x1 <- rnorm(i, mean = 0, sd = 1) pvalue_mat[i,] <- shapiro.test(x1)$p.value } plot(pvalue_mat) 我的想法是,随着样本数量的增加,拒绝率应该会降低,但是看起来相当一致。我想我对此有误解-任何想法都欢迎。

1
具有时间相关变量的周期性事件数据的数据结构和函数调用
我试图估算的2种药物(的影响drug1,drug2在(病人的跌倒的可能性)event)。患者可以跌倒不止一次,并且可以在任何时候穿上或脱下药物。 我的问题是,关于时间段(天)的数据应如何组织,特别是两天之间是否需要重叠。我认为我的结构有错误的原因有两个,第一个是看似不正确的N。在时间段为一天(即)的情况下,我也遇到了一些错误time1=4,time2=4并且不确定如何编码。后续输入的开始时间应该是先前输入的停止时间吗?我已经尝试了两种方式(有和没有重叠),并且尽管重叠消除了警告,但N仍然不正确。 Warning message: In Surv(time = c(0, 2, 7, 15, 20, 0, 18, 27, 32, 35, 39, 46, 53, : Stop time must be > start time, NA created 现在,我已经设置了数据,下一个条目的开始是第二天。独特的患者由其识别chart numbers。 Time1 Time2 Drug1 Drug2 Event ChartNo 0 2 1 0 0 123 3 10 1 1 1 123 …
9 r  survival  cox-model 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.