Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

1
SVM类型之间的差异
我是新来支持向量机的人。 简短说明 R中svm的e1071软件包中的函数提供了多种选项: C分类 nu分类 一类(用于新颖性检测) eps回归 回归 这五种类型之间的直观区别是什么?在哪种情况下应使用哪一个?

1
数据具有不确定性的线性模型,使用R
假设我有一些不确定性的数据。例如: X Y 1 10±4 2 50±3 3 80±7 4 105±1 5 120±9 不确定度的性质可以是重复测量或实验,或例如测量仪器不确定度。 我想使用R拟合曲线,通常我会这样做lm。但是,当它给我拟合系数的不确定性以及预测间隔的不确定性时,就没有考虑数据的不确定性。查看文档,lm页面具有以下内容: 权重可以用来表示不同的观察结果具有不同的方差 因此,我认为也许这与它有关。我知道手动执行操作的原理,但是我想知道是否可以使用该lm功能执行操作。如果没有,是否还有其他功能(或包装)能够做到这一点? 编辑 看到一些评论,这里有一些澄清。举个例子: x <- 1:10 y <- c(131.4,227.1,245,331.2,386.9,464.9,476.3,512.2,510.8,532.9) mod <- lm(y ~ x + I(x^2)) summary(mod) 给我: Residuals: Min 1Q Median 3Q Max -32.536 -8.022 0.087 7.666 26.358 Coefficients: Estimate Std. Error t …

2
如何在线性回归中计算x截距的置信区间?
由于通常对响应变量给出线性回归的标准误差,因此我想知道如何在另一个方向上获取置信区间,例如对于x截距。我可以看到它可能是什么,但是我敢肯定必须有一种简单的方法来做到这一点。下面是R中如何形象化显示的示例: set.seed(1) x <- 1:10 a <- 20 b <- -2 y <- a + b*x + rnorm(length(x), mean=0, sd=1) fit <- lm(y ~ x) XINT <- -coef(fit)[1]/coef(fit)[2] plot(y ~ x, xlim=c(0, XINT*1.1), ylim=c(-2,max(y))) abline(h=0, lty=2, col=8); abline(fit, col=2) points(XINT, 0, col=4, pch=4) newdat <- data.frame(x=seq(-2,12,len=1000)) # CI pred <- …

1
加权最小二乘方权重定义:R lm函数与
谁能告诉我为什么我从R加权最小二乘法和矩阵运算的手动解中得到不同的结果? 具体来说,我正在尝试手动求解,其中是权重的对角矩阵,是数据矩阵,是响应向量。 WAx=WbWAx=Wb\mathbf W \mathbf A\mathbf x=\mathbf W \mathbf bWW\mathbf WAA\mathbf Abb\mathbf b 我正在尝试R lm使用weights参数将结果与函数进行比较。

2
如何改善R MICE数据插补的运行时间
简而言之,我的问题是:有没有什么方法可以改善R MICE(数据插补)的运行时间? 我正在使用一个数据集(30个变量,130万行),该数据集包含(随机)丢失的数据。30个变量中约15个变量中约有8%包含NA。为了估算丢失的数据,我运行了MICE函数,该函数是MICE软件包的一部分。 我使用method =“ fastpmm”和m = 1甚至在一个子集(100,000行)上都经历了非常慢的运行时间,并且运行了大约15分钟。 有没有一种方法可以改善运行时间而又不会损失太多性能?(mice.impute.mean速度非常快,但是会带来大量的信息丢失!)。 可复制的代码: library(mice) df <- data.frame(replicate(30,sample(c(NA,1:10),1000000,rep=TRUE))) df <- data.frame(scale(df)) output <- mice(df, m=1, method = "fastpmm")

2
为回归中的最新观察结果分配更多权重
如何为R中的最新观测值分配更多权重? 我认为这是一个常见的问题或愿望,但是我很难弄清楚该如何实现。我试图对此进行大量搜索,但是我找不到一个很好的实际例子。 在我的示例中,随着时间的推移,我将拥有一个大型数据集。我想说的是对最近的数据行进行某种指数加权。因此,我将具有某种指数函数,即2015年的观测值对训练模型比_2012年的观测值更重要。 我的数据集变量包含分类值和数字值的混合,而我的目标是一个数值-如果重要的话。 我想使用GBM / Random Forest等模型进行测试/尝试,最好在CARET软件包中进行测试。 更新问题 我很欣赏下面给出的关于如何按两点之间的日期距离以指数方式衰减权重的响应。 但是,当涉及到在插入符号中训练此模型时,权重因素又如何精确计算呢?每个训练行中的权重值是将来某个点与该点历史发生之间的距离。 权重是否仅在预测期间起作用?因为如果它们在训练过程中发挥作用,那会不会引起各种问题,因为各种交叉折叠的权重都不同,试图预测可能早于它的某个时间点?

2
这两个布劳希-帕根检验之间有什么区别?
在某些数据上使用R并尝试查看我的数据是否为异方差,我发现了Breusch-Pagan测试的两个实现,即bptest(包lmtest)和ncvTest(包车)。但是,这些产生不同的结果。两者有什么区别?您何时应该选择使用其中一个? > model <- lm(y ~ x) > bp <- bptest(model) > bp studentized Breusch-Pagan test data: model BP = 3.3596, df = 1, p-value = 0.06681 > ncvTest(model) Non-constant Variance Score Test Variance formula: ~ fitted.values Chisquare = 3.858704 Df = 1 p = 0.04948855 这些示例表明,根据测试,我的数据在一种情况下是异方差的,在另一种情况下是同方的。我确实在这里找到了这个问题,所以bptest可能是学生化的,而ncvTest可能不是,但是,那意味着什么呢?

2
聚类问题的特征选择
我正在尝试使用无监督算法(聚类)将不同的数据集组合在一起。问题是我有很多功能(〜500)和少量情况(200-300)。 到目前为止,我以前只做分类问题,对此我总是将数据标记为训练集。在那里,我使用了一些标准(即random.forest.importance或information.gain)来预先选择特征,然后我使用了针对不同学习者的顺序正向选择来找到相关特征。 现在,我看到在无监督学习的情况下,我既没有任何预选标准,也不能使用顺序正向选择(至少在mlr软件包中没有)。 我想知道是否可以先进行主成分分析,然后再找到少量适合我的聚类算法的功能。还是您还有其他想法? 谢谢 编辑: 好的,所以在网上进行了一些研究之后,我可以稍微更新一下我的问题:首先,由于两个原因,我读了一些不鼓励在聚类算法之前使用PCA的文章: PC具有所有功能的功能,因此很难将结果与初始数据集相关联,因此很难解释 此外,如果您有一个问题,就是实际上只有很少一部分功能有助于进行聚类,则不必说这些功能也描述了样本之间最大的差异(PC就是这样做的) 因此PCA不在桌面上... 现在,我回到了最初的想法,对集群进行顺序的前向选择。 您会推荐什么绩效指标?(我想到过Dunn-Index)哪种聚类算法会导致大小大致相同的聚类?(对于分层集群,我通常会得到一个集群,其中有一个异常值,而另一个集群则具有所有其他异常值->因此,我需要某种可以防止异常值的东西) 希望你们能帮助我...


2
如何使用tsoutliers软件包和auto.arima解释和进行预测
我有1993年至2015年的月度数据,并希望对这些数据进行预测。我使用tsoutliers包检测异常值,但是我不知道如何继续使用我的数据集进行预测。 这是我的代码: product.outlier<-tso(product,types=c("AO","LS","TC")) plot(product.outlier) 这是我从tsoutliers包的输出 ARIMA(0,1,0)(0,0,1)[12] Coefficients: sma1 LS46 LS51 LS61 TC133 LS181 AO183 AO184 LS185 TC186 TC193 TC200 0.1700 0.4316 0.6166 0.5793 -0.5127 0.5422 0.5138 0.9264 3.0762 0.5688 -0.4775 -0.4386 s.e. 0.0768 0.1109 0.1105 0.1106 0.1021 0.1120 0.1119 0.1567 0.1918 0.1037 0.1033 0.1040 LS207 AO237 TC248 AO260 AO266 0.4228 …

1
一个骰子有多少面?JAGS中的贝叶斯推断
问题 我想对类似于死边数未知的系统进行一些推断。模具被轧制了几次,然后我想推断出与模具具有的边数θ相对应的参数的概率分布。 直觉 如果在40次滚动后您观察到10个红色,10个蓝色,10个绿色和10个黄色,似乎θ应该在4处达到峰值,并且每侧滚动的偏差都是以1/4为中心的分布。 θ有一个很小的下限,即在数据中观察到的不同边的数量。 上限仍然未知。可能存在第五个方面,可能具有较低的偏见。您观察到的缺少第五类的数据越多,θ= 4的后验概率越高。 方法 我已经使用JAGS解决了类似的问题(通过R和rjags),这在这里似乎很合适。 关于数据,可以说obs <- c(10, 10, 10, 10)对应于以上示例中的观察结果。 我认为观测值应该用多项式分布建模obs ~ dmulti(p, n),其中p ~ ddirch(alpha)和n <- length(obs)。 θ与所隐含的类别数量相关联alpha,那么如何建模alpha以涵盖不同的可能类别数量? 备择方案? 我对贝叶斯分析还很陌生,因此可能完全是在树错了树,是否有替代模型可以对这个问题提供不同的见解? 非常感谢!大卫

1
如何在R中使用Lmer设置自定义对比度
我在R中使用lmer来检查条件(cond)对某些结果的影响。这是一些组成的数据,其中s是主题标识符a,b和c是条件。 library("tidyr") library("dplyr") set.seed(123) temp <- data.frame(s = paste0("S", 1:30), a = rnorm(30, -2, 1), b = rnorm(30, -3, 1), c = rnorm(30, -4, 1)) 我想比较 级别a的平均水平b,并c与 逐级b升级c。 我的问题是,如何设置对比度以使截距反映三个条件的均值,而两个计算出的估计值直接反映1.和2中定义的差异? 我尝试过 c1 <- cbind(c(-0.5, 0.25, 0.25), c(0, -0.5, 0.5)) gather(temp, cond, result, a, b, c) %>% lmer(result ~ cond + (1|s), …


1
估计多级Logistic回归模型
以下多级逻辑模型,其中一个解释变量在级别1(个人级别),一个解释变量在级别2(组级别): π 0 Ĵ = γ 00 + γ 01 ż Ĵ + ü 0 Ĵ ... (2 )logit(pij)=π0j+π1jxij…(1)logit(pij)=π0j+π1jxij…(1)\text{logit}(p_{ij})=\pi_{0j}+\pi_{1j}x_{ij}\ldots (1) π0 Ĵ= γ00+ γ01žĴ+ 你0 Ĵ… (2 )π0j=γ00+γ01zj+u0j…(2)\pi_{0j}=\gamma_{00}+\gamma_{01}z_j+u_{0j}\ldots (2) π1 Ĵ= γ10+ γ11žĴ+ 你1 Ĵ… (3 )π1j=γ10+γ11zj+u1j…(3)\pi_{1j}=\gamma_{10}+\gamma_{11}z_j+u_{1j}\ldots (3) 其中,假定组级别残差ü0 Ĵu0ju_{0j}和ü1 Ĵu1ju_{1j}具有期望值为零的多元正态分布。残留误差 u_ {0j}的方差ü0 Ĵu0ju_{0j}指定为σ20σ02\sigma^2_0,残留误差u_ {1j}的方差 ü1 Ĵu1ju_{1j}指定为σ21个σ12\sigma^2_1。 我想估算模型的参数,并且喜欢使用 Rcommand glmmPQL。 …

1
如何使用方差分析进行两个模型的比较?
anova比较两个模型时应如何理解结果? 例: Res.Df RSS Df Sum of Sq F Pr(>F) 1 9 54.032 2 7 4.632 2 49.4 37.329 0.0001844 *** 该手册页指出:“为一个或多个拟合模型对象计算方差(或偏差)表的分析”。但是,一位教授提到,可以将其用于模型比较-这就是我打算做的。 因此,我假设我可以使用anova(model1, model2)并获得一个p值,该值告诉我是否应该拒绝原假设:“模型相同”。 我是否可以说,如果p值小于(比如说)0.05,则模型存在显着差异?
9 r  regression  anova 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.