Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

1
为什么LASSO在高维度上找不到我的理想预测变量对?
我正在R中进行LASSO回归的小型实验,以测试它是否能够找到理想的预测变量对。该对的定义如下:f1 + f2 =结果 这里的结果是称为“年龄”的预定向量。通过取年龄向量的一半并将其余值设置为0,可以创建F1和f2,例如:age = [1,2,3,4,5,6],f1 = [1,2,3, 0,0,0]和f2 = [0,0,0,4,5,6]。通过从正态分布N(1,1)进行采样,我将此预测变量对与数量增加的随机创建变量结合在一起。 我看到的是当我命中2 ^ 16个变量时,LASSO再也找不到了。请参阅下面的结果。 为什么会这样呢?您可以使用以下脚本重现结果。我注意到,当我选择其他年龄向量时,例如:[1:193],LASSO确实找到了高维(> 2 ^ 16)对。 剧本: ## Setup ## library(glmnet) library(doParallel) library(caret) mae <- function(errors){MAE <- mean(abs(errors));return(MAE)} seed = 1 n_start <- 2 #start at 2^n features n_end <- 16 #finish with 2^n features cl <- …

1
边际效应标准误差如何使用增量法?
我有兴趣更好地理解delta方法,以近似包括交互项的回归模型的平均边际效应的标准误差。我已经研究了增量方法下的相关问题,但没有一个提供了我想要的东西。 考虑以下示例数据作为激励示例: set.seed(1) x1 <- rnorm(100) x2 <- rbinom(100,1,.5) y <- x1 + x2 + x1*x2 + rnorm(100) m <- lm(y ~ x1*x2) 我感兴趣的平均边际效应(AMES)x1和x2。为了计算这些,我只需执行以下操作: cf <- summary(m)$coef me_x1 <- cf['x1',1] + cf['x1:x2',1]*x2 # MEs of x1 given x2 me_x2 <- cf['x2',1] + cf['x1:x2',1]*x1 # MEs of x2 given x1 mean(me_x1) …

1
如何在R的线性回归中获得均方误差的值
让由R函数lm获得的线性回归模型想知道是否可以通过均方误差命令获得。 我有一个示例的以下输出 > lm <- lm(MuscleMAss~Age,data) > sm<-summary(lm) > sm Call: lm(formula = MuscleMAss ~ Age, data = data) Residuals: Min 1Q Median 3Q Max -16.1368 -6.1968 -0.5969 6.7607 23.4731 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 156.3466 5.5123 28.36 <2e-16 *** Age -1.1900 0.0902 -13.19 <2e-16 *** --- …
20 r  regression  error 

4
是否有类似决策树的无监督聚类算法?
我有一个由5个要素组成的数据集:A,B,C,D,E。它们都是数字值。我要做的不是以密度为基础的聚类,而是以类似决策树的方式对数据进行聚类。 我的意思是这样的: 该算法可以基于特征C将数据划分为X个初始簇,即,X个簇可以具有小C,中等C,大C和非常大的C值等。接下来,在X个簇节点的每个下,算法进一步划分根据特征A将数据分为Y个簇。算法将继续进行,直到使用了所有特征。 我上面描述的算法就像决策树算法。但是我需要它用于无监督的聚类,而不是有监督的分类。 我的问题如下: 这样的算法已经存在吗?这种算法的正确名称是什么 是否有一个R / python包/库实现了这种算法?

3
针对某些值测试模型系数(回归斜率)
在R,当我有一个(广义)线性模型(lm,glm,gls,glmm,...),我怎样才能测试系数(回归斜率)对大于0的任何其它值?在模型摘要中,会自动报告系数的t检验结果,但仅用于与0进行比较。我想将其与另一个值进行比较。 我知道我可以使用一个小技巧与reparametrizing y ~ x为y - T*x ~ x,其中T是测试值,并运行此重新参数模型,但我追求简单的解决方案,这将可能在原有的模式工作。
20 r  regression  t-test 

1
可以包含相互作用的双向方差分析的非参数等价情况是什么?
嗨,我正在尝试找到一种双向ANOVA(3x4设计)的非参数等效项,它能够包含交互作用。从我在Zar 1984年的“生物统计学分析”中的阅读可以使用Scheirer,Ray和Hare(1976)中提出的方法来实现,但是,据在线其他帖子推断,该方法不再适用(如果有的话)是)。 有谁知道哪种方法适合这样做,如果是,那么R或Stata中的相应功能是否合适?


2
手动执行EM算法
我想手动实现EM算法,然后比较它的结果normalmixEM的mixtools包。当然,如果它们都能带来相同的结果,我将很高兴。主要参考文献是Geoffrey McLachlan(2000),有限混合模型。 我有两个高斯混合密度,一般形式下,对数似然由(McLachlan第48页)给出: 日志大号C(Ψ )= Σ我= 1G∑j = 1ñž我Ĵ{ 日志π一世+ 日志F一世(y一世; θ一世)} 。log⁡Lc(Ψ)=∑i=1g∑j=1nzij{log⁡πi+log⁡fi(yi;θi)}. \log L_c(\Psi) = \sum_{i=1}^g \sum_{j=1}^n z_{ij}\{\log \pi_i + \log f_i(y_i;\theta_i)\}. 所述是,如果观察是从个元件密度,否则。该是正态分布的密度。所述是混合物的比例,所以是概率,即观察是从第一高斯分布和是概率,即观察是从第二高斯分布。ž我Ĵzijz_{ij}1个11一世ii000F一世fif_iππ\piπ1个π1\pi_1π2π2\pi_2 该ê步现在,条件期望的计算: Q (Ψ ; Ψ(0 ))= EΨ (0 ){ 日志大号C(| Ψ )| ÿ} 。Q(Ψ;Ψ(0))=EΨ(0){log⁡Lc(|Ψ)|y}. Q(\Psi;\Psi^{(0)}) = E_{\Psi(0)}\{\log L_c(|\Psi)|y\}. 经过一些推导得出结果(第49页): τ一世(yĴ; Ψ(k ))= π(k )一世F一世(yĴ; θ(k )一世F(yĴ; …

3
我在R上的rollapply PCA中收到“跳跃”加载。可以修复它吗?
我有10年的28种不同货币的每日收益数据。我希望提取第一个主要成分,而不是希望在整个10年中都使用PCA,而是希望应用2年的窗口,因为货币的行为会发生变化,因此我想对此进行反映。但是,我有一个主要问题,那就是princomp()和prcomp()函数在相邻的PCA分析中(即相隔1天)经常会从正加载跳跃到负加载。查看欧元货币的加载图: 显然,我不能使用它,因为相邻的载荷会从正数跳到负数,所以我的使用它们的系列将是错误的。现在看一下欧元货币加载的绝对值: 问题当然是我仍然不能使用它,因为从上图可以看出,负载确实会从负向正移动,有时会反过来,这是我需要保留的特征。 有什么办法可以解决这个问题?我可以强制特征向量方向在相邻的PCA中始终相同吗? 顺便说一句,FactoMineR PCA()函数也会出现此问题。rollapply的代码在这里: rollapply(retmat, windowl, function(x) summary(princomp(x))$loadings[, 1], by.column = FALSE, align = "right") -> princomproll
20 r  pca 

1
计算预测间隔以进行逻辑回归
我想了解如何为逻辑回归估计生成预测间隔。 建议我遵循Collett的Modeling Binary Data,第二版,第98-99页中的步骤。在实现了此过程并将其与R进行比较之后predict.glm,我实际上认为这本书展示的是计算置信区间而非预测区间的过程。 与相比predict.glm,Collett实施了该程序,如下所示。 我想知道:如何从这里开始产生预测间隔而不是置信区间? #Derived from Collett 'Modelling Binary Data' 2nd Edition p.98-99 #Need reproducible "random" numbers. seed <- 67 num.students <- 1000 which.student <- 1 #Generate data frame with made-up data from students: set.seed(seed) #reset seed v1 <- rbinom(num.students,1,0.7) v2 <- rnorm(length(v1),0.7,0.3) v3 <- rpois(length(v1),1) #Create df …

3
结合机器学习模型
我是数据挖掘/机器学习/等方面的新手。并且一直在阅读有关将多个模型和同一模型的运行组合起来以改善预测的几种方法。 通过阅读几篇论文(在理论和希腊字母上通常很有趣并且很出色,但是在代码和实际示例上却很短),我的印象是它应该像这样: 我采用一个模型(knn,RF等),并获得0到1之间的分类器列表。我的问题是如何合并这些分类器列表中的每一个?我是否在训练集中运行相同的模型,以使进入最终模型的列数相同或还有其他技巧? 如果有任何建议/示例包含R代码,那就太好了。 注意:这是针对训练集中有100k行,测试集中有70k和10列的数据集。

2
允许比较混合效应模型(主要是随机效应)
我一直在研究使用R中的lme4包进行的混合效果建模。我主要使用该lmer命令,因此我将通过使用该语法的代码提出问题。我想可能是一个简单的普遍问题,可以比较lmer使用基于相同数据集的似然比构造的任何两个模型吗?我相信答案必须是“否”,但我可能是错误的。我已经阅读了有关随机效应是否必须相同的信息,而随机效应的含义是什么呢?因此,我将举几个例子。我将从使用单词刺激的重复测量数据中获取它们,也许像Baayen(2008)这样的东西在解释中会很有用。 假设我有一个模型,其中有两个固定效果预测变量,我们将它们称为A和B,还有一些随机效果……感知它们的单词和主题。我可能会构建如下模型。 m <- lmer( y ~ A + B + (1|words) + (1|subjects) ) (请注意,我故意data =将其排除在外,REML = FALSE为了清晰起见,我们假设我的意思总是) 现在,以下模型中,哪些可以与上述模型的似然比进行比较,哪些不可以? m1 <- lmer( y ~ A + B + (A+B|words) + (1|subjects) ) m2 <- lmer( y ~ A + B + (1|subjects) ) m3 <- lmer( y ~ A …

2
插入符号重采样方法
我正在使用caretR中的库来测试各种建模过程。 该trainControl对象允许指定一种重采样方法。所述方法在被描述的文档部分2.3,其中包括:boot,boot632,cv,LOOCV,LGOCV,repeatedcv和oob。尽管其中一些方法易于推断,但并非所有这些方法都明确定义。 这些重采样方法对应的程序是什么?
20 r  resampling  caret 

3
测试光谱密度峰值的重要性
有时我们使用频谱密度图来分析时间序列中的周期性。通常,我们通过视觉检查来分析该图,然后尝试得出有关周期性的结论。但是,统计学家是否开发了任何测试来检查图中的峰值是否与白噪声在统计上有所不同?R专家是否开发了用于频谱密度分析和进行此类测试的软件包?如果有人可以帮助,那就太好了。 问候, 体育。

3
如何在R中建立和估计多项式logit模型?
我在JMP中运行了一个多项式logit模型,并返回了结果,其中包括AIC以及每个参数估计值的卡方p值。该模型具有一个分类结果和7个分类解释变量。 然后,我使用nnet包中的multinom函数来拟合我认为可以在R中构建相同模型的内容。 该代码基本上是: fit1 <- multinom(y ~ x1+x2+...xn,data=mydata); summary(fit1); 但是,两者给出的结果不同。对于JMP,AIC为2923.21,nnet::multinom对于AIC为3116.588。 所以我的第一个问题是:其中一个模型有误吗? 第二件事是,JMP为我需要的每个参数估计值提供卡方的p值。在多项式fit1上运行摘要不会-仅给出估计值,AIC和偏差。 因此,我的第二个问题是:有没有一种方法可以获取模型的p值并在使用时进行估算nnet::multinom? 我知道mlogit是另一个R包,它的输出看起来包括p值。但是,我无法mlogit使用我的数据运行。我认为我的数据格式正确,但是它说我的公式无效。我使用了与以前相同的公式multinom,但似乎使用管道需要使用不同的格式,但我不知道它是如何工作的。 谢谢。
20 r  logistic  multinomial  logit  jmp 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.