Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

1
中位数无偏估计量是否会使平均绝对偏差最小化?
这是一个后续的也是不同的问题,我以前的一个。 我在Wikipedia上读到,“ 拉普拉斯(Laplace)观察到,中值无偏估计器使绝对偏差损失函数的风险最小化。” 但是,我的蒙特卡洛模拟结果不支持该论点。 我假定从对数正常人群中,样品,其中,μ和σ是对数平均和对数标准差,β = EXP (μ )= 50X1,X2,...,XN∼LN(μ,σ2)X1,X2,...,XN∼LN(μ,σ2)X_1,X_2,...,X_N \sim \mbox{LN}(\mu,\sigma^2)μμ\muσσ\sigmaβ=exp(μ)=50β=exp⁡(μ)=50\beta = \exp(\mu)=50 几何平均估计量是总体中值的中值无偏估计量,exp(μ)exp⁡(μ)\exp(\mu) ,其中,μ和σ是对数平均和对数标准差,μ和 σ是极大似然估计μ和σ。β^GM=exp(μ^)=exp(∑log(Xi)N)∼LN(μ,σ2/N)β^GM=exp⁡(μ^)=exp⁡(∑log⁡(Xi)N)∼LN(μ,σ2/N)\hat{\beta}_{\mbox{GM}}= \exp(\hat{\mu})= \exp{(\sum\frac{\log(X_i)}{N})} \sim \mbox{LN}(\mu,\sigma^2/N)μμ\muσσ\sigmaμ^μ^\hat\muσ^σ^\hat\sigmaμμ\muσσ\sigma 校正后的几何平均估计量是总体中位数的均值无偏估计量。 β^CG=exp(μ^−σ^2/2N)β^CG=exp⁡(μ^−σ^2/2N)\hat{\beta}_{\mbox{CG}}= \exp(\hat{\mu}-\hat\sigma^2/2N) 我从LN (log (50 ),√)重复生成大小为5的样本。复制号是10,000。对于几何均值估计器,我得到的平均绝对偏差为25.14,对于校正后的几何均值,则为22.92。为什么?(log(50),log(1+22)−−−−−−−−−√)(log⁡(50),log⁡(1+22))(\log(50),\sqrt{\log(1+2^2)}) 顺便说一句,几何平均值的估计中值绝对偏差为18.18,校正几何平均值估计器为18.58。 我使用的R脚本在这里: #```{r stackexchange} #' Calculate the geomean to estimate the lognormal median. #' #' This function Calculate the geomean to estimate …

1
这是分析R中带有lme4的混合效果模型的可接受方法吗?
我有一个不平衡的重复测量数据集来进行分析,并且我已经读到大多数统计软件包使用ANOVA(即III型平方和)处理此问题的方式是错误的。因此,我想使用混合效应模型来分析这些数据。我已经在中阅读了很多有关混合模型的信息R,但是对于R混合效应模型我还是很陌生,对自己做的事情不是很自信。请注意,我还不能完全脱离“传统”方法,仍然需要和事后检验。ppp 我想知道以下方法是否有意义,或者我做错了什么。这是我的代码: # load packages library(lme4) library(languageR) library(LMERConvenienceFunctions) library(coda) library(pbkrtest) # import data my.data <- read.csv("data.csv") # create separate data frames for each DV & remove NAs region.data <- na.omit(data.frame(time=my.data$time, subject=my.data$subject, dv=my.data$dv1)) # output summary of data data.summary <- summary(region.data) # fit model # "time" is a factor with three …

5
KNN归因R包
我正在寻找KNN归因软件包。我一直在查看插补包(http://cran.r-project.org/web/packages/imputation/imputation.pdf),但是由于某种原因,KNN 插补功能(即使遵循描述中的示例)也似乎归零(如下所示)。我一直在环顾四周,但仍找不到任何东西,因此想知道是否有人对好的KNN插补包有其他建议? w ^ 在下面的代码中-NA值替换为零-不替换为Knn平均值 require(imputation) x = matrix(rnorm(100),10,10) x.missing = x > 1 x[x.missing] = NA kNNImpute(x, 3) x

4
R中的Brant测试[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 6个月前关闭。 在顺序逻辑回归中测试平行回归假设时,我发现有几种方法。我既使用了图形方法(如Harrell的书中所述),也使用了R中使用 序数包的方法。 但是,我还要对单个变量和整个模型运行Brant测试(来自Stata)。我环顾四周,但找不到在R中实现的代码。 R中有Brant测试的实现吗?

3
测试两个斜率值之间的显着差异
对于两个不同区域中的特定物种,我拥有的数据是y〜time的回归斜率值,标准误差,n值和ap值。我想检查一个区域的回归斜率是否与另一区域的回归斜率显着不同-使用此类数据可以做到吗?有人对我该有什么建议吗?不幸的是,我无法访问原始数据... 抱歉,这是一个简单的问题!

1
如何找到残差并绘制它们
我得到了数据 x = c(21,34,6,47,10,49,23,32,12,16,29,49,28,8,57,9,31,10,21,26,31,52,21,8,18,5,18,26,27,26,32,2,59,58,19,14,16,9,23,28,34,70,69,54,39,9,21,54,26) y = c(47,76,33,78,62,78,33,64,83,67,61,85,46,53,55,71,59,41,82,56,39,89,31,43,29,55, 81,82,82,85,59,74,80,88,29,58,71,60,86,91,72,89,80,84,54,71,75,84,79) 如何获得残差并将其与作图xxx?以及我如何测试残差看起来是否近似正常? 我不确定我是否正确完成了原始线性拟合,因为我得到了方程但讲义指出线性回归线的形式应为。y=6.9x−5.5y=6.9x−5.5y=6.9x-5.5yi=β0+β1x+ϵyi=β0+β1x+ϵy_i=\beta_0+\beta_1x+\epsilon
14 r  regression 

3
R的启动程序包中cv.glm中的cost函数是什么?
我正在使用留一法进行交叉验证。我有一个二进制响应,并且正在使用R的引导程序包,并且 cv.glm函数。我的问题是我不完全了解此功能中的“费用”部分。从我的理解中,这是一个功能,它决定将估计值分类为1还是0,即分类的阈值。它是否正确? 并且,在R的帮助下,他们将此函数用于二项式模型:cost <- function(r, pi = 0) mean(abs(r-pi) > 0.5)。如何解释此功能?因此我可以正确修改它以进行分析。 感谢您提供任何帮助,不想使用我不了解的功能。

3
您将如何在R中进行贝叶斯ANOVA和回归分析?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 2年前关闭。 我有一个相当简单的数据集,由一个自变量,一个因变量和一个分类变量组成。我在运行诸如aov()和的频繁测试方面有丰富的经验lm(),但是我无法弄清楚如何在R中执行它们的贝叶斯等效项。 我想对前两个变量进行贝叶斯线性回归,并使用分类变量作为分组进行方差的贝叶斯分析,但是我找不到任何简单的示例来说明如何使用R做到这一点。都?此外,贝叶斯分析所创建的输出统计信息到底是什么,它们表示什么? 我对统计数据不是很精通,但是共识似乎是,现在认为使用带有p值的基本测试有些误入歧途,我正在努力跟上。问候。

1
RandomForest-MDS图解说明
我使用randomForest根据8个变量(不同的身体姿势和动作)对6种动物行为进行了分类(例如,站立,行走,游泳等)。 randomForest软件包中的MDSplot给我该输出,并且在解释结果时遇到问题。我对相同的数据进行了PCA,并且已经在PC1和PC2中的所有类之间实现了很好的分隔,但是在这里Dim1和Dim2似乎仅分隔了3种行为。这是否意味着这三种行为比所有其他行为的相异性更高(因此MDS会尝试在变量之间找到最大的相异性,但不一定要在第一步中找到所有变量)?这三个群集的位置(例如在Dim1和Dim2中)指示什么?由于我对RI不太熟悉,因此在该图上绘制图例也有困难(但是我知道不同颜色的含义),但是也许有人可以帮忙吗?非常感谢!! 我在RandomForest中添加使用ClassCenter函数绘制的图。此功能还使用接近矩阵(与MDS图相同)来绘制原型。但是仅仅从查看六个不同行为的数据点来看,我不明白为什么邻近矩阵会像这样绘制我的原型。我还尝试了虹膜数据的classcenter函数,并且可以正常工作。但是似乎不适用于我的数据... 这是我用于此情节的代码 be.rf <- randomForest(Behaviour~., data=be, prox=TRUE, importance=TRUE) class1 <- classCenter(be[,-1], be[,1], be.rf$prox) Protoplot <- plot(be[,4], be[,7], pch=21, xlab=names(be)[4], ylab=names(be)[7], bg=c("red", "green", "blue", "yellow", "turquoise", "orange") [as.numeric(factor(be$Behaviour))]) points(class1[,4], class1[,7], pch=21, cex=2, bg=c("red", "green", "blue", "yellow", "turquoise", "orange")) 我的课程专栏是第一列,其后是8个预测变量。我将两个最佳预测变量绘制为x和y。

1
除了Kolmogorov-Smirnov检验之外,还有其他方法可用于校正带约束的数据吗?
我从两个样本(对照样本和处理样本)中得到了一堆数据,每个样本都包含数千个值,这些值将在R中进行显着性检验。理论上,这些值应该是连续的,但是由于测量软件进行了四舍五入,因此它们不是“他们之间建立了联系。分布是未知的,并且对照分布和处理过的分布的形状可能不同,因此我想使用非参数检验来比较样本中的差异是否对10个不同因素有显着影响。 我曾考虑过使用Kolmogorov-Smirnov检验,但是它并不真正适用于平局。我最近偶然发现了一个名为Matching的新R库,该库执行KS测试的引导版本并可以容忍联系。现在,这真的是一个好主意,还是应该改用其他测试?我是否需要调整p值?

1
导数的核密度估计量是否有最佳带宽?
我需要使用内核密度估计器基于一组观察值来估计密度函数。基于同一组观察,我还需要使用核密度估计器的导数来估计密度的一阶和二阶导数。带宽肯定会对最终结果产生很大影响。 首先,我知道有两个R函数可以提供KDE带宽。我不确定哪一个更受欢迎。谁能推荐这些R函数中的一种来获得KDE带宽? 其次,对于KDE的派生,我应该选择相同的带宽吗?

5
移除QQ图中心附近的多余点
我正在尝试在R中绘制一个带有两个约120万个点的数据集的QQ图(使用qqplot,并将数据输入到ggplot2中)。计算很容易,但是由于有很多点,因此生成的图形加载起来非常缓慢。我尝试了线性逼近以将点的数量减少到10000(无论如何,如果您的数据集之一大于另一个,这就是qqplot函数所做的事情),但是您会损失很多细节。 指向中心的大多数数据点基本上是无用的-它们重叠得太多,以致每个像素大概有100个。是否有任何简单的方法可以删除过于紧密的数据,而又不会使稀疏的数据流向尾部呢?

2
贝叶斯分析的最佳软件包
我想知道你们推荐哪种软件统计软件包来执行贝叶斯推理。 例如,我知道您可以独立运行openBUGS或winBUGS,也可以从R调用它们。但是R也有几个自己的软件包(MCMCPack,BACCO)可以进行贝叶斯分析。 是否有人对R中的哪个贝叶斯统计软件包最好或其他替代方案(Matlab或Mathematica)有任何建议? 我要比较的主要功能是性能,易用性,稳定性和灵活性

3
GAM模型的置信区间
阅读 mgcv::gam的帮助页面: 使用拟合模型预测的任何数量的置信度/可信区间都可轻松获得 但是我想不出一种方法来真正得到一个。我以为predict.gam会有一个type=confidence和level参数,但没有。您能帮助我如何创建它吗?

1
如何处理神经网络中二进制和连续输入的混合?
我正在R中使用nnet软件包来尝试构建ANN以预测公寓(个人项目)的房地产价格。我是新来的,没有数学背景,所以请和我一起裸露。 我有二进制和连续输入变量。例如,对于神经网络,一些最初为是/否的二进制变量被转换为1/0。其他变量是连续的,如Sqft。 输入数据样本 我已将所有值标准化为0-1比例。也许Bedrooms并且Bathrooms不应该归一化,因为它们的范围仅为0-4? 这些混合输入是否给ANN带来了问题?我已经取得了不错的结果,但是仔细检查一下ANN为某些变量选择的权重似乎没有任何意义。我的代码在下面,有什么建议吗? ANN <- nnet(Price ~ Sqft + Bedrooms + Bathrooms + Parking2 + Elevator + Central.AC + Terrace + Washer.Dryer + Doorman + Exercise.Room + New.York.View,data[1:700,], size=3, maxit=5000, linout=TRUE, decay=.0001) 更新: 基于以下有关将二进制输入分成每个值类的单独字段的注释,我的代码现在看起来像: ANN <- nnet(Price ~ Sqft + Studio + X1BR + X2BR + X3BR + …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.