Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。



3
在R中拟合t分布:缩放参数
我如何拟合t分布的参数,即与正态分布的“均值”和“标准偏差”相对应的参数。我假设它们被称为t分布的“均值”和“缩放/自由度”? 以下代码通常会导致“优化失败”错误。 library(MASS) fitdistr(x, "t") 我必须先缩放x还是转换成概率?如何做到最好?

5
如何在R中的glm族参数中指定对数正态分布?
一个简单的问题:如何在R中的GLM系列参数中指定对数正态分布?我找不到如何实现的目标。为什么对数正态(或指数)不是family参数中的选项? 我读到R存档中的某个地方,只需指定GLM中设置为高斯的族的对数链接,即可指定对数正态。但是,这是无稽之谈,因为这将适合非线性回归并且R开始要求起始值。 有人知道如何为GLM设置对数正态(或指数)分布吗?

3
拟合多元自然三次样条
注:用了一个月后,没有正确的答案,我要重新发布SO 背景 我有一个模型fff,其中Y=f(X)Y=f(X)Y=f(\textbf{X}) 是来自 m个参数的样本的 n × m矩阵, Y是模型输出的 n × 1向量。XX\textbf{X}n×mn×mn \times mmmmYYYn×1n×1n \times 1 是计算密集型的,因此我想使用多变量三次样条曲线通过(X ,Y )点来近似 f,以便可以在更多点上评估 Y。ffffff(X,Y)(X,Y)(X,Y)YYY 题 是否有R函数可以计算X和Y之间的任意关系? 具体来说,我正在寻找该splinefun函数的多元版本,该版本针对单变量情况生成样条函数。 例如这是 splinefun单变量情况下的工作方式 x <- 1:10 y <- runif(10) foo <- splinefun(x,y) foo(1:10) #returns y, as example all(y == foo(1:10)) ## TRUE 我尝试过的 我已经审查了mda软件包,并且似乎应该可以进行以下操作: library(mda) x <- …

2
计算第95个百分位数:比较正态分布,R Quantile和Excel方法
我试图在以下数据集中计算第95个百分位数。我遇到了一些这样做的在线参考。 方法1:基于样本数据 在第一个告诉我获得TOP 95 Percent的数据集,然后选择MIN或AVG生成的一组。对以下数据集执行此操作即可得到: AVG: 29162 MIN: 0 方法2:假设正态分布 所述第二个说,第95百分位是平均约两个标准差以上(我明白)和I进行的: AVG(Column) + STDEV(Column)*1.65: 67128.542697973 方法3:R Quantile 我曾经R获得第95个百分位: > quantile(data$V1, 0.95) 79515.2 方法4:Excel的方法 最后,我遇到了这个,它解释了Excel是如何做到的。该方法的摘要如下: 给定一组N有序值{v[1], v[2], ...}和要求计算pth百分位数,请执行以下操作: 计算 l = p(N-1) + 1 拆分l成整数和小数成分即l = k + d 将所需值计算为 V = v[k] + d(v[k+1] - v[k]) 这种方法给我 79515.2 尽管我相信R的值是正确的值,但没有一个值匹配(我也从ecdf图中观察到了它)。我的目标是从给定的数据集中手动计算第95个百分位数(仅使用AVG和STDEV函数),并且不确定是否会发生什么。有人可以告诉我我要去哪里错吗? 93150 …
17 r  dataset  quantiles  sql 

5
对于R中的随机森林分类,应该如何针对不平衡的班级规模进行调整?
我正在为我正在研究的项目探索不同的分类方法,并且对尝试“随机森林”感兴趣。我正在努力地进行自我教育,并感谢CV社区提供的任何帮助。 我已将数据分为训练/测试集。通过在R中使用随机森林进行实验(使用randomForest包),我遇到了麻烦,因为我的小班级误分类率很高。我已经阅读了有关随机森林在不平衡数据上的性能的文章,作者提出了两种使用随机森林时处理类不平衡的方法。 1.加权随机森林 2.平衡的随机森林 R软件包不允许对类进行加权(从R帮助论坛中,我已经阅读到classwt参数无法正常运行,并计划将其作为将来的错误修复程序),因此我可以选择选项2。我可以指定随机森林每次迭代从每个类中采样的对象数。 对于为随机森林设置相等的样本大小,我感到不安,因为我好像会丢失太多有关较大类的信息,从而导致将来的数据表现不佳。对较大类别进行下采样时,分类错误率有所提高,但是我想知道在随机森林中是否还有其他方法可以处理类别不平衡的情况?

1
HMM在量化金融中的使用。可以检测趋势/转折点的HMM示例?
我正在发现所谓的“隐马尔可夫模型”(也称为“制度转换模型”)的奇妙世界。我想在R中使用HMM来检测趋势和转折点。我想建立尽可能通用的模型,以便可以在许多价格上对其进行测试。 谁能推荐一篇论文?我已经看过(并阅读)了(不止)一些,但是我正在寻找一个易于实现的简单模型。 另外,建议使用哪些R软件包?我可以看到有很多人在做HMM。 我已经买了《时间序列的隐马尔可夫模型:使用R的介绍》这本书,让我们看一下其中的内容吧;) 弗雷德

2
LDA中的“线性判别系数”是什么?
在中R,我使用lda库中的函数MASS进行分类。据我了解LDA,输入将被分配标签,这将最大化,对吗?XXxÿÿyp (ÿ| X)p(ÿ|X)p(y|x) 但是当我拟合其中我不太了解的输出, x=(Lag1,Lag2 )X=(大号一种G1,大号一种G2)x=(Lag1,Lag2)ÿ= d 我ř Ë Ç 吨我Ò Ñ ,ÿ=d一世[RËCŤ一世Øñ,y=Direction,lda 编辑:要重现下面的输出,请首先运行: library(MASS) library(ISLR) train = subset(Smarket, Year < 2005) lda.fit = lda(Direction ~ Lag1 + Lag2, data = train) > lda.fit Call: lda(Direction ~ Lag1 + Lag2, data = train) Prior probabilities of groups: Down Up 0.491984 …


2
如何使用具有随机效应的有序逻辑回归?
在我的研究中,我将使用几种指标来衡量工作量。具有心率变异性(HRV),皮肤电活动(EDA)和主观量表(IWS)。标准化后,IWS具有三个值: 工作量低于正常水平 平均工作量 工作量高于正常水平。 我想看看生理指标可以很好地预测主观工作量。 因此,我想使用比率数据来预测序数值。根据:如何在R中同时使用数字/分类值进行有序逻辑回归分析?使用此MASS:polr功能很容易做到。 但是,我也想考虑随机效应,例如受试者之间的差异,性别,吸烟等。在本教程中,我看不到如何向添加随机效应MASS:polr。替代地lme4:glmer,然后将是一种选择,但是该功能仅允许预测二进制数据。 是否可以向序数逻辑回归添加随机效应?

2
了解R中的Kolmogorov-Smirnov检验
我正在尝试了解Kolmogorov-Smirnov测试函数的输出(两个样本,两个侧面)。这是一个简单的测试。 x <- c(1,2,2,3,3,3,3,4,5,6) y <- c(2,3,4,5,5,6,6,6,6,7) z <- c(12,13,14,15,15,16,16,16,16,17) ks.test(x,y) # Two-sample Kolmogorov-Smirnov test # #data: x and y #D = 0.5, p-value = 0.1641 #alternative hypothesis: two-sided # #Warning message: #In ks.test(x, y) : cannot compute exact p-value with ties ks.test(x,z) #Two-sample Kolmogorov-Smirnov test #data: x and z …

1
如何从R中的密度函数查找/估计概率密度函数
假设我有一个X未知分布的变量。在Mathematica中,通过使用SmoothKernelDensity函数,我们可以得到一个估计的密度函数。该估计的密度函数可以与PDF函数一起用于计算某个值的概率密度函数,例如X以PDF[density,X]“密度”为的形式表示SmoothKernelDensity。如果R中具有这样的功能,那将是很好的。这就是Mathematica中的工作方式 http://reference.wolfram.com/mathematica/ref/SmoothKernelDistribution.html 作为一个示例(基于Mathematica函数): data = RandomVariate[NormalDistribution[], 100]; #generates 100 values from N(0,1) density= SmoothKernelDistribution[data]; #estimated density PDF[density, 2.345] returns 0.0588784 在这里您可以找到有关PDF的更多信息: http://reference.wolfram.com/mathematica/ref/PDF.html 我知道我可以density(X)在R中使用它绘制密度函数,并通过使用ecdf(X)它可以获得经验累积分布函数。基于我对Mathematica的描述,是否有可能在R中做同样的事情? 任何帮助和想法表示赞赏。
17 r  pdf  cdf 

2
如何处理R中的错误,例如“系数:14由于奇异而未定义”?
当执行GLM时,在方差分析输出中出现“由于奇异而未定义”错误,如何抵消这种错误的发生? 有人认为这是由于协变量之间的共线性或数据集中不存在其中一个级别(请参阅:在lm中解释“由于奇异而未定义”) 如果我想看看这“特殊治疗”驱动模式,我有4个级别的待遇:Treat 1,Treat 2,Treat 3和Treat 4,这是记录在我的电子表格是:当Treat 1是1,其余都是零,如果Treat 2是1,其余都是零,等,我该怎么办?

2
当我在逻辑回归设置中使用平方损失时,这里发生了什么?
我正在尝试使用平方损失对玩具数据集进行二进制分类。 我正在使用mtcars数据集,使用英里/加仑和重量来预测传输类型。下图显示了两种不同颜色的传输类型数据,以及由不同损失函数生成的决策边界。平方损失是 ∑i(yi−pi)2∑i(yi−pi)2\sum_i (y_i-p_i)^2,其中yiyiy_i是地面实况标签(0或1)和pipip_i是预测概率pi=Logit−1(βTxi)pi=Logit−1(βTxi)p_i=\text{Logit}^{-1}(\beta^Tx_i)。换句话说,我将逻辑损失替换为分类设置中的平方损失,其他部分相同。 对于一个玩具的例子 mtcars数据,在很多情况下,我得到的模型与逻辑回归相似(请参见下图,随机种子为0)。 但是在某些方面(如果我们这样做 set.seed(1)),平方损失似乎效果不佳。 这是怎么回事 优化不收敛?与平方损失相比,逻辑损失更易于优化?任何帮助,将不胜感激。 码 d=mtcars[,c("am","mpg","wt")] plot(d$mpg,d$wt,col=factor(d$am)) lg_fit=glm(am~.,d, family = binomial()) abline(-lg_fit$coefficients[1]/lg_fit$coefficients[3], -lg_fit$coefficients[2]/lg_fit$coefficients[3]) grid() # sq loss lossSqOnBinary<-function(x,y,w){ p=plogis(x %*% w) return(sum((y-p)^2)) } # ---------------------------------------------------------------- # note, this random seed is important for squared loss work # ---------------------------------------------------------------- set.seed(0) x0=runif(3) x=as.matrix(cbind(1,d[,2:3])) y=d$am opt=optim(x0, lossSqOnBinary, …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.