Questions tagged «r»

R是一种免费的开源编程语言和软件环境,用于统计计算,生物信息学和图形。

1
Hartigan-Wong k-means方法和其他算法的收敛性
我一直试图理解主要stats在R语言包中实现的不同的k均值聚类算法。 我了解劳埃德(Lloyd)算法和麦昆(MacQueen)的在线算法。我对它们的理解如下: 劳埃德算法: 最初选择“ k”个随机观测值作为“ k”簇的质心。然后,以下步骤迭代进行,直到质心收敛。 计算每个观测值与所选质心之间的欧几里得距离。 最接近每个质心的观测值标记在“ k”桶中。 每个存储桶中所有观测值的平均值用作新的质心。 新的质心取代了旧的质心,如果旧的和新的质心尚未收敛,则迭代返回到步骤1。 收敛的条件如下:旧质心和新质心完全相同,质心之间的差异很小(约为10 ^ -3)或达到最大迭代次数(10或100)。 麦昆的算法: 这是一个在线版本,其中第一个“ k”实例被选为质心。 然后,根据哪个质心最接近该实例,将每个实例放置在存储桶中。重新计算各个质心。 重复此步骤,直到将每个实例放置在适当的存储桶中。 此算法只有一次迭代,并且循环针对“ x”个实例进行 Hartigan-Wong算法: 将所有点/实例分配给随机存储桶并计算相应的质心。 从第一个实例开始,找到最近的质心并装配该铲斗。如果存储桶已更改,则重新计算新质心,即新分配的存储区的质心和旧存储区分配的质心,因为这是受更改影响的两个质心 遍历所有点并获得新的质心。 对点2和3进行第二次迭代,这将执行某种清理操作并将杂散点重新分配给正确的存储桶。 因此,该算法执行2次迭代,然后才能看到收敛结果。 现在,我不确定在Hartigan-Wong算法的第4点中我认为的方法是否正确。我的问题是,Hartigan-Wong的以下方法是否是实现k-means的正确方法?此方法只有两次迭代吗?如果不是,收敛的条件是什么(何时停止)? 我了解的另一个可能的实现说明是。 将所有点/实例分配给随机存储桶并计算相应的质心。 从第一个实例开始,找到最近的质心并分配该存储桶。如果存储桶已更改,则重新计算新质心,即新分配的存储区的质心和旧存储区分配的质心,因为这是受更改影响的两个质心。 一旦存储桶中的任何点发生更改,请回到第一实例并再次重复这些步骤。 当所有实例都被迭代且所有点均未更改存储桶时,迭代结束。 这样,每次实例更改存储桶时,都会从数据集的开头一次又一次地进行很多迭代。 任何说明都将有所帮助,如果我对这些方法中的任何一种理解有误,请告诉我。
10 r  clustering  k-means 

2
R中的数据科学软件测试
在测试我的python代码时,特别是当它必须与其他模块或其他代码段集成时,我经常使用Nose,Tox或Unittest。但是,现在我发现自己在ML建模和开发中比在python中更多地使用R。我意识到我并没有真正测试我的R代码(更重要的是,我真的不知道该怎么做)。所以我的问题是,有什么好的软件包可以让您像Python中的Nose,Tox或Unittest一样测试R代码。其他参考资料,例如教程,也将不胜感激。 R中的软件包的奖励积分类似于 假设 要么 特色锻造 相关演讲: Trey Causey:数据科学家测试

5
LSTM或其他R的RNN软件包
我看到LSTM模型产生的莎士比亚文本产生了令人印象深刻的结果。我想知道是否存在R的LSTM软件包。我用Google搜索它,但只找到了Python和Julia的软件包。(也许存在一些性能问题,这说明了为什么这些程序比R更受青睐)您是否了解R的LSTM(或至少RNN)软件包?如果存在,有没有使用它们的教程?
10 r  neural-network  rnn 

1
R中图的库(标签传播算法/频繁的子图挖掘)
问题的一般描述 我有一个图形,其中某些顶点被标记为具有3或4个可能值的类型。对于其他顶点,类型是未知的。我的目标是使用图形来预测未标记顶点的类型。 可能的框架 根据我对文献的阅读,我怀疑这符合标签传播问题的一般框架(例如,请参见本文和本文) 经常被提到的另一种方法是Frequent Subgraph Mining,它包括算法,如SUBDUE,SLEUTH,和gSpan。 发现于R 我设法找到的唯一标签传播实现R是label.propagation.community()在igraph库中。但是,顾名思义,它主要用于查找社区,而不是用于对未标记的顶点进行分类。 似乎也有几个对subgraphMining库的引用(例如,在这里),但是CRAN似乎缺少它。 题 您是否了解所描述任务的库或框架?

4
学习R中的序数回归?
我正在做一个项目,需要资源来使我快速入门。 数据集是关于30个左右变量的大约35000个观测值。大约一半的变量是类别变量,有些变量具有许多可能的值,即,如果将类别变量拆分为虚拟变量,则将有30多个变量。但是最大数量仍然可能达到几百个。(n> p)。 我们要预测的响应是5级(1,2,3,4,5)的序数。预测变量是连续的和分类的,每个变量的大约一半。到目前为止,这些是我的想法/计划:1.将响应视为连续并运行香草线性回归。2.运行名义和有序逻辑和概率回归3.使用MARS和/或另一种非线性回归 我熟悉线性回归。Hastie和Tibshirani对火星有足够的描述。但是当涉及到序数logit / probit时,我却茫然无措,尤其是在变量如此多且数据集很大的情况下。 到目前为止,r包glmnetcr似乎是我最好的选择,但是文档不足以让我知道我要去的地方。 我在哪里可以了解更多?

3
R的内存限制是什么?
在审阅“ 应用预测模型 ”时,审阅者指出: 我对统计学习(SL)教学法的一种批评是,在评估不同的建模技术时缺乏计算性能方面的考虑。SL着重于引导和交叉验证以优化/测试模型,因此计算量很大。再加上诸如装袋和增强之类的技术中所嵌入的重新采样,您就可以在大型数据集的有监督学习中拥有计算能力。实际上,R的内存约束对模型的大小施加了相当严格的限制,可以通过性能最佳的方法(如随机森林)来拟合模型的大小。尽管SL在针对小型数据集校准模型性能方面做得很好,但了解大型数据的性能与计算成本的关系一定会很不错。 R的内存约束是什么,它们是否对可以通过性能最佳的方法(例如随机森林)拟合的模型大小施加严格限制?
10 apache-hadoop  r 

1
使用R构建决策树时,是否需要规范化数据?
因此,本周我们的数据集具有14个属性,每列具有非常不同的值。一列的值小于1,而另一列的值从三到四个整数。 上周我们学习了归一化,似乎您应该对数据具有非常不同的值进行归一化。对于决策树,情况是否相同? 我对此不确定,但归一化会影响来自同一数据集的结果决策树吗?似乎不应该,但是...
10 r  beginner 

3
Amazon ec2上的R随机林错误:无法分配大小为5.4 Gb的向量
我正在R中训练随机森林模型,并randomForest()使用1000个树和数据帧以及大约20个预测变量和600K行。在我的笔记本电脑上,一切正常,但是当我转到Amazon ec2时,要运行相同的内容,则会收到错误消息: Error: cannot allocate vector of size 5.4 Gb Execution halted 我正在使用c3.4xlarge实例类型,因此非常强大。有谁知道为此解决方案以使其在此实例上运行?我很想知道仅在ec2实例上而不在笔记本电脑上导致此问题的内存细微差别(OS X 10.9.5处理器2.7 GHz Intel Core i7;内存16 GB 1600 MHz DDR3) 谢谢。

3
是否有任何机器学习技术来识别地块/图像上的点?
我具有随时间和车道数得出的每辆车横向位置的数据,如以下图像和示例数据中的这3个图所示。 > a Frame.ID xcoord Lane 1 452 27.39400 3 2 453 27.38331 3 3 454 27.42999 3 4 455 27.46512 3 5 456 27.49066 3 横向位置会随时间变化,因为驾驶员无法完全控制车辆的位置。当横向位置急剧变化时,变道操纵开始,当变化再次变为“正常”时,变道操纵结束。无法直接从数据中识别出来。我必须手动查看每辆车的图,以确定车道变更操作的起点和终点,以便估算车道变更的持续时间。但是我在数据集中有成千上万辆汽车。您能否将我引导至可以训练以识别这些点的任何相关图像分析/机器学习算法?我在R工作。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.