Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

9
计数数据的时间序列,计数<20
我最近开始为结核病诊所工作。我们会定期开会,讨论我们目前正在治疗的结核病病例数,进行的检测数目等。我想开始对这些计数进行建模,以便我们不只是猜测是否有异常。不幸的是,我几乎没有时间序列方面的培训,并且我大部分时间都在接触非常连续的数据(股价)或大量计数(流感)的模型。但是我们每月处理0-18例(平均6.68,中位数7,变量12.3),分布情况如下: [图像迷失在时间的迷雾中] [被烟灰吞噬的图像] 我已经找到了一些有关此类模型的文章,但我非常感谢听到您的建议-无论是方法还是我可以用来实现这些方法的R包。 编辑: mbq的回答迫使我对我在这里要问的问题进行更仔细的思考。我对每月的工作太挂了,失去了问题的实际重点。我想知道的是:(从2008年开始)(明显可见)的下降是否反映了案件总数的下降趋势?在我看来,2001-2007年间每月的案件数量反映了一个稳定的过程;也许有些季节性,但总体稳定。从2008年至今,情况似乎正在发生变化:案件总数正在下降,尽管由于随机性和季节性,每月的案件数可能会上下波动。如何测试流程中是否存在真正的变化?如果我能确定下降,

2
自相关时间的定义(有效样本量)
我在文献中为弱固定时间序列的自相关时间找到了两个定义: τ一种= 1 + 2 ∑k = 1∞ρķ与τb= 1 + 2 ∑k = 1∞| ρķ|τa=1+2∑k=1∞ρkversusτb=1+2∑k=1∞|ρk| \tau_a = 1+2\sum_{k=1}^\infty \rho_k \quad \text{versus} \quad \tau_b = 1+2\sum_{k=1}^\infty \left|\rho_k\right| 其中是滞后的自相关。 kρķ= Cov [ XŤ,X吨+ 小时]变量[ XŤ]ρk=Cov[Xt,Xt+h]Var[Xt]\rho_k = \frac{\text{Cov}[X_t,X_{t+h}]}{\text{Var}[X_t]}ķkk 自相关时间的一种应用是找到“有效样本量”:如果您对一个时间序列有观测值,并且知道它的自相关时间,那么您可以假装您拥有τñnnττ\tau ñ效= nτneff=nτ n_\text{eff} = \frac{n}{\tau} 为了找到平均值,独立样本而不是相关样本。从数据中估计并非易事,但有几种方法可以做到这一点(请参阅Thompson 2010)。τñnnττ\tau 没有绝对值的定义在文献中似乎更常见;但它承认的可能性。使用R和“ coda”包:τ 一个 &lt; 1τ一种τa\tau_aτ一种&lt; 1τa&lt;1\tau_a<1 require(coda) …

1
具有离散数据的Kolmogorov-Smirnov:在R中正确使用dgof :: ks.test是什么?
初学者问题: 我想测试两个离散数据集是否来自同一分布。我建议进行一次Kolmogorov-Smirnov检验。 Conover(《实用非参数统计》,3d)似乎说Kolmogorov-Smirnov检验可用于此目的,但其行为是“保守的”且具有离散分布,我不确定这在这里意味着什么。 DavidR 在另一个问题上的评论说:“ ...您仍然可以基于KS统计量进行α级测试,但是您必须找到其他方法来获得临界值,例如通过仿真。” dgof R软件包(article,cran)中的ks.test()版本增加了stats软件包的ks.test()默认版本中不存在的某些功能。除其他外,dgof :: ks.test包含以下参数: Simulation.p.value:仅在离散拟合优度测试中指示是否通过蒙特卡洛模拟计算p值的逻辑。 Simulator.p.value = T的目的是完成DavidR的建议吗? 即使是这样,我也不确定是否可以真正使用dgof :: ks.test进行两个样本的测试。看起来它仅提供了两个样本的连续分布测试: 如果y是数字,则对从相同连续分布中得出x和y的零假设进行两次抽样检验。 或者,y可以是命名连续(累积)分布函数(或此类函数)的字符串,或给出离散分布的ecdf函数(或stepfun类的对象)。在这些情况下,对生成x的分布函数为分布y ...的零进行一次样本检验。 (背景细节:严格来说,我的基础分布是连续的,但是数据往往位于少数几个点附近。每个点都是模拟的结果,并且是-1和1之间的10或20个实数的平均值1.到模拟结束时,这些数字几乎总是非常接近.9或-.9,因此均值聚集在几个值附近,我将它们视为离散值,模拟很复杂,我没有认为数据遵循众所周知的分布的原因。) 忠告?

4
估算PCA的缺失值
我使用该prcomp()函数在R中执行PCA(主要成分分析)。但是,该函数中存在一个错误,导致该na.action参数不起作用。我寻求有关stackoverflow的帮助;那里的两个用户提供了两种不同的NA价值观处理方式。但是,这两种解决方案的问题在于,当存在一个NA值时,该行将被删除,并且在PCA分析中不考虑该行。我的真实数据集是100 x 100的矩阵,我不想只因为它包含一个NA值而丢失整行。 下面的示例显示该prcomp()函数不包含第5行的任何主要成分,因为它包含一个NA值。 d &lt;- data.frame(V1 = sample(1:100, 10), V2 = sample(1:100, 10), V3 = sample(1:100, 10)) result &lt;- prcomp(d, center = TRUE, scale = TRUE, na.action = na.omit) result$x # $ d$V1[5] &lt;- NA # $ result &lt;- prcomp(~V1+V2, data=d, center = TRUE, scale = TRUE, na.action = …

1
在R中的自然立方样条曲线中设置结
我的数据具有许多相关的功能,在运行LDA之前,我想先使用平滑基函数来简化这些功能。我正在尝试使用splines带有ns功能的程序包中的自然三次样条。 如何分配结点? 这是基本的R代码: library(splines) lda.pred &lt;- lda(y ~ ns(x, knots=5)) 但是我不知道该如何选择结ns。
23 r  splines 

7
根据三个百分点估算分布
如果我只知道三个百分点,可以使用哪些方法来推断分布? 例如,我知道在某个数据集中,第五个百分位数是8,135,第50个百分位数是11,259,第95个百分位数是23,611。我希望能够从任何其他数字提高到其百分位数。 这不是我的数据,而这些都是我的全部统计数据。很明显,分布不正常。我仅有的其他信息是,该数据代表政府为不同学区提供的人均经费。 我对统计数据了解得足够多,无法知道这个问题没有确定的解决方案,但是对于知道如何找到正确的猜测还不够。 对数正态分布是否合适?我可以使用哪些工具执行回归(或者我需要自己进行回归)?

2
最小二乘回归逐步线性代数计算
作为有关R中线性混合模型的问题的前传,并作为初学者/中级统计爱好者的参考,我决定以独立的“问答式”形式发布“手动”计算简单线性回归的系数和预测值。 该示例使用R内置数据集,mtcars并将其设置为充当自变量的车辆所消耗的每加仑英里数,并根据汽车的重量(连续变量)进行回归,并将汽缸数作为没有相互作用的三个水平(4、6或8)的因子。 编辑:如果您对此问题感兴趣,您肯定会在CV之外的Matthew Drury的这篇帖子中找到详细而令人满意的答案。



2
R中的引导实际上如何工作?
我一直在研究R中的引导程序包,尽管我找到了很多有关如何使用它的入门知识,但我还没有找到任何能够准确描述“幕后”情况的信息。例如,在此示例中,指南显示了如何使用标准回归系数作为引导程序回归的起点,但没有说明引导程序实际上在做什么以得出引导程序回归系数。似乎正在发生某种迭代过程,但我似乎无法弄清楚到底发生了什么。

2
形式为
我有一个来自网络讨论论坛的统计数据集。我正在查看一个主题期望得到的答复数量的分布。特别是,我创建了一个数据集,该数据集包含主题答复计数列表,然后包含具有该答复数目的主题计数。 "num_replies","count" 0,627568 1,156371 2,151670 3,79094 4,59473 5,39895 6,30947 7,23329 8,18726 如果我将数据集绘制在对数-对数图上,那么我得到的基本上是一条直线: (这是一个Zipfian分布)。Wikipedia告诉我,对数对数图上的直线表示可以用形式的单项式建模的函数。实际上,我已经关注了这样的功能:ÿ= 一个Xķÿ=一种Xķy = ax^k lines(data$num_replies, 480000 * data$num_replies ^ -1.62, col="green") 我的眼球显然不如R准确。那么如何使R更精确地适合我的模型参数呢?我尝试了多项式回归,但是我不认为R试图将指数作为参数拟合-我想要的模型的专有名称是什么? 编辑:谢谢大家的回答。如建议的那样,我现在使用以下配方针对输入数据的日志拟合线性模型: data &lt;- read.csv(file="result.txt") # Avoid taking the log of zero: data$num_replies = data$num_replies + 1 plot(data$num_replies, data$count, log="xy", cex=0.8) # Fit just the first 100 …

2
受限玻尔兹曼机器与多层神经网络
我一直想尝试使用神经网络来解决我面临的分类问题。我碰到了有关注重成果的管理的论文。但是据我了解,它们与拥有多层神经网络没有什么不同。这个准确吗? 此外,我与R合作,没有看到RBM的任何罐头包装。我确实碰到过有关深度学习网络的文献,这些深度学习网络基本上是堆叠的RBM,但不确定在R中实现它们是否值得努力。有人会提出任何建议吗?谢谢

5
R的randomForest不能处理超过32个级别。解决方法是什么?
R的randomForest包不能处理超过32个级别的因子。当给它超过32个级别时,它将发出错误消息: 无法处理超过32个类别的类别预测变量。 但是我拥有的数据有几个因素。其中一些具有1000+的级别,而某些具有100+。它甚至具有52个美国的“州”。 所以,这是我的问题。 为什么会有这样的限制?即使对于简单的情况,randomForest也拒绝运行。 &gt; d &lt;- data.frame(x=factor(1:50), y=1:50) &gt; randomForest(y ~ x, data=d) Error in randomForest.default(m, y, ...) : Can not handle categorical predictors with more than 32 categories. 如果仅仅是由于内存限制,scikit如何学习使用32个以上级别运行的randomForeestRegressor? 解决此问题的最佳方法是什么?假设我有X1,X2,...,X50自变量,Y是因变量。并假设X1,X2和X3具有32个以上的级别。我该怎么办? 我正在考虑为X1,X2和X3中的每一个运行聚类算法,其中距离定义为Y的差值。我将运行三个聚类,因为存在三个有问题的变量。并且希望在每个群集中都可以找到相似的级别。我将合并它们。 听起来如何?

3
方差不等的回归建模
我想拟合一个线性模型(lm),其中残差方差显然取决于解释变量。 我知道的方法是将glm与Gamma族一起使用,对方差建模,然后将其逆值放入lm函数的权重中(例如:http : //nitro.biosci.arizona.edu/r/chapter31 .pdf) 我在想: 这是唯一的技术吗? 还有哪些其他相关方法? 哪些R包/功能与此类建模相关?(其他然后是glm,lm)


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.