统计和大数据 r

5

当前在Octave中工作，但是由于文档不佳，进度非常慢。哪种语言易于学习和使用，并且有充分的文献记载来解决机器学习问题？我希望在一个小的数据集（成千上万的示例）上建立原型，因此速度并不重要。编辑：我正在开发一个推荐引擎。因此，我对使用正则化线性回归，神经网络，SVN或协作过滤感兴趣。

12 r machine-learning matlab software python

2

如何在JAGS中设置零膨胀泊松？

我正在尝试在R和JAGS中建立零膨胀泊松模型。我是JAGS的新手，我需要一些有关该操作的指南。我一直在尝试以下方法，其中y [i]是观察到的变量 model { for (i in 1:I) { y.null[i] <- 0 y.pois[i] ~ dpois(mu[i]) pro[i] <- ilogit(theta[i]) x[i] ~ dbern(pro[i]) y[i] <- step(2*x[i]-1)*y.pois[i] + (1-step(2*x[i]-1))*y.null[i] log(mu[i]) <- bla + bla +bla + .... theta[i] <- bla + bla + bla + .... } } 但是，这不起作用，因为您不能在观察到的变量上使用<-。任何想法如何更改/解决此问题？还有其他方法可以在JAGS中建立零膨胀泊松模型吗？

12 r poisson-distribution jags zero-inflation

4

如何从大清单中抽取许多10个样本，而不整体替换

我有大量数据（20,000个数据点），我想从中重复取样10个数据点。但是，一旦选择了这10个数据点，就不要再次选择它们。我已经尝试过使用该sample函数，但是它似乎没有一个选项，可以在不替换该函数的多个调用的情况下进行采样。有没有简单的方法可以做到这一点？

12 r sample

2

使用lm（）时R中权重参数背后的理论

在读研究生一年后，我的“加权最小二乘”的理解是这样的：让y∈Rny∈Rn\mathbf{y} \in \mathbb{R}^n，XX\mathbf{X}是一些n×pn×pn \times p设计矩阵，是一个参数向量中的是误差向量，使得，其中和。然后模型 β∈Rpβ∈Rp\boldsymbol\beta \in \mathbb{R}^pϵ∈Rnϵ∈Rn\boldsymbol\epsilon \in \mathbb{R}^nϵ∼N(0,σ2V)ϵ∼N(0,σ2V)\boldsymbol\epsilon \sim \mathcal{N}(\mathbf{0}, \sigma^2\mathbf{V})V=diag(v1,v2,…,vn)V=diag(v1,v2,…,vn)\mathbf{V} = \text{diag}(v_1, v_2, \dots, v_n)σ2>0σ2>0\sigma^2 > 0y=Xβ+ϵy=Xβ+ϵ\mathbf{y} = \mathbf{X}\boldsymbol\beta + \boldsymbol\epsilon 在该假设下的模型称为“加权最小二乘”模型。WLS问题最终是找到 argminβ(y−Xβ)TV−1(y−Xβ).arg⁡minβ(y−Xβ)TV−1(y−Xβ).\begin{equation} \arg\min_{\boldsymbol \beta}\left(\mathbf{y}-\mathbf{X}\boldsymbol\beta\right)^{T}\mathbf{V}^{-1}\left(\mathbf{y}-\mathbf{X}\boldsymbol\beta\right)\text{.} \end{equation} 假设y=[y1…yn]Ty=[y1…yn]T\mathbf{y} = \begin{bmatrix} y_1 & \dots & y_n\end{bmatrix}^{T}，β=[β1…βp]Tβ=[β1…βp]T\boldsymbol\beta = \begin{bmatrix} \beta_1 & \dots & \beta_p\end{bmatrix}^{T}和 X=⎡⎣⎢⎢⎢⎢⎢x11x21⋮xn1⋯⋯⋮⋯x1px2p⋮xnp⎤⎦⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢xT1xT2⋮xTn⎤⎦⎥⎥⎥⎥⎥.X=[x11⋯x1px21⋯x2p⋮⋮⋮xn1⋯xnp]=[x1Tx2T⋮xnT].\mathbf{X} = \begin{bmatrix} x_{11} & \cdots …

12 r linear-model weighted-regression

3

随机森林回归预测不高于训练数据

我注意到，在建立随机森林回归模型时，至少在中R，预测值永远不会超过训练数据中看到的目标变量的最大值。例如，请参见下面的代码。我正在建立一个回归模型以mpg根据mtcars数据进行预测。我建立了OLS和随机森林模型，并使用它们来预测mpg假设的汽车应该具有非常好的燃油经济性。OLS预计会mpg达到预期的高，但随机森林则不会。我在更复杂的模型中也注意到了这一点。为什么是这样？ > library(datasets) > library(randomForest) > > data(mtcars) > max(mtcars$mpg) [1] 33.9 > > set.seed(2) > fit1 <- lm(mpg~., data=mtcars) #OLS fit > fit2 <- randomForest(mpg~., data=mtcars) #random forest fit > > #Hypothetical car that should have very high mpg > hypCar <- data.frame(cyl=4, disp=50, hp=40, drat=5.5, wt=1, qsec=24, vs=1, …

12 r random-forest

3

R中用于中断时间序列分析的资源

我对R相当陌生。我尝试阅读时间序列分析，并且已经完成 Shumway和Stoffer的时间序列分析及其应用第3版， Hyndman出色的预测：原理和实践艾薇儿·科兰（Avril Coghlan）使用R进行时间序列分析 A. Ian McLeod等人的R时间序列分析 Marcel Dettling博士的应用时间序列分析编辑：我不确定如何处理此问题，但我发现了交叉验证之外的有用资源。我想把它包括在这里，以防有人偶然发现这个问题。药物使用研究中中断时间序列研究的分段回归分析我有一个连续7年每天测量的消耗项目数（计数数据）的单变量时间序列。大约在时间序列的中间对研究人群进行了干预。预计这种干预不会立即产生效果，而且效果发生的时间基本上是不可知的。使用Hyndman的forecast软件包，我使用来将ARIMA模型拟合到干预前的数据auto.arima()。但是我不确定如何使用这种拟合来回答趋势是否存在统计上显着的变化并量化数量。 # for simplification I will aggregate to monthly counts # I can later generalize any teachings the community supplies count <- c(2464, 2683, 2426, 2258, 1950, 1548, 1108, 991, 1616, 1809, 1688, 2168, 2226, 2379, 2211, …

12 r time-series

2

用二次规划优化支持向量机

我正在尝试了解训练线性支持向量机的过程。我意识到，与使用二次编程求解器相比，SMV的属性可以更快地对其进行优化，但是出于学习目的，我希望了解其工作原理。训练数据 set.seed(2015) df <- data.frame(X1=c(rnorm(5), rnorm(5)+5), X2=c(rnorm(5), rnorm(5)+3), Y=c(rep(1,5), rep(-1, 5))) df X1 X2 Y 1 -1.5454484 0.50127 1 2 -0.5283932 -0.80316 1 3 -1.0867588 0.63644 1 4 -0.0001115 1.14290 1 5 0.3889538 0.06119 1 6 5.5326313 3.68034 -1 7 3.1624283 2.71982 -1 8 5.6505985 3.18633 -1 9 4.3757546 …

12 r svm optimization

2

用多个预测变量解释逻辑回归模型

我执行了多元逻辑回归分析，因变量Y是进入某特定时期内在疗养院中的死亡，并得到以下结果（请注意，变量开始于A连续值，而变量开始于连续值B）： Call: glm(Y ~ A1 + B2 + B3 + B4 + B5 + A6 + A7 + A8 + A9, data=mydata, family=binomial) Deviance Residuals: Min 1Q Median 3Q Max -1.0728 -0.2167 -0.1588 -0.1193 3.7788 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 20.048631 6.036637 3.321 0.000896 *** A1 0.051167 …

12 r regression logistic

1

glm（）函数中的“起始值”是什么？

什么是参数start，etastart，mustart在GLM（）函数？我一直在寻找文档和互联网，但没有找到明确的解释，这意味着什么。它类似于链的贝叶斯“初始值”，但我怀疑这是相关的，因为R中的glm（）函数是频繁统计信息...

12 r generalized-linear-model starting-values

1

查找统计模型的拟合值和预测值

假设我有以下数据并且正在运行回归模型： df=data.frame(income=c(5,3,47,8,6,5), won=c(0,0,1,1,1,0), age=c(18,18,23,50,19,39), home=c(0,0,1,0,0,1)) 一方面，我运行一个线性模型来预测收入： md1 = lm(income ~ age + home + home, data=df) 其次，我运行一个logit模型来预测won变量： md2 = glm(factor(won) ~ age + home, data=df, family=binomial(link="logit")) 对于这两个模型，我想知道如何生成具有预测器响应类别，拟合值和模型预测值的表或数据框。因此对于线性模型，类似于： age fitted_income predicted_income 18 3 5 23 3 3 50 4 2 19 5 5 39 6 4 home fitted_income predicted_income 0 …

12 r

6

解释R的ur.df（Dickey-Fuller单位根测试）结果

我正在使用软件包中的ur.df()功能在时间序列上运行以下单位根测试（Dickey-Fuller）urca。该命令是： summary(ur.df(d.Aus, type = "drift", 6)) 输出为： ############################################### # Augmented Dickey-Fuller Test Unit Root Test # ############################################### Test regression drift Call: lm(formula = z.diff ~ z.lag.1 + 1 + z.diff.lag) Residuals: Min 1Q Median 3Q Max -0.266372 -0.036882 -0.002716 0.036644 0.230738 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) …

12 r time-series hypothesis-testing unit-root

1

多元时间序列的块引导程序的替代方法

我目前使用以下过程来引导R中的多元时间序列：确定块大小-运行包中的函数b.star，该函数np将为每个系列生成块大小选择最大块大小 tsboot使用选定的块大小在任何系列上运行使用引导输出中的索引来重构多元时间序列有人建议使用meboot软件包作为块引导程序的替代方法，但是由于我没有使用整个数据集来选择块大小，因此，我不确定如果要使用通过在运行meboot时创建的索引来保持序列之间的相关性。一个系列。如果有人在多变量环境下使用过meboot，我将不胜感激有关此过程的建议。

12 r time-series multivariate-analysis bootstrap

4

如何在R中使用ggplot2绘制漏斗图？

作为标题，我需要绘制如下内容：可以使用ggplot或其他无法使用ggplot的程序包来绘制类似的内容吗？

12 r data-visualization ggplot2 funnel-plot

1

R中的AIC（）和extractAIC（）有什么区别？

两者的R文档并没有太多说明。我从此链接可以得到的所有信息是，使用其中任何一个都可以。我不明白的是为什么他们不平等。事实：R中的逐步回归函数step()使用extractAIC()。有趣的是，在R的“ mtcars”数据集上运行lm()模型和glm()“空”模型（仅截距）会得出AIC和的不同结果extractAIC()。 > null.glm = glm(mtcars$mpg~1) > null.lm = lm(mtcars$mpg~1) > AIC(null.glm) [1] 208.7555 > AIC(null.lm) [1] 208.7555 > extractAIC(null.glm) [1] 1.0000 208.7555 > extractAIC(null.lm) [1] 1.0000 115.9434 鉴于上述两个模型相同，并且AIC()两者给出的结果相同，这很奇怪。谁能在这个问题上有所启发？

11 r regression aic stepwise-regression

2

在R中拟合多元线性回归：自相关残差

我正在尝试使用以下方程式估算R中的多元线性回归： regr <- lm(rate ~ constant + askings + questions + 0) 问和问题是按季度构建的季度数据时间序列askings <- ts(...)。现在的问题是我得到了自相关残差。我知道可以使用gls函数拟合回归，但是我不知道如何识别必须在gls函数中实现的正确的AR或ARMA错误结构。我现在尝试再次估算， gls(rate ~ constant + askings + questions + 0, correlation=corARMA(p=?,q=?)) 但是很遗憾，我既不是R专家也不是统计学专家来确定p和q。如果有人可以给我一个有用的提示，我将很高兴。提前非常感谢您！乔

11 r time-series multiple-regression autocorrelation residuals

Questions tagged «r»