Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

25
Python作为统计工作台
许多人使用主要工具(例如Excel或其他电子表格,SPSS,Stata或R)来满足其统计需求。他们可能会针对非常特殊的需求转向某些特定的程序包,但是可以使用简单的电子表格或常规统计信息包或统计信息编程环境来完成很多事情。 我一直很喜欢Python作为一种编程语言,对于简单的需求,编写一个简短的程序来计算我的需求很容易。Matplotlib让我可以绘制它。 有没有人完全从R切换到Python?R(或任何其他统计信息包)具有许多特定于统计信息的功能,并且它具有的数据结构使您可以考虑要执行的统计信息,而不必考虑数据的内部表示形式。Python(或其他一些动态语言)的好处是允许我使用熟悉的高级语言进行编程,并且它使我能够与驻留数据或可以进行测量的真实系统进行编程交互。但是我还没有找到任何可以让我用“统计术语”表达事物的Python软件包-从简单的描述统计到更复杂的多元方法。 如果我想将Python用作“统计工作台”来代替R,SPSS等,您能推荐什么? 根据您的经验,我会有什么得失?
355 r  spss  stata  python 


2
R的lm()输出的解释
R中的帮助页面假定我知道这些数字的含义,但我不知道。我试图真正直观地理解这里的每个数字。我将只发布输出并对我发现的内容发表评论。可能(会)有错误,因为我只写我想像的东西。我主要想知道系数中的t值是什么意思,以及为什么它们会显示残留标准误差。 Call: lm(formula = iris$Sepal.Width ~ iris$Petal.Width) Residuals: Min 1Q Median 3Q Max -1.09907 -0.23626 -0.01064 0.23345 1.17532 这是残差的5点汇总(它们的平均值始终为0,对吧?)。可以使用这些数字(我在这里猜)来快速查看是否有任何较大的异常值。如果残差远离正态分布(它们应该是正态分布),您也已经在这里看到了。 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 3.30843 0.06210 53.278 < 2e-16 *** iris$Petal.Width -0.20936 0.04374 -4.786 4.07e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ …

9
如何在R中按组汇总数据?[关闭]
我有这样的R数据框: age group 1 23.0883 1 2 25.8344 1 3 29.4648 1 4 32.7858 2 5 33.6372 1 6 34.9350 1 7 35.2115 2 8 35.2115 2 9 35.2115 2 10 36.7803 1 ... 我需要以以下形式获取数据帧: group mean sd 1 34.5 5.6 2 32.3 4.2 ... 组号可能有所不同,但可以通过致电获得其名称和数量 levels(factor(data$group)) 要对数据进行什么操作才能得到结果?

4
如何解释QQ情节
我正在使用一个小的数据集(21个观测值),并且在R中具有以下常规QQ图: 看到该图不支持正态性,我可以推断出基础分布如何?在我看来,更偏向右侧的分布会更合适,对吗?此外,我们还可以从数据中得出哪些其他结论?

8
Logistic回归中如何处理完美分离?
如果您的变量将目标变量中的零和一完美地分开,R将产生以下“完美或准完美分离”警告消息: Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred 我们仍然可以得到模型,但是系数估计被夸大了。 您在实践中如何处理?

21
朱莉娅有希望加入统计界吗?
我最近阅读了R-Bloggers的一篇文章,该帖子与John Myles White的这篇博客文章相关,该文章涉及一种名为Julia的新语言。朱莉娅需要一个刚刚即时编译器,给它邪恶的快速运行时间,并把它的速度C / C ++(相同的数量级相同的数量级上的优势秩序,不是同样快)。此外,它使用我们开始使用传统语言进行编程的人们所熟悉的正统循环机制,而不是R的apply语句和向量运算。 即使茱莉亚如此出色的时机,R也不会消失。它在行业中具有广泛的支持,并且有许多出色的软件包可以执行任何操作。 我的兴趣是本质上的贝叶斯(Bayesian),在这种情况下通常不可能进行矢量化。当然,串行任务必须使用循环来完成,并且每次迭代都需要大量的计算。在执行这些串行循环任务时,R可能会非常慢,并且C / ++并不是编写程序的第一步。Julia似乎是用C / ++编写的一种很好的替代方法,但是它还处于起步阶段,并且缺少许多我喜欢R的功能。只有获得足够的支持,将Julia作为计算统计工作台来学习才有意义。来自统计界的人,人们开始为此编写有用的软件包。 我的问题如下: 朱莉娅需要具有什么特征才能具有使R成为事实统计语言的吸引力? 与学习诸如C / ++这样的低级语言相比,学习Julia来执行大量计算任务有什么优点和缺点?

3
R的lmer备忘单
这个论坛上有很多讨论,涉及使用来指定各种层次模型的正确方法lmer。 我认为将所有信息都放在一个地方会很棒。有几个问题要开始: 如何指定多个级别,其中一个组嵌套在另一个组中:是(1|group1:group2)还是(1+group1|group2)? (~1 + ....)和(1 | ...)和(0 | ...)等之间有什么区别? 如何指定小组级别的互动?

2
如何获得R中data.frame的行数?[关闭]
读取数据集后: dataset <- read.csv("forR.csv") 我怎样才能得到R给我它包含的个案数量? 另外,返回的值是否将包括用na.omit(dataset)?省略的排除情况?
157 r 


2
如何确定哪种分布最适合我的数据?
我有一个数据集,想找出哪种分布最适合我的数据。 我用了 fitdistr()函数来估计必要的参数,以描述假设的分布(即,威布尔,柯西,正态)。使用这些参数,我可以进行Kolmogorov-Smirnov检验来估计我的样本数据是否来自与假设分布相同的分布。 如果p值> 0.05,我可以假设样本数据是从相同的分布中得出的。但是p值没有提供有关拟合度的任何信息,不是吗? 因此,如果我的样本数据的p值对于正态分布以及Weibull分布> 0.05,那么我如何知道哪个分布更适合我的数据呢? 这基本上就是我所做的: > mydata [1] 37.50 46.79 48.30 46.04 43.40 39.25 38.49 49.51 40.38 36.98 40.00 [12] 38.49 37.74 47.92 44.53 44.91 44.91 40.00 41.51 47.92 36.98 43.40 [23] 42.26 41.89 38.87 43.02 39.25 40.38 42.64 36.98 44.15 44.91 43.40 [34] 49.81 38.87 40.00 …

6
与无序分类变量的相关性
我有一个包含许多观察结果和许多变量的数据框。其中一些是分类的(无序),其他是数字的。 我正在寻找这些变量之间的关联。我已经能够计算数值变量的相关性(斯皮尔曼相关性),但是: 我不知道如何测量无序分类变量之间的相关性。 我不知道如何测量无序分类变量和数值变量之间的相关性。 有谁知道该怎么做?如果是这样,是否有R函数实现这些方法?


2
去除统计学上显着的截距项会增加线性模型中的
在具有单个解释变量的简单线性模型中, αi=β0+β1δi+ϵiαi=β0+β1δi+ϵi\alpha_i = \beta_0 + \beta_1 \delta_i + \epsilon_i 我发现删除截距项可以大大提高拟合度(值从0.3变为0.9)。但是,截距项似乎具有统计意义。R2R2R^2 带拦截: Call: lm(formula = alpha ~ delta, data = cf) Residuals: Min 1Q Median 3Q Max -0.72138 -0.15619 -0.03744 0.14189 0.70305 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.48408 0.05397 8.97 <2e-16 *** delta 0.46112 0.04595 10.04 <2e-16 *** …

1
条件推理树与传统决策树
谁能解释条件推理树(ctree来自partyR中的程序包)与更传统的决策树算法(诸如rpartR中)的主要区别? 是什么使CI树与众不同? 长处和短处? 更新:我看了Chi在评论中提到的Horthorn等人的论文。我无法完全遵循它-谁能解释一下如何使用排列选择变量(例如什么是影响函数)? 谢谢!

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.