统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

2
什么时候(为什么)应该记录(数字)分布的对数?
假设我有一些历史数据,例如过去的股价,机票价格波动,公司的过去财务数据... 现在有人(或某些公式)出现并说“让我们使用/使用分布的对数”,这就是我为什么要去的地方? 问题: 为什么一个人应该首先获取分发日志? 分配的日志会“给出/简化”原始分配无法/不会的记录吗? 日志转换是否“无损”?即,当转换为对数空间并分析数据时,对于原始分布是否有相同的结论?怎么会? 最后何时获取分发日志?在什么条件下决定这样做? 我真的很想了解基于日志的分布(例如,对数正态),但我从未理解何时/为什么方面-即分布的对数是正态分布,那又如何呢?这甚至告诉我什么,为什么要打扰?因此,这个问题! 更新:根据@whuber的评论,我查看了这些帖子,由于某种原因,我确实了解了对数变换及其在线性回归中的应用,因为您可以在自变量和因变量的对数之间建立关系。但是,从分析分布本身的角度来看,我的问题是通用的-我无法得出结论来帮助理解采用日志来分析分布的原因本身没有关系。我希望我有道理:-/ 在回归分析中,您确实对数据的类型/拟合/分布有限制,您可以对其进行转换并定义自变量和(未经转换的)因变量之间的关系。但是,何时/为什么要对孤立的分布这样做,其中类型/适合/分布的约束不一定适用于框架(如回归)。我希望澄清后的事情比混淆起来更清楚:) 对于“为什么和什么时候”,这个问题应有明确的答案

4
如何解释QQ情节
我正在使用一个小的数据集(21个观测值),并且在R中具有以下常规QQ图: 看到该图不支持正态性,我可以推断出基础分布如何?在我看来,更偏向右侧的分布会更合适,对吗?此外,我们还可以从数据中得出哪些其他结论?

9
为什么突然对张量着迷?
我最近注意到,很多人都在开发许多方法的张量等效项(张量分解,张量内核,用于主题建模的张量等),我想知道,为什么世界突然对张量着迷?最近是否有特别令人惊讶的论文/标准结果带来了这一结果?在计算上比以前怀疑的便宜很多吗? 我不是一个傻瓜,我很感兴趣,并且如果有关于这方面的文章的指针,我很想阅读。




8
Logistic回归中如何处理完美分离?
如果您的变量将目标变量中的零和一完美地分开,R将产生以下“完美或准完美分离”警告消息: Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred 我们仍然可以得到模型,但是系数估计被夸大了。 您在实践中如何处理?

21
朱莉娅有希望加入统计界吗?
我最近阅读了R-Bloggers的一篇文章,该帖子与John Myles White的这篇博客文章相关,该文章涉及一种名为Julia的新语言。朱莉娅需要一个刚刚即时编译器,给它邪恶的快速运行时间,并把它的速度C / C ++(相同的数量级相同的数量级上的优势秩序,不是同样快)。此外,它使用我们开始使用传统语言进行编程的人们所熟悉的正统循环机制,而不是R的apply语句和向量运算。 即使茱莉亚如此出色的时机,R也不会消失。它在行业中具有广泛的支持,并且有许多出色的软件包可以执行任何操作。 我的兴趣是本质上的贝叶斯(Bayesian),在这种情况下通常不可能进行矢量化。当然,串行任务必须使用循环来完成,并且每次迭代都需要大量的计算。在执行这些串行循环任务时,R可能会非常慢,并且C / ++并不是编写程序的第一步。Julia似乎是用C / ++编写的一种很好的替代方法,但是它还处于起步阶段,并且缺少许多我喜欢R的功能。只有获得足够的支持,将Julia作为计算统计工作台来学习才有意义。来自统计界的人,人们开始为此编写有用的软件包。 我的问题如下: 朱莉娅需要具有什么特征才能具有使R成为事实统计语言的吸引力? 与学习诸如C / ++这样的低级语言相比,学习Julia来执行大量计算任务有什么优点和缺点?

3
R的lmer备忘单
这个论坛上有很多讨论,涉及使用来指定各种层次模型的正确方法lmer。 我认为将所有信息都放在一个地方会很棒。有几个问题要开始: 如何指定多个级别,其中一个组嵌套在另一个组中:是(1|group1:group2)还是(1+group1|group2)? (~1 + ....)和(1 | ...)和(0 | ...)等之间有什么区别? 如何指定小组级别的互动?

3
ROC与精度和召回曲线
我了解它们之间的形式差异,我想知道的是何时使用一种相对于另一种更为相关。 他们是否总是提供有关给定分类/检测系统性能的补充见解? 例如,何时在纸上同时提供它们?而不只是一个? 是否有其他替代(可能更现代)的描述符捕获分类系统的ROC和精确召回的相关方面? 我对二进制和多类(例如一对一)案例的参数都感兴趣。

2
如何获得R中data.frame的行数?[关闭]
读取数据集后: dataset <- read.csv("forR.csv") 我怎样才能得到R给我它包含的个案数量? 另外,返回的值是否将包括用na.omit(dataset)?省略的排除情况?
157 r 

2
生成与区分
我知道生成式意思是“基于 ”,判别式意思是“基于 ”,但是我对以下几点感到困惑:P(x,y)P(x,y)P(x,y)P(y|x)P(y|x)P(y|x) 维基百科(以及网络上的许多其他热门文章)将诸如SVM和决策树之类的内容归类为歧视性内容。但是这些甚至没有概率解释。区别在这里是什么意思?区别对待只是意味着没有生成能力吗? 朴素贝叶斯(NB)具有生成性,因为它捕获和,因此您拥有(以及)。是不是小事做,比方说,回归(海报男孩判别模型的)“生成”通过简单的计算在类似的方式(同独立的假设为NB,使得,其中的MLE 只是频率)?P(x|y)P(x|y)P(x|y)P(y)P(y)P(y)P(x,y)P(x,y)P(x,y)P(y|x)P(y|x)P(y|x)P(x)P(x)P(x)P(x)=P(x0)P(x1)...P(xd)P(x)=P(x0)P(x1)...P(xd)P(x) = P(x_0) P(x_1) ... P(x_d)P(xi)P(xi)P(x_i) 我知道判别模型往往胜过生成模型。生成模型的实际用途是什么?能够生成/模拟数据被引用了,但是什么时候出现呢?我个人只有回归,分类和协作的经验。过滤结构化数据,那么这里的用法与我无关吗?“缺少数据”参数(缺少)似乎只为您提供训练数据的优势(当您实际上知道且无需对进行边际化以获得相对笨拙时),无论如何您都可以直接估算出),即使这样,插补也更加灵活(不仅可以基于预测P(xi|y)P(xi|y)P(x_i|y)xixix_iyyyP(y)P(y)P(y)P(xi)P(xi)P(x_i)yyy但其他也是如此)。xixix_i 维基百科上完全矛盾的引用是什么?“在表示复杂学习任务中的依存关系方面,生成模型通常比判别模型更灵活”与“区分模型通常可以表达观察到的目标变量之间更复杂的关系” 相关问题让我开始思考。


6
概率分布值超过1可以吗?
在有关朴素贝叶斯分类器的Wikipedia页面上,存在以下行: p(height|male)=1.5789p(height|male)=1.5789p(\mathrm{height}|\mathrm{male}) = 1.5789(1的概率分布是可以的。钟形曲线下的面积等于1。) 值如何确定?我认为所有概率值都表示在范围内。此外,假设有可能具有这样的值,那么在页面上显示的示例中如何获得该值?>1>1>10≤p≤10≤p≤10 \leq p \leq 1

6
k折交叉验证后如何选择预测模型?
我想知道在进行K折交叉验证后如何选择预测模型。 这句话可能有些尴尬,所以让我更详细地解释一下:每当我进行K折交叉验证时,我都会使用K个训练数据子集,最后得到K个不同的模型。 我想知道如何选择K个模型中的一个,以便可以将其呈现给某人并说“这是我们可以生产的最好的模型”。 可以选择K个型号中的任何一个吗?还是涉及某种最佳实践,例如选择实现中位数测试误差的模型?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.