统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

2
日志转换是否是对非正常数据进行t测试的有效技术?
在审查一篇论文时,作者指出:“在进行t检验以满足正态性的前提假设之前,使用自然对数对表现出偏态分布的连续结果变量进行了转换。” 这是分析非正态数据的可接受方法,尤其是在基础分布不一定是对数正态的情况下吗? 这可能是一个非常愚蠢的问题,但我之前从未见过。

1
使用ggplot2在构面中删除未使用的级别
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 去年关闭。 是否可以删除ggplot2s方面未使用的级别?这是我的代码: tab = as.data.frame(cbind(groups = mtcars$cyl, names = row.names(mtcars), val = mtcars$mpg, N = mtcars$disp)) tab$N = as.numeric(tab$N) ggplot(tab, aes(names,val)) + geom_point() + coord_flip() + theme_bw() + facet_grid(groups ~ ., drop=TRUE)#, scales="free", as.table=F, space="free") 我尝试了drop=T开关,但没有帮助。我究竟做错了什么?

3
什么时候需要重复测量方差分析而不是混合效果模型?
为了回答这个问题,关于我的设计(我向参与者随机展示不同类别的图片的设计)是否是一个示例,我应该使用重复测量方差分析,我得到的答案是我应该使用混合模型,其中之一是原因是我有两种形式的依赖关系:主题和类别。 现在我的问题是:在进行这种重复测量设计时,是否总是总是以这种方式有两个依赖关系?也就是说,在什么情况下重复测量方差分析优于混合效果建模方法,为什么?

2
通过时间进行逻辑回归更新分类概率
我正在建立一个预测模型,该模型可以预测学生在学期末的成功概率。我对学生是成功还是失败特别感兴趣,其中成功通常被定义为完成课程并获得总分的70%或更多。 当我部署模型时,随着更多信息的获得,成功概率的估计需要随着时间的推移而更新-理想的情况是发生某种事情后立即发生,例如学生提交作业或获得一项成绩时。这种更新对我来说听起来像是贝叶斯,但是考虑到我在教育统计方面的训练,这有点超出我的舒适范围。 到目前为止,我一直在使用逻辑回归(实际上是套索)与包含基于周快照的历史数据集。由于每个学生都有观察值,因此该数据集具有相关的观察值;一个学生的观察结果是相关的。我不是在特定学生的每周观察中专门建模相关性。我相信我只需要在推论环境中考虑一下,因为标准误会太小。我认为-但对此不确定-从相关观察得出的唯一问题是,当我交叉验证以将聚类观察保留在数据的一个子集中时,我需要格外小心,这样我就不会根据对模型已经见过的人的预测,人为地降低样本外错误率。ŤË ř 米大号ë Ñ 克吨ħ / 7TermLength/7TermLength/7 我正在使用R的glmnet程序包对逻辑模型进行套索处理,以生成成功/失败的可能性,并自动为特定课程选择预测变量。我一直使用周变量作为因素,与所有其他预测变量进行交互。我认为这与仅估计基于周的单个模型在总体上并没有什么不同,除了它可以使我们了解整个期间中可能存在一些通用模型,这些模型可以在不同星期通过各种风险调整因子进行调整。 我的主要问题是:是否有一种更好的方法来随时间更新分类概率,而不是将数据集分为每周(或其他基于间隔的)快照,引入与其他要素交互的时间周期因子变量,以及使用累积功能(累积的积分,上课的累积天数等)? 我的第二个问题是:我是否在这里缺少与相关观测值相关的预测建模的关键内容? 我的第三个问题是:考虑到我每周做快照,如何将其概括为实时更新?我正在计划仅在当前的每周时间间隔内插入变量,但这对我来说似乎很麻烦。 仅供参考,我受过应用教育统计方面的培训,但很早以前就拥有数学统计方面的知识。如果可以的话,我可以做一些更复杂的事情,但是我需要用相对容易理解的术语来解释。

4
使用R或SPSS可视化Likert响应
我分为2组(A组为43个,B组为39个),有82位受访者完成了对65个李克特问题的调查,每个问题的范围为1-5(非常同意-非常不同意)。因此,我有一个具有66列(每个问题1个+ 1表示组分配)和82行(每个回答者1个)的数据框。 使用R或SPSS可以使任何人都知道可视化此数据的好方法。 我需要这样的东西:( 来自Jason Bryer) 但是我无法使代码的最初部分起作用。另外,我找到了一个很好的示例,展示了如何从以前的交叉验证帖子中可视化Likert数据:可视化Likert项目响应数据,但是没有有关如何使用R或SPSS创建这些居中计数图或堆积条形图的指南或说明。

3
半监督学习,主动学习和深度学习进行分类
最终编辑,所有资源已更新: 对于一个项目,我正在应用机器学习算法进行分类。 挑战: 有限的标记数据和更多的未标记数据。 目标: 应用半监督分类 应用某种程度上的半监督式标签过程(称为主动学习) 我从研究论文中发现了很多信息,例如应用EM,Transductive SVM或S3VM(半监督SVM),或者以某种方式使用LDA等。关于该主题的书籍也很少。 问题: 实现方式和实际来源在哪里? 最终更新(基于mpiktas,bayer和Dikran Marsupial提供的帮助) 半监督学习: TSVM:位于SVMligth和SVMlin中。 EM朴素贝叶斯(Python) EM在LinePipe项目中 主动学习: 二元论:一种主动学习的实现,带有文本分类源代码 该网页很好地概述了主动学习。 实验设计研讨会:此处。 深度学习: 此处的介绍性视频。 一般网站。 斯坦福无监督特征学习和深度学习教程。

2
如何根据先前事件的时间预测下一个事件何时发生?
我是一名高中生,并且正在从事计算机编程项目,但是我在高中统计课程之外的统计和数据建模方面没有很多经验,所以我有点困惑。 基本上,我有一个相当大的列表(假设它足够大,可以满足任何统计测试或度量的假设),而这个时间决定了某人决定打印文档。基于此列表,我想构建某种统计模型,该模型将在给定所有先前事件时间的情况下预测下一次打印作业的最可能时间。 我已经读过这篇文章,但是对于我在项目中的想法,回答并不能完全解决问题。我进行了一些额外的研究,发现“ 隐马尔可夫模型”可能可以使我准确地做到这一点,但是我无法找到有关如何仅使用时间列表来生成“隐马尔可夫模型”的链接。我还发现,在列表上使用卡尔曼过滤器可能有用,但从根本上讲,我想从实际使用过它们的人那里获得一些有关它的更多信息,然后才尝试尝试并希望它能起作用。 谢谢一群!

5
标准偏差的2D模拟?
考虑以下实验:给一组人一个城市列表,并要求他们在世界地图上标记相应的位置(否则未标记)。对于每个城市,您将获得大致以相应城市为中心的点分散。伊斯坦布尔说,一些城市的分散程度要低于其他城市。 假设对于给定的城市,我们得到一组2D样本,代表测试分配的地图上城市(例如,本地坐标系)的位置主题。我想用适当的单位(km)将这个集合中点的“分散”数量表示为一个数字。{(xi,yi)}{(xi,yi)}\{(x_i, y_i)\}(x,y)(x,y)(x, y)iii 对于一维问题,我会选择标准偏差,但是是否可以为上述情况合理选择一个二维模拟?

4
如何计算均值的置信区间?
想象一下,您重复了三次实验。在每个实验中,您收集三次重复的测量值。与三种实验方法之间的差异相比,一式三份趋于相当接近。计算总和非常容易。但是,如何计算总体均值的置信区间呢? 样本数据: 实验1:34、41、39 实验2:45、51、52 实验3:29、31、35 假设实验中的重复值与每个实验的平均值都遵循高斯分布。实验中变化的SD小于实验方法中的SD。还假设每个实验中这三个值没有顺序。每行中三个值的从左到右顺序完全是任意的。 一种简单的方法是先计算每个实验的平均值:38.0、49.3和31.7,然后计算这三个值的平均值及其95%置信区间。使用此方法,总体平均值为39.7,95%置信区间为17.4至61.9。 这种方法的问题在于它完全忽略了三份重复之间的差异。我想知道是否没有一个很好的方法来说明这种差异。

2
两重分布之差的分布是什么
...为什么? 假设,是独立的随机变量,分别具有均值和方差。我的基本统计书告诉我的分布具有以下属性:X1个X1个X_1μ 1,μ 2 σ 2 1,σ 2 2 X 1 - X 2X2X2X_2μ1个,μ2μ1个,μ2\mu_1,\mu_2σ21个,σ22σ1个2,σ22\sigma^2_1,\sigma^2_2X1个- X2X1个-X2X_1-X_2 Ë(X1个- X2)= μ1个- μ2Ë(X1个-X2)=μ1个-μ2E(X_1-X_2)=\mu_1-\mu_2 Var(X1−X2)=σ21+σ22Var(X1−X2)=σ12+σ22Var(X_1-X_2)=\sigma^2_1 +\sigma^2_2 现在,假设, 是自由度为, t分布。的分布是什么?X 2 n 1 − 1 n 2 − 2 X 1 − X 2X1个X1个X_1X2X2X_2ñ1个− 1ñ1个-1个n_1-1ñ2− 2ñ2-2n_2-2X1个- X2X1个-X2X_1-X_2 这个问题已经过编辑:最初的问题是“两个t分布的差异的自由度是多少?” 。mpiktas已经指出,这是没有道理的,因为不是t分布的,无论近似值(即高df)如何。X1个- X2X1个-X2X_1-X_2X1个,X2X1个,X2X_1,X_2

3
有人解决了PTLOS练习4.1吗?
埃德温·杰恩斯(Edwin Jaynes)于2003年在《概率论:科学的逻辑》中给出了该练习。此处有部分解决方案。我已经制定了一个更通用的局部解决方案,并且想知道是否有人解决了它。在发布答案之前,我将稍等片刻,让其他人受益。 好的,假设我们有互斥且详尽的假设,表示为。进一步假设我们有m个数据集,用D_j \; \;(j = 1,\ dots,m)表示。第i个假设的似然比由下式给出:Ñ ħ 我nn(i = 1 ,… ,n )Hi(i=1,…,n)H_i \;\;(i=1,\dots,n)m mmD j(j = 1 ,… ,m )Dj(j=1,…,m)D_j \;\;(j=1,\dots,m) L R (H i)= P (D 1 D 2 … ,D m | H i)P (d 1 d 2 ... ,d 米 | ‾ ħ我)LR(Hi)=P(D1D2…,Dm|Hi)P(D1D2…,Dm|H¯¯¯¯¯i)LR(H_{i})=\frac{P(D_{1}D_{2}\dots,D_{m}|H_{i})}{P(D_{1}D_{2}\dots,D_{m}|\overline{H}_{i})} 请注意,这些是条件概率。现在假设给定第i个假设^ …

1
社区对第四象限的看法是什么?
黑天鹅名人(或臭名昭著)的纳西姆·塔莱布(Nassim Taleb )详细阐述了这一概念,并开发了他所谓的“统计极限图”。他的基本论点是,存在一种决策问题,任何统计模型的使用都是有害的。这些都是决策问题,决策错误的后果可能过高,而且基本的PDF很难理解。 一个例子是做空股票期权。这种操作可能导致无限(至少在理论上)损失;而且这种损失的可能性尚不清楚。实际上,很多人都为概率建模,但塔勒布(Taleb)认为,金融市场还不够成熟,不足以让人们对任何模型都充满信心。仅仅因为您见过的每只天鹅都是白色,并不意味着黑天鹅是不可能甚至不可能的。 这就是问题所在:统计界是否就塔莱布的论点达成共识? 也许这应该是社区Wiki。我不知道。

7
R中滑动窗口的平均值
我有一个值向量,我想用较小的幻灯片报告窗口中的平均值。 例如,对于具有以下值的向量: 4, 5, 7, 3, 9, 8 窗口大小为3,幻灯片大小为2,将执行以下操作: (4+5+7)/3 = 5.33 (7+3+9)/3 = 6.33 (9+8)/3 = 5.67 并返回这些值的向量: 5.33, 6.33, 5.67 有没有一个简单的函数可以帮我做到这一点?如果它还返回窗口开始的索引,那将是一个额外的好处。在此示例中,该值为1,3,5
19 r 


4
什么时候应该使用变型自动编码器而不是自动编码器?
我了解变体自动编码器和常规(确定性)自动编码器的基本结构以及它们背后的数学原理,但是何时,为何以及为什么我会偏爱一种自动编码器呢?我能想到的是,变分自动编码器的潜在变量的先验分布使我们可以对潜在变量进行采样,然后构造新图像。与确定性自动编码器相比,可变自动编码器的随机性有什么优势?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.