统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

10
编辑逗号分隔值(CSV)文件的策略
在进行数据分析项目时,我经常将数据存储在逗号或制表符分隔(CSV,TSV)数据文件中。虽然数据通常属于专用的数据库管理系统。对于我的许多应用程序来说,这会做得过多。 我可以在Excel(或大概是其他电子表格程序)中编辑CSV和TSV文件。这样有好处: 电子表格可轻松输入数据 还有几个问题: 使用CSV和TSV文件会导致许多警告消息,提示丢失各种功能以及仅保存活动工作表的方式等等。因此,如果您只想打开文件并进行一些更改,则很烦人。 它执行许多“理应智能”的转换。例如,如果输入12/3,它将认为您要输入日期。 更新:我应该提到日期示例只是许多示例之一;大多数问题似乎与不当转换有关。特别是,看起来像数字或日期的文本字段会引起问题。 另外,我可以在标准文本编辑器中直接使用文本文件。这样可以确保我输入的是记录的内容。但是,这是输入数据的一种非常尴尬的方式(列不对齐;仅将数据输入到多个单元格中很难;等等)。 题 使用CSV或TSV数据文件的最佳策略是什么?也就是说,什么策略可以使输入和操作数据变得容易,同时又确保您输入的内容得到了正确的解释?


5
使用lmer进行预测
您好,我有两个问题听起来像是我从未使用过的多级/混合模型的自然候选者。我希望尝试做一个更简单的介绍,如下所示:数据看起来像表单的许多行 x y innergroup outergroup 其中x是要对其进行回归的数值协变量(另一个数值变量),每个y属于一个内部组,每个内部组嵌套在一个外部组中(即,给定内部组中的所有y都属于同一个外部组) 。不幸的是,内部群有很多级别(成千上万),每个级别对y的观察都相对较少,因此我认为这种模型可能是合适的。我的问题是 如何编写这种多级公式? 一旦lmer拟合模型,如何从中进行预测?我已经找到了一些更简单的玩具示例,但是没有找到预报()函数。与这种技术的预测相比,大多数人似乎对推理更感兴趣。我有几百万行,所以计算可能是个问题,但是我总是可以适当地减少它。 我将不需要一段时间,但是我不妨开始考虑并尝试使用它。我有和以前相似的数据,但没有x,并且y现在是形式的二项式变量。y也表现出很多过度分散,即使在内部群体中也是如此。n中的大多数不超过2或3(或更小),因此为了得出每个y i的成功率的估算值,我一直在使用β-二项式收缩率估算器(α + k i)/(α + β + n i),在哪里(n,n−k)(n,n−k)(n,n-k)nnnyiyiy_i(α+ki)/(α+β+ni)(α+ki)/(α+β+ni)(\alpha+k_i)/(\alpha+\beta+n_i)通过MLE对每个内部组分别估计 α和 β。这已经足够了,但是数据稀疏仍然困扰着我,所以我想使用所有可用的数据。从一个角度看,这个问题比较容易,因为没有协变量,但是从另一个角度看,二项式性质使它变得更加困难。有人有高(或低!)级指导吗?αα\alphaββ\beta

7
学习“随机过程”将如何帮助我成为统计学家?
我想决定是否应该参加下学期在我大学举行的名为“随机过程入门”的课程。 我问讲师,学习这样的课程对统计学家有何帮助?他说,由于他来自概率论,所以他对统计学的了解很少,也不知道如何回答我的问题。 我可以毫无根据地猜测,随机过程在统计中很重要。但是我也很好奇知道如何做。也就是说,在哪些领域/方法中,对“随机过程”的基本理解将有助于我进行更好的统计?

2
逻辑回归和t检验的功效如何比较?
逻辑回归和t检验的功效是否相等?如果是这样的话,它们应该是“等效数据密度”,这意味着在给定的固定alpha为0.05的情况下,相同数量的基础观测值会产生相同的功效。考虑两种情况: [参数t检验]:从二项式观察中抽取30个抽签,然后将所得值取平均值。对于A组(发生的二项式Pr为0.70),此操作完成30次;对于B组(发生的二项式Pr为0.75),完成30次。每组产生30个均值,代表从二项式分布中得出的1800次抽奖的摘要。进行58df t检验以比较均值。 [逻辑回归]:使用代表组成员身份的虚拟编码斜率执行逻辑回归,并进行1800次抽奖。 我的问题分为两部分: 给定的alpha为0.05,这些方法的功效是相同还是不同?为什么?我如何证明呢? 问题1的答案是否对进入t检验的样本量,t检验中每个组的样本量,基本的二项式概率或其他因素敏感?如果是这样,我怎么能(不用模拟)知道功率确实不同,什么样的变化会产生什么样的功率变化?或者,提供制定出的R代码,以使用仿真解决问题。

1
我是否正确计算了这些似然比?
我是R 的ez程序包的作者,并且我正在进行一个更新,以在ANOVA的输出中包括自动计算似然比(LR)。这个想法是为每种效应提供一个LR,类似于ANOVA所达到的那种效应的测试。例如,主要效果的LR表示空模型与包含主要效果的模型的比较,交互作用的LR表示包含组件主要效果的模型与同时包含主要效果和他们的互动等等 现在,我对LR计算的理解来自Glover&Dixon(PDF),它涵盖了基本计算以及对复杂性的更正,以及Bortolussi&Dixon的附录(附录PDF),其中涵盖了涉及重复测量变量的计算。为了检验我的理解,我开发了此电子表格,该电子表格从示例ANOVA(使用虚假数据从2 * 2 * 3 * 4设计生成)中提取dfs和SS,并逐步计算每种效果的LR。 如果对这种计算更有信心的人可以看一下并确保我做的一切正确,我将不胜感激。对于那些喜欢抽象代码的人,这是实现对ezANOVA()的更新的R代码(请参见第15-95行)。

3
使用岭回归时如何估算系数标准误差?
我正在对高度多重共线性的数据使用岭回归。使用OLS,由于多重共线性,我在系数上获得了很大的标准误差。我知道岭回归是解决此问题的一种方法,但是在我看过的岭回归的所有实现中,均未报告系数的标准误差。我想通过某种方式来估计岭回归对减少特定系数的标准误差有多大帮助,从而估算出某种程度的帮助。有什么方法可以在岭回归中估算它们?


6
很好地介绍了各种熵
我正在寻找一本书或在线资源,以解释不同种类的熵,例如样本熵和香农熵以及它们的优缺点。有人可以指出我正确的方向吗?


2
MCMC何时开始普及?
有谁知道MCMC在哪一年左右变得司空见惯(即贝叶斯推理的一种流行方法)?随着时间的推移,链接到已发表的MCMC(期刊)文章的数量将特别有用。
18 bayesian  mcmc  history 

5
为什么我们不利用t分布来构造比例的置信区间?
要计算具有未知总体标准偏差(sd)的均值的置信区间(CI),我们采用t分布估算总体标准差。值得注意的是,CI=X¯±Z95%σX¯CI=X¯±Z95%σX¯CI=\bar{X} \pm Z_{95\% }\sigma_{\bar X}其中。但是因为我们没有总体标准偏差的点估计,所以我们通过近似进行估计,其中σX¯=σn√σX¯=σn\sigma_{\bar X} = \frac{\sigma}{\sqrt n}CI=X¯±t95%(se)CI=X¯±t95%(se)CI=\bar{X} \pm t_{95\% }(se)se=sn√se=snse = \frac{s}{\sqrt n} 相反,对于人口比例,要计算CI,我们近似为其中提供和CI=p^±Z95%(se)CI=p^±Z95%(se)CI = \hat{p} \pm Z_{95\% }(se)se=p^(1−p^)n−−−−−√se=p^(1−p^)nse = \sqrt\frac{\hat{p}(1-\hat{p})}{n}np^≥15np^≥15n \hat{p} \ge 15n(1−p^)≥15n(1−p^)≥15n(1-\hat{p}) \ge 15 我的问题是,为什么我们对人口比例的标准分布感到自满?

4
使用公平d6 独立且均匀地从1到随机绘制整数吗?
我希望通过滚动一定数量的六面骰子(d6)从1到某个特定绘制整数。一个很好的答案将解释为什么其方法会生成统一且独立的整数。ñNN 作为说明性示例,解释的情况下解决方案的工作方式将很有帮助。N = 150N=150N=150 此外,我希望该过程尽可能高效:为生成的每个数字平均滚动最少的d6数。 从senary到十进制的转换是允许的。 这个问题的灵感来自这个Meta线程。


3
批量大小如何影响SGD的收敛,为什么?
我在许多讨论中都得出了类似的结论,即随着小批量生产的规模变大,SGD的收敛实际上变得越来越困难,例如本文和这个答案。我也听说有人在早期使用小学习率或批量大小之类的技巧来解决大批量问题。 但是,这似乎是违反直觉的,因为小批量的平均损失可以认为是数据分布上预期损失的近似值 1个| X|∑X ∈ Xl (x ,w )≈ ÈX 〜 pd一个牛逼一[ l (x ,w )]1个|X|∑X∈X升(X,w)≈ËX〜pd一种Ť一种[升(X,w)]\frac{1}{|X|}\sum_{x\in X} l(x,w)\approx E_{x\sim p_{data}}[l(x,w)] 较大的批量大小的更准确它应该是。为什么实际上不是这样? 以下是我的一些想法(可能是错误的),试图加以解释。 模型的参数彼此高度依赖,当批处理变得太大时,它会同时影响太多的参数,以至于参数很难达到稳定的固有依赖性?(如批处理规范化文件中提到的内部协变量偏移问题) 还是当几乎所有参数都在每次迭代中负责时,它们将倾向于学习冗余的隐式模式,从而降低了模型的容量?(我的意思是说,对于数字分类问题,某些图案应负责点,某些图案应负责边缘,但是当发生这种情况时,每个图案都应负责所有形状)。 还是因为当批的大小接近训练集的规模时,由于相关小批的可能性很大,所以小批不再从数据分布中被视为同小异? 更新 正如Benoit Sanchez的答案所指出的,一个重要的原因是大型微型批次需要更多的计算才能完成一次更新,并且大多数分析都使用固定数量的训练时期进行比较。 但是,这篇论文(Wilson和Martinez,2003年)表明,即使有足够的训练时间,较大的批次规模仍然略有不利。通常是这样吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.