统计和大数据

30

我是心理学的研究生，随着我从事越来越多的统计学独立研究，我对正规培训的不足感到越来越惊讶。无论是个人经验还是二手经验，都表明，在心理学领域，本科和研究生培训中缺乏统计严格性的情况非常普遍。因此，我认为对于像我这样的独立学习者来说，创建一个“统计罪孽”列表是很有用的，将教给学生分级的统计实践列表为标准实践，而实际上这些实践要么被上级（更强大，或更灵活，或者健壮等）或坦率地说是无效的。预计其他领域也可能会遇到类似的情况，因此，我提出了一个社区Wiki，我们可以在其中收集跨学科的统计犯罪列表。

227 fallacy

11

有没有理由比其他更喜欢AIC或BIC？

AIC和BIC都是评估因估计参数数量而受到惩罚的模型拟合的方法。据我了解，与AIC相比，BIC对免费参数的惩罚更多。除了基于标准严格性的偏爱之外，是否还有其他原因更喜欢AIC而不是BIC？

222 modeling aic cross-validation bic model-selection

5

权衡批次大小与迭代次数以训练神经网络

训练神经网络时，设置有什么区别：批处理大小为，迭代次数为一种一种abbb vs.批处理大小为和迭代次数为CCcddd 其中？a b = c d一种b=Cd ab = cd 换句话说，假设我们使用相同数量的训练示例训练神经网络，那么如何设置最佳批处理大小和迭代次数？（其中批处理数量*迭代次数=向神经网络显示的训练示例的数量，同一训练示例可能多次显示）我知道批处理大小越大，所需的内存空间就越大，并且通常可以使计算速度更快。但是，就训练有素的网络的性能而言，这有什么不同？

221 neural-networks train

14

因子分析和主成分分析之间有什么区别？

看来，我使用的许多统计软件包将这两个概念包装在一起。但是，我想知道是否存在不同的假设或数据“形式”才能正确使用一个假设。一个真实的例子将非常有用。

214 pca factor-analysis

12

数据挖掘，统计，机器学习和AI之间有什么区别？

数据挖掘，统计，机器学习和AI之间有什么区别？可以准确地说，它们是试图解决非常相似的问题但使用不同方法的4个领域吗？它们到底有什么共同之处，又有何不同？如果它们之间存在某种等级关系，那会是什么？以前曾问过类似的问题，但我仍然不明白：数据挖掘与统计分析两种文化：统计与机器学习？

208 machine-learning data-mining

3

如何知道您的机器学习问题是没有希望的？

想象一下标准的机器学习场景：您面临着庞大的多元数据集，并且您对它的理解很模糊。您需要做的是根据所拥有的东西对一些变量进行预测。像往常一样，您清理数据，查看描述性统计信息，运行某些模型，对其进行交叉验证等，但是经过几次尝试，来回尝试多个模型后，似乎没有任何效果，而且您的结果很可悲。您可能会花费数小时，数天或数周的时间解决此类问题... 问题是：何时停止？您怎么知道您的数据实际上是绝望的，所有花哨的模型对预测所有案例或其他琐碎解决方案的平均结果都不会带来什么好处？当然，这是一个可预测性问题，但是据我所知，在尝试对多变量数据进行评估之前很难评估它。还是我错了？免责声明：这个问题是受这个问题启发的。我什么时候停止寻找模特儿了？并没有引起太多关注。对此问题有详细的答案以供参考是很好的。

207 machine-learning forecasting modeling model-selection forecastability

10

您将如何向仅理解均值的人解释协方差？

……假设我能够以一种直观的方式（直观地理解“方差”）或说：他们是数据值与“均值”的平均距离，并且方差是平方单位，我们取平方根以保持单位不变，这称为标准偏差。让我们假设这是“接收者”明确表达和（希望）理解的。现在什么是协方差？如何在不使用任何数学术语/公式的情况下用简单的英语解释它？（即，直观的解释。；）请注意：我确实知道该概念背后的公式和数学公式。我希望能够以一种易于理解的方式“解释”相同的内容，而无需包括数学运算。即“协方差”到底是什么意思？

207 variance covariance intuition

5

何时使用哪个“平均值”？

因此，我们有算术平均值（AM），几何平均值（GM）和谐波平均值（HM）。它们的数学公式以及相关的定型示例（例如，谐波均值及其在“速度”相关问题中的应用）也是众所周知的。但是，一个始终让我着迷的问题是：“我如何确定在给定上下文中最适合使用哪种方式？” 必须至少有一些经验法则来帮助理解适用性，但是我遇到的最常见的答案是：“取决于”（但取决于什么？）。这似乎是一个相当琐碎的问题，但是即使是高中课本也无法解释这个问题-它们仅提供数学定义！与数学上的解释相比，我更喜欢英文的解释-简单的测试就是“您的妈妈/孩子会理解吗？”

197 mean

8

自动模型选择算法

我想实现一种用于自动模型选择的算法。我正在考虑进行逐步回归，但是任何事情都会做（尽管它必须基于线性回归）。我的问题是我找不到方法论或开源实现（我正在用Java唤醒）。我想到的方法如下：计算所有因素的相关矩阵选择彼此之间相关性较低的因素删除t统计量较低的因素添加其他因素（仍基于2中找到的低相关因素）。重复几次，直到某个条件（例如AIC）超过某个阈值或无法达到或无法找到更大的值。我意识到有一个R实现（stepAIC），但是我发现代码很难理解。另外，我还没有找到描述逐步回归的文章。

193 references feature-selection model-selection aic stepwise-regression

30

什么是最好的贝叶斯统计入门教材？

哪个是贝叶斯统计的最佳入门教科书？请给每个答案一本书。

192 bayesian references

12

如何转换包含零的非负数据？

如果我偏向正数，我通常会记录日志。但是，对于包含零的高度偏斜的非负数据，我该怎么办？我已经看到使用了两种转换：日志（X + 1 ）log⁡(x+1)\log(x+1)具有巧妙的功能，即0映射到0。日志（x + c ）log⁡(x+c)\log(x+c)其中c被估计或设置为一些非常小的正值。还有其他方法吗？是否有充分的理由选择一种方法而不是其他方法？

191 data-transformation large-data

4

神经网络中的隐藏层计算什么？

我敢肯定，很多人都会以“让我为您找到的谷歌”的链接进行回复，因此我想说的是我已经设法弄清楚了这一点，所以请您原谅我对此缺乏理解，但是我无法弄清楚神经网络的实际实现实际上是可行的。我了解输入层以及如何对数据进行规范化，也了解偏差单位，但是当涉及到隐藏层时，该层中的实际计算是什么，以及它如何映射到输出中就有点模糊了。我已经看到了在隐藏层中带有问号的图，布尔函数（例如AND / OR / XOR），激活函数以及映射到所有隐藏单元的输入节点，以及每个映射到仅几个隐藏单元的输入节点，等等。我只是在实践方面有几个问题。当然，像您向孩子解释那样，对整个神经网络过程的简单解释将非常棒。隐藏层中进行了哪些计算？这些计算如何映射到输出层？输出层如何工作？从隐藏层反规范化数据？为什么输入层中的某些层连接到隐藏层，而有些却没有呢？

187 machine-learning neural-networks nonlinear-regression

9

如何在R中按组汇总数据？[关闭]

我有这样的R数据框： age group 1 23.0883 1 2 25.8344 1 3 29.4648 1 4 32.7858 2 5 33.6372 1 6 34.9350 1 7 35.2115 2 8 35.2115 2 9 35.2115 2 10 36.7803 1 ... 我需要以以下形式获取数据帧： group mean sd 1 34.5 5.6 2 32.3 4.2 ... 组号可能有所不同，但可以通过致电获得其名称和数量 levels(factor(data$group)) 要对数据进行什么操作才能得到结果？

181 r data-transformation

15

什么是数据科学家？

最近从我的统计学博士课程毕业后，我在过去的几个月里开始寻找统计学领域的工作。我考虑的几乎每家公司都有一份工作职位，职位名称为“ 数据科学家 ”。实际上，看到统计科学家或统计学家职位的日子早已一去不复返了。曾经是一名数据科学家真的取代了统计学家吗？还是我想知道这些称谓的代名词？好吧，大多数工作资格证明都像统计学家的头衔一样。大多数工作都希望获得统计学博士学位（），最需要的理解实验设计（），线性回归和方差分析（），广义线性模型（）以及其他多元方法，例如PCA（），以及统计计算环境（例如R或SAS ）中的知识（）。听起来数据科学家实际上只是统计学家的代号。✓ ✓ ✓ ✓ ✓✓✓\checkmark✓✓\checkmark✓✓\checkmark✓✓\checkmark✓✓\checkmark✓✓\checkmark 但是，每次面试时我都会问一个问题：“那么，您是否熟悉机器学习算法？” 通常，我发现自己不得不尝试回答有关大数据，高性能计算以及神经网络，CART，支持向量机，增强树，无监督模型等主题的问题。当然，我确信自己都是这些有关统计问题的内心深处，但是在每次面试结束时，我都忍不住对数据科学家的了解越来越少。我是统计学家，但我是数据科学家吗？我致力于科学问题，所以我必须成为一名科学家！而且我还处理数据，所以我必须是一名数据科学家！根据Wikipedia的说法，大多数学者都会同意我的观点（https://en.wikipedia.org/wiki/Data_science等）尽管在业务环境中使用了“数据科学”一词，但许多学者和新闻工作者认为数据科学和统计数据之间没有区别。但是，如果我要在所有这些工作面试中担任数据科学家职位，为什么感觉他们从来没有问过我统计问题？在上次面试之后，我确实希望任何优秀的科学家都能做得到，并且我寻找了解决该问题的数据（嘿，我毕竟是数据科学家）。但是，在经过无数次Google搜索之后，我终于回到了开始的感觉，好像我再次在努力解决数据科学家的定义。我不知道一个数据科学家是究竟是什么，因为有它的定义这么多，（http://blog.udacity.com/2014/11/data-science-job-skills.html，HTTP：// WWW -01.ibm.com/software/data/infosphere/data-scientist/），但似乎每个人都在告诉我我想成为一个： https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/ http://mashable.com/2014/12/25/data-scientist/#jjgsyhcERZqL 等等...清单继续。归根结底，我想出的是“什么是数据科学家”是一个很难回答的问题。哎呀，在Amstat有整整两个月的时间，他们花时间试图回答这个问题： http://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/ http://magazine.amstat.org/blog/2015/11/01/statnews2015/ 好了，现在，我必须成为一名性感的统计学家才能成为数据科学家，但希望经过交叉验证的社区可能能够阐明一些观点，并帮助我理解成为数据科学家的意义。并非所有的统计学家都是数据科学家吗？（编辑/更新）我认为这可能使谈话变得有趣。我刚刚收到美国统计协会的一封电子邮件，内容涉及与Microsoft寻找数据科学家的职位。这里是链接：数据科学家职位。我认为这很有趣，因为该职位的角色影响了我们一直在谈论的许多特定特征，但是我认为其中许多特征需要非常严格的统计背景，并且与下面发布的许多答案相矛盾。万一链接失效，以下是微软在数据科学家中寻求的素质：核心工作要求和技能：使用Analytics的业务领域经验必须具有多个相关业务领域的经验，需要运用批判性思维技能来使用大型现实业务数据集中的高级分析概念化复杂的业务问题及其解决方案候选人必须能够独立运行分析项目，并帮助我们的内部客户了解调查结果，并将其转化为行动以使他们的业务受益。预测建模跨行业的预测建模经验与客户进行业务问题定义和概念建模，以引起重要的关系并定义系统范围统计/计量经济学对连续和分类数据进行探索性数据分析针对企业和消费者行为，生产成本，要素需求，离散选择以及其他需要的技术关系的结构模型方程的规范和估计先进的统计技术可分析连续和分类数据时间序列分析和预测模型的实现处理多变量问题的知识和经验评估模型正确性和进行诊断测试的能力能够解释统计数据或经济模型建立离散事件仿真和动态仿真模型的知识和经验数据管理熟悉使用T-SQL和分析进行数据转换以及将探索性数据分析技术应用于非常大的实际数据集注意数据完整性，包括数据冗余，数据准确性，异常或极端值，数据交互和缺失值。沟通与合作技巧独立工作并能够与虚拟项目团队合作，该团队将研究创新的解决方案以解决业务难题与合作伙伴合作，运用批判性思维技能，并推动端到端的分析项目出色的口头和书面沟通能力 …

181 terminology definition careers

4

神经网络中的批量大小是多少？

我正在使用Python Keras package神经网络。这是链接。是batch_size等于测试样品的数量？从维基百科，我们可以获得以下信息：但是，在其他情况下，求和梯度可能需要对所有求和函数的梯度进行昂贵的求值。当训练集庞大且不存在简单公式时，评估梯度之和变得非常昂贵，因为评估梯度需要评估所有求和函数的梯度。为了节省每次迭代的计算成本，随机梯度下降在每一步都采样了求和函数的子集。这在大规模机器学习问题的情况下非常有效。以上信息描述的是测试数据？这与batch_sizekeras中相同（每个梯度更新的样本数）吗？

174 neural-networks python terminology keras