统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

29
教学示例:相关并不意味着因果关系
有句老话:“关联不等于因果关系”。在教书时,我倾向于使用以下标准示例来说明这一点: 丹麦的鹳数量和出生率; 美国牧师的人数和酗酒; 在20世纪初,人们注意到“收音机数量”与“疯人院的人数”之间有很强的相关性。 我最喜欢的是:海盗导致全球变暖。 但是,我没有这些示例的任何参考,虽然很有趣,但它们显然是错误的。 有人还有其他好的例子吗?

4
心理学杂志禁止使用p值和置信区间;停止使用它们确实明智吗?
2015年2月25日,《基本与应用社会心理学》杂志 发表社论,禁止所有未来论文发表和置信区间。ppp 他们具体说(格式和重点是我的): [...]在发表之前,作者将必须删除NHSTP [无效假设重要性检验程序]的所有痕迹(,,,有关“重大”差异的陈述或缺乏它们的陈述) , 等等)。ppptttFFF 类似于NHSTP如何无法提供原假设的概率(需要为原假设提供强有力的条件来拒绝它),置信区间并不能为推断所关注的总体参数可能在规定范围内提供强有力的条件。间隔。因此,BASP也禁止置信区间。 [...]关于贝叶斯程序,我们保留根据具体情况做出判断的权利,因此,BASP也不要求也不禁止贝叶斯程序。 [...]是否需要任何推论统计程序?- 否,但是,BASP将需要强大的描述性统计数据,包括效应量。 让我们在这里不讨论问题和滥用。浏览p值标记可以找到很多有关CV的精彩讨论。对的批判常常与建议一起报告感兴趣参数的置信区间有关。例如,在这个非常有争议的答案中, @ gung建议以周围的置信区间来报告效果大小。但是该杂志也禁止置信区间。pppppp 与采用,置信区间和显着/无关紧要的二分法的“传统”方法相比,这种呈现数据和实验结果的方法的优缺点是什么?对该禁令的反应似乎主要是消极的。那有什么缺点呢?美国统计协会甚至对该禁令发表了简短的令人沮丧的评论,称“该政策可能有其自身的负面影响”。这些负面后果可能是什么?ppp 还是正如@whuber建议的那样,这种方法是否应该被普遍提倡为定量研究的范例?如果没有,为什么不呢? PS。请注意,我的问题与禁令本身无关;这是关于建议的方法。我也不是在问频率论者和贝叶斯论者。《社论》对贝叶斯方法也相当否定。因此本质上是关于使用统计信息与根本不使用统计信息。 其他讨论:reddit,Gelman。

6
当有封闭形式的数学解可用时,为什么要使用梯度下降进行线性回归?
我正在在线学习机器学习课程,并了解了有关梯度下降的知识,用于计算假设中的最佳值。 h(x) = B0 + B1X 如果我们可以通过以下公式轻松找到值,为什么需要使用渐变下降?这看起来也很简单。但是GD需要多次迭代才能获得该值。 B1 = Correlation * (Std. Dev. of y/ Std. Dev. of x) B0 = Mean(Y) – B1 * Mean(X) 注意:如https://www.dezyre.com/data-science-in-r-programming-tutorial/linear-regression-tutorial中所述 我确实检查了以下问题,但对我来说不清楚。 为什么需要梯度下降? 为什么优化是通过梯度下降而不是解析方法来解决的? 上面的答案比较了GD与使用导数。


3
什么是“限制最大可能性”,什么时候应使用?
我已阅读的抽象本文认为: “通过修改Patterson和Thompson的变换对Hartley aud Rao的最大似然(ML)程序进行了修改,该变换将似然渲染正态性划分为两个部分,其中一个没有固定影响。最大化这部分会产生所谓的受限最大似然(REML)估算器。” 我还在本文摘要中阅读了REML: “考虑到由于估计固定效应而导致的自由度损失。” 遗憾的是,我无法访问这些论文的全文(如果这样做的话,可能会无法理解)。 此外,REML与ML有何优势?在拟合混合效果模型时,在什么情况下REML优于ML(反之亦然)?请提供适合具有高中(或刚刚毕业)数学背景的人的解释!

2
重采样/模拟方法:蒙特卡洛,自举,千斤顶,交叉验证,随机化测试和置换测试
我试图理解不同重采样方法(蒙特卡罗模拟,参数自举,非参数自举,顶峰,交叉验证,随机化测试和置换测试)之间的区别,以及它们在我自己的环境中使用R的实现。 假设我遇到以下情况–我想对Y变量(Yvar)和X变量(Xvar)执行ANOVA 。Xvar是绝对的。我对以下事情感兴趣: (1)p值的意义–错误发现率 (2)效果Xvar等级 大小 Yvar <- c(8,9,10,13,12, 14,18,12,8,9, 1,3,2,3,4) Xvar <- c(rep("A", 5), rep("B", 5), rep("C", 5)) mydf <- data.frame (Yvar, Xvar) 您能帮我用明确的工作示例解释采样差异吗,这些重采样方法是如何工作的? 编辑: 这是我的尝试: Bootstrap 10个Bootstrap样本,样本数量已替换,意味着可以重复样本 boot.samples <- list() for(i in 1:10) { t.xvar <- Xvar[ sample(length(Xvar), length(Xvar), replace=TRUE) ] t.yvar <- Yvar[ sample(length(Yvar), length(Yvar), replace=TRUE) ] …

11
在没有博士学位的情况下从事数据挖掘工作
一段时间以来,我对数据挖掘和机器学习一直很感兴趣,部分原因是我在学校主修该领域,还因为我真的很兴奋,尝试解决需要更多思考而不只是编程的问题知识及其解决方案可以有多种形式。我没有研究人员/科学家背景,我来自计算机科学背景,重点是数据分析,我拥有硕士学位而不是博士学位。我目前有一个与数据分析相关的职位,即使这不是我正在做的工作的主要重点,但我至少对此有一定的了解。 前段时间我在几家公司工作时面试,并与一些招聘人员交谈,我发现一种常见的模式,人们似乎认为您需要拥有博士学位才​​能进行机器学习,即使我可能概括得太多了(有些公司并不是特别在意博士学位)。 虽然我认为在该领域拥有博士学位是件好事,但我认为这不是绝对必要的。我对大多数现实世界的机器学习算法有相当不错的了解,我自己(在学校或个人项目中)已经实现了大多数算法,并且在解决涉及机器学习/数据挖掘和统计的问题时感到非常自信。而且我有一些朋友具有相似的个人资料,他们似乎对此也非常了解,但同时也感到,如果您不是博士学位,那么一般而言,公司对于聘用数据挖掘人员会非常害羞。 我想获得一些反馈,您认为博士学位对于在这个领域非常专注是绝对必要的吗? (在将这个问题发布到这里之前,我有所犹豫,但是由于它似乎是meta上可以接受的主题,因此我决定将这个问题发布了我已经思考了一段时间的问题。)

6
预测江南风格的Youtube视图数量的模型
PSY的音乐录影带“江南风格”很受欢迎,在短短两个多月的时间里,它已拥有约5.4亿观众。我上周在晚餐时从我的青春期孩子那里学到了这一点,不久的讨论就朝着是否可以预测10到12天内会有多少观众以及这首歌何时播放的方向发展。将使8亿或10亿观众通过。 这是自发布以来观众人数的照片: 这是第一名“ Justin Biever-Baby”和第二名“ Eminem-Love you lie”的音乐录像带的观看者图片,这两段视频的播放时间已经很长了 我第一次尝试建立模型的原因是应该是S形曲线,但这似乎不适合No1和No2歌曲,也不适合音乐视频的观看次数没有限制只能有一个缓慢的增长。 所以我的问题是:我应该使用哪种模型来预测音乐视频的观众数量?
73 modeling  web 


5
普通英语的正则化是什么?
与其他文章不同,我发现非数学家(如我)无法阅读该主题的维基百科条目。 我了解基本概念,即您倾向于使用规则较少的模型。我没有得到的是如何从一组规则获得一个“正则化分数”,该分数可用于对模型进行分类(从最小拟合到最大拟合)。 您能描述一个简单的正则化方法吗? 我对分析统计交易系统感兴趣。如果您能描述是否/如何应用正则化来分析以下两个预测模型,那就太好了: 模型1-在以下情况下价格上涨: exp_moving_avg(价格,期间= 50)> exp_moving_avg(价格,期间= 200) 模型2-在以下情况下价格上涨: 价格[n] <价格[n-1]连续10次 exp_moving_avg(价格,期间= 200)上升 但是我对了解如何进行正则化更感兴趣。因此,如果您知道更好的模型来进行说明,请这样做。


6
选择聚类方法
在对数据集进行聚类分析以将相似案例分组时,需要在大量聚类方法和距离度量中进行选择。有时,一种选择可能会影响另一种,但是方法有很多可能的组合。 是否有人对如何从各种聚类算法/方法和距离度量中进行选择提出建议?这与变量的性质(例如分类或数字)和聚类问题有什么关系?有没有最佳技术?

9
线性回归分析应如何处理离群值?
通常,统计分析人员会得到一组数据集,并要求使用线性回归之类的技术来拟合模型。通常,数据集带有免责声明,类似于“哦,是的,我们搞砸了收集其中一些数据点-尽您所能”。 这种情况导致回归拟合受到可能存在错误数据的异常值的严重影响。给定以下内容: 从科学和道德的角度来看,无缘无故丢掉数据是危险的,除了“会使拟合看起来很糟糕”。 在现实生活中,收集数据的人员经常无法回答诸如“在生成此数据集时,您究竟弄错了哪些要点?”之类的问题。 哪些统计检验或经验法则可以用作排除线性回归分析中异常值的基础? 多线性回归是否有特殊考虑?

6
是否有充分的理由使用PCA代替EFA?另外,PCA可以代替因子分析吗?
在某些学科中,没有任何理由就系统地使用PCA(主要成分分析),而PCA和EFA(探索性因素分析)被视为同义词。 因此,我最近使用PCA分析了量表验证研究的结果(7点Likert量表中的21个项目,假设由3个因子组成,每个7个项目),而审阅者问我为什么选择PCA而不是EFA。我读到了这两种技术之间的差异,在您的大多数回答中,似乎EFA都优于PCA。 您是否有充分的理由说明为什么PCA会是更好的选择?它可以提供什么好处?在我看来,为什么它是一个明智的选择?

4
为什么神经网络变得更深而不是更广泛?
近年来,卷积神经网络(或一般来说可能是深层神经网络)变得越来越深,最先进的网络从7层(AlexNet)到1000层(Residual Nets)在4的空间中年份。深度网络提高性能的原因在于,可以学习更复杂的非线性函数。如果有足够的训练数据,这将使网络更容易区分不同的类别。 但是,趋势似乎并没有随着每一层中参数的数量而变化。例如,尽管层数增加了很多,但是卷积层中的特征图的数量或完全连接层中的节点的数量仍然大致相同,并且大小仍然相对较小。但是从我的直觉来看,似乎增加每层参数的数量将使每一层都有更丰富的数据源,从中可以学习其非线性函数;但是这个想法似乎已经被忽略了,只支持简单地增加更多的层,每个层都有少量的参数。 因此,尽管网络已变得“更深”,但它们并没有变得“更广泛”。为什么是这样?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.