统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

11
向孩子解释“维数的诅咒”
我听过很多次关于维数诅咒的信息,但是我仍然无法理解这个主意,因为它全是模糊的。 任何人都可以用最直观的方式来解释这一点,就像您向孩子解释时一样,这样我(和其他困惑的我)才能永远理解这一点? 编辑: 现在,让我们说孩子以某种方式听说了聚类(例如,他们知道如何聚成玩具:))。尺寸的增加如何使玩具聚类的工作更加困难? 例如,他们过去只考虑玩具的形状和玩具的颜色(一种颜色的玩具),但现在还需要考虑玩具的尺寸和重量。为什么孩子很难找到类似的玩具? 编辑2 为了便于讨论,我需要通过以下方式进行澄清:“为什么孩子很难找到类似的玩具”-我的意思也是为什么在高维空间中会丢失距离的概念?


5
与线性回归相比,为什么将ANOVA当作一种不同的研究方法来教授/使用?
使用适当的虚拟变量,ANOVA等效于线性回归。无论使用ANOVA还是线性回归,结论均保持不变。 鉴于它们的等效性,是否有任何理由使用ANOVA代替线性回归? 注意:我对了解使用ANOVA而不是线性回归的技术原因特别感兴趣。 编辑 这是一个使用单向方差分析的示例。假设您想知道男性和女性的平均身高是否相同。为了检验您的假设,您需要从男性和女性的随机样本(每个样本为30个)中收集数据,并进行ANOVA分析(即,性别和错误的平方和)来确定一种效应是否存在。 您还可以使用线性回归对此进行测试,如下所示: 定义: 如果受访者是男性,则否则为。 其中:Gender=1Gender=1\text{Gender} = 1000Height=Intercept+β∗Gender+errorHeight=Intercept+β∗Gender+error \text{Height} = \text{Intercept} + \beta * \text{Gender} + \text{error} error∼N(0,σ2)error∼N(0,σ2)\text{error}\sim\mathcal N(0,\sigma^2) 然后检验是否等效于您的假设。β=0β=0\beta = 0
91 regression  anova 


2
什么是神经网络中的嵌入层?
在许多神经网络库中,都有“嵌入层”,例如Keras或Lasagne中。 尽管阅读了文档,但我不确定我是否了解它的功能。例如,在Keras文档中说: 将正整数(索引)转换为固定大小的密集向量,例如。[[4],[20]]-> [[0.25,0.1],[0.6,-0.2]] 知识渊博的人可以解释它的作用以及何时使用吗? 编辑:关于文档中的粘贴,没有太多可从文档中粘贴,因此是我的问题。我不了解它所做的转换,也不知道为什么要使用它。 无论如何,这是在Keras中解释的方式: 嵌入 keras.layers.embeddings.Embedding(input_dim,output_dim,init ='uniform',input_length = None,weights = None,W_regularizer = None,W_constraint = None,mask_zero = False)将正整数(索引)转换为固定大小的密集向量,例如。[[4],[20]]-> [[0.25,0.1],[0.6,-0.2]] 输入形状:2D张量,形状为:(nb_samples,sequence_length)。输出形状:具有以下形状的3D张量:(nb_samples,sequence_length,output_dim)。参数: input_dim:int> =0。词汇量,即。输入数据中出现1+最大整数索引。output_dim:int> =0。密集嵌入的尺寸 这就是千层面的解释: 单词嵌入层。输入应为整数类型Tensor变量。 参数:传入:一个Layer实例或一个元组 送入该层的层,或预期的输入形状。 input_size:整数 不同嵌入的数量。最后的嵌入将具有索引input_size-1。 output_size:整数 每个嵌入的大小。 W:Theano共享变量,表达式,numpy数组或可调用 嵌入矩阵的初始值,表达式或初始化程序。这应该是形状为(input_size,output_size)的矩阵。有关更多信息,请参见lasagne.utils.create_param()。 例子 >>> from lasagne.layers import EmbeddingLayer, InputLayer, get_output >>> import theano >>> x = T.imatrix() …

11
线性回归何时应称为“机器学习”?
在最近的一次座谈会上,发言人的摘要声称他们正在使用机器学习。在谈话中,与机器学习有关的唯一事情是他们对数据进行线性回归。在计算5D参数空间中的最佳拟合系数后,他们将一个系统中的这些系数与其他系统中的最佳拟合系数进行了比较。 什么时候是线性回归机器学习,而不是简单地找到一条最佳拟合线?(研究人员的摘要是否引起误解?) 机器学习近来引起了人们的广泛关注,因此做出这样的区分似乎很重要。 我的问题与此类似,只是该问题要求定义“线性回归”,而我的问题是何时将线性回归(具有广泛的应用)适当地称为“机器学习”。 澄清说明 我不是在问线性回归何时与机器学习相同。正如某些人指出的那样,单一算法并不构成研究领域。我问一个人使用的算法只是线性回归时,是在说机器学习是正确的。 撇开所有笑话(见评论),我问这的原因之一是因为不道德地说一个人正在做机器学习,如果他们不是真正在做机器学习,那么就在您的名字上加一些金星。(许多科学家计算某些类型的工作最佳拟合线的,但这并不意味着他们正在做机器学习)。在另一方面,也有清楚的情况下,当线性回归被用作机器学习的一部分。我正在寻找专家来帮助我对这些情况进行分类。;-)

6
如果我有58%的机会赢得积分,那么我赢得乒乓球比赛21胜2的机会是多少?
我与一个同事打赌,在50场乒乓球比赛中(首先赢得21分,获2分),我将赢得全部50场比赛。到目前为止,我们已经打了15场比赛,平均而言,我赢了58%积分,再加上到目前为止,我已经赢得了所有比赛。所以我们想知道我是否有58%的机会赢得积分,而他是否有42%的机会赢得积分,那么我赢得比赛的几率是多少?是否有一个公式可以插入差异百分比机会? 我们到处搜索,甚至问我们公司的数据科学家,但找不到直接的答案。 编辑:哇,我对回应的彻底震惊。非常感谢大家!!!如果人们好奇,我会更新自己的下注方式:我现在已经赢了50场比赛中的18场,所以我需要再赢32场。我赢得了所有积分的58.7%,因此我的对手赢得了41.3%的积分。我对手的标准差是3.52,他的平均得分是14.83,中位数是15.50。以下是到目前为止每个游戏的得分的屏幕截图。如果人们有兴趣,我可以随时跟进更新。 编辑#2:很遗憾,我们只能再玩几局,结果如下。我将继续替换图片,因此没有一堆乐谱的屏幕截图。 最终更新:我最终在第二十八场比赛中输给了我的同事。他以21-13击败我。感谢您所有的帮助!

4
PCA和方差比例说明
通常,用第一个主成分来解释像PCA这样的分析中的方差分数是什么意思?有人可以直观地解释这一点,但也可以就主成分分析(PCA)给出“解释方差”的精确数学定义吗?XXx 对于简单的线性回归,总是将最佳拟合线的r平方描述为所解释的方差的比例,但我也不知道该怎么做。这里的方差比例是否只是点与最佳拟合线的偏差的延伸?


7
如何有效地管理统计分析项目?
我们经常听到计算机科学中的项目管理和设计模式,但是在统计分析中却很少见。但是,看来设计有效而持久的统计项目的决定性步骤是使事情井井有条。 我经常提倡使用R和在单独的文件夹(原始数据文件,转换后的数据文件,R脚本,图形,注释等)中文件的一致组织。采用这种方法的主要原因是,以后运行分析可能会更容易(例如,当您忘记了如何生成给定图时)。 统计项目管理的最佳实践是什么,或者您想根据自己的经验提出建议?当然,这适用于任何统计软件。(请给每个帖子一个答案)

4
为什么在深度学习中通过减去数据集的图像均值而不是当前图像均值来规范化图像?
关于如何规范化图像有一些变体,但大多数似乎使用以下两种方法: 减去在所有图像上计算出的每个通道的平均值(例如 VGG_ILSVRC_16_layers) 通过对所有图像计算的像素/通道相减(例如CNN_S,另请参见Caffe的参考网络) 在我看来,自然的方法是将每个图像标准化。在宽广的日光下拍摄的图像比夜间拍摄的图像会引起更多的神经元放电,虽然它可以告诉我们时间,但我们通常关心的是边缘等处出现的更有趣的特征。 Pierre Sermanet在3.3.3中指出,局部对比度归一化将基于每个图像,但是我在所见过的任何示例/教程中都没有遇到过。我也看到了一个有趣的Quora问题和WeiXu-Shen Wei的帖子,但是他们似乎并不支持上述两种方法。 我到底在想什么?这是颜色归一化问题还是有一篇论文可以真正解释为什么这么多人使用这种方法?

1
交叉与嵌套随机效应:它们有什么不同?如何在lme4中正确指定它们?
这是我对嵌套随机效应与交叉随机效应的理解: 当较低级别的因子仅出现在较高级别的因子的特定级别内时,会发生嵌套随机效应。 例如,班级内的学生在固定的时间点。 在lme4我看来,我们用两种等效方式中的任一种来表示嵌套数据的随机效应: (1|class/pupil) # or (1|class) + (1|class:pupil) 交叉随机效应意味着给定因子出现在上层因子的一个以上水平中。 例如,几年级的班级中有小学生。 在中lme4,我们将这样写: (1|class) + (1|pupil) 但是,当我查看特定的嵌套数据集时,我注意到两个模型公式给出的结果相同(下面的代码和输出)。但是,我看到了其他数据集,其中两个公式产生了不同的结果。那么这是怎么回事? mydata <- read.csv("https://web.archive.org/web/20160624172041if_/http://www-personal.umich.edu/~bwest/classroom.csv") # (the data is no longer at `http://www-personal.umich.edu/~bwest/classroom.csv` # hence the link to web.archive.org) # Crossed version: Linear mixed model fit by REML ['lmerMod'] Formula: mathgain ~ (1 | schoolid) …

4
用于计数回归的诊断图
在结果是计数变量的情况下,您发现哪些诊断图(也许是形式测试)对回归分析最有帮助? 我对泊松模型和负二项式模型以及每种模型的零膨胀和跨栏模型特别感兴趣。我发现的大多数资源都只是将残差与拟合值作图,而没有讨论这些图“应该”是什么样。 智慧和参考非常感谢。关于我为什么要问这个问题(如果相关)的背景故事是我的另一个问题。 相关讨论: 解释glm模型的残留诊断图? 广义线性模型的假设 GLM-诊断和哪个系列

4
何时使用伽马GLM?
伽马分布可以采用多种形式,并且通过其两个参数给出了均值和方差之间的联系,它似乎适合处理非负数据中的异方差,这使得对数转换的OLS可以没有WLS或某种异方差一致的VCV估计器就无法做到。 在常规的非负数据建模中,我会更多地使用它,但是我不认识其他使用它的人,我还没有在正式的课堂环境中学习它,而我阅读的文献也从未使用过它。每当我使用诸如“伽马GLM的实际使用”之类的Google字词时,我都会提出建议将其用于Poisson事件之间的等待时间。好。但这似乎是限制性的,并且不能唯一使用。 天真的,考虑到伽玛的灵活性,伽玛GLM似乎是对非负数据建模的一种相对假设的轻松手段。当然,您需要像任何模型一样检查QQ图和残差图。但是我有什么严重的缺点想念吗?除了与“仅运行OLS”的人进行交流之外?

1
解释plot.lm()
我有一个关于解释R中plot(lm)生成的图的问题。我想知道你们是否可以告诉我如何解释比例位置图和杠杆剩余图?任何意见,将不胜感激。假设掌握统计,回归和计量经济学的基础知识。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.