统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

6
如何测试两个连续变量是独立的?
假设我有一个样本根据和的联合分布。我如何检验和是独立的假设?X ÿ X ÿ(Xñ,Yñ),n = 1 .. N(Xn,Yn),n=1..N(X_n,Y_n), n=1..NXXXÿYYXXXÿYY 不对和的联合或边际分布定律(所有联合正态性中的最小者,因为在这种情况下,独立性等于)是相同的。ÿXXXÿYY000 没有对和之间可能关系的性质作任何假设; 它可能是非线性的,因此变量是不相关的()但高度相关()。Y r = 0 I = HXXXÿYYr = 0r=0r=0一世= 高I=HI=H 我可以看到两种方法: 对两个变量进行bin,并使用Fisher精确检验或G-test。 优点:使用完善的统计测试 缺点:取决于分档 估计依赖的和:(这是独立和和当它们完全确定对方)。Y I (X ; Y )XXXÿYY一世(X; ÿ)H(X,Y)I(X;Y)H(X,Y)\frac{I(X;Y)}{H(X,Y)}XY1000XXXÿYY1个11 优点:产生具有明确理论意义的数字 缺点:取决于近似熵的计算(即再次进行分箱) 这些方法有意义吗? 人们还使用其他哪些方法?

4
如何识别双峰分布?
我了解,一旦将值绘制为图表,便可以通过观察双峰来识别双峰分布,但是如何以编程方式找到它呢?(我正在寻找一种算法。)

7
卡方总是单方面测试吗?
发表的文章(pdf)包含以下两个句子: 此外,误报可能是由于使用了不正确的规则或对统计检验知识的缺乏所致。例如,可以将ANOVA中的总df视为检验报告中的误差df ,或者研究人员可以将或检验的报告p值除以2,以获得片面的值,而 a的值或测试已经是一个单侧检验。χ 2 ˚F p p χ 2 ˚FFFFχ2χ2\chi^2FFFppppppχ2χ2\chi^2FFF 他们为什么这么说?卡方检验是一种双面检验。(我问过其中一位作者,但没有得到答复。) 我在俯视什么吗?

5
NaN和NA有什么区别?
我想知道为什么像R这样的某些语言同时具有NA和NaN。有什么区别或相等?真的需要NA吗?
48 r 

17
您最喜欢的数据可视化博客是什么?
关于数据可视化的最佳博客是什么? 我将此问题作为社区Wiki,因为它具有很高的主观性。请将每个答案限制为一个链接。 请注意以下标准的建议答案: 对此类问题的[A]可接受的答案...需要提供足够的描述和合理的理由。仅仅超链接不能做到这一点。... [任何]将来的答复[必须]符合... [这些]标准;否则,它们将被删除而无需进一步评论。

7
简单线性回归中切换响应和解释变量的影响
假设yyy和之间存在某种“真实”关系,xxx使得y=ax+b+ϵy=ax+b+ϵy = ax + b + \epsilon,其中和是常数,是同等噪声。当我从那个R代码随机生成数据时:然后适合一个模型,显然,我得到和合理估计。b ϵaaabbbϵϵ\epsilonx <- 1:100; y <- ax + b + rnorm(length(x))y ~ xaaabbb 如果我在切换变量的作用(x ~ y),但是,然后重写结果为是的函数,将得到的斜率总是更陡比由所估计的(或更负或更积极的)回归。我正在尝试确切地理解为什么会这样,如果有人能给我关于那里发生的事情的直觉,我将不胜感激。yyyxxxy ~ x
48 regression 

4
基于动量的梯度下降与Nesterov的加速梯度下降有什么区别?
因此,基于动量的梯度下降原理如下: v = s e l f。米ø 米é Ñ 吨ü 米* 米- 升- [R * 克v=self.momentum∗m−lr∗gv=self.momentum*m-lr*g 其中是先前的权重更新,g是相对于参数p的当前梯度,l r是学习率,s e l f 。米ø 米é Ñ 吨Ú 中号是一个常数。米mmGggppp升[Rlrlr小号Ë 升˚F。米ø 米é Ñ 吨ù 米self.momentumself.momentum pñ Ë W ^= p + v = p + s e l f。米ø 米é Ñ 吨ü 米* 米- …

2
梯度增强树(GBM)与Adaboost之间差异的直观解释
我试图了解GBM和Adaboost之间的区别。 这些是我到目前为止所了解的: 两种提升算法都可以从先前模型的错误中学习,最后对模型进行加权求和。 GBM和Adaboost的损失函数非常相似。 但是,我仍然很难理解它们之间的差异。有人可以给我直观的解释吗?
48 boosting  gbm  adaboost 


4
R中的随机森林计算时间
我在R中使用具有10,000行和34个特征的party包,并且某些要素特征具有300多个级别。计算时间过长。(到目前为止,已花费了3个小时,但尚未完成。) 我想知道哪些元素对随机森林的计算时间有很大影响。它的因素过多吗?是否有优化的方法来缩短RF计算时间?
48 r  random-forest 

7
经验丰富的开发人员从何处开始统计
在2015年上半年,我参加了机器学习课程(由GREAT课程的Andrew Ng 撰写)。并学习了机器学习的基础知识(线性回归,逻辑回归,SVM,神经网络...) 我也是开发人员已有10年了,因此学习一种新的编程语言将不是问题。 最近,我开始学习R以实现机器学习算法。 但是我已经意识到,如果我想继续学习,我将需要更正式的统计学知识,目前我对它不是一个正规的知识,但是由于其局限性,例如,我无法正确确定几个线性模型中的哪个会更好(通常我倾向于使用R平方,但显然这不是一个好主意)。 因此,对我来说,很明显我需要学习统计学的基础知识(我是在uni上学习的,但是却忘记了大部分),我应该在哪里学习,请注意,我实际上并不需要一门全面的课程一个月之内就可以让我了解足够的知识,这样我就可以渴望并了解更多:)。 到目前为止,我已经阅读了有关“ 无泪统计 ”的信息,还有其他建议吗?

1
如果预测是目标,如何将标准化/标准化应用于训练和测试集?
是否同时转换所有数据或折叠(如果应用了简历)?例如 (allData - mean(allData)) / sd(allData) 我是否要分别转换训练集和测试集?例如 (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) 还是要转换训练集并在测试集中使用计算?例如 (trainData - mean(trainData)) / sd(trainData) (testData - mean(trainData)) / sd(trainData) 我相信3是正确的方法。如果3是正确的,我必须担心平均值不为0或范围不在[0; 1]或[-1; 1](规范化)的测试集?

11
是否可以在不使用绘图和线性代数的情况下完成简单的线性回归?
我完全是盲人,来自编程背景。 我想做的是学习机器学习,为此,我首先需要学习线性回归。我在互联网上找到的有关该主题的所有说明都首先绘制了数据。我正在寻找不依赖于图和图的线性回归的实用解释。 这是我对简单线性回归的目标的理解: 简单的线性回归试图找到一旦给出的公式,即可X为您提供最接近的估算值Y。 因此,据我所知,需要做的是将预测变量(例如,以平方英尺为单位的房屋面积)与自变量(价格)进行比较。在我的示例中,您可能可以创建一种非可视的方法,以获取最佳公式以从房屋面积计算房屋价格。例如,也许您会得到附近一千套房屋的面积和价格,然后将价格除以面积?结果(至少在我所居住的伊朗)差异很小。因此,您可能会得到以下信息: Price = 2333 Rials * Area of the house 当然,您将需要遍历数据集中的所有1000栋房屋,将面积放在上面的公式中,将估算值与实际价格进行比较,对结果求平方(我想防止差异互相抵消)然后获取一个数字,然后继续使用2333来减少错误。 当然,这是蛮力选择,可能需要花费很多时间才能计算出错误并得出最佳选择,但是您明白我的意思了吗?我没有说任何关于图形,线条,情节上的点的信息,也不是将线条拟合到现有数据的最佳方法。 那么,为什么要为此需要散点图和线性代数呢?有没有非视觉的方式? 首先,我的假设正确吗?如果没有,我希望得到纠正。我是否可以在不使用线性代数的情况下提出公式? 如果能得到一个带有解释的示例,我将不胜感激,以便我可以将其与文字一起使用以检验我的理解。

5
关于Kullback-Leibler(KL)分歧的直觉
我了解了KL散度背后的直觉,因为模型分布函数与数据的理论/真实分布有多大差异。我正在阅读的资料继续说,这两个分布之间的“距离”的直观理解是有帮助的,但不应从字面上理解,因为对于两个分布和,KL散度在和不是对称的。PPP问QQPPP问QQ 我不确定如何理解最后的陈述,还是“距离”的直觉被打破了? 我希望看到一个简单但有见地的例子。

4
监督机器学习中的班级失衡
通常,这是一个问题,并不特定于任何方法或数据集。我们如何处理有监督机器学习中的类不平衡问题,其中数据集中0的数量约为90%,1的数量约为10%。我们如何最佳地训练分类器。 我遵循的方法之一是采样以使数据集平衡,然后训练分类器并对多个样本重复此操作。 我觉得这是随机的,有没有解决这些问题的框架。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.