统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答



13
为什么年龄中位数比平均年龄更好?
如果您看Wolfram Alpha 或此Wikipedia页面按中位年龄划分的国家列表 显然,就年龄而言,中位数似乎是选择的统计数据。 我无法向自己解释为什么算术平均值将是更差的统计量。为什么会这样呢? 最初发布在这里是因为我不知道该网站的存在。
41 mean  median 


1
如何解释错误措施?
我正在Weka中为某个数据集运行分类,并且我注意到,如果我试图预测标称值,则输出将具体显示正确和错误地预测的值。但是,现在我为数字属性运行它,输出为: Correlation coefficient 0.3305 Mean absolute error 11.6268 Root mean squared error 46.8547 Relative absolute error 89.2645 % Root relative squared error 94.3886 % Total Number of Instances 36441 我该怎么解释?我已经尝试过搜索每个概念,但由于统计数据完全不在我的专业领域,因此我不太了解。就统计而言,我将非常感谢ELI5类型的答案。

5
连续变量和分类(标称)变量之间的相关性
我想找到连续变量(因变量)和分类变量(标称:性别,自变量)之间的相关性。连续数据不是正态分布。在此之前,我已经使用Spearman的进行了计算。但是,有人告诉我这是不对的。ρρ\rho 在互联网上搜索时,我发现箱线图可以提供有关它们之间关联程度的想法;但是,我一直在寻找量化值,例如Pearson的乘积矩系数或Spearman的。您能帮我怎么做吗?或者,告知哪种方法合适?ρρ\rho 双峰系数会是正确的选择吗?

3
正态分布和高斯分布有什么区别
正态分布和高斯分布之间有很大的区别吗?我看过很多论文都在不加区分地使用它们,而且我通常也将它们称为同一事物。 但是,我的PI最近告诉我,正常情况是高斯的均值= 0和std = 1的特定情况,我早些时候在另一家商店也听说过,对此有何共识? 根据维基百科,他们称之为正态分布的是标准正态分布,而正态分布是高斯的同义词,但是话又说回来,我也不确定维基百科。 谢谢

9
如何解释F度量值?
我想知道如何解释f度量值的差异。我知道f量度是精确度和召回率之间的平衡平均值,但我想知道f量度的差异的实际含义。 例如,如果分类器C1的精度为0.4,而另一个分类器C2的精度为0.8,则可以说C2与C1相比已正确地对测试示例的两倍进行了分类。但是,如果分类器C1的某个类别的F度量为0.4,而另一个分类器C2的F度量为0.8,那么对于两个分类器的性能差异,我们能说什么?我们可以说C2比C1正确分类了X个实例吗?

3
我怎样才能计算
假设和Φ (⋅ )是密度函数和标准正态分布的分布函数。ϕ (⋅ )ϕ(⋅)\phi(\cdot)Φ (⋅ )Φ(⋅)\Phi(\cdot) 如何计算积分: ∫∞- ∞Φ (w − ab) ϕ(w)d w∫−∞∞Φ(w−ab)ϕ(w)dw\int^{\infty}_{-\infty}\Phi\left(\frac{w-a}{b}\right)\phi(w)\,\mathrm dw

3
结果(比率或分数)在0到1之间的回归
我正在考虑建立一个预测比率的模型,其中和且。因此,该比率将在和之间。一个≤ b 一> 0 b > 0 0 1a/ba/ba/ba≤ba≤ba \le ba>0a>0a > 0b>0b>0b > 0000111 我可以使用线性回归,尽管它自然不限于0.1。我没有理由相信这种关系是线性的,但是无论如何,它当然经常被用作简单的第一个模型。 我可以使用逻辑回归,尽管通常将其用于预测两态结果的概率,而不是从0.1.1范围内预测连续值。 一无所知,您将使用线性回归,逻辑回归还是隐藏选项c?

5
倾向得分与在回归中添加协变量相比有何不同?何时优先选择后者?
我承认我在倾向得分和因果分析方面还比较陌生。 作为一个新手,对我而言不明显的一件事是,使用倾向得分的“平衡”在数学上与在回归中添加协变量时发生了什么变化?该操作有何不同,为什么它(或它)比在回归中添加子群体协变量更好? 我看过一些对这些方法进行实证比较的研究,但是我没有看到关于这两种方法的数学性质的很好的讨论,为什么PSM却不适合因果关系而又不包括回归协变量。在这个领域似乎也有很多困惑和争议,这使得事情变得更加难以掌握。 对这个问题有什么想法,或者有什么好的资源/论文可以更好地理解两者之间的区别?(我正在慢慢浏览Judea Pearl的因果关系书,因此无需指出这一点)

1
softmax_cross_entropy_with_logits与softmax_cross_entropy_with_logits_v2有何不同?
具体来说,我想我对此语句感到疑惑: TensorFlow的未来主要版本默认将允许梯度流入backprop上的标签输入中。 使用时会显示出来tf.nn.softmax_cross_entropy_with_logits。在同一封信中,它敦促我看看tf.nn.softmax_cross_entropy_with_logits_v2。我浏览了文档,但只说明了tf.nn.softmax_cross_entropy_with_logits_v2: 反向传播将同时出现在logit和标签中。要禁止反向传播到标签中,请在将标签张量馈入此函数之前将其张量传递给stop_gradients。 而不是tf.nn.softmax_cross_entropy_with_logits: 反向传播只会在logit中发生。 对于该主题来说是一个新手(我正在尝试通过一些基本教程进行学习),这些陈述并不十分清楚。我对反向传播有一个较浅的了解,但是前面的陈述实际上是什么意思?反向传播和标签如何连接?与tf.nn.softmax_cross_entropy_with_logits_v2原始作品相比,这将如何改变我的工作方式?

6
随机森林-如何处理过度拟合
我有计算机科学背景,但是正在尝试通过解决Internet问题来自学数据科学。 在过去的几周里,我一直在研究这个问题(大约900行和10个功能)。我最初使用逻辑回归,但是现在我切换到了随机森林。当我在训练数据上运行随机森林模型时,auc的值非常高(> 99%)。但是,当我在测试数据上运行相同的模型时,结果并不是很好(准确度约为77%)。这使我相信我已经过度适合训练数据了。 关于防止随机森林过度适应的最佳实践是什么? 我正在使用r和rstudio作为开发环境。我正在使用该randomForest软件包,并且已接受所有参数的默认值

3
统计独立性是否意味着缺乏因果关系?
两个随机变量A和B在统计上是独立的。这意味着在流程的DAG中:当然是。但这是否也意味着从B到A没有前门?(A⊥⊥B)(A⊥⊥B)(A {\perp\!\!\!\perp} B)P(A|B)=P(A)P(A|B)=P(A)P(A|B)=P(A) 因为这样我们应该得到。因此,如果是这样,统计独立性是否自动意味着缺乏因果关系?P(A|do(B))=P(A)P(A|do(B))=P(A)P(A|do(B))=P(A)

5
实用的超参数优化:随机与网格搜索
我目前正在研究Bengio和Bergsta的用于超参数优化 的随机搜索[1],作者声称随机搜索比网格搜索更有效地实现近似相等的性能。 我的问题是:这里的人是否同意这种说法?在我的工作中,我之所以一直使用网格搜索,主要是因为缺少可轻松执行随机搜索的工具。 人们使用网格搜索与随机搜索的体验如何?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.