4 应该引用哪些参考来支持使用30作为足够大的样本量? 我已经多次阅读/听说过,至少30个单位的样本大小被视为“大样本”(由于CLT等原因,均值的正态假设通常近似成立)。因此,在实验中,我通常会生成30个单位的样本。您能否给我一些使用30号样本时应引用的参考? 41 references sample-size normality-assumption central-limit-theorem rule-of-thumb
8 如何测试给定样本是否来自泊松分布? 我知道正态性测试,但是如何测试“泊松性”? 我有〜1000个非负整数的样本,我怀疑这些样本是从Poisson分布中提取的,我想对此进行测试。 41 hypothesis-testing distributions poisson-distribution goodness-of-fit
13 为什么年龄中位数比平均年龄更好? 如果您看Wolfram Alpha 或此Wikipedia页面按中位年龄划分的国家列表 显然,就年龄而言,中位数似乎是选择的统计数据。 我无法向自己解释为什么算术平均值将是更差的统计量。为什么会这样呢? 最初发布在这里是因为我不知道该网站的存在。 41 mean median
4 为什么零相关并不一定意味着独立 如果两个变量的相关性为0,为什么它们不一定是独立的?在特殊情况下零相关变量是否独立?如果可能的话,我正在寻找一种直观的解释,而不是高度技术性的解释。 41 correlation independence
1 如何解释错误措施? 我正在Weka中为某个数据集运行分类,并且我注意到,如果我试图预测标称值,则输出将具体显示正确和错误地预测的值。但是,现在我为数字属性运行它,输出为: Correlation coefficient 0.3305 Mean absolute error 11.6268 Root mean squared error 46.8547 Relative absolute error 89.2645 % Root relative squared error 94.3886 % Total Number of Instances 36441 我该怎么解释?我已经尝试过搜索每个概念,但由于统计数据完全不在我的专业领域,因此我不太了解。就统计而言,我将非常感谢ELI5类型的答案。 41 machine-learning error weka mse rms
5 连续变量和分类(标称)变量之间的相关性 我想找到连续变量(因变量)和分类变量(标称:性别,自变量)之间的相关性。连续数据不是正态分布。在此之前,我已经使用Spearman的进行了计算。但是,有人告诉我这是不对的。ρρ\rho 在互联网上搜索时,我发现箱线图可以提供有关它们之间关联程度的想法;但是,我一直在寻找量化值,例如Pearson的乘积矩系数或Spearman的。您能帮我怎么做吗?或者,告知哪种方法合适?ρρ\rho 双峰系数会是正确的选择吗? 41 correlation categorical-data descriptive-statistics biostatistics spearman-rho
3 正态分布和高斯分布有什么区别 正态分布和高斯分布之间有很大的区别吗?我看过很多论文都在不加区分地使用它们,而且我通常也将它们称为同一事物。 但是,我的PI最近告诉我,正常情况是高斯的均值= 0和std = 1的特定情况,我早些时候在另一家商店也听说过,对此有何共识? 根据维基百科,他们称之为正态分布的是标准正态分布,而正态分布是高斯的同义词,但是话又说回来,我也不确定维基百科。 谢谢 41 normal-distribution terminology
9 如何解释F度量值? 我想知道如何解释f度量值的差异。我知道f量度是精确度和召回率之间的平衡平均值,但我想知道f量度的差异的实际含义。 例如,如果分类器C1的精度为0.4,而另一个分类器C2的精度为0.8,则可以说C2与C1相比已正确地对测试示例的两倍进行了分类。但是,如果分类器C1的某个类别的F度量为0.4,而另一个分类器C2的F度量为0.8,那么对于两个分类器的性能差异,我们能说什么?我们可以说C2比C1正确分类了X个实例吗? 41 classification precision-recall
3 我怎样才能计算 假设和Φ (⋅ )是密度函数和标准正态分布的分布函数。ϕ (⋅ )ϕ(⋅)\phi(\cdot)Φ (⋅ )Φ(⋅)\Phi(\cdot) 如何计算积分: ∫∞- ∞Φ (w − ab) ϕ(w)d w∫−∞∞Φ(w−ab)ϕ(w)dw\int^{\infty}_{-\infty}\Phi\left(\frac{w-a}{b}\right)\phi(w)\,\mathrm dw 41 mathematical-statistics normal-distribution integral
3 结果(比率或分数)在0到1之间的回归 我正在考虑建立一个预测比率的模型,其中和且。因此,该比率将在和之间。一个≤ b 一> 0 b > 0 0 1a/ba/ba/ba≤ba≤ba \le ba>0a>0a > 0b>0b>0b > 0000111 我可以使用线性回归,尽管它自然不限于0.1。我没有理由相信这种关系是线性的,但是无论如何,它当然经常被用作简单的第一个模型。 我可以使用逻辑回归,尽管通常将其用于预测两态结果的概率,而不是从0.1.1范围内预测连续值。 一无所知,您将使用线性回归,逻辑回归还是隐藏选项c? 41 regression logistic generalized-linear-model beta-distribution beta-regression
5 倾向得分与在回归中添加协变量相比有何不同?何时优先选择后者? 我承认我在倾向得分和因果分析方面还比较陌生。 作为一个新手,对我而言不明显的一件事是,使用倾向得分的“平衡”在数学上与在回归中添加协变量时发生了什么变化?该操作有何不同,为什么它(或它)比在回归中添加子群体协变量更好? 我看过一些对这些方法进行实证比较的研究,但是我没有看到关于这两种方法的数学性质的很好的讨论,为什么PSM却不适合因果关系而又不包括回归协变量。在这个领域似乎也有很多困惑和争议,这使得事情变得更加难以掌握。 对这个问题有什么想法,或者有什么好的资源/论文可以更好地理解两者之间的区别?(我正在慢慢浏览Judea Pearl的因果关系书,因此无需指出这一点) 41 regression multivariate-analysis causality propensity-scores
1 softmax_cross_entropy_with_logits与softmax_cross_entropy_with_logits_v2有何不同? 具体来说,我想我对此语句感到疑惑: TensorFlow的未来主要版本默认将允许梯度流入backprop上的标签输入中。 使用时会显示出来tf.nn.softmax_cross_entropy_with_logits。在同一封信中,它敦促我看看tf.nn.softmax_cross_entropy_with_logits_v2。我浏览了文档,但只说明了tf.nn.softmax_cross_entropy_with_logits_v2: 反向传播将同时出现在logit和标签中。要禁止反向传播到标签中,请在将标签张量馈入此函数之前将其张量传递给stop_gradients。 而不是tf.nn.softmax_cross_entropy_with_logits: 反向传播只会在logit中发生。 对于该主题来说是一个新手(我正在尝试通过一些基本教程进行学习),这些陈述并不十分清楚。我对反向传播有一个较浅的了解,但是前面的陈述实际上是什么意思?反向传播和标签如何连接?与tf.nn.softmax_cross_entropy_with_logits_v2原始作品相比,这将如何改变我的工作方式? 41 machine-learning supervised-learning tensorflow backpropagation
6 随机森林-如何处理过度拟合 我有计算机科学背景,但是正在尝试通过解决Internet问题来自学数据科学。 在过去的几周里,我一直在研究这个问题(大约900行和10个功能)。我最初使用逻辑回归,但是现在我切换到了随机森林。当我在训练数据上运行随机森林模型时,auc的值非常高(> 99%)。但是,当我在测试数据上运行相同的模型时,结果并不是很好(准确度约为77%)。这使我相信我已经过度适合训练数据了。 关于防止随机森林过度适应的最佳实践是什么? 我正在使用r和rstudio作为开发环境。我正在使用该randomForest软件包,并且已接受所有参数的默认值 41 random-forest overfitting
3 统计独立性是否意味着缺乏因果关系? 两个随机变量A和B在统计上是独立的。这意味着在流程的DAG中:当然是。但这是否也意味着从B到A没有前门?(A⊥⊥B)(A⊥⊥B)(A {\perp\!\!\!\perp} B)P(A|B)=P(A)P(A|B)=P(A)P(A|B)=P(A) 因为这样我们应该得到。因此,如果是这样,统计独立性是否自动意味着缺乏因果关系?P(A|do(B))=P(A)P(A|do(B))=P(A)P(A|do(B))=P(A) 40 independence causality bayesian-network dag
5 实用的超参数优化:随机与网格搜索 我目前正在研究Bengio和Bergsta的用于超参数优化 的随机搜索[1],作者声称随机搜索比网格搜索更有效地实现近似相等的性能。 我的问题是:这里的人是否同意这种说法?在我的工作中,我之所以一直使用网格搜索,主要是因为缺少可轻松执行随机搜索的工具。 人们使用网格搜索与随机搜索的体验如何? 40 machine-learning hyperparameter optimization