Questions tagged «distributions»

分布是概率或频率的数学描述。


5
教学抽样分布的策略
tl; dr版本 您采用了哪些成功的策略在入门级本科水平上教授(例如,样本均值的)样本分布? 背景 9月,我将使用David Moore 撰写的《统计基础知识》为二年级社会科学(主要是政治科学和社会学)课程的学生开设统计学入门课程。这是我第五次教这门课,我一直遇到的一个问题是,学生们确实在抽样分配的概念上挣扎。它作为推理的背景进行了介绍,并基本介绍了几经打initial后他们似乎没有遇到麻烦的概率(而从根本上讲,我的意思是基本-毕竟,这些学生中的许多人已经被自动选入了特定的课程流,因为他们试图避免甚至带有“数学”含糊暗示的任何事物。我猜想可能有60%的人对课程没有一点点的了解,大约25%的人了解原理,但不了解与其他概念的联系,其余15%的人完全理解。 主要问题 学生似乎遇到的麻烦是应用程序。除了说他们只是不明白之外,很难解释确切的问题是什么。从上学期进行的一项民意测验和考试答复中,我认为部分困难是两个相关且相似的发音短语(采样分布和样本分布)之间的混淆,因此我没有使用“样本分布”一词虽然如此,但可以肯定的是,虽然一开始令人困惑,但只需一点点努力就可以轻松解决它,并且无论如何也无法解释抽样分布概念的普遍困惑。 (我意识到这可能是我本人和我的教!在这里!但是,我认为忽略不合理的可能性是合理的做法,因为有些学生确实做到了,而且总体上每个人似乎都做得不错...) 我尝试过的 我不得不与我们系的本科生管理者争论,在计算机实验室中引入强制性课程,以为反复演示可能会有所帮助(在我开始教这门课程之前,不涉及计算)。虽然我认为这有助于总体上理解课程材料,但我认为这对特定主题没有帮助。 我曾经有过一个想法,就是根本不教它或不给它太多分量,这是某些人(例如安德鲁·盖尔曼)所主张的。我觉得这不是特别令人满意,因为它有教给最低公分母的感觉,更重要的是,拒绝坚强而又有上进心的学生,他们想通过真正了解重要概念的工作原理(不仅是抽样分布!)来学习更多有关统计应用的知识。 )。另一方面,中位学生似乎确实掌握了例如p值,因此也许他们根本不需要了解采样分布。 问题 您采用什么策略教授抽样分布?我知道有可用的材料和讨论(例如,这里和这里以及打开PDF文件的本文),但我只是想知道我是否可以得到一些对人有用的具体示例(或者我猜什至什么都不有用)因此我不会尝试!)。现在,正如我计划9月份的课程那样,我现在的计划是遵循Gelman的建议并“强调”采样分布。我会教书,但我会向学生保证,这只是一种仅供参考的主题,不会出现在考试中(除非作为奖励问题?!)。但是,我真的很想听听人们使用的其他方法。


3
为什么不报告引导分布的平均值?
当一个自举参数获取标准误差时,我们得到该参数的分布。为什么我们不使用该分布的均值作为我们试图获取的参数的结果或估计呢?分布不应该近似真实分布吗?因此,我们将对“真实”价值有一个很好的估计吗?但是,我们报告了从样本中获得的原始参数。这是为什么? 谢谢


5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

4
图形模型中的图论在哪里?
图形模型的介绍将它们描述为“ ...图论与概率论之间的结合”。 我得到了概率论的一部分,但是我对理解图论到底适合什么地方有困难。从图论中得到什么见解帮助加深了我们对不确定性下的概率分布和决策的理解? 除了在PGM中图形理论术语的明显使用之外,我正在寻找具体的示例,例如将PGM分类为“树”或“二分”或“无向”等。

3
泊松分布与正态分布有何不同?
我生成了一个具有泊松分布的向量,如下所示: x = rpois(1000,10) 如果我使用制作直方图hist(x),则分布看起来像是熟悉的钟形正态分布。然而,使用柯尔莫哥洛夫-斯米尔诺夫测试ks.test(x, 'pnorm',10,3)说,分布显著不同的正态分布,由于非常小的p值。 所以我的问题是:当直方图看起来与正态分布非常相似时,泊松分布与正态分布有何不同?

6
Shapiro-Wilk检验的解释
我是统计学的新手,需要您的帮助。 我有一个小样本,如下所示: H4U 0.269 0.357 0.2 0.221 0.275 0.277 0.253 0.127 0.246 我使用R运行了Shapiro-Wilk测试: shapiro.test(precisionH4U$H4U) 我得到以下结果: W = 0.9502, p-value = 0.6921 现在,如果我假设在0.05处的显着性水平大于p值,则alpha(0.6921> 0.05),并且我不能拒绝关于正态分布的零假设,但是我是否可以说样本具有正态分布? 谢谢!

3
R:尽管数据集中没有NaN,随机森林仍在“外部函数调用”错误中抛出NaN / Inf [关闭]
我正在使用插入符号在数据集上运行交叉验证的随机森林。Y变量是一个因素。我的数据集中没有NaN,Inf或NA。但是,当运行随机森林时,我得到 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

4
如何测量分布的不均匀性?
我正在尝试提出一个指标,用于衡量我正在运行的实验的分布不均匀性。我有一个随机变量,该变量在大多数情况下应均匀分布,并且我希望能够识别(并且可能测量)数据集示例,其中该变量在一定范围内不均匀分布。 三个数据系列的示例每个都有10个测量值,它们代表我正在测量的事物的发生频率,可能是这样的: a: [10% 11% 10% 9% 9% 11% 10% 10% 12% 8%] b: [10% 10% 10% 8% 10% 10% 9% 9% 12% 8%] c: [ 3% 2% 60% 2% 3% 7% 6% 5% 5% 7%] <-- non-uniform d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%] 我希望能够区分c之类的分布与a和b之类的分布,并测量c与均匀分布的偏差。同样,如果存在度量分布均匀性的标准(标准偏差接近零?),我也许可以用它来区分具有高方差的分布。但是,我的数据可能只有一个或两个异常值,例如上面的c示例,并且不确定是否可以通过这种方式轻松检测到。 …

7
统计谬误的名称是什么,以前的硬币抛售的结果会影响有关后续硬币抛售的信念?
众所周知,如果掷硬币时正面和反面都有相等的机会落地,那么如果您多次抛硬币,一半的时间会正面,一半的时间会反面。 在与朋友讨论这个问题时,他们说,如果您将硬币抛掷1000次,并说头100次抛硬币落在正面,那么抛尾的机会就增加了(逻辑是,如果硬币没有偏斜,那么当您将其翻转1000次时,您将大约拥有500个头和500个尾巴,因此必须更有可能出现尾巴)。 我知道这是一个谬论,因为过去的结果不会影响未来的结果。那个谬论有名字吗?另外,对于为什么这是谬误,有更好的解释吗?

1
截断分布的最大似然估计
考虑从随机变量获得的独立样本,假定该随机变量遵循已知(有限)最小值和最大值和的截断分布(例如,截断的正态分布),但是参数和未知。如果遵循非截短的分布中,最大似然估计和为和从将样本均值NNNSSSXXXaaabbbμμ\muσ2σ2\sigma^2XXXμˆμ^\widehat\muσˆ2σ^2\widehat\sigma^2μμ\muσ2σ2\sigma^2SSSμˆ=1N∑iSiμ^=1N∑iSi\widehat\mu = \frac{1}{N} \sum_i S_i和样本方差。但是,对于截断的分布,以这种方式定义的样本方差以为界,因此它并不总是一致的估计量:对于,它不可能收敛到当达到无穷大时,。因此,对于,和似乎不是和的最大似然估计。当然,这是可以预期的,因为和σˆ2=1N∑i(Si−μˆ)2σ^2=1N∑i(Si−μ^)2\widehat\sigma^2 = \frac{1}{N} \sum_i (S_i - \widehat\mu)^2(b−a)2(b−a)2(b-a)^2σ2>(b−a)2σ2>(b−a)2\sigma^2 > (b-a)^2σ2σ2\sigma^2NNNμˆμ^\widehat\muσˆ2σ^2\widehat\sigma^2μμ\muσ2σ2\sigma^2μμ\muσ2σ2\sigma^2 截断正态分布的参数不是其均值和方差。 那么,已知最小值和最大值的截断分布的和参数的最大似然估计是多少?μμ\muσσ\sigma

3
高斯比分布:包含
我正在使用两个独立的正态分布和,均值和以及方差和。XXXÿÿYμXμX\mu_xμÿμÿ\mu_yσ2XσX2\sigma^2_xσ2ÿσÿ2\sigma^2_y 我对它们的比率的分布感兴趣。和的均值都不为零,因此不作为柯西分布。ž= X/ Yž=X/ÿZ=X/YXXXÿÿYžžZ 我需要找到的CDF ,然后对,,和取CDF的导数。žžZμXμX\mu_xμÿμÿ\mu_yσ2XσX2\sigma^2_xσ2ÿσÿ2\sigma^2_y 有人知道已经在哪里计算过的论文吗?还是我自己怎么做? 我在1969年的一篇论文中找到了CDF的公式,但是采用这些导数无疑将是一个巨大的痛苦。也许有人已经做到了,或者知道如何轻松做到这一点?我主要需要了解这些衍生物的迹象。 如果主要为正,则本文还包含解析上更简单的近似值。我不能有那个限制。但是,即使在参数范围之外,近似值也可能具有与真实导数相同的符号?ÿÿY

4
两个协方差矩阵之间的相似性或距离的度量
两个对称协方差矩阵(都具有相同的维数)之间是否有相似度或距离的度量? 我在这里考虑的是两个概率分布的KL散度的类比或矢量之间的欧几里得距离,除了适用于矩阵。我想会有很多相似性度量。 理想情况下,我还要检验两个协方差矩阵相同的零假设。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.