Questions tagged «mode»

模式是数据中最常出现的值,可以用作分类数据集中趋势的度量。



4
期望值与最可能值(模式)
分布的期望值是平均值,即加权平均值 f(x)f(x)f(x)E[x]=∫+∞−∞xf(x)dxE[x]=∫−∞+∞xf(x)dxE[x]=\int_{-\infty}^{+\infty} x \, \, f(x) dx 最可能的值是众数,即最可能的值。 但是,我们期望以某种方式看到很多次吗?从这里报价:E[x]E[x]E[x] 如果结果的概率不相等,则必须用加权平均值代替简单的平均值,这要考虑到某些结果比其他结果更有可能的事实。然而,直觉保持不变:x的期望值是人们期望平均发生的值。xixix_ixxx 我不明白“平均发生”是什么意思,这是否意味着,从长远来看,我希望花很多时间才能看到E[x]E[x]E[x]比x的其他值更多xxx?但这不是模式的定义吗? 那么如何解释该陈述?E [x]的概率含义是E[x]E[x]E[x]什么? 我还想举个例子,让我感到困惑。通过研究分布,我了解到模式 为,而,其中是数据的自由度。χ2χ2\chi^2χ2mode=ν−2χmode2=ν−2\chi^2_{mode}=\nu-2E[χ2]=νE[χ2]=νE[\chi^2]=\nuνν\nu 我在大学听说,在使用最小二乘法拟合一组数据后进行测试时,我应该期望得到因为“这通常会发生”。χ 2听,说:νχ2χ2\chi^2χ2≈νχ2≈ν\chi^2 \approx \nu 我是否误解了所有这些,或者期望值是否很有可能?(即使最可能的值当然是模式)


3
多元模式的计算有效估计
简短版:估算从连续分布中采样的多维数据集模式的最有效的计算方法是什么? 长版:我有一个数据集,需要估计其模式。该模式与均值或中位数不一致。下面显示了一个示例,这是一个2D示例,但ND解决方案会更好: 目前,我的方法是 在等于模式所需分辨率的网格上计算内核密度估计 寻找最大的计算点 显然,这会在很多不合理的点上计算KDE,如果有很多高维度的数据点或者我希望模式具有良好的分辨率,则这尤其糟糕。 一种替代方法是使用模拟退火,遗传算法等在KDE中找到全局峰。 问题是是否有一种更聪明的方法来执行此计算?

4
为什么所有已知分布都是单峰的?
我不知道任何多峰分布。 为什么所有已知分布都是单峰的?是否有不止一种模式的“著名”发行版? 当然,分布的混合通常是多峰的,但是我想知道是否存在任何不止一种具有多个模式的分布。

2
MCMC样本的模式可靠性
John Kruschke在他的《做贝叶斯数据分析》一书中指出,使用R中的JAGS ...根据MCMC样本进行的模式估算可能相当不稳定,因为该估算基于平滑算法,该算法对MCMC样本中的随机隆起和波动敏感。(进行贝叶斯数据分析,第205页,第8.2.5.1节) 虽然我对Metropolis算法和Gibbs采样之类的精确形式有所了解,但我也不熟悉所提到的平滑算法,以及为什么这意味着从MCMC样本中估计模式是不稳定的。是否有人能够直观地了解平滑算法的作用以及为什么会使模式的估计不稳定?
12 bayesian  mcmc  mode 

3
计算从连续分布中采样的数据模式
拟合连续分布采样数据的“模式”的最佳方法是什么? 由于该模式在技术上是不确定的(对吗?),以便进行连续分配,所以我真的在问“您如何找到最普遍的价值”? 如果您假设父分布是高斯分布,则可以对数据进行分箱,然后发现模式是计数最大的分箱位置。但是,如何确定垃圾箱大小?有健壮的实施方案可用吗?(即对异常值具有鲁棒性)。我使用python/ scipy/ numpy,但我可以轻松进行翻译R。

1
Fisher精确检验和超几何分布
我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示: > soda_gender f m n 0 5 y 5 0 显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。 在R中运行fisher精确测试时,得到以下结果: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。 我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令: > …

3
中位数在[Mode-Mean]之外的反例
此文章是我上面的联赛,但它谈论,我很感兴趣,之间的平均,模式和中位数的关系的话题。它说 : 普遍认为,单峰分布的中值“通常”在均值和众数之间。但是,并非总是如此... 我的问题:有人可以提供中位数在[众数,均值]区间之外的连续单峰(理想情况下简单)分布的示例吗?例如的分布mode < mean < median。 ===编辑======= Glen_b和Francis已经有了很好的答案,但是我意识到我真正感兴趣的是一个示例,其中众数<均值<中位数或中位数<均值<模式(这两个中位数都在[众数,均值]之外,而中位数是与模式均值“在同一侧”(即高于或低于模式)。我可以接受这里的答案是一个新问题,或者有人可以在这里直接提出解决方案?
11 mean  median  mode 

1
计算模式的置信区间?
我正在寻找有关计算模式的置信区间的参考(一般而言)。Bootstrap似乎是自然的首选,但正如Romano(1988)所讨论的那样,标准的bootstrap对于mode来说是失败的,并且它没有提供任何简单的解决方案。自本文以来,有什么变化吗?计算模式置信区间的最佳方法是什么?最好的基于引导的方法是什么?您可以提供任何相关参考吗? Romano,JP(1988)。引导模式。统计数学研究所的年鉴,40(3),565-586。

5
用Layman的术语解释均值,中位数,众数
您将如何解释数字列表的均值,中位数和众数的概念,以及为什么它们对仅具有基本算术技能的人很重要?更不用说偏度,CLT,集中趋势,其统计属性等了。 我已经向某人解释说,这只是“汇总”数字列表的一种快速而肮脏的方法。但是回头看,这很难说明。 有什么想法或现实世界的例子吗?

4
给定10D MCMC链,如何确定R中的后验模式?
问题:假设有10维MCMC链,我准备将抽奖矩阵交给您:10个参数(列)的100,000次迭代(行),我如何才能最好地识别后验模式?我特别关注多种模式。 背景:我认为自己是一位精通计算的统计学家,但是当一位同事问我这个问题时,我为自己无法给出一个合理的答案而感到ham愧。主要关注的是可能会出现多种模式,但前提是必须考虑十个维度中的至少八个左右。我的第一个想法是使用核密度估计,但是对R的搜索没有发现对大于3维问题的希望。同事已经提出了十个维度的临时分箱策略并寻求最大值,但我担心的是带宽可能会导致严重的稀疏性问题或缺乏分辨多种模式的分辨率。就是说,我很乐意接受有关自动带宽建议的建议,与10个内核密度估算器的链接或您所知道的其他任何信息。 顾虑: 我们认为该分布可能会偏斜;因此,我们希望确定后验模式,而不是后验方法。 我们担心可能存在几种后验模式。 如果可能的话,我们希望使用基于R的建议。但是,只要不难以实现,任何算法都可以。我想我不希望通过从头开始自动带宽选择来实现Nd内核密度估计器。

4
如何在2 X 3桌子上进行多个事后卡方检验?
我的数据集包括近海,中海道和近海三种地点类型的生物的总死亡率或生存率。下表中的数字表示站点数。 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 我想知道根据地点​​类型,发生100%死亡率的地点数量是否显着。如果我运行2 x 3卡方,则会得到显着的结果。我是否可以进行事后成对比较,或者实际上应该使用对数方差分析或二项分布的回归?谢谢!
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.