Questions tagged «histogram»

直方图是连续变量频率的图形表示。将该变量划分为bin,并为每个bin绘制一个条形,与数据中其频率成比例。

4
箱形图提供的直方图没有提供哪些信息?
直方图可以很好地理解变量的分布。箱形图试图做同样的事情,但是,并不能很好地说明这个变量的分布情况。 我不明白为什么人们使用箱形图。直方图在各个方面都更好。我有理由同时使用它们吗? 我认为箱形图提供的唯一内容是:离群值!它告诉我们哪些观测值可能是异常值。


3
需要帮助通过直方图确定分布
我具有某个信号的已记录振幅最大值的样本总数。人口约为1500万样本。我生成了人口的直方图,但无法用这种直方图猜测分布。 EDIT1:带有原始样本值的文件在这里:原始数据 任何人都可以使用以下直方图来帮助估计分布:

2
可视化是否足以转换数据?
问题 我想绘制由30个参数中的每个参数解释的方差,例如绘制为每个参数的条形不同的条形图,以及y轴上的方差: 但是,方差强烈偏向较小的值,包括0,如以下直方图中所示: 如果我通过,则比较容易看出较小值之间的差异(下面的直方图和柱状图):log(x+1)log⁡(x+1)\log(x+1) 题 在对数刻度上绘制是很常见的,但是绘制同样合理吗?log(x+1)log⁡(x+1)\log(x+1)

3
如何规范未知分布的数据
我试图找到某种类型的重复测量数据的最合适的特征分布。 本质上,在我所在的地质学领域,我们经常使用放射线测定样品中的矿物(岩石块)的年代,以查明事件发生多久了(岩石冷却到阈值温度以下)。通常,将对每个样本进行几次(3-10)次测量。然后,取平均值和标准偏差。这是地质,因此样品的冷却年龄可以根据情况从扩展到年。σ 10 5 10 9μμ\muσσ\sigma10510510^510910910^9 不过,我有理由相信,测量不高斯:“离群”,要么宣布随意,或者通过一些标准,比如皮尔斯的标准[罗斯2003]或狄克逊Q检验[院长和迪克森,1951年],是相当这很常见(例如30分之一),而且这些数据几乎总是比较旧,这表明这些测量值通常偏向右侧。与矿物杂质有关的原因很容易理解。 因此,如果我能找到一个更好的分布,包括肥尾和偏斜,我认为我们可以构造更有意义的位置和比例参数,而不必如此迅速地分配离群值。也就是说,如果可以证明这些类型的测量是对数正态或对数拉普拉斯等,则可以使用比和更合适的最大似然性度量,它们是非稳健的,在这种情况下可能会有偏差系统右偏的数据。σμμ\muσσ\sigma 我想知道这样做的最好方法是什么。到目前为止,我有一个大约有600个样本的数据库,每个样本有2-10个(或大约)重复测量值。我尝试通过将样本除以均值或中位数来对样本进行归一化,然后查看归一化数据的直方图。这会产生合理的结果,并且似乎表明该数据具有典型的对数拉普拉斯算式: 但是,我不确定这是否是解决问题的适当方法,或者不确定我是否意识到有一些警告可能会影响我的结果,所以它们看起来像这样。是否有人对这种事情有经验并知道最佳实践?

2
QQ图与直方图不匹配
我有一个直方图,内核密度和拟合的正态分布的财务日志收益,它们已转换为损失(符号已更改),以及这些数据的正态QQ图: QQ图清楚地表明尾巴未正确安装。但是,如果我看一下直方图和拟合的正态分布(蓝色),即使0.0左右的值也不能正确拟合。因此,QQ图显示仅尾部未正确拟合,但显然整个分布未正确拟合。为什么这不会显示在QQ图中?

2
如何估算合并数据的第三四分位数?
是否有任何技术上的技巧来确定第三个四分位数是否属于一个开放区间,而该区间包含的人口超过四分之一(因此我无法关闭区间并使用标准公式)? 编辑 如果我误解了一些东西,我会或多或少提供完整的背景信息。我将数据安排在一个表中,该表有两列,例如6行。每列对应一个间隔(在第一列中)和“属于”该间隔的数量的人口。最后一个间隔是开放的,包括超过25%的人口。所有间隔(最后一个间隔除外)具有相同的范围。 样本数据(用于演示): Column 1: (6;8),(8;10),(10;12),(12;14),(14;16),(16;∞) Column 2: 51, 65, 68, 82, 78, 182 第一列将被解释为收入水平范围。第二个将被解释为收入属于区间的雇员数。 我正在考虑的标准公式为。Q3=xQ3+3N4−∑k−1i=1ninQ3rQ3Q3=xQ3+3N4−∑i=1k−1ninQ3rQ3\mathbb{Q}_{3}=x_{Q_{3}}+ \frac{\frac{3N}{4}- \sum_{i=1}^{k-1}n_{i}}{n_{Q_{3}}}r_{Q_{3}}

2
如果我的直方图显示出钟形曲线,我可以说我的数据呈正态分布吗?
我为“受访者年龄”创建了一个直方图,并设法获得了一个非常漂亮的钟形曲线,由此得出的结论是正态分布。 然后,我在n = 169的SPSS中运行正态性检验。Kolmogorov-Smirnov检验的p值(Sig。)小于0.05,因此数据违反了正态性假设。 为什么测试表明年龄分布不正常,但直方图显示出钟形曲线,据我所知这是正常的?我应该遵循哪个结果?

2
如何“智能化”分类数据的集合?
我正在尝试智能地对已排序的集合进行分类。我有条数据的集合。但我知道,这个数据拟合到不平等的大小分档。我不知道如何智能地选择端点以正确适合数据。例如:nnnmmm 假设我的收藏夹中有12件商品,并且我知道数据可以放入3个容器中: Index: 1 2 3 4 5 6 7 8 9 10 11 12 Value: 1 1 1 3 3 3 3 3 3 5 5 6 如何智能地为的bin选择断点?i={1−3},{4−9},{10−12}i={1−3},{4−9},{10−12}i = \{1-3\}, \{4-9\}, \{10-12\} 我目前的实现方式是将数据分成大小均匀的容器,然后取端点的平均值,以找到容器末端的索引。所以它是这样的: Index: 1 2 3 4 5 6 7 8 9 10 11 12 Value: 1 1 …

1
我对转换后的因变量进行日志记录,可以将GLM正态分布与LOG链接功能一起使用吗?
我有一个关于广义线性模型(GLM)的问题。我的因变量(DV)是连续的并且不正常。因此,我对其进行了日志转换(仍然不正常,但对其进行了改进)。 我想将DV与两个类别变量和一个连续协变量相关联。为此,我想进行GLM(我正在使用SPSS),但是我不确定如何决定要选择的分布和功能。 我已经进行了Levene的非参数检验,并且我具有方差均匀性,因此我倾向于使用正态分布。我已经读过,对于线性回归,数据不需要是正态的,残差也可以。因此,我从每个GLM分别打印了标准化的Pearson残差和线性预测变量的预测值(GLM正常标识函数和正常对数函数)。我已经进行了正态性检验(直方图和Shapiro-Wilk),并分别针对两个预测值绘制了残差与预测值(以检查随机性和方差)。来自身份函数的残差不正常,但来自对数函数的残差正常。我倾向于选择具有对数链接功能的正态,因为Pearson残差呈正态分布。 所以我的问题是: 可以对已经进行日志转换的DV使用GLM正态分布和LOG链接功能吗? 方差同质性检验是否足以证明使用正态分布是合理的? 残差检查程序是否正确以证明选择链接功能模型是正确的? 左侧是DV分布图,右侧是对数链接功能,是GLM法线的残差。

1
具有均匀和不均匀容器的直方图
这个问题描述了均匀和不均匀直方图之间的基本区别。和这个问题讨论经验法则用于拾取均匀直方图的仓的数量优化(在某些意义上)该直方图表示该数据的样品绘制的分布程度。 我似乎找不到关于均匀和非均匀直方图的同类“最优性”讨论。我有一个离群点很远的聚类非参数分布,因此直觉上不均匀的直方图更有意义。但我希望对以下两个问题进行更精确的分析: 统一bin直方图何时比不均匀bin更好? 对于不均匀的直方图,有多少个bin? 对于不均匀的直方图,我认为是最简单的情况,我们从未知分布中抽取样本,对所得的值进行排序,然后将它们分成 bin,这样每个bin都具有个样本(假设对于某个大整数,)。通过取bin i中值的与bin i + 1中值的\ min之间的中点来形成范围。这里和这里的链接描述了这些类型的非均匀直方图。ññnññnķķkķñķñ\frac{k}{n}Ñ ≡ Ç ķñ≡Cķn \equiv c kCCc最大值最大值\max一世一世i分分\min我+ 1一世+1个i+1

2
如何从数据确定韦布尔参数?
我有风速数据的直方图,通常使用韦伯分布来表示。我想计算出最适合直方图的weibull形状和比例因子。 我需要一个数值解决方案(与图形解决方案相对),因为目标是通过编程确定weibull形式。 编辑: 每10分钟收集一次样本,风速在10分钟内取平均值。样本还包括每个时间间隔内记录的最大和最小风速,目前暂时忽略,但我想稍后介绍。料斗宽度为0.5 m / s

3
直方图中的间隔数是否有上限?
我读过的书本,介绍如何选择几篇文章和摘录良好的间隔数(箱)的数据集的直方图,但我想知道如果有一个硬最高基于点的数量区间的数数据集或其他标准。 背景:我问的原因是我试图基于研究论文中的程序编写软件。该过程的第一步是从数据集中创建多个直方图,然后根据特征函数(由本文的作者定义)选择最佳分辨率。我的问题是作者没有提到要测试的间隔数的上限。(我要分析数百个数据集,每个数据集可以具有不同的“最佳”箱数。另外,选择最佳箱数也很重要,因此手动查看结果并选择一个好的箱数不会工作。) 仅仅将最大间隔数设置为数据集中的点数是一个很好的准则,还是在统计中通常使用其他标准?

4
为什么1个中位数低于另一个中位数的事实并不意味着第1组中的大多数都少于第2组中的大多数?
我认为下面的箱线图可以解释为“大多数男人比大多数女人快”(在此数据集中),主要是因为中位男性的时间低于中位女性的时间。但是有关R和统计知识测验的EdX课程告诉我,这是不正确的。请帮助我理解为什么我的直觉是不正确的。 这是问题: 让我们考虑一个2002年纽约马拉松比赛的完成者的随机样本。可以在UsingR包中找到此数据集。加载库,然后加载nym.2002数据集。 library(dplyr) data(nym.2002, package="UsingR") 使用箱线图和直方图比较男性和女性的完成时间。以下哪项最能描述差异? 男性和女性具有相同的分布。 大多数男性比大多数女性快。 男性和女性的偏斜分布与前者相似,向左偏移20分钟。 两种分布的正态分布均相差约30分钟。 以下是纽约市男女马拉松比赛时间,以分位数,直方图和方框图的形式: # Men's time quantile 0% 25% 50% 75% 100% 147.3333 226.1333 256.0167 290.6375 508.0833 # Women's time quantile 0% 25% 50% 75% 100% 175.5333 250.8208 277.7250 309.4625 566.7833

2
Doane直方图合并的公式
我正在实现各种算法,以估计用于直方图的最佳bin数量。我要实现的大多数方法在Wikipedia“直方图”页面上的“ 箱数和宽度 ” *部分中进行了描述。 我对Doane的公式感到困惑: 1 + log(n) + log(1 + kurtosis(data) * sqrt(n / 6.)) n数据大小在哪里。 问题是峰度为负,并且n >> 1因为的参数log变为负。 *(该页面自发布以来已更改,链接已编辑为指向发布时的页面)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.