Questions tagged «descriptive-statistics»

描述性统计总结了样本的特征,例如均值和标准差,中位数和四分位数,最大值和最小值。具有多个变量,可能包括相关性和交叉表。可以包括视觉显示-箱线图,直方图,散点图等。


3
当算术平均值非常接近几何平均值时,可以对数据得出什么结论?
几何平均值和算术平均值相差很远,例如〜0.1%,有什么重要意义吗?对于这样的数据集可以做出什么推测? 我一直在分析数据集,但我发现具有讽刺意味的是,这些值非常非常接近。不精确,但接近。此外,对算术平均数几何平均数不等式的快速理智检查以及对数据采集的回顾显示,就我如何得出这些值而言,我的数据集的完整性没有任何困扰。


6
平均值悖论-这叫什么?
我有一个数据集。说出观察值和变量:101010333 obs A B C 1 0 0 1 2 0 1 0 3 1 0 1 4 1 1 0 5 1 0 1 6 1 0 0 7 1 1 0 8 0 0 1 9 0 1 1 10 0 1 1 假设有客户在每个类别中购买了()或没有()。那里有个,因此这客户平均购买产品类别。10101010A, B, C1616161010101.61.61.6 请注意,客户可以购买A,B和C中的多个。 如果仅查看购买者A,则有客户购买了产品类别,因此平均为。5559991.81.81.8 …

4
报告描述性统计数据有什么意义?
我刚刚使用Logistic回归对数据进行了分析,但是还需要在报告中包含描述性的统计部分。老实说,我没有明白这一点,我希望有人能够解释为什么这样做是必要的。 例如,如果我绘制了一个独立连续变量的直方图,并且显示了正态性或显示了偏度,这将如何为报表添加任何值? 我的数据包含一份工作的正确或错误因变量,独立变量是期中成绩,期末考试成绩以及男女。

1
具有相同方框和晶须图的类似Anscombe的数据集(平均值/标准差/中位数/ MAD /最小值/最大值)
编辑:由于这个问题被夸大,所以进行了总结:找到具有相同混合统计量(均值,中位数,中位数及其相关离散和回归)的不同有意义和可解释的数据集。 Anscombe四重奏(请参见显示高维数据的目的?)是四个 -数据集的著名示例,具有相同的边际均值/标准偏差(分别在四个和)和相同的OLS线性拟合,平方的回归和残差和以及相关系数。该型统计(边际和关节)等均相同,而数据集有很大的不同。y x yXxxÿyyXxxÿyyℓ 2[R2R2R^2ℓ2ℓ2\ell_2 编辑(来自OP注释)让小数据集分开,让我提出一些解释。集1可以看作是分布噪声的标准线性(仿射,正确的)关系。第2组显示出干净的关系,这可能是更高程度拟合的顶点。集合3显示一个明显的线性统计依赖性,且具有一个异常值。集合4比较棘手:从预测的尝试似乎注定会失败。的设计可能会显示一个滞后现象,其值范围不足,存在量化效应(可能量化得太重),或者用户已切换了因变量和自变量。X X XÿyyXxxXxxXxx 因此摘要功能隐藏了非常不同的行为。集合2可以用多项式拟合更好地处理。设置3具有异常值抵抗方法(或类似方法)以及设置4。您可能想知道其他成本函数或差异指标是否可以解决,或至少改善数据集判别力。编辑(来自OP的评论):博客文章Curious Regressions指出:ℓ 1ℓ2ℓ2\ell_2ℓ1个ℓ1\ell_1 顺便说一句,有人告诉我弗兰克·安斯科姆(Frank Anscombe)从未透露过他是如何提出这些数据集的。如果您认为获得所有摘要统计信息和回归结果相同是一件容易的事,请尝试一下! 在出于类似于Anscombe四重奏的目的而构造的数据集中,给出了一些有趣的数据集,例如具有相同的基于分位数的直方图。我没有看到有意义的关系和混杂的统计数据的混合。 我的问题是:是否有双变量(或三变量,以保持可视化)类似Anscombe的数据集,使得除了具有相同的 -type统计信息之外ℓ2ℓ2\ell_2: 他们的曲线可以解释为和 之间的关系,就好像人们在寻找测量之间的定律一样,ÿXxxÿyy 它们具有相同的(更可靠)边际属性(相同的中位数和绝对偏差的中位数),ℓ1个ℓ1\ell_1 它们具有相同的边界框:相同的最小值,最大值(因此具有类型的中档和中跨统计信息)。ℓ∞ℓ∞\ell_\infty 这样的数据集在每个变量上具有相同的“盒须”图摘要(带有最小值,最大值,中位数,中位数绝对偏差/ MAD,均值和标准差),并且在解释上仍然有很大不同。 如果数据集的某些最小绝对回归是相同的,那将会更加有趣(但是也许我已经问了太多)。在讨论稳健与不稳健回归时,它们可以作为警告,并有助于记住Richard Hamming的报价: 计算的目的是洞察力,而不是数字 编辑(来自OP的评论)在使用相同统计数据生成数据但不相似的图形,Sangit Chatterjee和Aykut Firata,《美国统计学家》(2007)或《克隆数据:生成具有完全相同的多元线性回归拟合的数据集》(J.澳洲 N.-Z. 统计 J.2009年。 在Chatterjee(2007)中,目的是生成与初始数据集具有相同均值和标准差的新颖对,同时最大化不同的“差异/差异”目标函数。由于这些函数可以是非凸的或不可微的,因此它们使用遗传算法(GA)。重要步骤包括正交归一化,这与保留均值和(单位)方差非常一致。纸张图形(纸张内容的一半)叠加了输入数据和GA输出数据。我的观点是,GA的输出失去了很多原始的直观解释。(x ,y)(x,y)(x,y) 和技术,无论是中位数还是中档被保留,并且纸张没有提到重整化程序将保存,ℓ 1和ℓ ∞统计。ℓ2ℓ2\ell_2ℓ1个ℓ1\ell_1ℓ∞ℓ∞\ell_\infty

6
描述性统计和推理性统计有什么区别?
我的理解是,描述性统计定量地描述了数据样本的特征,而推论统计则推断出抽取样本的总体。 但是,用于统计推断的维基百科页面显示: 在大多数情况下,统计推断使用有关人群的命题,这些数据是通过某种形式的随机抽样从感兴趣人群中得出的。 “大部分”让我觉得我可能没有正确理解这些概念。是否有一些推论统计的例子没有对总体提出建议?


2
对数转换后计算标准误差
考虑一个正态分布的随机数字集: x <- rnorm(n=1000, mean=10) 我们想知道平均值和平均值的标准误差,因此我们执行以下操作: se <- function(x) { sd(x)/sqrt(length(x)) } mean(x) # something near 10.0 units se(x) # something near 0.03 units 大! 但是,假设我们不一定知道我们的原始分布服从正态分布。我们对数据进行对数转换,并执行相同的标准误差计算。 z <- log(x, base=10) mean(z) # something near 1 log units se(z) # something near 0.001 log units 太酷了,但是现在我们需要进行逆变换才能以非日志单位显示我们的答案。 10^mean(z) # something near 10.0 …


4
相关性的非传递性:性别与大脑大小之间以及大脑大小与智商之间的相关性,但性别与智商之间没有相关性
我在博客上找到了以下解释,我想获得有关相关性的非传递性的更多信息: 我们有以下不争的事实: 平均而言,男性和女性的大脑容量存在差异 智商与大脑大小之间存在相关性。相关系数为0.33,因此相当于智商变异性的10% 从这些前提1和2看来,逻辑上是这样的:女性平均智商比男性低。但这是谬论!在统计中,相关性不是传递的。证明是,您只需要查看智商测试的结果,即可证明男人和女人的智商平均没有差异。 我想更深入地了解这种相关性。 如果智商与大脑大小之间的相关性是0.9(我知道不是(1)),那么推断女性平均智商比男性低会仍然是谬论吗? 拜托,我不是在这里谈论智商(以及测试的局限性),性别歧视,女性刻板印象,自大等(2)。我只想了解谬论背后的逻辑推理。 (1)据我所知并非如此:尼安德特人的大脑比智人的大脑更大,但并不聪明。 (2)我是一个女人,总的来说,我不认为自己,或者其他女人不如男人聪明,我不在乎智商测试,因为什么才是人们的价值所在,而不是基于人的价值。智力能力。 法语原文: 毫无疑问,顽固的杀手iv: 女人与女人之间的差异 气质与体积的关系 相关系数估计为0.33,对应的变量为10% 《预案》第1期和第2期,以“découlerdécouler”的形式进行质问:“ les femmes ont en moyenne un QIinférieuraux hommes”。 Mais c'est une erreur de raisonnement!从统计上看,所有关联都没有和解。拉普里夫(La Preuve),最令人心动的媒体,无意为QI进行测试的人,以及ceux-ci montrent QUE homs et des femmes nediffèrentpas en moyenne。

5
什么是分类或定性变量汇总统计?
为了澄清,当我指的是摘要统计量时,我指的是均值,四分位数中位数范围,方差,标准差。 在归纳分类或定性的单变量时,考虑标称和序数情况,找到其均值,中位数,四分位数范围,方差和标准偏差是否有意义? 如果是这样,则与汇总连续变量不同吗?如何?



7
“正态分布”是否需要均值=中位数=众数?
我一直在与我的研究生统计教授就“正态分布”进行辩论。我认为,要真正获得正态分布,必须具有均值=中位数=模式,所有数据必须包含在钟形曲线下,并且均值周围完全对称。因此,从技术上讲,实际研究中实际上没有正态分布,我们应该称其为其他值,也许是“接近正态”。 她说我太挑剔了,如果偏斜度/峰度小于1.0,则它是正态分布,会降低考试分数。该数据集是在52个疗养院的随机抽样中,每年跌倒的总数,这是较大人群的随机抽样。有见识吗? 问题: 问题:3.计算该数据的偏度和峰度的量度。包括具有正态曲线的直方图。讨论您的发现。数据是否正态分布? Statistics Number of falls N Valid 52 Missing 0 Mean 11.23 Median 11.50 Mode 4a 一种。存在多种模式。显示最小值 Number of falls N Valid 52 Missing 0 Skewness .114 Std. Error of Skewness .330 Kurtosis -.961 Std. Error of Kurtosis .650 我的答案: 数据是platykurtic的,并且只有轻微的正偏斜,并且它不是正态分布,因为均值,中位数和众数不相等,并且数据在均值附近分布不均匀。实际上,尽管我们可以讨论“近似正态分布”,例如身高,体重,体温或成年无名指长度,但实际上没有数据是完美的正态分布。 教授的回答: 您是正确的,没有完美的正态分布。但是,我们并不是在寻求完美。除了直方图和集中趋势的度量外,我们还需要查看数据。关于分布的偏度和峰度统计信息告诉您什么?因为它们都在-1和+1的临界值之间,所以该数据被认为是正态分布的。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.