Questions tagged «descriptive-statistics»

描述性统计总结了样本的特征,例如均值和标准差,中位数和四分位数,最大值和最小值。具有多个变量,可能包括相关性和交叉表。可以包括视觉显示-箱线图,直方图,散点图等。


1
如果检验统计量的分布是双峰的,那么p值意味着什么?
假设零假设为真,则将P值定义为至少获得与所观察到的极端一样的检验统计量的概率。换一种说法, P(X≥t|H0)P(X≥t|H0)P( X \ge t | H_0 ) 但是,如果检验统计量在分布上是双峰的,该怎么办?在这种情况下,p值意味着什么吗?例如,我将在R中模拟一些双峰数据: set.seed(0) # Generate bi-modal distribution bimodal <- c(rnorm(n=100,mean=25,sd=3),rnorm(n=100,mean=100,sd=5)) hist(bimodal, breaks=100) 并假设我们观察到的测试统计值为60。在这里,从图片中我们知道该值是不太可能的。因此,理想情况下,我希望使用一个统计过程(例如p值)来揭示这一点。但是,如果我们按照定义的p值进行计算,则会得到相当高的p值 observed <- 60 # Get P-value sum(bimodal[bimodal >= 60])/sum(bimodal) [1] 0.7991993 如果我不知道分布,我将得出结论,我观察到的仅仅是偶然的机会。但是我们知道这是不对的。 我想我要问的问题是:为什么在计算p值时,为什么要计算“至少与所观察值一样极端”的值的概率?如果遇到上面模拟的情况,替代解决方案是什么?

2
大众比萨统计
《纽约时报》网站上的简短条目提供了美国比萨消费的事实和数据。我对如何使用统计数据(或滥用统计数据)向普通受众提供信息有偶然的兴趣,并且根据提供的统计数据出现了两个问题: 如果今天八分之一的美国人会吃披萨,这是否意味着美国人平均每八天吃一次披萨?这里有一个假设,就是每个美国人都吃披萨,事实并非如此。但是,这就提出了一个问题,即如何对多少美国人吃披萨做出正确的假设。 据报道,一个孩子的热量摄入中有25%是比萨。我将一个孩子定义为9岁的孩子,他的身体比较活跃,因此需要每天摄入2000卡路里的热量。如果我们相信Google估计的披萨片中的卡路里数量为285,那么这是否意味着一个孩子平均每周食用12片披萨?(2000 * 7 * 0.25 / 285) 我怀疑我对统计数据的解释是错误的;在我看来,今天有八分之一的美国人正在吃披萨,而现在每天也吃大约1.7片以达到25%的卡路里摄入量,这似乎并不是一个孩子的一部分。

6
健壮的(非参数)度量,例如变异系数— IQR /中位数,还是替代方法?
对于给定的一组数据,通常将扩散作为标准偏差或IQR(四分位数间距)进行计算。 尽管a standard deviation是归一化的(z得分等),因此可以用来比较两个不同总体的传播,但IQR情况并非如此,因为来自两个不同总体的样本可能具有两个完全不同的尺度值, e.g. Pop A: 100, 67, 89, 75, 120, ... Pop B: 19, 22, 43, 8, 12, ... 我需要的是一种可靠的(非参数)度量,可以用来比较不同总体中的差异。 选择1: IQR / Median-类似于变异系数,即。σμσμ \frac{\sigma}{\mu} 选择2: Range / IQR 问题:比较人群之间的差异,哪种方法更有意义?如果选择1是选择2是否对任何事情都有意义/有意义,还是从根本上存在缺陷的措施?

2
如何估算合并数据的第三四分位数?
是否有任何技术上的技巧来确定第三个四分位数是否属于一个开放区间,而该区间包含的人口超过四分之一(因此我无法关闭区间并使用标准公式)? 编辑 如果我误解了一些东西,我会或多或少提供完整的背景信息。我将数据安排在一个表中,该表有两列,例如6行。每列对应一个间隔(在第一列中)和“属于”该间隔的数量的人口。最后一个间隔是开放的,包括超过25%的人口。所有间隔(最后一个间隔除外)具有相同的范围。 样本数据(用于演示): Column 1: (6;8),(8;10),(10;12),(12;14),(14;16),(16;∞) Column 2: 51, 65, 68, 82, 78, 182 第一列将被解释为收入水平范围。第二个将被解释为收入属于区间的雇员数。 我正在考虑的标准公式为。Q3=xQ3+3N4−∑k−1i=1ninQ3rQ3Q3=xQ3+3N4−∑i=1k−1ninQ3rQ3\mathbb{Q}_{3}=x_{Q_{3}}+ \frac{\frac{3N}{4}- \sum_{i=1}^{k-1}n_{i}}{n_{Q_{3}}}r_{Q_{3}}

3
区别在于摘要统计:基尼系数和标准偏差
有几个摘要统计信息。当您要描述分布的分布时,可以使用例如标准差或基尼系数。 我知道标准偏差是基于中心趋势,即与均值的偏差,基尼系数是色散的一般度量。我也知道,基尼系数具有上限和下限[0 1],而标准偏差则没有。这些属性是很好知道的,但是标准偏差可以提供哪些见解,使基尼无法做到,反之亦然?如果我不得不选择使用两者之一,那么在提供信息和洞察力方面,与另一种相比使用一种优势是什么?

4
在统计中使用分贝
我正在从事一个涉及读取RFID标签并比较读者在更改天线配置(天线数量,位置等)时看到的信号强度的项目。作为项目的一部分,我需要比较设置以查看最有效的设置。 理想情况下,我将能够在两个天线位置(或多个天线位置)之间执行未配对t检验或ANOVA。但是,由于响应是以对数为分贝,所以我想知道最好的方法是什么? 最好将结果转换成线性比例,然后使用我提到的一种方法进行比较,还是应该使用分贝(按原样)以及其他统计检验来进行比较?

3
绘制结果仅具有平均值和标准偏差
我正在尝试在此表中的观察值和召回得分的标准差的可视化中绘制一个合适的图: 召回控制意思37标清8实验性意思21标清6控制实验性意思标清意思标清召回378216\begin{array} {c|c c|c c|} & \text{Control} & & \text{Experimental} & \\ & \text{Mean} & \text{SD} &\text{Mean} &\text{SD} \\ \hline \text{Recall} & 37 & 8 & 21 & 6 \\ \hline \end{array} 最好的方法是什么?条形图是一个好方法吗?在这种情况下如何说明标准偏差?

2
Python中的QQ图
我使用以下代码生成了一个qq图。我知道qq图用于检查数据是否正常分布。我的问题是x和y轴标签在qq图中指示什么,r平方值指示什么? N = 1200 p = 0.53 q = 1000 obs = np.random.binomial(N, p, size = q)/N import scipy.stats as stats z = (obs-np.mean(obs))/np.std(obs) stats.probplot(z, dist="norm", plot=plt) plt.title("Normal Q-Q plot") plt.show() 我知道已经有关于qq图的讨论,但是尽管进行了讨论,但我无法理解的概念。


1
为治疗组寻找可比的对照组?
我有一个30人的治疗小组(加利福尼亚州30所学校),使用的是数学补​​充软件。通过简单的分析,我想比较我们的治疗组和可比较的对照组之间学生的平均数学增长。加州有许多学校没有使用该软件。我希望对照组包括表现相似的学校(他们的基线分数与治疗学校相近,但误差范围合理)。另外,我希望对照组的样本量是我的治疗量的3倍(这里是90所学校)。在CA的1000余所学校中,有90所学校可供选择。您将如何选择对照组?

5
用Layman的术语解释均值,中位数,众数
您将如何解释数字列表的均值,中位数和众数的概念,以及为什么它们对仅具有基本算术技能的人很重要?更不用说偏度,CLT,集中趋势,其统计属性等了。 我已经向某人解释说,这只是“汇总”数字列表的一种快速而肮脏的方法。但是回头看,这很难说明。 有什么想法或现实世界的例子吗?

3
R中的glm-哪个pvalue表示整个模型的拟合优度?
我正在R(通用线性模型)中运行glms。我以为我知道pvalues-直到我看到调用glm的摘要不会为您提供代表整个模型的压倒性pvalue-至少不是在线性模型可以做到的地方。 我想知道这是否作为系数表顶部的Intercept的p值给出。因此,在下面的示例中,尽管Wind.speed..knots和canopy_density对模型可能很重要,但是我们如何知道模型本身是否很重要?我如何知道是否信任这些价值观?我是否想知道(Intercept)的Pr(> | z |)代表模型的重要性?这个模特重要吗?谢谢! 我应该注意,运行F检验不会给出pvalue,因为我收到一条错误消息,指出在二项式族上运行F检验是不合适的。 Call: glm(formula = Empetrum_bin ~ Wind.speed..knots. + canopy_density, family = binomial, data = CAIRNGORM) Deviance Residuals: Min 1Q Median 3Q Max -1.2327 -0.7167 -0.4302 -0.1855 2.3194 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.8226 1.2030 1.515 0.1298 Wind.speed..knots. -0.5791 0.2628 -2.203 0.0276 * …

2
为什么在使用具有正负值的数据时变异系数无效?
我似乎找不到确切的答案。 我的数据由几张图组成,测量平均值在0.27到0.57之间。在我的情况下,所有数据值都是正值,但是测量本身是基于反射率值的比率,范围可以是-1到+1。这些图代表NDVI的值,NDVI是植被“生产力”的远程指标。 我的目的是比较每个图的值的变异性,但是由于每个图的均值不同,因此我选择使用CV来衡量每个图的NDVI值的相对离散度。 据我了解,采用这些图的CV并不是合规的,因为每个图可以同时具有正值和负值。为什么在这种情况下不宜使用简历?有哪些可行的替代方案(例如,相对分散,数据转换等的类似测试)?

3
如何证明
我一直在尝试建立不平等 |Ti|=∣∣Xi−X¯∣∣S≤n−1n−−√|Ti|=|Xi−X¯|S≤n−1n\left| T_i \right|=\frac{\left|X_i -\bar{X} \right|}{S} \leq\frac{n-1}{\sqrt{n}} 其中X¯X¯\bar{X}是样品平均值和SSS样本标准差,即 S=∑ni=1(Xi−X¯)2n−1−−−−−−−−−√S=∑i=1n(Xi−X¯)2n−1S=\sqrt{\frac{\sum_{i=1}^n \left( X_i -\bar{X} \right)^2}{n-1}}。 很容易看到∑ni=1T2i=n−1∑i=1nTi2=n−1\sum_{i=1}^n T_i^2 = n-1 ,因此|Ti|&lt;n−1−−−−−√|Ti|&lt;n−1\left| T_i \right| < \sqrt{n-1}但这与我一直在寻找的目标不是很接近,也不是一个有用的界限。我已经试验了柯西-舒瓦兹(Cauchy-Schwarz)和三角形不等式,但没有成功。我必须在某个地方缺少一个微妙的步骤。谢谢您的帮助。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.