Questions tagged «dispersion»

6
如何检测极化的用户意见(高和低星级)
如果我有一个星级评分系统,用户可以在其中表达对某产品或某项商品的偏爱,那么我该如何统计选票是否被“高分”。意思是,即使对于给定的产品,平均值是5分之3,我如何仅使用数据(没有图形方法)如何检测到1-5拆分与共识3

4
为什么色散测度比中心测度更直观?
在人类的理解中似乎有些东西在直觉上理解差异的概念方面造成了困难。从狭义上讲,答案是立竿见影的:平方使我们脱离了反思的理解。但是,仅仅是方差带来了问题,还是整个数据扩散的想法?我们寻求避难范围,或仅说明最小值和最大值,但我们只是避免真正的困难吗?在平均值(众数或中位数)中,我们找到了中心,摘要...是一种简化;差异分散了周围的东西并使他们不舒服。原始人肯定会通过三角剖分来祈祷,从而在狩猎动物中利用中庸之道,但是我认为,很晚以后我们才感到需要量化事物的传播。实际上,方差一词最早是在1918年由罗纳德·费舍尔(Ronald Fisher)在论文“孟德尔继承假设中的亲戚之间的相关性”中引入的。 多数关注此消息的人都会听过拉里·萨默斯(Larry Summers)关于按性别划分的数学才能的不幸演讲,这可能与他离开哈佛有关。简而言之,他建议男性与女性的数学能力分布差异更大,即使男性和女性的平均能力相同。无论适当性或政治含义如何,这似乎在科学文献中得到了证实。 更重要的是,也许对气候变化等问题的理解(请原谅我提出可能导致完全不提倡讨论的话题)可以通过提高人们对方差观念的了解而得到帮助。 如本文所示,当我们尝试掌握协方差时,这个问题变得更加复杂,这是@whuber 在此处给出的出色而丰富多彩的答案。 它可能是很有诱惑力驳回这个问题太一般,但很显然,我们正在间接地讨论这个问题,因为在这个岗位,其中数学是微不足道的,但这个概念被继续难以捉摸,belying更舒适的接受范围为反对更细微的思想差异。 在费舍尔给EBFord的一封信中,谈到了他对孟德尔实验的怀疑,我们读到:“现在,当数据被伪造时,我很清楚人们普遍低估了广泛的机会偏差的频率,因此趋势总是使他们与期望太吻合……(在孟德尔的数据中)偏差很小。” 伟大的RA费舍尔非常热衷于怀疑小样本中的微小差异,他写道:“除其他方面外,孟德尔还是被一位非常了解所期望的助手欺骗的可能性。” 如今,这种对低估或误解传播的偏见很可能继续存在。如果是这样,是否有任何解释说明为什么我们对中心概念比对分散更满意?我们可以做些什么来使这个想法内化吗? Ë我π+ 1 = 0eiπ+1=0\small e^{i\pi}+1=0Ë= 米Ç2E=mc2\small E=mc^2 纳西姆·塔莱布(Nassim Taleb)将他对方差的理解有误(实际上是贝诺伊特·曼德布罗特的理解)运用于危机发生时发了大财,并试图通过以下句子使大众理解这一概念:“方差是认识论的,这是关于缺乏对中庸之道的了解的一种衡量方法。”-是的,这口子还有更多的背景...值得称赞的是,他还通过“ 感恩节土耳其”的想法简化了这一过程。有人可能会说,投资的关键是了解方差(和协方差)。 那么,为什么这么滑,以及如何补救呢?没有公式……仅仅是多年处理不确定性的直觉……我不知道答案,但这不是数学上的(有必要):例如,我想知道峰度的想法是否会干扰方差。在下图中,我们有两个直方图重叠,几乎没有变化。但是,我的膝盖跳动反应是,尾巴最长,峰顶最高(峰度更高)的那一点更“散开”:

5
如何测量词频数据中的离散度?
如何量化字数向量中的离散量?我正在寻找一种统计数据,该统计数据对于文档A而言会很高,因为它包含许多不经常出现的单词,而对于文档B而言却很低,因为它包含一个经常出现的单词(或几个单词)。 更一般而言,如何测量名义数据中的离散或“扩散”? 文本分析社区中是否有标准的方法?

2
为什么负二项式回归的Pearson残差比Poisson回归的残差小?
我有这些数据: set.seed(1) predictor <- rnorm(20) set.seed(1) counts <- c(sample(1:1000, 20)) df <- data.frame(counts, predictor) 我进行了泊松回归 poisson_counts <- glm(counts ~ predictor, data = df, family = "poisson") 负二项式回归: require(MASS) nb_counts <- glm.nb(counts ~ predictor, data = df) 然后我为泊松回归计算色散统计量: sum(residuals(poisson_counts, type="pearson")^2)/df.residual(poisson_counts) # [1] 145.4905 负二项式回归: sum(residuals(nb_counts, type="pearson")^2)/df.residual(nb_counts) # [1] 0.7650289 在不使用方程式的情况下,谁能解释为什么负二项式回归的色散统计量远小于泊松回归的色散统计量?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.