Questions tagged «statistics»

考虑是否可以通过https://stats.stackexchange.com更好地询问您的问题。统计学是使用概率从有限数量的样本或观测值推断总体特征的数学研究。



18
统计信息:Python中的组合
我需要计算在Python combinatorials(NCR),但无法找到的功能做在math,numpy或stat 图书馆。类似于函数的类型: comb = calculate_combinations(n, r) 我需要可能的组合数量,而不是实际组合,因此itertools.combinations我对此并不感兴趣。 最后,我要避免使用阶乘,因为我将要计算其组合的数字可能会太大,并且阶乘将变得非常可怕。 这似乎是一个非常容易回答的问题,但是我被有关生成所有实际组合的问题淹没了,这不是我想要的。

12
C语言的滚动中值算法
我目前正在研究一种算法,以在C语言中实现滚动中值过滤器(类似于滚动均值过滤器)。从我对文献的搜索来看,似乎有两种相当有效的方法来实现。首先是对值的初始窗口进行排序,然后执行二进制搜索以插入新值,并在每次迭代时都删除现有值。 第二种方法(来自Hardle和Steiger,1995年,JRSS-C,算法296)构建了一个双端堆结构,一端为maxheap,另一端为minheap,中间为中值。这产生了线性时间算法,而不是O(n log n)。 这是我的问题:实施前者是可行的,但是我需要在数百万个时间序列上运行它,因此效率非常重要。事实证明,后者非常难以实施。我在R的stats软件包的代码的Trunmed.c文件中找到了代码,但这是相当难以理解的。 有人知道线性时间滚动中值算法的编写良好的C实现吗? 编辑:链接到Trunmed.c代码http://google.com/codesearch/p?hl=zh-CN&sa=N&cd=1&ct=rc#mYw3h_Lb_e0/R-2.2.0/src/library/stats/src/Trunmed.c
114 c  algorithm  r  statistics  median 

4
根据样本数据计算置信区间
我有一些样本数据,假设正态分布,我希望为它们计算一个置信区间。 我已经找到并安装了numpy和scipy软件包,并获得了numpy以返回均值和标准差(numpy.mean(data),其中data为列表)。任何关于获得样本置信区间的建议将不胜感激。

9
几何均值:是否有内置的?
我试图找到一个内置的几何均值,但找不到。 (显然,内置程序在外壳程序中工作不会节省我的时间,我也不怀疑准确性是否存在任何差异;对于脚本,我尝试尽可能多地使用内置程序,其中(累计)性能提升通常很明显。 万一没有(我怀疑是这样)这是我的。 gm_mean = function(a){prod(a)^(1/length(a))}

6
禁用JavaScript的浏览器统计信息[关闭]
关闭。此问题不符合堆栈溢出准则。它当前不接受答案。 想改善这个问题吗?更新问题,使其成为Stack Overflow 的主题。 3年前关闭。 改善这个问题 我很难收集关于禁用JavaScript进行浏览的Web用户所占百分比的公开统计数据。 雅虎已经从2010年公布的数据和R.里德公布的从2009年的数据(从网站上挑选他进入)。 雅虎当时的发现相当有趣: 我们结合了访问日志和信标数据(之前已包含在页面中),并过滤掉了所有自动请求,为我们提供了一组可以确认是由实际用户发送的请求。此数据完全是匿名的,使我们很好地了解了多个国家/地区的流量模式。 在对数据进行整理之后,我们发现禁用JavaScript的请求的持续速率徘徊在实际访问者流量的1%左右,其中最高的比例在美国约为2%,最低的比例在巴西约为0.25%。接受测试的所有其他国家/地区的数字非常接近1.3%。 这是到目前为止我能找到的。但是由于这些数据越来越老,我想知道今天的百分比是多少。 我还查看了Statcounter,它似乎是唯一一家仍然公开发布浏览器统计信息的公司。但是他们不发布有关JavaScript的数据。我知道W3schools也会发布统计信息,但由于目标是针对开发人员,因此此数据有很大的偏见,因此对我而言并不有趣。(必须代表普通用户)。 因此,我请您提供: 链接到任何涉及此领域的开放,免费提供的统计信息 您自己的统计信息,最好是来自大型网站的目标受众

5
如何使用“扫描”功能
当我查看R Packages的来源时,我看到了sweep经常使用的函数。有时候,当一个简单的函数就足够了(例如apply)时,就会用到它,而在其他时间,如果不花费大量的时间来遍历其中的代码块,就不可能确切知道它在做什么。 我可以sweep使用更简单的功能来重现效果,这一事实表明我不了解sweep的核心用例,而经常使用此功能的事实表明它非常有用。 上下文: sweep是R标准库中的函数;它的参数是: sweep(x, MARGIN, STATS, FUN="-", check.margin=T, ...) # x is the data # STATS refers to the summary statistics which you wish to 'sweep out' # FUN is the function used to carry out the sweep, "-" is the default 如您所见,参数与相似,apply尽管还sweep需要一个参数STATS。 另一个关键区别是,sweep返回的数组与输入数组的形状相同,而返回的结果apply取决于传入的函数。 sweep 实际上: # e.g., …
100 r  statistics 


11
如何从数据集中删除离群值
我有一些关于年龄与美丽的多元数据。年龄范围为20至40,间隔为2(20,22,24 .... 40),对于每条数据记录,年龄和美容等级均为1-5。当我对这些数据进行箱形图绘制(X轴上的年龄,Y轴上的美容等级)时,每个框的晶须外都绘制了一些离群值。 我想从数据框中删除这些离群值,但是我不确定R如何计算其箱形图的离群值。以下是我的数据可能显示的示例。
98 r  statistics  outliers 

4
单个变量的频率表
当天最后一个新手熊猫问题:如何为单个系列生成一张表? 例如: my_series = pandas.Series([1,2,2,3,3,3]) pandas.magical_frequency_function( my_series ) >> { 1 : 1, 2 : 2, 3 : 3 } 大量的搜索使我进入了Series.describe()和pandas.crosstabs,但是这些都不满足我的需要:一个变量,按类别计数。哦,如果它适用于不同的数据类型(字符串,整数等),那就太好了。

6
为什么斐波那契数列在敏捷规划扑克中使用?[关闭]
关闭。此问题不符合堆栈溢出准则。它当前不接受答案。 想改善这个问题吗?更新问题,使其成为Stack Overflow 的主题。 6年前关闭。 改善这个问题 在敏捷软件开发中估计用户故事的相对大小时,团队成员应估计用户故事的大小为1、2、3、5、8、13...。因此,估计值应类似于斐波那契数列。但是我想知道,为什么? Wikipedia上对http://en.wikipedia.org/wiki/Planning_poker的描述包含一个神秘的句子: 使用斐波那契数列的原因是为了反映估计较大项目时固有的不确定性。 但是,为什么较大的物品应该存在固有的不确定性?如果我们进行较少的测量,也就是说,如果更少的人估计相同的故事,不确定性是否会更高?即使较大故事中的不确定性较高,为什么还要暗示斐波那契数列的使用呢?是否有数学或统计原因?否则,使用斐波那契数列进行估计对我来说就像是CargoCult科学。


8
在给定均值和标准差的情况下,如何计算正态分布中的概率?
如何在Python中给定平均值std的正态分布中计算概率?我总是可以像这个问题中的OP一样根据定义明确地编写自己的函数:计算Python分布中随机变量的概率 只是想知道是否有一个库函数调用将允许您执行此操作。在我的想象中,它将是这样的: nd = NormalDistribution(mu=100, std=12) p = nd.prob(98) Perl中有一个类似的问题:如何在给定的Perl正态分布下计算点的概率?。但是我没有在Python中看到它。 Numpy有一个random.normal功能,但这就像采样,不完全是我想要的。

13
哪些Git提交统计数据很容易提取
以前,我很喜欢TortoiseSvn能够为给定的SVN存储库生成简单的提交统计信息。我想知道Git中有什么可用,并且特别感兴趣: 每个用户的提交次数 每个用户更改的行数 一段时间内的活动(例如,每周的汇总更改) 有任何想法吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.