Questions tagged «statistics»

考虑是否可以通过https://stats.stackexchange.com更好地询问您的问题。统计学是使用概率从有限数量的样本或观测值推断总体特征的数学研究。

15
宇宙射线:它们会影响程序的概率是多少?
我再一次进行设计审查,并遇到一种说法,即特定场景的可能性“小于宇宙射线的风险”对程序的影响,但我发现我并不了解那是什么。概率是。 “由于2 -128是340282366920938463463374374607431768211456中的1,因此我认为我们有理由在这里冒险,即使这些计算相差数十亿倍……我们更容易受到宇宙射线的威胁我相信,把我们搞砸了。” 这个程序员正确吗?宇宙射线撞击计算机并影响程序执行的概率是多少?


30
是否有用于查找模式的内置功能?
在R,mean()并且median()是该做你所期望的标准功能。 mode()告诉您对象的内部存储模式,而不是在其参数中出现最多的值。但是是否有一个标准库函数实现矢量(或列表)的统计模式?
391 r  statistics  r-faq 

12
从Git存储库生成统计信息
我正在寻找一些好的工具/脚本,使我能够从git存储库生成一些统计信息。我已经在某些代码托管网站上看到了此功能,其中包含诸如...的信息。 每位作者提交 每天/每周/每年/等等的提交次数。 随着时间的推移行的代码 图表 ... 多得多 基本上,我只是想了解一下我的项目随着时间的推移会增长多少,哪个开发人员会提交大多数代码,等等。
373 git  graph  statistics 



30
用MySQL计算中位数的简单方法
用MySQL计算中位数的最简单方法(希望不是太慢)是什么?我过去一直AVG(x)在寻找均值,但是我很难找到一种简单的方法来计算中位数。现在,我将所有行返回给PHP,进行排序,然后选择中间行,但是肯定必须有一个简单的方法可以在单个MySQL查询中完成。 示例数据: id | val -------- 1 4 2 7 3 2 4 2 5 9 6 8 7 3 排序val给出2 2 3 4 7 8 9,因此中位数应为4,而SELECT AVG(val)其中== 5。
207 sql  mysql  statistics  median 




14
统计分析和报告编写工作流程
是否有人对与自定义​​报告编写相关的数据分析工作流有任何智慧?用例基本上是这样的: 客户委托使用数据分析的报告,例如水域的人口估计和相关地图。 分析人员下载一些数据,对数据进行删节并保存结果(例如,为每单位人口增加一列,或根据地区边界对数据进行分组)。 分析人员分析了在(2)中创建的数据,接近了她的目标,但是发现需要更多数据,因此回到(1)。 重复冲洗,直到表格和图形符合QA / QC并满足客户要求。 编写包含表格和图形的报告。 明年,满意的客户会回来并要求更新。这应该很简单,例如通过新的下载来更新上游数据(例如,从去年获得建筑许可),然后按“重新计算”按钮,除非规格更改。 目前,我只是启动一个目录,并尽其所能对其进行临时设置。我想要一个更系统的方法,所以我希望有人能解决这个问题……我使用了电子表格,SQL,ARCGIS,R和Unix工具。 谢谢! PS: 下面是一个基本的Makefile,用于检查对各种中间数据集(带.RData后缀)和脚本(.R后缀)的依赖性。Make使用时间戳检查依赖关系,因此,如果使用touch ss07por.csv,它将看到此文件比依赖它的所有文件/目标都新,并执行给定的脚本以相应地更新它们。这项工作仍在进行中,其中包括将数据放入SQL数据库的步骤以及诸如sweave之类的模板语言的步骤。请注意,Make的语法依赖制表符,因此在剪切和粘贴之前请先阅读手册。享受并给予反馈! http://www.gnu.org/software/make/manual/html_node/index.html#Top R = / home / wsprague / R-2.9.2 / bin / R persondata.RData:ImportData.R ../../DATA/ss07por.csv Functions.R $ R-从-f ImportData.R persondata.Munged.RData:MungeData.R persondata.RData Functions.R $ R --slave -f MungeData.R report.txt:TabulateAndGraph.R persondata.Munged.RData Functions.R $ R --slave -f TabulateAndGraph.R> report.txt


8
使用Scipy(Python)使经验分布适合理论分布吗?
简介:我列出了30,000多个整数值,范围从0到47(含0和47),例如[0,0,0,0,..,1,1,1,1,...,2,2,2,2,...,47,47,47,...]从某个连续分布中采样。列表中的值不一定按顺序排列,但顺序对于此问题并不重要。 问题:根据我的分布,我想为任何给定值计算p值(看到更大值的概率)。例如,您可以看到0的p值将接近1,数字较大的p值将趋于0。 我不知道我是否正确,但是为了确定概率,我认为我需要使我的数据适合最适合描述我的数据的理论分布。我认为需要某种拟合优度检验来确定最佳模型。 有没有办法在Python(Scipy或Numpy)中实现这种分析?你能举个例子吗? 谢谢!


12
Python中的多元线性回归
我似乎找不到任何进行多元回归的python库。我发现的唯一的东西只是做简单的回归。我需要针对几个自变量(x1,x2,x3等)对我的因变量(y)进行回归。 例如,使用以下数据: print 'y x1 x2 x3 x4 x5 x6 x7' for t in texts: print "{:>7.1f}{:>10.2f}{:>9.2f}{:>9.2f}{:>10.2f}{:>7.2f}{:>7.2f}{:>9.2f}" / .format(t.y,t.x1,t.x2,t.x3,t.x4,t.x5,t.x6,t.x7) (以上输出:) y x1 x2 x3 x4 x5 x6 x7 -6.0 -4.95 -5.87 -0.76 14.73 4.02 0.20 0.45 -5.0 -4.55 -4.52 -0.71 13.74 4.47 0.16 0.50 -10.0 -10.96 -11.64 -0.98 15.49 4.18 …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.