程序设计 statistics

8

按照目前的情况，这个问题不适合我们的问答形式。我们希望答案会得到事实，参考或专业知识的支持，但是这个问题可能会引起辩论，争论，民意调查或扩展讨论。如果您认为此问题可以解决并且可以重新提出，请访问帮助中心以获取指导。 8年前关闭。我一直认为Python的优势在于代码的可读性和开发速度，但是时间和内存使用却不如C ++。这些统计数据让我非常震惊。您的经验告诉您关于Python与C ++的时间和内存使用情况？

89 c++ python performance memory statistics

11

如何使用Python和Numpy计算r平方？

我正在使用Python和Numpy计算任意次数的最佳拟合多项式。我传递了x值，y值以及要拟合的多项式的阶数（线性，二次等）的列表。这很有效，但是我还想计算r（相关系数）和r-平方（确定系数）。我正在将结果与Excel的最佳拟合趋势线功能及其计算的r平方值进行比较。使用此方法，我知道我正在为线性最佳拟合（度等于1）正确计算r平方。但是，我的函数不适用于度数大于1的多项式。 Excel能够做到这一点。如何使用Numpy计算高阶多项式的r平方？这是我的功能： import numpy # Polynomial Regression def polyfit(x, y, degree): results = {} coeffs = numpy.polyfit(x, y, degree) # Polynomial Coefficients results['polynomial'] = coeffs.tolist() correlation = numpy.corrcoef(x, y)[0,1] # r results['correlation'] = correlation # r-squared results['determination'] = correlation**2 return results

89 python math statistics numpy curve-fitting

10

在R中，如何找到平均值的标准误？

是否有任何命令可以找到R中均值的标准误？

89 r statistics

3

Scala有一个好的数学/统计资料库吗？[关闭]

关闭。此问题不符合堆栈溢出准则。它当前不接受答案。想改善这个问题吗？更新问题，使其成为Stack Overflow的主题。 2年前关闭。改善这个问题我正在寻找一个用于scala的良好的开源库，用于数学和统计。希望像Apache Math或Colt之类的东西，但是在Scala中实现。谁能指出我正确的方向？

88 scala math statistics

14

如何有效计算运行标准偏差？

我有一组数字列表，例如： [0] (0.01, 0.01, 0.02, 0.04, 0.03) [1] (0.00, 0.02, 0.02, 0.03, 0.02) [2] (0.01, 0.02, 0.02, 0.03, 0.02) ... [n] (0.01, 0.00, 0.01, 0.05, 0.03) 我想做的是有效地计算所有数组元素在列表的每个索引处的均值和标准差。为了表示平均值，我一直在遍历数组并求和给定列表索引处的值。最后，我将“平均值列表”中的每个值除以n（我正在处理总体，而不是总体中的样本）。要进行标准偏差，现在我已经计算出平均值，因此我再次遍历。我想避免两次遍历数组，一次是平均值，然后一次是SD（在得到平均值之后）。是否有一种有效的方法来计算两个值，而只需要遍历数组一次？任何使用解释语言（例如Perl或Python）或伪代码的代码都可以。

87 python perl statistics

13

用于估计统计中值，众数，模式，偏度，峰度的“在线”（迭代器）算法？

是否有一种算法可以估计一组值的中值，众数，偏度和/或峰度，但是不需要一次将所有值存储在内存中？我想计算基本统计数据：平均值：算术平均值方差：与平均值的平方偏差的平均值标准偏差：方差的平方根中位数：将数字大半部分与小半部分分开的值模式：集合中最常出现的值偏度：tl; 博士峰度：tl; 博士计算其中任何一个的基本公式是小学算术，我确实知道它们。也有许多实现它们的统计资料库。我的问题是我正在处理的集合中有大量（十亿个）值：在Python中工作，我不能仅仅创建包含数十亿个元素的列表或哈希。即使我用C编写此代码，十亿个元素的数组也不太实用。数据未排序。它是由其他过程动态随机产生的。每个集合的大小是高度可变的，并且大小不会事先知道。我已经弄清楚了如何很好地处理均值和方差，以任意顺序遍历集合中的每个值。（实际上，就我而言，我按它们生成的顺序进行处理。）这是我使用的算法，由http://en.wikipedia.org/wiki/Algorithms_for_calculating_variance#On-line_algorithm提供：初始化三个变量：count，sum和sum_of_squares 对于每个值：增量计数。将值相加。将值的平方添加到sum_of_squares。将总和除以计数，并存储为变量均值。将sum_of_squares除以计数，存储为变量mean_of_squares。平方均值，存储为square_of_mean。从mean_of_squares中减去square_of_mean，并存储为方差。输出均值和方差。这种“在线”算法具有弱点（例如，由于sum_of_squares迅速增长到大于整数范围或浮点精度的精度问题），但是它基本上满足了我的需要，而不必在每个集合中存储每个值。但是我不知道是否存在类似的技术来估算其他统计数据（中位数，众数，偏度，峰度）。只要处理N个值所需的内存大大小于O（N），我就可以使用有偏估计器，甚至可以使用在某种程度上损害准确性的方法。如果该库具有“在线”计算这些操作中的一项或多项的功能，则将我指向现有的统计信息库也将有所帮助。

86 algorithm statistics iterator median

9

使用SciPy的分位数图

您将如何使用Python创建一个qq图？假设您有大量的测量值，并且正在使用一些将XY值作为输入的绘图功能。该函数应将测量的分位数与某种分布的相应分位数（正态，均匀...）作图。结果图使我们可以评估测量是否遵循假设的分布。 http://en.wikipedia.org/wiki/Quantile-quantile_plot R和Matlab都为此提供了现成的函数，但是我想知道用Python实现的最干净的方法是什么。

84 python statistics scipy

11

如何在Python中绘制ROC曲线

我正在尝试绘制ROC曲线，以评估使用Logistic回归软件包在Python中开发的预测模型的准确性。我已经计算了真实的阳性率和错误的阳性率。但是，我无法弄清楚如何使用matplotlib和计算AUC值正确绘制这些图。我该怎么办？

83 python matplotlib plot statistics roc

3

numpy.exp（）到底是做什么的？[关闭]

关闭。此问题不符合堆栈溢出准则。它当前不接受答案。想改善这个问题吗？更新问题，使其成为Stack Overflow的主题。 5年前关闭。改善这个问题我对np.exp（）的实际用途感到非常困惑。在文档中它说：“计算输入数组中所有元素的指数。” 我对这到底意味着什么感到困惑。有人能给我更多信息吗？

83 python numpy statistics exp

2

Python Scipy中的两样本Kolmogorov-Smirnov测试

我不知道如何在Scipy中进行两样本KS测试。阅读文档scipy kstest之后我可以看到如何测试分布与标准正态分布相同的地方 from scipy.stats import kstest import numpy as np x = np.random.normal(0,1,1000) test_stat = kstest(x, 'norm') #>>> test_stat #(0.021080234718821145, 0.76584491300591395) 这意味着在0.76的p值下，我们不能拒绝两个分布相同的零假设。但是，我想比较两个分布，看看是否可以拒绝它们相同的零假设，例如： from scipy.stats import kstest import numpy as np x = np.random.normal(0,1,1000) z = np.random.normal(1.1,0.9, 1000) 并测试x和z是否相同我尝试过天真： test_stat = kstest(x, z) 并得到以下错误： TypeError: 'numpy.ndarray' object …

81 python numpy scipy statistics distribution

7

马尔可夫链与有限状态机相同吗？

有限状态机只是马尔可夫链的一种实现吗？两者之间有什么区别？

79 math statistics state-machine fsm markov-chains

1

纯功能图和集的统计性能

给定一种数据结构规范，例如具有已知复杂性界限的纯功能图，则必须在几种实现方式之间进行选择。关于如何选择正确的树有一些民间传说，例如，红黑树通常被认为更快，但是AVL树在许多查找的工作负载下具有更好的性能。是否有关于知识的系统性介绍（发表论文）（与布景/地图有关）？理想情况下，我希望看到在实际软件上执行的统计分析。例如，可能得出的结论是，有N种典型的地图用法，并列出每种地图的输入概率分布。是否有系统的基准可以测试和设置不同输入分配的性能？是否有使用自适应算法根据实际用法更改表示的实现？

74 data-structures functional-programming statistics avl-tree red-black-tree

6

使用API从Google Play开发者那里获取统计信息

我负责开发一个网站，该网站应该能够向客户显示来自Apple应用程序商店和Google Play商店的统计信息，以便他们可以轻松查看正在发生的事情。我已经找到了一些获取App Store数据的方法，但是Google Play开发人员的统计数据似乎很难获取。我听说过抓取，但这并不是一个很好的解决方案，因为只要开发人员控制台进行重大更新，它就可能被破坏。例如，我正在寻找可以像Andlytics或App Annie一样工作的东西，这样我就可以使用AJAX或其他东西（也许是JSON格式？）获取数据并将其放入数据库中。到目前为止，我还没有找到任何可靠的解决方案（除了抓取之外，这似乎是一种不稳定的方法），并且这个问题已在前一段时间提出，所以我允许自己再问一次，因为也许现在有一些问题了。解决此问题的方法。我只能找到Google Play API，该API允许我通过身份验证从应用程序的公共页面获取数据，但不能从开发人员控制台获取数据。任何提示或帮助将不胜感激:)

74 android statistics

16

命令行实用程序，用于在Linux中打印数字的统计信息

我经常发现自己的文件每行有一个数字。我最终将其导入excel以查看诸如中位数，标准差等内容。 Linux中是否有命令行实用程序可以执行相同的操作？我通常需要找到平均值，中位数，最小值，最大值和标准差。

74 linux command-line statistics

3

解释R中的Quantile（）函数

我整日都被R分位数功能迷住了。我对分位数的工作方式有一个直观的了解，并且统计数据中有MS，但是天哪，它的文档使我感到困惑。从文档： Q [i]（p）=（1-伽玛）x [j] +伽玛x [j + 1]，到目前为止，我已经接受了。对于类型i分位数，它是x [j]和x [j + 1]之间的插值，基于一些神秘的常数伽玛其中1 <= i <= 9（jm）/ n <= p <（j-m + 1）/ n，x [j]是j阶统计量，n是样本大小，m是确定的常数根据样本分位数类型。在此，γ取决于g = np + mj的小数部分。那么，如何计算j？米？对于连续样本分位数类型（4到9），可以通过在k阶统计量和p（k）之间进行线性插值来获得样本分位数： p（k）=（k-alpha）/（n-alpha-beta +1），其中α和β是由类型确定的常数。此外，m ＝α+ p（1-α-β），且γ＝ g。现在我真的迷路了。p，以前是一个常数，现在显然是一个函数。因此，对于类型7分位数，默认值为... 7型 p（k）=（k-1）/（n-1）。在这种情况下，p（k）=模式[F（x [k]）]。由S使用。有人要帮我吗？特别是，我对p是函数和常数的概念感到困惑，到底m是什么，现在要为某个特定p计算j 。我希望基于此处的答案，我们可以提交一些经过修订的文档，以更好地解释此处的情况。 Quantile.R源代码或类型：Quantile.default

72 math r statistics

Questions tagged «statistics»