概率和统计之间有什么区别？

116

概率和统计之间有什么区别，为什么要一起研究？

probability teaching mathematical-statistics

114

我从Persi Diaconis那里听到的简短答案如下：概率和统计考虑的问题彼此相反。在概率论中，我们考虑了一些具有随机性或不确定性的基本过程，这些过程由随机变量建模，然后我们确定会发生什么。在统计中，我们观察到已经发生的事情，并试图找出解释这些观察结果的潜在过程。

— 马克·梅克斯
source

2

因此，统计数据会观察物理世界中发生的事情，对潜在过程进行理论化处理，然后找到该过程，并从概率的意义上使用它来预测接下来会发生什么？

— hslc

我不是统计学家，但是根据我的理解，我会说，是的，统计学的那一部分。

— Mark Meckes 2010年

16

归纳与演绎？

— Paolo

6

就像Paolo所说的那样，概率论主要涉及建模过程的演绎部分，而统计则涉及具有不确定性的建模过程的归纳部分。也许有趣的是，如果有人认为合理的归纳推理应该是一致的，那么结果实际上就是贝叶斯统计，而更有趣的是，这可以从概率论中得出。因此，可以说贝叶斯统计学基本上是应用概率论的。

— Thies Heidecke，

1

@Paolo统计推断被认为是“归纳统计”

— kervin

77

我喜欢一罐红色和绿色软糖的例子。

概率论者首先要知道每个概率论的比例，然后询问抽出红色软心豆粒糖的可能性。统计学家通过从广口瓶中取样推断红软糖的比例。

— 约翰·D·库克
source

但这不只是表述吗？一个概率论者可能会问：“假设我已经画了三个红豆，那比例是五十的概率是多少？”

— 托马斯·阿勒

2

@ThomasAhle：这不是一个明确定义的概率问题，除非您为颜色的原始分布假设一些基本的概率模型。

— Mark Meckes

55

简单地说统计仅仅是概率的倒数是一种误导。是的，统计问题是逆概率问题，但是它们是不适定的逆问题，因此在解决方式上有很大的不同。

概率是纯数学的一个分支-概率问题可以使用公理推理来提出和解决，因此任何概率问题都有一个正确答案。

统计问题可以通过使用概率模型转换为概率问题。一旦我们对生成数据的机制做出了某些假设，就可以使用概率论来回答统计问题。但是，正确地制定和检查这些概率模型与使用这些模型进行问题的后续分析同样重要，甚至更为重要。

可以说统计包括两部分。第一部分是关于如何建立和评估该概率模型的问题。这项努力属于“科学哲学”的范畴。第二部分是假设某个模型后获得答案的问题。这部分统计信息的确是应用概率论的问题，在实践中还包含大量的数值分析。

参见：http : //bactra.org/reviews/error/

— 查尔斯·郑
source

2

我爱你的答案

— badatmath

16

我喜欢Steve Skienna的Calculated Bets（请参阅链接以获取完整讨论）：

总之，概率论使我们能够找到给定理想世界的结果，而统计理论使我们能够测量理想世界的程度。

— 阿尔斯
source

13

概率是一门纯粹的科学（数学），统计是关于数据的。它们相互关联，因为概率构成了某种统计学基础，并提供了基本思路。

3

那么概率是纯数学，统计是应用数学吗？

— hslc

4

统计信息可能适用，也可能不适用；数据的概念仍然存在。

13

直观生物统计学表3.1 用下面所示的图表回答了这个问题。请注意，所有箭头都指向右边以获得概率，并指向左边进行统计。

可能性

一般--->具体

人口--->样本

模型--->数据

统计

一般<---具体

人口<---样本

型号<---数据

— 哈维·莫图尔斯基
source

1

那么统计是数据分析的代名词吗？

— hslc

3

我没有任何区别。

— 哈维·莫图尔斯基

3

一些数据分析不依赖常客统计。

— 神父

11

什么概率答案的问题会发生，统计回答关于什么样的问题都发生。

— 贾斯汀·波佐尼尔（Justin Bozonier）
source

3

但是，根据此定义，预测间隔是概率而不是统计量。

— Glen_b 2015年

10

概率是关于量化不确定性，而统计数字是在解释我们在现实世界中观察到的某种程度的利率变化（例如，收入水平为何会变化？）。

我们通过使用一些可观察的因素（例如，收入示例中的性别，受教育程度，年龄等）来解释这种变化。但是，由于我们可能无法考虑到影响收入的所有可能因素，因此我们将任何无法解释的变化留给随机误差（这是量化不确定性的来源）。

因为我们将“变量=可观察因素的影响+随机误差的影响”归因于属性，所以我们需要概率提供的工具来考虑随机误差对我们观察到的变化的影响。

以下是一些示例：

量化不确定度

示例1：滚动6面模具。获得1的概率是多少？

示例2：从美国随机选择的成年人的年收入低于40,000美元的概率是多少？

解释变化

示例1：我们观察到一个人的年收入各不相同。哪些因素可以解释一个人的收入差异？

显然，我们不能考虑所有因素。因此，我们将一个人的收入归因于一些可观察到的因素（例如，受教育程度，性别，年龄等），而剩下的任何变化都归因于不确定性（或用统计语言：随机误差）。

例2：我们观察到，有些消费者在购买洗涤剂的大部分时间中都选择了Tide，而另一些消费者则选择洗涤剂品牌xyz。是什么解释了选择的差异？我们将选择的差异归因于一些可观察的因素，例如价格，品牌名称等，并将任何无法解释的差异归因于随机误差（或不确定性）。

— 亚历克西斯
source

1

如果随时间推移随机误差变得大于可观察的因子怎么办？

— hslc

在这种情况下，您将重新设计模型，因为它不再符合实际情况。

8

概率是不确定性的包围，而统计是对事实的经验性，狂妄追求（当然，排除说谎者）。

在这里，我正在考虑所有常客/贝叶斯概率以及所有描述性/探索性/推论性统计。

7

与Mark所说的相似，统计学在历史上被称为“ 逆概率”，因为统计学会根据观察结果来推断事件的起因，而概率往往恰恰相反。

— 菜丁
source

6

事件的概率是其长期相对频率。所以基本上告诉你的机会，例如，得到一个“头”上一个硬币的下翻页，或在模具的下辊得到一个“3”。

甲统计距离的一个样本计算的任何数值量度。例如，样本均值。我们将其用作估计人口平均值的统计量，该平均值是一个参数。因此，基本上，它为您提供了样本的某种摘要。

您只能从样本中获取统计信息，否则，如果您对总体进行数值测量，则称为总体参数。

— 托尼·布雷亚（Tony Breyal）
source

6

概率研究好了，概率事件有多大。您凭直觉知道什么是概率。

统计学是对数据的研究：显示数据（使用图表等工具），进行汇总（使用均值和标准偏差等），得出数据来源的结论（将数据拟合线等），以及-这是关键-量化我们对结论的确信程度。

为了量化我们对结论的确信度，我们需要使用概率。假设您有去年关于您居住的地区和我居住的地区的降雨数据。去年，您住的地方平均每周下雨1/4英寸，而我住的地方平均下雨3/8英寸。因此，可以说，我地区的降雨量比您居住的地区平均多50％，对吗？没那么快，Sparky。可能是巧合：也许去年我住的地方刚下过很多雨。我们可以使用“概率”来估计我们对我的房屋比您的房屋湿50％的结论有多大的信心。

因此，基本上可以说概率是统计理论的数学基础。

— 卡洛斯·阿西里（Carlos Accioly）
source

5

在概率论中，以某种方式给我们随机变量X1，X2，...，然后研究它们的性质，即计算概率P {X1 \ in B1}，研究X1，X2，...等的收敛性。

在数学统计中，我们给了n个随机变量X的实现，以及分布D的集合；问题是在D的分布中找到最有可能生成我们观察到的数据的分布。

因此，我们只能找到最初寻找的模式吗？

— hslc

4

在概率上，该分布是事先已知的和已知的-您从已知的概率分布函数（或类似函数）开始，然后从中进行采样。

在统计中，该分布事先未知。这甚至可能是不可知的。假设对观察到的数据背后的概率分布进行假设，以便能够将概率理论应用于该数据，以便知道是否可以拒绝该数据的零假设。

关于在现实世界中是否存在诸如概率之类的东西，或者它是否是我们数学想象力的理想形象，存在着哲学上的讨论，而我们所有的观察只能是统计上的。

— 能源数字
source

3

统计是面对不确定性时对真理的追求。概率是使我们能够量化不确定性的工具。

（我提供了另一个更长的答案，它假设所要询问的内容类似于“您将如何向祖母解释？”。）

— 卡洛斯·阿西里（Carlos Accioly）
source

3

$(\Omega, \mathcal F, P)$ $\theta$ $(\Omega, \mathcal F, P_\theta)$ $\theta$

$\theta$ $\theta$

免责声明：以上是数学答案。实际上，“统计”还涉及设计/发现适当的模型，质疑现有模型，设计实验，处理不完善的数据等。“所有模型都是错误的”。

— 古斯
source

4

类似地，如果被问到“化学是什么？” 我们可以回答，这是一组微分方程。对数学理论的描述可以使我们对主题的含义有一个小小的了解，但不是主题本身。

— whuber

3

概率：给定已知参数，找到观察特定数据集的概率。

统计：给定一组特定的观察数据，推断出该参数可能是什么。

统计是“相对主观的”和“比科学更多的艺术”（相对于概率）。

$\underline{Example}$ $\underline{\text{Example}}$
$p$

$p=\frac{1}{2}$ $HHH$

$\frac{1}{8}$

$HHH$ $p$

不同的统计学家会给出不同的，往往是漫长的答案。

— 肯尼·李
source

3

概率与统计量之间的区别在于概率中没有错误。我们肯定有这种可能性，因为我们确切知道硬币有多少面，或者花瓶中有多少蓝色焦糖。但是在统计数据中，我们只检查了一部分人口，因此，我们尝试了解真相，但总会有一定百分比的错误结论。统计数据中唯一正确的东西是这个错误百分比，实际上是一个概率。

— 西奥多
source

2

Savage的《统计基础》一书在Google学术搜索中被引用了12000多次。[3] 它告诉以下内容。

一致同意，统计数字在某种程度上取决于概率。但是，从巴别塔以来，关于概率是什么以及如何与统计联系起来，很少有如此完全的分歧和沟通中断。毫无疑问，许多分歧只是术语上的，在足够充分的分析下就会消失。

https://zh.wikipedia.org/wiki/Foundations_of_statistics

因此，概率论是统计学的基础这一观点几乎没有争议。其他一切都是公平的游戏。

但是在尝试变得更有用，更实用时给出答案...

但是，概率论包含的大部分内容都是数学上感兴趣的，并且与统计数据没有直接关系。此外，统计学中的许多主题都独立于概率论

https://en.wikipedia.org/wiki/Probability_and_statistics

以上内容无论如何都不是详尽无遗或权威性的，但我相信它是有用的。

通常它帮助我看到诸如...

数学>>概率论>>统计

平均而言，每种工具都将在下一个基础中大量使用。那就是我们研究下一个基础的方式有很多交叉之处。

PS。有归纳统计和演绎统计，因此区别不在于此。

— 开尔文
source

0

许多人和数学家说“统计是概率的倒数”，但它并不是特别正确。解决这两个问题的方法或方法完全不同，但是它们是相互关联的。

我想提到我的朋友约翰·库克。

“我喜欢一罐红色和绿色软糖豆的例子。

一个概率论者首先要知道每个概率的比例，然后说得出绘制红色软心豆粒糖的概率。统计学家通过从广口瓶中取样推断出红色软心豆粒糖的比例。”

现在，概率论者使用从罐子中采样获得的红色软心豆粒糖的比例来找出从罐子中提取红豆的概率

考虑这个例子---- >>>

在一次考试中，有30％的学生在物理上不及格，25％的数学不及格，12％的物理和数学均不及格。如果已知学生在数学上失败了，就会随机选择一名学生，以发现该学生在物理上失败的概率。

以上总和是一个概率问题，但是如果仔细看，我们会发现总和提供了一些统计数据

30％的学生物理不及格，25％的数学''''如果计算百分比，这些基本上是频率。因此，我们将获得统计数据，从而帮助我们找到概率

因此，概率和统计数据是非常相互关联的，或者说我们可以说概率与统计数据有很大关系

— 希拉克·蒙达尔
source

0

JC Maxwell在《分子》（《自然》，1873年，第437-441页）中很好地解释了“统计”一词。让我引用相关段落：

当F节的工作人员掌握人口普查报告或任何其他包含经济和社会科学数字数据的文件时，他们将开始按照年龄，所得税，教育，宗教信仰或刑事定罪。个人人数太多，以至于无法分别追踪每个人的历史，因此，为了减少他们在人工范围内的劳动，他们将注意力集中在少数的人工团体上。每个组中不同数量的个体，而不是每个个体的变化状态，是他们工作的主要基准。

当然，这不是研究人性的唯一方法。根据最佳的现有理论，我们可以观察每个人的行为，并将其与他们以前的性格和他们的现状会导致我们期望的行为进行比较。那些练习这种方法的人努力提高对人性元素的认识，就像天文学家通过比较行星的实际位置和从接收到的元素得出的位置来校正行星的元素一样。因此，父母和校长，历史学家和政治家对人性的研究应与书记官长和制表商以及对数字信仰的政治家进行的研究区分开。一种可以称为历史方法，另一种可以称为统计方法。

动力学方程式完全表达了应用于物质的历史方法的规律，但是这些方程式的应用意味着对所有数据的全面了解。但是，我们可以经受实验的物质的最小部分是数百万个分子，没有一个对我们个体变得敏感。因此，我们无法确定这些分子中任何一个的实际运动，因此我们不得不放弃严格的历史方法，而采用统计方法来处理大分子分子。

他在其他几本著作中对统计方法进行了解释。例如，“在统计调查方法中，我们不会在系统运动期间跟踪系统，而是将注意力集中在特定阶段，并确定系统是否处于该阶段以及何时进入该阶段。以及它何时离开”（Trans。Cambridge Philos。Soc。12，1879，第547-570页）。

麦克斯韦还有另一段关于“概率”的优美段落（摘自1850年给坎贝尔的信，重印于《詹姆斯·克莱克·麦克斯韦的生活》，第143页）：

目前，逻辑学的实际科学只涉及确定的，不可能的或完全可疑的事情，而（我们幸运地）无需推理。因此，这个世界的真正逻辑是概率演算，它考虑了概率的大小（即，或者应该在一个合理的人的脑海中）。

所以我们可以说：

–在统计中，我们“将注意力集中在少量的人工组”或数量上；我们正在进行某种分类或人口普查。

–根据概率，我们正在计算某些事件或数量的不确定性。

两者是截然不同的，我们可以一无所有。

例如，如果我们对一个国家的整个人口进行完整的人口普查，并计算出属于特定群体（例如年龄，性别等）的确切人数，我们就会进行统计。没有涉及不确定性-可能性-因为我们发现的数字是准确的和已知的。

另一方面，假设有人在大街上经过我们的面前，我们想知道他们的年龄。在这种情况下，我们不确定并且使用概率，但是不涉及统计信息，因为我们没有进行某种普查或分类。

但是两者也可以同时出现。如果我们无法对人口进行完整的人口普查，则必须猜测特定年龄性别组中有多少人。因此，我们在进行统计时使用概率。反之亦然，我们可以考虑有关人们年龄的确切统计数据，并从这些数据中更好地猜测在我们面前经过的人。因此，我们在确定概率时使用统计数据。

— pglpm
source

感谢您的贡献。尽管很有趣，但它与statistics.stackexchange.com/questions/140547/…所示的统计学家认为的统计数据及其实际工作不符。

— ub

这是有争议的。我知道专业的统计学家不同意ASA的定义（这非常含糊），并同意Maxwell。

— pglpm