Answers:
我从Persi Diaconis那里听到的简短答案如下:概率和统计考虑的问题彼此相反。在概率论中,我们考虑了一些具有随机性或不确定性的基本过程,这些过程由随机变量建模,然后我们确定会发生什么。在统计中,我们观察到已经发生的事情,并试图找出解释这些观察结果的潜在过程。
我喜欢一罐红色和绿色软糖的例子。
概率论者首先要知道每个概率论的比例,然后询问抽出红色软心豆粒糖的可能性。统计学家通过从广口瓶中取样推断红软糖的比例。
简单地说统计仅仅是概率的倒数是一种误导。是的,统计问题是逆概率问题,但是它们是不适定的逆问题,因此在解决方式上有很大的不同。
概率是纯数学的一个分支-概率问题可以使用公理推理来提出和解决,因此任何概率问题都有一个正确答案。
统计问题可以通过使用概率模型转换为概率问题。一旦我们对生成数据的机制做出了某些假设,就可以使用概率论来回答统计问题。但是,正确地制定和检查这些概率模型与使用这些模型进行问题的后续分析同样重要,甚至更为重要。
可以说统计包括两部分。第一部分是关于如何建立和评估该概率模型的问题。这项努力属于“科学哲学”的范畴。第二部分是假设某个模型后获得答案的问题。这部分统计信息的确是应用概率论的问题,在实践中还包含大量的数值分析。
我喜欢Steve Skienna的Calculated Bets(请参阅链接以获取完整讨论):
总之,概率论使我们能够找到给定理想世界的结果,而统计理论使我们能够测量理想世界的程度。
概率是关于量化不确定性,而统计数字是在解释我们在现实世界中观察到的某种程度的利率变化(例如,收入水平为何会变化?)。
我们通过使用一些可观察的因素(例如,收入示例中的性别,受教育程度,年龄等)来解释这种变化。但是,由于我们可能无法考虑到影响收入的所有可能因素,因此我们将任何无法解释的变化留给随机误差(这是量化不确定性的来源)。
因为我们将“变量=可观察因素的影响+随机误差的影响”归因于属性,所以我们需要概率提供的工具来考虑随机误差对我们观察到的变化的影响。
以下是一些示例:
量化不确定度
示例1:滚动6面模具。获得1的概率是多少?
示例2:从美国随机选择的成年人的年收入低于40,000美元的概率是多少?
解释变化
示例1:我们观察到一个人的年收入各不相同。哪些因素可以解释一个人的收入差异?
显然,我们不能考虑所有因素。因此,我们将一个人的收入归因于一些可观察到的因素(例如,受教育程度,性别,年龄等),而剩下的任何变化都归因于不确定性(或用统计语言:随机误差)。
例2:我们观察到,有些消费者在购买洗涤剂的大部分时间中都选择了Tide,而另一些消费者则选择洗涤剂品牌xyz。是什么解释了选择的差异?我们将选择的差异归因于一些可观察的因素,例如价格,品牌名称等,并将任何无法解释的差异归因于随机误差(或不确定性)。
事件的概率是其长期相对频率。所以基本上告诉你的机会,例如,得到一个“头”上一个硬币的下翻页,或在模具的下辊得到一个“3”。
甲统计距离的一个样本计算的任何数值量度。例如,样本均值。我们将其用作估计人口平均值的统计量,该平均值是一个参数。因此,基本上,它为您提供了样本的某种摘要。
概率研究好了,概率事件有多大。您凭直觉知道什么是概率。
统计学是对数据的研究:显示数据(使用图表等工具),进行汇总(使用均值和标准偏差等),得出数据来源的结论(将数据拟合线等),以及-这是关键-量化我们对结论的确信程度。
为了量化我们对结论的确信度,我们需要使用概率。假设您有去年关于您居住的地区和我居住的地区的降雨数据。去年,您住的地方平均每周下雨1/4英寸,而我住的地方平均下雨3/8英寸。因此,可以说,我地区的降雨量比您居住的地区平均多50%,对吗?没那么快,Sparky。可能是巧合:也许去年我住的地方刚下过很多雨。我们可以使用“概率”来估计我们对我的房屋比您的房屋湿50%的结论有多大的信心。
因此,基本上可以说概率是统计理论的数学基础。
在概率论中,以某种方式给我们随机变量X1,X2,...,然后研究它们的性质,即计算概率P {X1 \ in B1},研究X1,X2,...等的收敛性。
在数学统计中,我们给了n个随机变量X的实现,以及分布D的集合;问题是在D的分布中找到最有可能生成我们观察到的数据的分布。
统计是面对不确定性时对真理的追求。概率是使我们能够量化不确定性的工具。
(我提供了另一个更长的答案,它假设所要询问的内容类似于“您将如何向祖母解释?”。)
Savage的《统计基础》一书在Google学术搜索中被引用了12000多次。[3] 它告诉以下内容。
一致同意,统计数字在某种程度上取决于概率。但是,从巴别塔以来,关于概率是什么以及如何与统计联系起来,很少有如此完全的分歧和沟通中断。毫无疑问,许多分歧只是术语上的,在足够充分的分析下就会消失。
https://zh.wikipedia.org/wiki/Foundations_of_statistics
因此,概率论是统计学的基础这一观点几乎没有争议。其他一切都是公平的游戏。
但是在尝试变得更有用,更实用时给出答案...
但是,概率论包含的大部分内容都是数学上感兴趣的,并且与统计数据没有直接关系。此外,统计学中的许多主题都独立于概率论
https://en.wikipedia.org/wiki/Probability_and_statistics
以上内容无论如何都不是详尽无遗或权威性的,但我相信它是有用的。
通常它帮助我看到诸如...
数学>>概率论>>统计
平均而言,每种工具都将在下一个基础中大量使用。那就是我们研究下一个基础的方式有很多交叉之处。
PS。有归纳统计和演绎统计,因此区别不在于此。
许多人和数学家说“统计是概率的倒数”,但它并不是特别正确。解决这两个问题的方法或方法完全不同,但是它们是相互关联的。
我想提到我的朋友约翰·库克。
“我喜欢一罐红色和绿色软糖豆的例子。
一个概率论者首先要知道每个概率的比例,然后说得出绘制红色软心豆粒糖的概率。统计学家通过从广口瓶中取样推断出红色软心豆粒糖的比例。”
现在,概率论者使用从罐子中采样获得的红色软心豆粒糖的比例来找出从罐子中提取红豆的概率
考虑这个例子---- >>>
在一次考试中,有30%的学生在物理上不及格,25%的数学不及格,12%的物理和数学均不及格。如果已知学生在数学上失败了,就会随机选择一名学生,以发现该学生在物理上失败的概率。
以上总和是一个概率问题,但是如果仔细看,我们会发现总和提供了一些统计数据
30%的学生物理不及格,25%的数学''''如果计算百分比,这些基本上是频率。因此,我们将获得统计数据,从而帮助我们找到概率
因此,概率和统计数据是非常相互关联的,或者说我们可以说概率与统计数据有很大关系
JC Maxwell在《分子》(《自然》,1873年,第437-441页)中很好地解释了“统计”一词。让我引用相关段落:
当F节的工作人员掌握人口普查报告或任何其他包含经济和社会科学数字数据的文件时,他们将开始按照年龄,所得税,教育,宗教信仰或刑事定罪。个人人数太多,以至于无法分别追踪每个人的历史,因此,为了减少他们在人工范围内的劳动,他们将注意力集中在少数的人工团体上。每个组中不同数量的个体,而不是每个个体的变化状态,是他们工作的主要基准。
当然,这不是研究人性的唯一方法。根据最佳的现有理论,我们可以观察每个人的行为,并将其与他们以前的性格和他们的现状会导致我们期望的行为进行比较。那些练习这种方法的人努力提高对人性元素的认识,就像天文学家通过比较行星的实际位置和从接收到的元素得出的位置来校正行星的元素一样。因此,父母和校长,历史学家和政治家对人性的研究应与书记官长和制表商以及对数字信仰的政治家进行的研究区分开。一种可以称为历史方法,另一种可以称为统计方法。
动力学方程式完全表达了应用于物质的历史方法的规律,但是这些方程式的应用意味着对所有数据的全面了解。但是,我们可以经受实验的物质的最小部分是数百万个分子,没有一个对我们个体变得敏感。因此,我们无法确定这些分子中任何一个的实际运动,因此我们不得不放弃严格的历史方法,而采用统计方法来处理大分子分子。
他在其他几本著作中对统计方法进行了解释。例如,“在统计调查方法中,我们不会在系统运动期间跟踪系统,而是将注意力集中在特定阶段,并确定系统是否处于该阶段以及何时进入该阶段。以及它何时离开”(Trans。Cambridge Philos。Soc。12,1879,第547-570页)。
麦克斯韦还有另一段关于“概率”的优美段落(摘自1850年给坎贝尔的信,重印于《詹姆斯·克莱克·麦克斯韦的生活》,第143页):
目前,逻辑学的实际科学只涉及确定的,不可能的或完全可疑的事情,而(我们幸运地)无需推理。因此,这个世界的真正逻辑是概率演算,它考虑了概率的大小(即,或者应该在一个合理的人的脑海中)。
所以我们可以说:
–在统计中,我们“将注意力集中在少量的人工组”或数量上;我们正在进行某种分类或人口普查。
–根据概率,我们正在计算某些事件或数量的不确定性。
两者是截然不同的,我们可以一无所有。
例如,如果我们对一个国家的整个人口进行完整的人口普查,并计算出属于特定群体(例如年龄,性别等)的确切人数,我们就会进行统计。没有涉及不确定性-可能性-因为我们发现的数字是准确的和已知的。
另一方面,假设有人在大街上经过我们的面前,我们想知道他们的年龄。在这种情况下,我们不确定并且使用概率,但是不涉及统计信息,因为我们没有进行某种普查或分类。
但是两者也可以同时出现。如果我们无法对人口进行完整的人口普查,则必须猜测特定年龄性别组中有多少人。因此,我们在进行统计时使用概率。反之亦然,我们可以考虑有关人们年龄的确切统计数据,并从这些数据中更好地猜测在我们面前经过的人。因此,我们在确定概率时使用统计数据。