建立统计模型到底是什么？

15

建立统计模型到底是什么？

这些天，当我申请研究工作或咨询工作时，经常会出现“建立模型”或“建模”一词。这个词听起来很酷，但是它们到底指的是什么？您如何建立模型？

我查找了预测模型，其中包括k-nn和逻辑回归。

modeling

— 用户名
source

1

这是相当广泛的，它可能是指一个巨大的各种型号-各种回归，多层次模型，树及其变种，集群....等等

— 彼得·弗洛姆-恢复莫妮卡

统计模型与数学模型相同，区别在于统计模型的变量会考虑错误。数学模型：重量=身高* 2.7。统计模型：重量=高度* 2.7 +误差。

— 尼尔·麦圭根

2

我想引用这篇文章：统计建模：这两种文化

— user13985

12

尽管我绝对不是统计学家，但我会做些破解，但会从事很多“建模”工作-统计和非统计。

首先让我们从基础开始：

究竟是什么模型？

尽管高度简化，但模型是现实的表示。考虑一下房屋的蜡/木“模型”。您可以触摸/感觉/闻到它。现在，数学模型可以用数字表示现实。

我听到你问这个“现实”是什么？好的。因此，请考虑以下简单情况：您所在州的州长执行一项政策，说明年一包香烟的价格为100美元。“目的”是为了阻止人们购买香烟，从而减少吸烟，从而使吸烟者更加健康（因为他们会戒烟）。

一年后，州长问您-这成功了吗？你怎么能这样说？好吧，您可以捕获数据，例如每天或每年出售的数据包数量，调查响应，可以得到的与问题相关的任何可测量数据。您才刚刚开始“建模”问题。现在，你要分析一下这个“模型” 说。这就是统计建模方便的地方。您可以运行一个简单的相关/散点图来查看模型的“外观”。您可能会喜欢确定因果关系，即，价格上涨是否确实导致吸烟减少，或者是否有其他混杂因素在起作用（即，也许是其他因素，您的模型可能错过了吗？）。

现在，通过“一套规则”（更像是准则）来构建该模型，即什么是合法的，什么是不合法的。您应该知道自己在做什么以及如何解释该模型的结果。建立/执行/解释此模型需要统计的基本知识。在上面的示例中，您需要了解相关/散点图，回归（单变量和多元变量）和其他内容。我建议您阅读有关直观理解统计信息的绝对有趣/有启发性的读物：反正是p值这是对统计信息的幽默介绍，它将教您从简单到高级（即线性回归）的“建模”。然后，您可以继续阅读其他内容。

因此，请记住，模型代表了现实，并且“所有模型都是错误的，但有些模型比其他模型更有用”。模型是对现实的简化表示，您不可能考虑所有因素，但您必须知道拥有一个可以给您带来有意义结果的良好模型的目的和不应该考虑的内容。

不止于此。您也可以创建模型来模拟现实！这就是一堆数字随时间变化的方式（例如）。这些数字映射到您域中的一些有意义的解释。您也可以创建这些模型来挖掘数据，以查看各种度量之间的相互关系（此处的统计数据应用可能有疑问，但现在不必担心）。示例：您查看一个商店每月的杂货销售，并意识到，每当购买啤酒时，一包尿布也是如此（您建立了一个模型，该模型遍历数据集并显示此关联）。这可能很奇怪，但它可能意味着大多数父亲在周末坐着孩子时买的？将尿布放在啤酒附近，您可以增加销售！啊！造型:)

这些仅是示例，绝不是专业工作的参考。您基本上是建立模型来理解/估计现实将如何/将如何起作用，并根据输出做出更好的决策。是否统计，您可能一生都在建模，而没有意识到。祝你好运:)

— 博士
source

11

建立统计模型涉及构建一些现实世界现象的数学描述，以解释该系统涉及的不确定性和/或随机性。根据应用领域的不同，其范围从简单的线性回归或基本假设检验到复杂的多元因素分析或数据挖掘。

— 戴夫
source

5

我对此表示赞同，因为这是对一个极为广泛的问题的英勇努力。不过，我对“数据挖掘”是否涉及任何统计模型有一些疑问，希望能看到一个示例或对您用该词表示的意思进行澄清。

— whuber

@whuber LASSO具有功能选择功能，这在某种意义上不是建立回归模型吗？

— user13985

换句话说，这有点像只用假想的砖头和灰浆盖房子？我的深奥的评论是开玩笑说。:)

— Graeme Walsh

1

数据挖掘可用作构建或验证给定模型的过程的一部分。

— 戴夫

5

对我而言，建模涉及为带有可估计参数的观测数据指定一个概率框架，这些参数可用于辨别可观测数据存在时的宝贵差异。这就是所谓的力量。概率模型可用于预测或推理。它们可用于校准机械，证明投资回报不足，预测天气或库存或简化医疗决策。

不一定需要建立模型。在孤立的实验中，可以使用非参数建模方法（例如t检验）来确定两组之间的均值是否存在显着差异。但是，出于许多预测目的，可以构建模型以检测时间的变化。例如，基于过渡的马尔可夫模型可用于预测投资市场价值的上下波动，但在何种程度上“下跌”被认为比预期的糟糕？利用历史证据和观察到的预测因子，可以建立一个复杂的模型来校准观察到的下降与历史上持续的下降是否显着不同。使用控制图，累积发生率图，生存曲线和其他“基于时间”的图之类的工具，

或者，通过灵活地适应数据增长来“构建”某些模型。Twitter对趋势的检测和Netflix的推荐系统是此类模型的主要示例。它们具有通用规范（贝叶斯模型平均），该规范允许使用灵活的模型来适应历史变化和趋势，并进行重新校准以保持最佳预测，例如引入高影响力电影，吸引大量新用户或由于季节性因素，电影喜好发生了巨大变化。

之所以介绍一些数据挖掘方法，是因为它们非常擅长于实现某些类型的预测方法（同样，获得数据中“预期”趋势或值的问题）。K-NN是一种合并高维数据并推断对象是否可以仅仅由于接近性（无论是从年龄，音乐品味，性史或某些其他可测量性状）而获得可靠预测的方法。另一方面，逻辑回归可以获取二元分类器，但更常用的是通过称为比值比的参数来推断二元结果与一个或多个暴露和条件之间的关联。由于极限定理及其与广义线性模型的关系，优势比是具有“高度保守” I型错误（即

— 亚当
source

谢谢你的话在Twitter检测到Netflix的情况下，机器学习领域难道不是或多或少吗？我经常无法在建模和机器学习之间划清界限。

— user13985 2013年

1

机器学习通常是高维建模。许多方法是采用惩罚或加权的基于可能性的现有方法的特例。

— AdamO

感谢您验证我的想法，如果您还有其他需要，请告诉我。

— user13985

3

建模是确定合适模型的过程。

通常，建模者会对重要变量有一个很好的了解，甚至可能为特定模型具有理论基础。他们还将了解有关响应以及与预测变量之间的一般关系的一些事实，但可能仍不确定他们对模型的一般概念是否完全足够-即使他们具有关于均值如何工作的出色理论想法，例如，您可能不确定方差与均值无关，或者他们可能怀疑可能存在一系列依存关系。

因此，可能存在模型识别的多个阶段的循环，这些阶段引用（至少某些）数据。另一种选择是定期冒险拥有非常不合适的模型。

（当然，如果他们负责任，则必须考虑以这种方式使用数据如何影响他们的推论。）

实际过程因地区而异，因人而异，但是有可能找到一些人明确列出其过程中的步骤（例如Box和Jenkins 在其时间序列书中概述了这种方法之一）。关于如何进行模型识别的想法会随着时间而改变。

— Glen_b-恢复莫妮卡
source

0

我认为对于统计模型的构成没有统一的定义。根据我在该行业的经验，这似乎是计量经济学中被称为简化形式模型的代名词。我会解释。

$F=m\frac {d^2x}{dt^2}$

该模型将具有物理学家所谓的“常数”或“系数”，例如给定温度和高度下的空气密度。您必须通过实验找出这些系数是多少。就我们而言，我们将要求火炮在许多不同的，严格控制的条件下（例如角度，温度等）发射大炮。

我们收集所有数据，并使用统计技术拟合模型。它可以像线性回归或平均值一样简单。一旦获得所有系数，我们现在就运行数学模型来生成点火表。这在此处未分类的文档“大炮炮台的生产” 中进行了巧妙地描述。

我刚才描述的不是统计模型。是的，它确实使用统计数据，但是此模型使用建立的物理定律，这是模型的本质。在这里，统计信息只是确定一些重要参数值的工具。系统的动力学由现场描述和确定。

假设我们不了解或不关心物理定律，只是尝试使用“统计模型”建立大炮飞行距离与诸如发射角度和温度等参数之间的关系。我们将创建一个大数据集，其中包含一堆候选变量或特征，以及变量的转换，可能是温度的多项式序列等。然后，我们将进行回归分析并确定系数。这些系数在本领域不一定具有确定的解释。我们将它们称为对温度平方的敏感度。该模型实际上可以很好地预测炮弹的终点，因为其基本过程非常稳定。

— 阿克萨卡尔族
source