我略微混淆如果自变量在统计模型(也称为预测器或功能),例如,线性回归,是一个随机变量?ÿ = β 0 + β 1 X
我略微混淆如果自变量在统计模型(也称为预测器或功能),例如,线性回归,是一个随机变量?ÿ = β 0 + β 1 X
Answers:
线性回归有两种常见的表达方式。 为了专注于概念,我将对它们进行一些抽象。数学描述比英语描述要复杂得多,因此让我们从后者开始:
线性回归是一个模型,其中假定响应是随机的,其分布由回归器通过线性映射以及可能由其他参数。
在大多数情况下,可能分布的集合是具有参数和的位置族,而给出参数。典型的例子是常态回归,其中分布的集合是正态族而是回归变量的线性函数。
由于我尚未在数学上对此进行描述,因此,,,和指的是哪种数学对象仍然是一个悬而未决的问题,并且我认为这是该线程中的主要问题。尽管可以做出各种(等效)选择,但是大多数选择将等同于以下描述,或者是特殊情况。
固定回归器。 的回归量被表示为实数向量。所述响应是一个随机变量(其中,被赋予了一个Σ字段和概率)。该模型是一个函数(或者,如果您愿意,可以用Θ设置一组函数)。 中号d是概率分布空间维数为的有限维拓扑(通常是第二可微分)子流形(或带边界子流形)。 通常被认为是连续的(或足够可微的)。 是“多余参数”。假定的分布是为一些未知双重矢量以下简称“回归系数”)和未知。我们可以写这个
随机回归器。的回归量和响应是一个维矢量值随机变量。模型与以前的对象相同,但现在给出了条件概率
如果没有一些处方说明如何将其应用于数据,则数学描述是无用的。在固定回归器的情况下,我们认为由实验者指定。因此,将视为具有乘积sigma代数的乘积可能会有所帮助。实验者确定和性质决定(一些未知的,抽象的)。在随机回归的情况下,性质决定中,随机变量的-component 确定(其被“观察”),并且我们现在有一个有序对完全一样在固定回归的情况。
多重线性回归(我将表达使用标准表示法为对象,而不是这个更一般的一种)的原型实例是
当-在whatsoever--任何方式被推定为β和σ为σ,的值β(X )是预测值的ý关联X --whether X由实验者控制(情况1 )或仅被观察到(情况2)。如果我们要么设置的值(情况1)或观察一个实现(情况2)X的X,则响应ÿ与该相关联的X是一个随机变量,其分布是 Ñ( ,这是未知的,但估计是。
首先,@ whuber提供了一个很好的答案。我会给它一个不同的看法,从某种意义上说可能更简单,同时还要引用文本。
在回归公式中可以是随机的或固定的。这取决于您的问题。对于所谓的观察性研究,它必须是随机的,而对于实验,它通常是固定的。
例子一。我正在研究暴露于电子辐射下对金属零件硬度的影响。因此,我对金属零件进行了一些采样,并将它们暴露在变化的辐射水平下。我的曝光级别是X,并且是固定的,因为我设置为选择的级别。我完全控制了实验条件,或者至少尝试了。我可以对其他参数(例如温度和湿度)执行相同的操作。
例子二。您正在研究经济对信用卡申请中欺诈行为发生频率的影响。因此,您可以将欺诈事件归因于GDP。您无法控制GDP,也无法将其设置为所需的水平。而且,您可能希望查看多元回归,因此您拥有其他变量,例如失业率,现在您在X中拥有观察到的但不受控制的值的组合。在这种情况下,X是随机的。
例子三。您正在现场研究新农药的功效,即不是在实验室条件下,而是在实际的实验农场中。在这种情况下,您可以控制某些东西,例如,您可以控制要放置的农药量。但是,您无法控制一切,例如天气或土壤条件。好的,您可以在一定程度上控制土壤,但不能完全控制土壤。这是一种介于中间的情况,其中观察到某些条件并且控制了某些条件。整个研究领域都称为实验设计,实际上专注于第三种情况,其中农业研究是其中最大的应用之一。
这是答案的数学部分。在研究线性回归时,通常会提出一组假设,称为高斯-马尔可夫条件。它们是非常理论性的,没有人愿意证明它们适合任何实际设置。但是,它们对于理解普通最小二乘(OLS)方法的局限性非常有用。
因此,随机和固定X的假设集不同,这大致对应于观察性研究与实验性研究。大致来说,因为如我在第三个示例中所示,有时我们确实处于极端之间。我发现Salkind的《研究设计百科全书》中的“ Gauss-Markov”定理部分是一个很好的起点,可以在Google图书中找到。
在此有固定的设计的不同的假设为通常的回归模型如下:
与随机设计中的相同假设:
如您所见,不同之处在于对随机设计的设计矩阵进行了假设设定。条件使这些假设更强。例如,我们不仅仅是像固定设计中所说的那样,误差均值为零。在随机设计中,我们还说它们不依赖X协变量。
在统计中,随机变量是数量以某种方式随机变化的数量。您可以在这个出色的CV线程中找到一个很好的讨论:“随机变量”是什么意思?
In a regression model, the predictor variables (X-variables, explanatory variables, covariates, etc.) are assumed to be fixed and known. They are not assumed to be random. All of the randomness in the model is assumed to be in the error term. Consider a simple linear regression model as standardly formulated:
Not sure if I understand the question, but if you're just asking, "must an independent variable always be a random variable", then the answer is no.
An independent variable is a variable which is hypothesised to be correlated with the dependent variable. You then test whether this is the case through modelling (presumably regression analysis).
There are a lot of complications and "ifs, buts and maybes" here, so I would suggest getting a copy of a basic econometrics or statistics book covering regression analysis and reading it thoroughly, or else getting the class notes from a basic statistics/econometrics course online if possible.