Questions tagged «interpretation»

通常指从统计分析结果中得出实质性结论。

2
如果我们只对建模感兴趣,而对预测不感兴趣,则正则化功能会有所帮助吗?
如果我们仅对估计(和解释)模型参数感兴趣,而对预测或预测不感兴趣,则正则化功能会有所帮助吗? 如果您的目标是对新数据做出良好的预测,我将看到正则化/交叉验证非常有用。但是,如果您正在做传统经济学,而您所关心的只是估计呢?在这种情况下,交叉验证是否也有用?我在概念上遇到的困难是,我们实际上可以在测试数据上计算,但我们永远无法计算因为根据定义,从未观察到真实的。(假设存在一个真实的,即我们知道从中生成数据的模型族。)ββ\beta大号( ÿ,Y^)大号(ÿ,ÿ^)\mathcal{L}\left(Y, \hat{Y}\right)大号( β,β^)大号(β,β^)\mathcal{L}\left(\beta, \hat{\beta}\right)ββ\betaββ\beta 假设您的损失是。您将面临偏差方差的折衷,对吗?因此,从理论上讲,您最好进行一些正则化。但是,如何选择正则化参数呢?大号( β,β^) = ∥ β-β^∥大号(β,β^)=‖β-β^‖\mathcal{L}\left(\beta, \hat{\beta}\right) = \lVert \beta - \hat{\beta} \rVert 我很高兴看到一个线性回归模型的简单数值示例,其系数为β≡ (β1个,β2,… ,βķ)β≡(β1个,β2,…,βķ)\beta \equiv (\beta_1, \beta_2, \ldots, \beta_k),其中研究人员的损失函数为∥ β- β^∥‖β-β^‖\lVert \beta - \hat{\beta} \rVert,或什至(β1个- β^1个)2(β1个-β^1个)2(\beta_1 - \hat{\beta}_1)^2。在实践中,如何在这些示例中使用交叉验证来改善预期损失? 编辑:约翰逊(DJohnson)将我指向https://www.cs.cornell.edu/home/kleinber/aer15-prediction.pdf,与该问题相关。作者写道 机器学习技术...提供了一种预测\ hat {Y}的有条理的方法, ÿ^ÿ^\hat{Y}该方法(i)使用数据本身来决定如何进行偏差方差的权衡,并且(ii)可以搜索非常丰富的变量和函数形式。但是,一切都是有代价的:必须始终牢记,因为它们针对\ hat {Y}进行了调整,所以它们ÿ^ÿ^\hat{Y} (在没有其他许多假设的情况下)不会为\ hat {\ beta}提供非常有用的保证β^β^\hat{\beta}。 再次感谢DJohnson,这是另一篇相关论文:http ://arxiv.org/pdf/1504.01132v3.pdf 。本文解决了我在上面遇到的问题: 将现成的回归树等机器学习方法应用于因果推理问题的一个根本挑战是,基于交叉验证的正则化方法通常依赖于观察“基本事实”,即实际结果在交叉验证样本中。但是,如果我们的目标是最小化治疗效果的均方误差,则会遇到[11]所说的“因果推理的基本问题”:没有观察到因果关系的任何个体,因此我们不会直接有一个基本的事实。我们通过提出用于构建治疗因果效应的均方误差的无偏估计的方法来解决此问题。

3
ARIMA模型解释
我对ARIMA模型有疑问。假设我有一个要预测的时间序列ÿŤÿŤY_t,模型似乎是进行预测的好方法。 现在,滞后的表示我今天的系列受到先前事件的影响。这很有道理。但是错误的解释是什么?我以前的残差(我的计算还算可以接受)影响了我今天的系列的价值?该回归中的滞后残差是回归的乘积/余数,如何计算?ARIMA (2 ,2 )有马(2,2)\text{ARIMA}(2,2)Δ ÿŤ= α1个Δ ÿt − 1+ α2Δ ÿt − 2+ νŤ+ θ1个νt − 1+ θ2νt − 2ΔÿŤ=α1个ΔÿŤ-1个+α2ΔÿŤ-2+νŤ+θ1个νŤ-1个+θ2νŤ-2 \Delta Y_t = \alpha_1 \Delta Y_{t-1} + \alpha_2 \Delta Y_{t-2} + \nu_{t} + \theta_1 \nu_{t-1} + \theta_2 \nu_{t-2} ÿÿY

1
解释2D对应分析图
我一直在广泛地搜索互联网...我还没有找到关于如何解释2D对应分析图的非常好的概述。有人可以提供一些建议来解释点之间的距离吗? 也许一个例子会有所帮助,这是我所见过的许多讨论对应分析的网站上的图表。红色三角形代表眼睛的颜色,黑色点代表头发的颜色。 查看上图,您能否对在这些数据中看到的内容做一些陈述。关于三角形和点之间的不同尺寸和关系的兴趣点? 行点对列点的解释,特别是在示例中使用单词“ profile”将很有帮助。

1
绘制并解释序数逻辑回归
我有一个序数相关变量,易用性,范围从1(不容易)到5(非常容易)。独立因子值的增加与易用性等级的提高相关。 我的两个自变量(condA和condB)是分类的,每个具有2个级别,而2(abilityA,abilityB)是连续的。 我在R中使用了序数包,它使用了我认为是的 (来自@狞的答案在这里)分对数(p (ÿ⩽ 克))= lnp (ÿ⩽ 克)p (ÿ> 克)= β0G− (β1个X1个+ ⋯ + βpXp)(克= 1 ,… ,k − 1 )Logit(p(ÿ⩽G))=ln⁡p(ÿ⩽G)p(ÿ>G)=β0G-(β1个X1个+⋯+βpXp)(G=1个,…,ķ-1个)\text{logit}(p(Y \leqslant g)) = \ln \frac{p(Y \leqslant g)}{p(Y > g)} = \beta_{0_g} - (\beta_{1} X_{1} + \dots + \beta_{p} X_{p}) \quad(g = 1, \ldots, k-1) 我一直在独立地学习这一点,并希望在我仍在努力的过程中提供任何帮助。除了序数包随附的教程外,我还发现以下内容会有所帮助: 序数逻辑回归的解释 有序逻辑回归中的负系数 但是我试图解释结果,并将不同的资源放在一起,并陷入困境。 …

2
为什么对方差进行回归?
我正在读这篇笔记。 在第2页上,它指出: “给定的回归模型可以解释多少数据差异?” “回归解释是关于系数的均值;推论是关于它们的方差。” 我已经多次阅读过此类陈述,为什么我们会关心“给定的回归模型可以解释数据中的多少差异?”……更具体地说,为什么“差异”呢?

2
有多个类别变量时对Beta的解释
我理解是分类变量等于0(或参考组)时的均值的概念,最终解释为回归系数是两个类别的均值之差。即使有> 2个类别,我也会假设每个解释该类别的均值和参考之间的差异。β^0β^0\hat\beta_0β^β^\hat\beta 但是,如果将更多变量引入多变量模型,该怎么办?现在,截距是什么意思,意味着它不能作为两个分类变量的参考?例如性别(M(参考)/ F)和种族(白人(参考)/黑人)都在模型中。是平均仅为白人男性?一个人如何解释其他可能性?β^0β^0\hat\beta_0 作为单独的注释:对比声明是否可作为一种方法来研究效果修改?还是只是看到不同级别的效果()?β^β^\hat\beta

4
当我们通常使用无信息或主观先验时,贝叶斯框架在解释方面如何更好?
人们经常认为贝叶斯框架在解释(相对于频繁主义者)方面具有很大的优势,因为贝叶斯框架在给定数据而不是频繁主义者框架中的p (x | θ )的情况下计算参数的概率。到目前为止,一切都很好。p (θ | x )p(θ|X)p(\theta|x)p (x | θ )p(X|θ)p(x|\theta) 但是,整个方程式基于: p (θ | x )= p (x | θ )。p (θ )p (x )p(θ|X)=p(X|θ)。p(θ)p(X)p(\theta|x) = {p(x|\theta) . p(\theta) \over p(x)} 在我看来有点可疑,原因有两个: 在许多论文中,通常使用无信息的先验(均匀分布),然后仅使用,因此贝叶斯算法与常客得到的结果相同-那么贝叶斯框架如何更好地解释,当贝叶斯后验概率和常客概率是相同的分布时?它只是产生相同的结果。p (θ | x )= p (x | θ )p(θ|X)=p(X|θ)p(\theta|x) = p(x|\theta) 当使用信息先验时,您会得到不同的结果,但是贝叶斯方法受主观先验的影响,因此整个也具有主观色彩。p (θ | …

3
Kullback-Leibler散度分析
让我们考虑以下两个概率分布 P Q 0.01 0.002 0.02 0.004 0.03 0.006 0.04 0.008 0.05 0.01 0.06 0.012 0.07 0.014 0.08 0.016 0.64 0.928 我已经计算出等于 Kullback-Leibler散度,我想知道这个数字通常向我显示什么?通常,Kullback-Leibler散度告诉我一个概率分布与另一个概率分布有多远,对吗?它与熵术语相似,但是就数字而言,这意味着什么?如果我得到的结果是0.49,我可以说大约一个分布与另一个分布相差50%吗?0.4928202580.4928202580.492820258


2
序数逻辑回归的解释
我在R中运行此序数逻辑回归: mtcars_ordinal <- polr(as.factor(carb) ~ mpg, mtcars) 我得到了该模型的摘要: summary(mtcars_ordinal) Re-fitting to get Hessian Call: polr(formula = as.factor(carb) ~ mpg, data = mtcars) Coefficients: Value Std. Error t value mpg -0.2335 0.06855 -3.406 Intercepts: Value Std. Error t value 1|2 -6.4706 1.6443 -3.9352 2|3 -4.4158 1.3634 -3.2388 3|4 -3.8508 1.3087 -2.9425 …

2
如何解释马修斯相关系数(MCC)?
问题的答案phi,Matthews和Pearson相关系数之间的关系?表明三种系数方法都是等效的。 我不是来自统计数据,所以这应该是一个简单的问题。 Matthews的论文(www.sciencedirect.com/science/article/pii/0005279575901099)描述了以下内容: "A correlation of: C = 1 indicates perfect agreement, C = 0 is expected for a prediction no better than random, and C = -1 indicates total disagreement between prediction and observation"`. 根据Wikipedia(http://en.wikipedia.org/wiki/Pearson_product-moment_correlation_coefficient),皮尔森相关性描述为: giving a value between +1 and −1 inclusive, where: 1 is total positive correlation, …

2
虚拟变量的功能重要性
我试图了解如何获得已分解为虚拟变量的分类变量的功能重要性。我正在使用scikit-learn,它不像R或h2o那样为您处理分类变量。 如果将分类变量分解为虚拟变量,则该变量中每个类的功能重要性都不同。 我的问题是,将这些虚拟变量的重要性通过简单地求和重新组合为分类变量的重要性值是否有意义? 从《统计学习的要素》第368页开始: 变量的平方相对重要性XℓXℓX_{ℓ}是在所有的内部节点,例如平方改进它为之选择作为分割变量的总和 这使我认为,由于重要性值已经通过在每个节点上选择一个变量的总和来创建,因此我应该能够组合虚拟变量的变量重要性值以“恢复”分类变量的重要性。当然,我不希望它是完全正确的,但是无论如何这些值实际上都是准确的值,因为它们是通过随机过程找到的。 我已经编写了以下python代码(以jupyter格式)作为调查: import numpy as np import pandas as pd import matplotlib.pyplot as plt from matplotlib import animation, rc from sklearn.datasets import load_diabetes from sklearn.ensemble import RandomForestClassifier import re #%matplotlib inline from IPython.display import HTML from IPython.display import set_matplotlib_formats plt.rcParams['figure.autolayout'] = False plt.rcParams['figure.figsize'] = 10, …

1
解读LASSO变量迹线图
我是该glmnet软件包的新手,但仍不确定如何解释结果。谁能帮助我阅读以下跟踪图? 通过运行以下命令获得该图: library(glmnet) return <- matrix(ret.ff.zoo[which(index(ret.ff.zoo)==beta.df$date[2]), ]) data <- matrix(unlist(beta.df[which(beta.df$date==beta.df$date[2]), ][ ,-1]), ncol=num.factors) model <- cv.glmnet(data, return, standardize=TRUE) op <- par(mfrow=c(1, 2)) plot(model$glmnet.fit, "norm", label=TRUE) plot(model$glmnet.fit, "lambda", label=TRUE) par(op)


2
频率统计的主观性
我经常听到有人声称贝叶斯统计数据可能是高度主观的。主要论点是推论取决于先验的选择(即使可以使用无差异或最大熵的原理来选择先验)。相比之下,常客统计通常更客观。这句话有多少道理? 另外,这让我感到奇怪: 经常性统计的具体要素(如果有)中哪些是特别主观的,在贝叶斯统计中不存在或不太重要? 贝叶斯主义的主观性是否比常客主义的统计更为普遍?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.