统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

1
逐步AIC-关于此主题是否存在争议?
我在该网站上阅读了无数帖子,这些帖子令人难以置信地反对使用任何类型的标准(无论是基于p值,AIC,BIC等)逐步选择变量。 我理解为什么这些程序通常比较笼统,而变量选择却很差。龚可能在这里著名的帖子清楚地说明了原因;最终,我们将在用于得出假设的同一数据集上验证假设,即数据挖掘。此外,p值还受共线性和离群值之类的量的影响,这些结果会严重偏斜等。 但是,最近我一直在研究时间序列预测,并且遇到了Hyndman备受推崇的教科书,他在这里提到使用逐步选择来找到ARIMA模型的最佳顺序。实际上,在forecastR包中,众所周知auto.arima的默认算法默认使用逐步选择(对于AIC,不是p值)。他还批评了基于p值的功能选择,该功能与该网站上的多个帖子非常吻合。 最终,如果目标是开发用于预测/预测的良好模型,则最终应始终以某种方式进行交叉验证。但是,在确定p值以外的评估指标的过程本身时,在这里肯定有一些分歧。 在这种情况下,或者在这种情况下,对于使用逐步式AIC,有人是否有任何意见?我被教导要相信任何逐步的选择都是不好的,但是老实说,auto.arima(stepwise = TRUE)与样本相比,我给了我更好的结果,auto.arima(stepwise = FALSE)但是也许这只是巧合。



2
从贝叶斯角度看LASSO和ridge:调整参数如何?
惩罚性回归估计量(例如LASSO和ridge)据说与具有某些先验的贝叶斯估计量相对应。我猜(因为我对贝叶斯统计知识还不够了解),对于固定的调整参数,存在一个具体的对应先验。 现在,常客可以通过交叉验证来优化调整参数。是否有这样做的贝叶斯等效项,并且完全使用吗?还是贝叶斯方法在查看数据之前有效地调整了调整参数?(我猜后者会损害预测性能。)

11
在这个独裁者游戏的例子中,您可以根据相关性推断因果关系吗?
我刚刚参加了考试,我们看到了两个变量。在一个独裁者游戏中,一个独裁者得到100美元,并且可以选择自己寄出或保留多少钱,在年龄和参与者决定保留多少钱之间存在正相关。 我的想法是,您不能由此推断因果关系,因为您不能从相关性推断因果关系。我的同学认为您可以,因为,例如,如果您将参与者分成三个单独的组,您可以看到他们在保留的人数和共享的人数上有何不同,因此得出结论,年龄会导致他们保留更多的人数。谁是正确的,为什么?


7
“正态分布”是否需要均值=中位数=众数?
我一直在与我的研究生统计教授就“正态分布”进行辩论。我认为,要真正获得正态分布,必须具有均值=中位数=模式,所有数据必须包含在钟形曲线下,并且均值周围完全对称。因此,从技术上讲,实际研究中实际上没有正态分布,我们应该称其为其他值,也许是“接近正态”。 她说我太挑剔了,如果偏斜度/峰度小于1.0,则它是正态分布,会降低考试分数。该数据集是在52个疗养院的随机抽样中,每年跌倒的总数,这是较大人群的随机抽样。有见识吗? 问题: 问题:3.计算该数据的偏度和峰度的量度。包括具有正态曲线的直方图。讨论您的发现。数据是否正态分布? Statistics Number of falls N Valid 52 Missing 0 Mean 11.23 Median 11.50 Mode 4a 一种。存在多种模式。显示最小值 Number of falls N Valid 52 Missing 0 Skewness .114 Std. Error of Skewness .330 Kurtosis -.961 Std. Error of Kurtosis .650 我的答案: 数据是platykurtic的,并且只有轻微的正偏斜,并且它不是正态分布,因为均值,中位数和众数不相等,并且数据在均值附近分布不均匀。实际上,尽管我们可以讨论“近似正态分布”,例如身高,体重,体温或成年无名指长度,但实际上没有数据是完美的正态分布。 教授的回答: 您是正确的,没有完美的正态分布。但是,我们并不是在寻求完美。除了直方图和集中趋势的度量外,我们还需要查看数据。关于分布的偏度和峰度统计信息告诉您什么?因为它们都在-1和+1的临界值之间,所以该数据被认为是正态分布的。

3
为什么不使用“正规方程”来找到简单的最小二乘系数呢?
我在这里看到了这个列表,简直不敢相信有这么多方法可以求解最小二乘。对“正规方程” 维基百科似乎是一个相当简单的方法 α^β^=y¯−β^x¯,=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2α^=y¯−β^x¯,β^=∑i=1ñ(X一世-X¯)(ÿ一世-ÿ¯)∑一世=1个ñ(X一世-X¯)2 {\displaystyle {\begin{aligned}{\hat {\alpha }}&={\bar {y}}-{\hat {\beta }}\,{\bar {x}},\\{\hat {\beta }}&={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\end{aligned}}} 那么为什么不仅仅使用它们呢?考虑到Mark L.上面的第一个链接,我认为一定存在计算或精度问题。Stone提到SVD或QR是统计软件中流行的方法,并且正常方程式“从可靠性和数值精度的角度来看很麻烦”。但是,在下面的代码中,与三个流行的python函数相比,正则方程使我的精度达到了〜12个小数位:numpy的polyfit;西皮的罪过 ; 和scikit-learn的LinearRegression。 更有意思的是,当n = 100000000时,法线方程法最快。polyfit为12.9s;用于线性回归的4.2s;对于标准方程式为1.8秒。 码: import numpy as np from sklearn.linear_model import LinearRegression from scipy.stats import linregress import timeit b0 = 0 b1 = 1 n = 100000000 …

1
测验:通过分类边界告诉分类器
给出以下6个决策边界。决策边界是紫罗兰色线。点和十字是两个不同的数据集。我们必须确定哪个是: 线性支持向量机 内核化SVM(2阶多项式内核) 感知器 逻辑回归 神经网络(1个隐藏层和10个整流线性单元) 神经网络(1个隐藏层,具有10 tanh单位) 我想要解决方案。但更重要的是,了解差异。例如,我会说c)是线性SVM。决策边界是线性的。但是我们也可以使线性SVM决策边界的坐标均匀化。d)核化的SVM,因为它是多项式阶数2。f)由于“粗糙”的边缘,因此校正了神经网络。也许a)逻辑回归:它也是线性分类器,但基于概率。

1
有同时进行L1和L2正则化(又称弹性网)的线性回归的贝叶斯解释吗?
众所周知,惩罚为线性回归等效于在系数上给出高斯先验后找到MAP估计。同样,使用l 1罚则等同于使用拉普拉斯分布作为先验。l2l2l^2l1l1l^1 使用和l 2正则化的一些加权组合并不罕见。我们是否可以说这等于系数上的某些先验分布(直觉上似乎必须如此)?我们可以给这个分布一个好的分析形式(也许是高斯和拉普拉斯的混合)吗?如果没有,为什么不呢?l1l1l^1l2l2l^2

1
最大似然和矩量法何时会产生相同的估计量?
前几天有人问我这个问题,以前从未考虑过。 我的直觉来自每个估算器的优势。最大似然最好是在我们对数据生成过程充满信心时进行,因为与矩量方法不同,它最大程度地利用了整个分布的知识。由于MoM估算器仅使用时刻中包含的信息,因此当我们尝试估算的参数的足够统计量恰好是数据时刻时,这两种方法似乎应产生相同的估算。 (0 ,θ )(0,θ)(0,\theta)θθ\theta最大(X1个,⋯ ,Xñ)最高(X1个,⋯,Xñ)\max(X_1,\cdots,X_N) 我以为这可能是指数族的怪癖,但是对于已知均值的拉普拉斯来说,足够的统计量是且方差的MLE和MoM估计量不相等。1个ñ∑ | X一世|1个ñ∑|X一世|\frac{1}{n} \sum |X_i| 到目前为止,我一般无法显示任何结果。有人知道一般情况吗?甚至是一个反例也可以帮助我改善直觉。

2
为什么beta回归不能在响应变量中正确处理0和1?
通常建议使用beta回归(即具有beta分布的GLM,通常是logit链接函数)来处理响应aka因变量,其取值介于0和1之间,例如分数,比率或概率:结果的回归(比率或分数)在0和1之间。 但是,总是声称一旦响应变量至少等于0或1,就不能使用beta回归。如果是这样,则需要使用零/一膨胀的beta模型,或者对响应进行某种转换,等等。:Beta回归比例数据,包括1和0。 我的问题是:β分布的哪个属性阻止β回归处理精确的0和1,为什么? 我猜这是和不支持beta发行版的原因。但是对于所有形状参数和,零和一个都支持beta分布,只有较小的形状参数的分布在一侧或两侧达到无穷大。也许样本数据使得提供最佳拟合的和都将大于。000111α>1α>1\alpha>1β>1β>1\beta>1αα\alphaββ\beta111 这是否意味着在某些情况下,即使使用零/ 一,实际上也可以使用beta回归吗? 当然,即使0和1支持beta分布,准确观察0或1的概率也为零。但是观察其他给定可计数值集合的可能性也是如此,所以这不是问题吗?(参见@Glen_b的评论)。 \hskip{8em} 在beta回归的上下文中,beta分布的参数设置不同,但是对于,对于所有,仍应在进行明确定义。ϕ=α+β>2ϕ=α+β>2\phi=\alpha+\beta>2[0,1][0,1][0,1]μμ\mu


4
异常值的“框线图”定义的依据是什么?
Box和Whisker图的离群值的标准定义是范围之外的点,其中I Q R = Q 3 − Q 1和Q 1为数据的第一个四分位数和Q 3是数据的第三个四分位数。{Q1−1.5IQR,Q3+1.5IQR}{Q1−1.5IQR,Q3+1.5IQR}\left\{Q1-1.5IQR,Q3+1.5IQR\right\}IQR=Q3−Q1IQR=Q3−Q1IQR= Q3-Q1Q1Q1Q1Q3Q3Q3 此定义的依据是什么?在具有大量点的情况下,即使是完美的正态分布也会返回异常值。 例如,假设您从以下序列开始: xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025) 此序列创建了4000个数据点的百分位排名。 测试qnorm本系列的正态性会导致: shapiro.test(qnorm(xseq)) Shapiro-Wilk normality test data: qnorm(xseq) W = 0.99999, p-value = 1 ad.test(qnorm(xseq)) Anderson-Darling normality test data: qnorm(xseq) A = 0.00044273, p-value = 1 结果完全符合预期:正态分布的正态是正态的。创建一条qqnorm(qnorm(xseq))(按预期方式)直线数据: 如果创建了相同数据的箱线图,则boxplot(qnorm(xseq))产生结果: 当样本大小足够大时,箱形图不同于shapiro.test,ad.test或, qqnorm将几个点标识为离群值(如本例所示)。

2
来自两个独立的伯努利人口的抽样分布
让我们假设我们有两个独立的伯努利随机变量的样本,乙ë - [R( θ1个)乙Ë[R(θ1个)\mathrm{Ber}(\theta_1)和乙È - [R( θ2)乙Ë[R(θ2)\mathrm{Ber}(\theta_2)。 我们如何证明吗?(X¯1−X¯2)−(θ1−θ2)θ1(1−θ1)n1+θ2(1−θ2)n2−−−−−−−−−−−−−−√→dN(0,1)(X¯1−X¯2)−(θ1−θ2)θ1(1−θ1)n1+θ2(1−θ2)n2→dN(0,1)\frac{(\bar X_1-\bar X_2)-(\theta_1-\theta_2)}{\sqrt{\frac{\theta_1(1-\theta_1)}{n_1}+\frac{\theta_2(1-\theta_2)}{n_2}}}\xrightarrow{d} \mathcal N(0,1) 假设。n1≠n2n1≠n2n_1\neq n_2

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.