统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

2
拉索之前的标准化真的有必要吗?
我已经了解了在进行诸如Lasso回归之类的操作之前标准化变量的三个主要原因: 1)系数的可解释性。 2)能够根据收缩后系数估计值的相对大小对系数重要性进行排名。 3)无需拦截。 但是我想知道最重要的一点。我们是否有理由认为标准化会改善模型的样本外推广?而且我不在乎我是否不需要模型中的拦截器。加一个不会伤害我。


1
黛博拉·梅奥(Deborah Mayo)是否反驳了伯恩鲍姆(Birnbaum)关于似然原理的证明?
这在某种程度上与我之前在这里的问题有关:一个示例,其中“可能性”原理真的很重要吗? 显然,黛博拉·梅奥(Deborah Mayo)在《统计科学》上发表了一篇论文,驳斥了伯恩鲍姆关于似然原理的证明。谁能解释伯恩鲍姆(Birnbaum)的主要论点和梅奥(Mayo)的反论点?她(逻辑上)对吗?

1
为什么glmnet使用Zou&Hastie原始论文中的“幼稚”弹性网?
L=1n∥∥y−Xβ∥∥2+λ1∥β∥1+λ2∥β∥22,L=1n‖y−Xβ‖2+λ1‖β‖1+λ2‖β‖22,\mathcal L = \frac{1}{n}\big\lVert y - X\beta\big\rVert^2 + \lambda_1\lVert \beta\rVert_1 + \lambda_2 \lVert \beta\rVert^2_2,β^∗=(1+λ2)β^.β^∗=(1+λ2)β^.\hat\beta^* = (1+\lambda_2)\hat\beta. 但是,随后的glmnet论文Friedman,Hastie,&Tibshirani(2010)通过坐标下降的广义线性模型的正则化路径没有使用这种重新缩放,只是有一个简短的脚注说 Zou和Hastie(2005)将此惩罚称为幼稚的弹性网,并且更喜欢重新缩放的版本,他们称之为弹性网。我们在这里放弃这种区别。 那里(或在Hastie等人的任何教科书中)没有给出进一步的解释。我觉得有些困惑。难道作者离开了重新调节,因为他们认为这是过于特设?因为它在一些进一步的实验中表现更差?因为不清楚如何将其归纳为GLM案例?我不知道。但是无论如何,此glmnet软件包从那时起变得非常受欢迎,所以我的印象是,如今没有人使用Zou&Hastie的重新缩放,并且大多数人甚至都没有意识到这种可能性。 问题:毕竟,这是一个好主意还是一个坏主意? 使用glmnet参数化后,Zou&Hastie重缩放比例应为β^∗=(1+λ(1−α))β^.β^∗=(1+λ(1−α))β^.\hat\beta^* = \big(1+\lambda(1-\alpha)\big)\hat\beta.

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 


2
吸烟究竟会导致多少肺癌?[关闭]
在烟草制品上,人们经常可以看到这样的统计数据:十分之九的肺癌是由吸烟引起的,但是这个数字准确吗? 我对此统计数据表示怀疑,原因有两个。 首先,如果您比较美国和挪威随时间推移的卷烟消费率,并将其与男性肺癌率进行比较,则可以构建以下图表。您可以得到美国卷烟消费数据在这里和挪威这里从和癌症的数据,这两个国家在这里。 在美国,十分可能有百分之十的肺癌很可能是由吸烟引起的,但在挪威,这却是非常令人怀疑的,因为相对很少吸烟,肺癌的发生率很高。在美国,病因(香烟)先于效应(肺癌),但在挪威,病因(香烟)似乎先于效应(肺癌)。对于挪威来说,这不能支持吸烟导致十分之九的肺癌的假设。 除了挪威的好奇心外,还有另一个问题,因为在像美国这样的国家,数十年来一直鼓励成千上万的人戒烟,肺癌发生率下降了。但是,在前苏联国家中,没有鼓励数百万人戒烟,因此,迄今为止,这些国家的人均香烟消费量一直稳定。 因此,很偶然地,我们进行了一项大规模的实验(数十亿个学科年),看看是否鼓励数十年来数十万人戒烟对肺癌发生率是否有任何影响。我想这可以说是有史以来最大的吸烟和肺癌实验。以下是美国(人口3.257亿),俄罗斯联邦(人口1.44亿)和乌克兰(人口4500万)三个国家的男性肺癌。 显然,在这些国家中,男性肺癌的发病率与美国相同,但吸烟率并未下降。 其次,在美国,根据以下国家健康调查,从不吸烟的人群中,有17.9%的肺癌发生在下面,表转载于此,其原始内容可在此处找到。 在我看来,从不吸烟的人占肺癌的17.9%,这使吸烟引起的肺癌中的九成不成立。 我猜想要计算出这个数字,您真正需要知道的是从不吸烟的成年人口中有多少,但是我发现这个数字对美国而言令人惊讶地难以捉摸。在这项研究中,我能找到的最接近的数据表明,在美国,从未吸烟者占人口的22.2%,当前吸烟者占39.4%,前吸烟者占38.5%。 但这是不对的,我认为作者已经将现在的吸烟者与从未吸烟者交换了,从未吸烟者的人数确实是39.4%,而现在吸烟者的人数实际上是22.2%。这是非常不令人满意的,但是我发现找到当前吸烟者的数字很容易,但是很难找到从未吸烟者的数字。 因此,给出了一些相关的流行病学统计资料(对于读者而言很有趣),关于为什么吸烟引起的肺癌数量可能不那么高的十分之九,我的问题如下: 根据统计数据,从未吸烟者中有17.9%的肺癌发生,从不吸烟者占人口的39.4%,实际上由吸烟引起的肺癌有多少?

3
在分类中选择不同的损失函数以近似0-1损失有什么影响
我们知道有些目标函数更容易优化,而有些则很难。而且我们有很多损失函数要使用但很难使用,例如0-1损失。因此,我们找到了一些代理丢失功能来完成这项工作。例如,我们使用铰链损失或逻辑损失来“近似” 0-1损失。 接下来的情节来自克里斯·毕晓普(Chris Bishop)的PRML书。铰链损耗用蓝色绘制,对数损耗用红色绘制,平方损耗用绿色绘制,0/1误差用黑色绘制。 我了解我们之所以设计(针对铰链和逻辑损失)的原因是我们希望目标函数是凸的。 通过查看铰链损失和逻辑损失,它会对严重错误分类的实例进行更严厉的处罚,有趣的是,如果分类不正确,则还会对正确分类的实例进行惩罚。这是一个非常奇怪的设计。 我的问题是,通过使用不同的“代理损失函数”(例如铰链损失和物流损失),我们需要支付的价格是多少?

3
现在不能说深度学习模型可以解释吗?是节点功能吗?
对于统计模型和机器学习模型,可解释性有多个级别:1)整个算法,2)一般的算法部分3)特定输入的算法部分,这三个级别分别分为两个部分,一种用于训练,另一种用于功能评估。最后两个部分比第一个部分更接近。我问的是#2,通常可以更好地理解#3。(如果这些不是“可解释性”的含义,那我应该怎么想?) 就可解释性而言,逻辑回归是最容易解释的一种。为什么此实例超过阈值?因为该实例具有此特定的正特征,并且在模型中具有较大的系数。太明显了! 神经网络是难以解释的模型的经典示例。所有这些系数是什么意思?它们全都以如此复杂的疯狂方式加起来,以至于很难说出任何特定系数在做什么。 但是随着所有深层神经网络的出现,感觉事情变得越来越清晰。DL模型(例如视觉)似乎在早期层中捕获了诸如边缘或方向之类的东西,而在后来的层中,似乎某些节点实际上是语义上的(例如众所周知的“祖母细胞”)。例如: (摘自“了解深度学习”) 这是一个图形(许多在那里的,用手演示文稿中创建让我很怀疑)。但是有证据表明有人认为这是有效的。 也许在过去,没有足够的层次供我们查找可识别的功能。这些模型是成功的,只是事后分析特定模型并不容易。 但是也许图形只是一厢情愿的想法。也许神经网络是真正难以理解的。 但是,许多带有标有图片的节点的图形也确实令人信服。 DL节点真的对应功能吗?

2
余弦相似度是否等于12归一化的欧式距离?
相同的含义是,对于向量u和向量V的集合之间的相似性排名,它将产生相同的结果。 我有一个向量空间模型,该模型具有距离度量(欧式距离,余弦相似度)和归一化技术(none,l1,l2)作为参数。根据我的理解,设置[余弦,无]的结果应该与[euclidean,l2]相同或至少真的非常相似,但事实并非如此。 实际上,系统仍然有可能出现故障,或者向量是否存在严重错误? 编辑:我忘了提到向量是基于语料库文档中的单词计数。给定一个查询文档(我也将其转换为单词计数向量),我想从我的语料库中找到与其最相似的文档。 仅计算它们的欧几里得距离是一个简单的方法,但是在我从事的任务中,余弦相似度通常被用作相似度指示符,因为仅长度不同的向量仍被视为相等。距离/余弦相似度最小的文档被认为是最相似的。

2
为什么随机行走相互关联?
我已经观察到,平均而言,皮尔逊相关系数的绝对值是一个常数,接近于任何一对独立的随机游动,而与游动长度无关。0.560.42 有人可以解释这种现象吗? 我希望相关性会随着步长的增加而减小,就像任何随机序列一样。 在我的实验中,我使用步长均值为0且步长标准偏差为1的随机高斯步态。 更新: 我忘了以数据为中心,这就是为什么它0.56不是的原因0.42。 这是计算相关性的Python脚本: import numpy as np from itertools import combinations, accumulate import random def compute(length, count, seed, center=True): random.seed(seed) basis = [] for _i in range(count): walk = np.array(list(accumulate( random.gauss(0, 1) for _j in range(length) ))) if center: walk -= np.mean(walk) basis.append(walk / np.sqrt(np.dot(walk, walk))) …

3
如何分辨线性和非线性回归模型之间的区别?
我正在阅读有关非线性回归SAS Non Linear的以下链接。通过阅读第一部分“非线性回归与线性回归”,我的理解是下面的方程实际上是线性回归,对吗?如果可以,为什么? y=b1x3+b2x2+b3x+cy=b1x3+b2x2+b3x+cy = b_1x^3 + b_2x^2 + b_3x + c 我是否也了解非线性回归中的多重共线性不是问题?我知道多重共线性可能是线性回归中的一个问题,因此,如果上述模型实际上是线性回归,那么肯定会存在多重共线性吗?

2
变异与变异相同吗?
这是我在此处进行交叉验证的第一个问题,所以即使看起来很琐碎,也请帮我:-)首先,这个问题可能是语言差异的结果,或者可能是我在统计上确实有缺陷。不过,这里是: 在人口统计中,变异和方差是相同的术语吗?如果没有,两者之间有什么区别? 我知道方差是标准差的平方。我也知道这是衡量数据稀疏程度的一种方法,并且我知道如何计算数据。 但是,我一直在遵循名为“模型思维”的Coursera.org课程,并且讲师清楚地描述了差异,但始终称其为差异。那让我有些困惑。 公平地说,他总是谈论计算种群中某些特定实例的变异。 有人可以告诉我它们是否可以互换,或者我想念什么吗?

9
没有因果关系,关联何时可用?
许多统计学家的口头禅是“关联并不意味着因果关系”。这确实是正确的,但是在这里确实暗示了一件事,即关联几乎没有价值。这是真的?知道两个变量相关是否有用吗? 我无法想象是这样。我对预测分析并不十分熟悉,但似乎如果X是的预测因子Y,则无论因果关系如何,它对于预测Y基于的未来值都会很有用X。 我看到相关值不正确吗?如果不是,在什么情况下统计学家或数据科学家可能会使用因果关系而没有因果关系?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.