统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

3
坐标与梯度下降
我想知道Coordinate Descent和Gradient Descent这两种算法的不同用例是什么。 我知道坐标下降存在函数不平滑的问题,但是它已用于诸如SVM和LASSO的流行算法中。 但是我认为梯度下降法得到了更广泛的应用,尤其是随着人工神经网络的兴起以及许多其他机器学习任务的出现。 我的问题是:哪种类型的问题适合一种而不是另一种,在这方面,什么使SVM和LASSO的坐标下降适合,而对ANN的梯度下降适合? 选择优化算法时,应该如何在两者之间进行选择?

4
如何判断我的数据分布是否对称?
我知道,如果中位数和均值近似相等,则意味着存在对称分布,但在这种情况下我不确定。均值和中位数非常接近(只有0.487m / all差),这使我说有一个对称分布,但从箱线图中可以看出,它似乎正偏斜(经确认,中位数比Q3靠近Q1按值)。 (如果您对此软件有任何具体建议,我正在使用Minitab。)

2
为什么Wilks 1938年的证明不适用于错误指定的模型?
在1938年著名的论文中(“ 用于检验复合假设的似然比的大样本分布 ”,《数学统计年鉴》 9:60-62),塞缪尔·威尔克斯推导了(对数似然比)的渐近分布。对于嵌套假设,在正确指定了较大假设的前提下。极限分布为(卡方),具有自由度,其中是较大假设中的参数数,χ 2 ħ - 米ħ 米2 × L L R2×大号大号[R2 \times LLRχ2χ2\chi^2ħ - 米H-米h-mHHh米米m是嵌套假设中自由参数的数量。然而,众所周知,当假设被错误指定时(即,当较大的假设不是采样数据的真实分布时),该结果将不成立。 谁能解释为什么?在我看来,Wilks的证明应该仍然可以进行较小的修改。它依靠最大似然估计(MLE)的渐近正态性,但对于错误指定的模型仍然适用。唯一的不同是有限多元法线的协方差矩阵:对于正确指定的模型,我们可以使用反Fisher信息矩阵来近似协方差矩阵,而使用错误指定,可以使用协方差矩阵的三明治估计()。正确指定模型后,后者简化为Fisher信息矩阵的逆矩阵(因为 J − 1 K J − 1 J = KĴ− 1Ĵ-1个J^{-1}Ĵ− 1ķĴ− 1Ĵ-1个ķĴ-1个J^{-1} K J^{-1}Ĵ= KĴ=ķJ = K)。在AFAICT中,只要我们具有MLE的多元正态的可逆渐近协方差矩阵(Wilks论文中的),Wilks证明并不关心协方差矩阵的估计值从哪里来。 C− 1C-1个c^{-1}

2
硬边际支持向量机的损失函数是什么?
人们说软边距SVM使用铰链损耗函数:。但是,软裕量SVM尝试最小化的实际目标函数为 \ frac {1} {2} \ | w \ | ^ 2 + C \ sum_i \ max(0,1-y_i(w ^ \ intercal x_i + b) ) 有些作者称\ | w \ | ^ 2项正则化器和\ max(0,1-y_i(w ^ \ intercal x_i + b))项损失函数。max(0,1−yi(w⊺xi+b))max(0,1−yi(w⊺xi+b))\max(0,1-y_i(w^\intercal x_i+b))12∥w∥2+C∑imax(0,1−yi(w⊺xi+b))12‖w‖2+C∑imax(0,1−yi(w⊺xi+b)) \frac{1}{2}\|w\|^2+C\sum_i\max(0,1-y_i(w^\intercal x_i+b)) ∥w∥2‖w‖2\|w\|^2max(0,1−yi(w⊺xi+b))max(0,1−yi(w⊺xi+b))\max(0,1-y_i(w^\intercal x_i+b)) 但是,对于硬边界SVM,整个目标函数只是 12∥w∥212‖w‖2 \frac{1}{2}\|w\|^2 是否意味着硬边界SVM仅使正则化函数最小化而没有任何损失函数?听起来很奇怪。 好吧,如果在这种情况下12∥w∥212‖w‖2\frac{1}{2}\|w\|^2是损失函数,我们可以称其为二次损失函数吗?如果是这样,为什么硬边界SVM的损失函数在软边界SVM中成为正则化器,并从二次损失变为铰链损失?

2
自相关时间的定义(有效样本量)
我在文献中为弱固定时间序列的自相关时间找到了两个定义: τ一种= 1 + 2 ∑k = 1∞ρķ与τb= 1 + 2 ∑k = 1∞| ρķ|τa=1+2∑k=1∞ρkversusτb=1+2∑k=1∞|ρk| \tau_a = 1+2\sum_{k=1}^\infty \rho_k \quad \text{versus} \quad \tau_b = 1+2\sum_{k=1}^\infty \left|\rho_k\right| 其中是滞后的自相关。 kρķ= Cov [ XŤ,X吨+ 小时]变量[ XŤ]ρk=Cov[Xt,Xt+h]Var[Xt]\rho_k = \frac{\text{Cov}[X_t,X_{t+h}]}{\text{Var}[X_t]}ķkk 自相关时间的一种应用是找到“有效样本量”:如果您对一个时间序列有观测值,并且知道它的自相关时间,那么您可以假装您拥有τñnnττ\tau ñ效= nτneff=nτ n_\text{eff} = \frac{n}{\tau} 为了找到平均值,独立样本而不是相关样本。从数据中估计并非易事,但有几种方法可以做到这一点(请参阅Thompson 2010)。τñnnττ\tau 没有绝对值的定义在文献中似乎更常见;但它承认的可能性。使用R和“ coda”包:τ 一个 &lt; 1τ一种τa\tau_aτ一种&lt; 1τa&lt;1\tau_a<1 require(coda) …

2
“基准”是什么意思(在统计中)?
当我为 "fisher" "fiducial" ...我肯定会收到很多成功,但我一直关注的所有事情都超出了我的理解范围。 所有这些命中似乎确实有一个共同点:它们都是为染羊毛的统计学家而写的,这些人对统计的理论,实践,历史和知识都非常了解。(因此,这些陈述都没有费心去解释或说明费舍尔的“基准”的意思,而不求助于术语的大行其道和/或不给某些经典或其他数学统计文献带来损失。) 好吧,我不属于可以从我这个主题的发现中受益的特定目标受众,这也许可以解释为什么我每次试图理解费舍尔“基准”的含义的尝试都撞到了墙上。难以理解的胡言乱语。 有谁知道向非专业统计学家解释费舍尔“基准”是什么意思的尝试? PS:我意识到费舍尔在确定他的“基准”的含义时是一个移动的目标,但是我认为该术语必须具有一定的“恒定核心”含义,否则它将无法正常工作(因为它很明显确实是本领域内通常理解的术语。

3
最大熵分布的统计解释
我使用最大熵的原理来证明在各种环境下使用多个分布是合理的。但是,相对于信息论,我还不能对最大熵进行统计解释。换句话说,最大化熵意味着分布的统计特性是什么? 有没有人遇到过或者可能发现自己对max的统计解释。熵分布不吸引信息,而只吸引概率概念吗? 作为这种解释的一个例子(不一定是正确的):“对于RV域上任意长度L的间隔(为简单起见,假设其1-d为连续的),可以最小化此间隔中包含的最大概率通过最大熵分布。” 因此,您会看到没有谈论“信息性”或其他更具哲学性的想法,而只是谈论概率问题。


6
测试精度高于训练水平。怎么解释?
我的数据集最多包含150个示例(分为训练和测试),并且具有许多功能(高于1000个)。我需要比较在数据上表现良好的分类器和特征选择方法。因此,我使用三种分类方法(J48,NB,SVM)和2种特征选择方法(CFS,WrapperSubset)以及不同的搜索方法(Greedy,BestFirst)。 比较时,我正在研究训练准确性(5折交叉折叠)和测试准确性。 这是J48和CFS-BestFirst的结果之一: {“ accuracyTraining”:95.83,“ accuracyTest”:98.21} 许多结果是这样的,并且在SVM上有许多结果表明测试准确性远高于训练(训练:60%,测试:98%) 我如何有意义地解释这些结果?如果更低,我会说这太过合适了。通过查看所有结果,在这种情况下是否有关于偏差和方差的说法?我该怎么做才能使这种分类有意义,例如重新选择训练和测试集,或者仅对所有数据使用交叉验证? 我有73个培训和58个测试实例。一些答案在发布时没有此信息。

1
具有离散数据的Kolmogorov-Smirnov:在R中正确使用dgof :: ks.test是什么?
初学者问题: 我想测试两个离散数据集是否来自同一分布。我建议进行一次Kolmogorov-Smirnov检验。 Conover(《实用非参数统计》,3d)似乎说Kolmogorov-Smirnov检验可用于此目的,但其行为是“保守的”且具有离散分布,我不确定这在这里意味着什么。 DavidR 在另一个问题上的评论说:“ ...您仍然可以基于KS统计量进行α级测试,但是您必须找到其他方法来获得临界值,例如通过仿真。” dgof R软件包(article,cran)中的ks.test()版本增加了stats软件包的ks.test()默认版本中不存在的某些功能。除其他外,dgof :: ks.test包含以下参数: Simulation.p.value:仅在离散拟合优度测试中指示是否通过蒙特卡洛模拟计算p值的逻辑。 Simulator.p.value = T的目的是完成DavidR的建议吗? 即使是这样,我也不确定是否可以真正使用dgof :: ks.test进行两个样本的测试。看起来它仅提供了两个样本的连续分布测试: 如果y是数字,则对从相同连续分布中得出x和y的零假设进行两次抽样检验。 或者,y可以是命名连续(累积)分布函数(或此类函数)的字符串,或给出离散分布的ecdf函数(或stepfun类的对象)。在这些情况下,对生成x的分布函数为分布y ...的零进行一次样本检验。 (背景细节:严格来说,我的基础分布是连续的,但是数据往往位于少数几个点附近。每个点都是模拟的结果,并且是-1和1之间的10或20个实数的平均值1.到模拟结束时,这些数字几乎总是非常接近.9或-.9,因此均值聚集在几个值附近,我将它们视为离散值,模拟很复杂,我没有认为数据遵循众所周知的分布的原因。) 忠告?

4
估算PCA的缺失值
我使用该prcomp()函数在R中执行PCA(主要成分分析)。但是,该函数中存在一个错误,导致该na.action参数不起作用。我寻求有关stackoverflow的帮助;那里的两个用户提供了两种不同的NA价值观处理方式。但是,这两种解决方案的问题在于,当存在一个NA值时,该行将被删除,并且在PCA分析中不考虑该行。我的真实数据集是100 x 100的矩阵,我不想只因为它包含一个NA值而丢失整行。 下面的示例显示该prcomp()函数不包含第5行的任何主要成分,因为它包含一个NA值。 d &lt;- data.frame(V1 = sample(1:100, 10), V2 = sample(1:100, 10), V3 = sample(1:100, 10)) result &lt;- prcomp(d, center = TRUE, scale = TRUE, na.action = na.omit) result$x # $ d$V1[5] &lt;- NA # $ result &lt;- prcomp(~V1+V2, data=d, center = TRUE, scale = TRUE, na.action = …

2
随机森林进行多元回归
我有一个输入和输出的多输出回归问题。输出具有复杂的非线性相关结构。dxdxd_xdydyd_y 我想使用随机森林进行回归。据我所知,用于回归的随机森林仅适用于单个输出,因此我将必须训练随机森林-每个输出一个。这忽略了它们的相关性。dydyd_y 是否有将输出相关性考虑在内的随机森林扩展?也许类似高斯过程回归的多任务学习。

3
AIC和BIC号码解释
我正在寻找有关如何解释AIC(赤池信息标准)和BIC(贝叶斯信息标准)估计值的示例。 BIC之间的负差可以解释为一种模型相对于另一种模型的后验几率吗?我该如何说呢?例如,BIC = -2可能暗示较好模型相对于其他模型的几率约为?Ë2= 7.4Ë2=7.4e^2= 7.4 任何新手都会受到这个新手的赞赏。

1
在R中的自然立方样条曲线中设置结
我的数据具有许多相关的功能,在运行LDA之前,我想先使用平滑基函数来简化这些功能。我正在尝试使用splines带有ns功能的程序包中的自然三次样条。 如何分配结点? 这是基本的R代码: library(splines) lda.pred &lt;- lda(y ~ ns(x, knots=5)) 但是我不知道该如何选择结ns。
23 r  splines 

4
用于统计计算的C ++库
我有一个特定的MCMC算法,我想移植到C / C ++。许多昂贵的计算已经通过Cython用C语言编写,但是我希望整个采样器都以编译语言编写,这样我就可以为Python / R / Matlab /任何东西编写包装器。 闲逛之后,我倾向于使用C ++。我知道的几个相关库是Armadillo(http://arma.sourceforge.net/)和Scythe(http://scythe.wustl.edu/)。两者都试图模仿R / Matlab的某些方面以简化学习曲线,这是我非常喜欢的。镰刀使我想做的事情变得更好。特别是,其RNG包含很多分布,其中Armadillo仅具有统一/正态分布,这很不方便。镰刀(Scythe)于2007年发布其最新版本时,犰狳似乎处于相当活跃的开发状态。 因此,我想知道的是,是否有人有使用这些库的经验,或者我几乎肯定会错过的其他库,如果是这样,对于非常熟悉Python / R / Matlab的统计学家,是否有什么值得推荐的?但是对于编译语言却不是这样(不是完全无知,但不是完全精通...)。
23 mcmc  software  c++  computing 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.