统计和大数据

3

我想知道Coordinate Descent和Gradient Descent这两种算法的不同用例是什么。我知道坐标下降存在函数不平滑的问题，但是它已用于诸如SVM和LASSO的流行算法中。但是我认为梯度下降法得到了更广泛的应用，尤其是随着人工神经网络的兴起以及许多其他机器学习任务的出现。我的问题是：哪种类型的问题适合一种而不是另一种，在这方面，什么使SVM和LASSO的坐标下降适合，而对ANN的梯度下降适合？选择优化算法时，应该如何在两者之间进行选择？

23 optimization gradient-descent

4

如何判断我的数据分布是否对称？

我知道，如果中位数和均值近似相等，则意味着存在对称分布，但在这种情况下我不确定。均值和中位数非常接近（只有0.487m / all差），这使我说有一个对称分布，但从箱线图中可以看出，它似乎正偏斜（经确认，中位数比Q3靠近Q1按值）。（如果您对此软件有任何具体建议，我正在使用Minitab。）

23 distributions mean skewness median qq-plot

2

为什么Wilks 1938年的证明不适用于错误指定的模型？

在1938年著名的论文中（“ 用于检验复合假设的似然比的大样本分布 ”，《数学统计年鉴》 9：60-62），塞缪尔·威尔克斯推导了（对数似然比）的渐近分布。对于嵌套假设，在正确指定了较大假设的前提下。极限分布为（卡方），具有自由度，其中是较大假设中的参数数，χ 2 ħ - 米ħ 米2 × L L R2×大号大号[R2 \times LLRχ2χ2\chi^2ħ - 米H-米h-mHHh米米m是嵌套假设中自由参数的数量。然而，众所周知，当假设被错误指定时（即，当较大的假设不是采样数据的真实分布时），该结果将不成立。谁能解释为什么？在我看来，Wilks的证明应该仍然可以进行较小的修改。它依靠最大似然估计（MLE）的渐近正态性，但对于错误指定的模型仍然适用。唯一的不同是有限多元法线的协方差矩阵：对于正确指定的模型，我们可以使用反Fisher信息矩阵来近似协方差矩阵，而使用错误指定，可以使用协方差矩阵的三明治估计（）。正确指定模型后，后者简化为Fisher信息矩阵的逆矩阵（因为 J − 1 K J − 1 J = KĴ− 1Ĵ-1个J^{-1}Ĵ− 1ķĴ− 1Ĵ-1个ķĴ-1个J^{-1} K J^{-1}Ĵ= KĴ=ķJ = K）。在AFAICT中，只要我们具有MLE的多元正态的可逆渐近协方差矩阵（Wilks论文中的），Wilks证明并不关心协方差矩阵的估计值从哪里来。 C− 1C-1个c^{-1}

23 hypothesis-testing model-selection likelihood-ratio asymptotics misspecification

2

硬边际支持向量机的损失函数是什么？

人们说软边距SVM使用铰链损耗函数：。但是，软裕量SVM尝试最小化的实际目标函数为 \ frac {1} {2} \ | w \ | ^ 2 + C \ sum_i \ max（0,1-y_i（w ^ \ intercal x_i + b））有些作者称\ | w \ | ^ 2项正则化器和\ max（0,1-y_i（w ^ \ intercal x_i + b））项损失函数。max(0,1−yi(w⊺xi+b))max(0,1−yi(w⊺xi+b))\max(0,1-y_i(w^\intercal x_i+b))12∥w∥2+C∑imax(0,1−yi(w⊺xi+b))12‖w‖2+C∑imax(0,1−yi(w⊺xi+b)) \frac{1}{2}\|w\|^2+C\sum_i\max(0,1-y_i(w^\intercal x_i+b)) ∥w∥2‖w‖2\|w\|^2max(0,1−yi(w⊺xi+b))max(0,1−yi(w⊺xi+b))\max(0,1-y_i(w^\intercal x_i+b)) 但是，对于硬边界SVM，整个目标函数只是 12∥w∥212‖w‖2 \frac{1}{2}\|w\|^2 是否意味着硬边界SVM仅使正则化函数最小化而没有任何损失函数？听起来很奇怪。好吧，如果在这种情况下12∥w∥212‖w‖2\frac{1}{2}\|w\|^2是损失函数，我们可以称其为二次损失函数吗？如果是这样，为什么硬边界SVM的损失函数在软边界SVM中成为正则化器，并从二次损失变为铰链损失？

23 svm loss-functions

2

自相关时间的定义（有效样本量）

我在文献中为弱固定时间序列的自相关时间找到了两个定义： τ一种= 1 + 2 ∑k = 1∞ρķ与τb= 1 + 2 ∑k = 1∞| ρķ|τa=1+2∑k=1∞ρkversusτb=1+2∑k=1∞|ρk| \tau_a = 1+2\sum_{k=1}^\infty \rho_k \quad \text{versus} \quad \tau_b = 1+2\sum_{k=1}^\infty \left|\rho_k\right| 其中是滞后的自相关。 kρķ= Cov [ XŤ，X吨+ 小时]变量[ XŤ]ρk=Cov[Xt,Xt+h]Var[Xt]\rho_k = \frac{\text{Cov}[X_t,X_{t+h}]}{\text{Var}[X_t]}ķkk 自相关时间的一种应用是找到“有效样本量”：如果您对一个时间序列有观测值，并且知道它的自相关时间，那么您可以假装您拥有τñnnττ\tau ñ效= nτneff=nτ n_\text{eff} = \frac{n}{\tau} 为了找到平均值，独立样本而不是相关样本。从数据中估计并非易事，但有几种方法可以做到这一点（请参阅Thompson 2010）。τñnnττ\tau 没有绝对值的定义在文献中似乎更常见；但它承认的可能性。使用R和“ coda”包：τ 一个 < 1τ一种τa\tau_aτ一种< 1τa<1\tau_a<1 require(coda) …

23 r time-series correlation

2

“基准”是什么意思（在统计中）？

当我为 "fisher" "fiducial" ...我肯定会收到很多成功，但我一直关注的所有事情都超出了我的理解范围。所有这些命中似乎确实有一个共同点：它们都是为染羊毛的统计学家而写的，这些人对统计的理论，实践，历史和知识都非常了解。（因此，这些陈述都没有费心去解释或说明费舍尔的“基准”的意思，而不求助于术语的大行其道和/或不给某些经典或其他数学统计文献带来损失。）好吧，我不属于可以从我这个主题的发现中受益的特定目标受众，这也许可以解释为什么我每次试图理解费舍尔“基准”的含义的尝试都撞到了墙上。难以理解的胡言乱语。有谁知道向非专业统计学家解释费舍尔“基准”是什么意思的尝试？ PS：我意识到费舍尔在确定他的“基准”的含义时是一个移动的目标，但是我认为该术语必须具有一定的“恒定核心”含义，否则它将无法正常工作（因为它很明显确实是本领域内通常理解的术语。

23 bayesian inference terminology fiducial ronald-fisher

3

最大熵分布的统计解释

我使用最大熵的原理来证明在各种环境下使用多个分布是合理的。但是，相对于信息论，我还不能对最大熵进行统计解释。换句话说，最大化熵意味着分布的统计特性是什么？有没有人遇到过或者可能发现自己对max的统计解释。熵分布不吸引信息，而只吸引概率概念吗？作为这种解释的一个例子（不一定是正确的）：“对于RV域上任意长度L的间隔（为简单起见，假设其1-d为连续的），可以最小化此间隔中包含的最大概率通过最大熵分布。” 因此，您会看到没有谈论“信息性”或其他更具哲学性的想法，而只是谈论概率问题。

23 distributions entropy intuition information-theory maximum-entropy

4

为什么研究人员使用10倍交叉验证而不是在验证集上进行测试？

我已经阅读了很多有关情感分类和相关主题的研究论文。他们中的大多数使用10倍交叉验证来训练和测试分类器。这意味着没有单独的测试/验证。这是为什么？这种方法的优点/缺点是什么，尤其是对于那些从事研究的人员而言？

23 classification cross-validation

6

测试精度高于训练水平。怎么解释？

我的数据集最多包含150个示例（分为训练和测试），并且具有许多功能（高于1000个）。我需要比较在数据上表现良好的分类器和特征选择方法。因此，我使用三种分类方法（J48，NB，SVM）和2种特征选择方法（CFS，WrapperSubset）以及不同的搜索方法（Greedy，BestFirst）。比较时，我正在研究训练准确性（5折交叉折叠）和测试准确性。这是J48和CFS-BestFirst的结果之一： {“ accuracyTraining”：95.83，“ accuracyTest”：98.21} 许多结果是这样的，并且在SVM上有许多结果表明测试准确性远高于训练（训练：60％，测试：98％）我如何有意义地解释这些结果？如果更低，我会说这太过合适了。通过查看所有结果，在这种情况下是否有关于偏差和方差的说法？我该怎么做才能使这种分类有意义，例如重新选择训练和测试集，或者仅对所有数据使用交叉验证？我有73个培训和58个测试实例。一些答案在发布时没有此信息。

23 classification feature-selection

1

具有离散数据的Kolmogorov-Smirnov：在R中正确使用dgof :: ks.test是什么？

初学者问题：我想测试两个离散数据集是否来自同一分布。我建议进行一次Kolmogorov-Smirnov检验。 Conover（《实用非参数统计》，3d）似乎说Kolmogorov-Smirnov检验可用于此目的，但其行为是“保守的”且具有离散分布，我不确定这在这里意味着什么。 DavidR 在另一个问题上的评论说：“ ...您仍然可以基于KS统计量进行α级测试，但是您必须找到其他方法来获得临界值，例如通过仿真。” dgof R软件包（article，cran）中的ks.test（）版本增加了stats软件包的ks.test（）默认版本中不存在的某些功能。除其他外，dgof :: ks.test包含以下参数： Simulation.p.value：仅在离散拟合优度测试中指示是否通过蒙特卡洛模拟计算p值的逻辑。 Simulator.p.value = T的目的是完成DavidR的建议吗？即使是这样，我也不确定是否可以真正使用dgof :: ks.test进行两个样本的测试。看起来它仅提供了两个样本的连续分布测试：如果y是数字，则对从相同连续分布中得出x和y的零假设进行两次抽样检验。或者，y可以是命名连续（累积）分布函数（或此类函数）的字符串，或给出离散分布的ecdf函数（或stepfun类的对象）。在这些情况下，对生成x的分布函数为分布y ...的零进行一次样本检验。（背景细节：严格来说，我的基础分布是连续的，但是数据往往位于少数几个点附近。每个点都是模拟的结果，并且是-1和1之间的10或20个实数的平均值1.到模拟结束时，这些数字几乎总是非常接近.9或-.9，因此均值聚集在几个值附近，我将它们视为离散值，模拟很复杂，我没有认为数据遵循众所周知的分布的原因。）忠告？

23 r goodness-of-fit discrete-data kolmogorov-smirnov

4

估算PCA的缺失值

我使用该prcomp()函数在R中执行PCA（主要成分分析）。但是，该函数中存在一个错误，导致该na.action参数不起作用。我寻求有关stackoverflow的帮助；那里的两个用户提供了两种不同的NA价值观处理方式。但是，这两种解决方案的问题在于，当存在一个NA值时，该行将被删除，并且在PCA分析中不考虑该行。我的真实数据集是100 x 100的矩阵，我不想只因为它包含一个NA值而丢失整行。下面的示例显示该prcomp()函数不包含第5行的任何主要成分，因为它包含一个NA值。 d <- data.frame(V1 = sample(1:100, 10), V2 = sample(1:100, 10), V3 = sample(1:100, 10)) result <- prcomp(d, center = TRUE, scale = TRUE, na.action = na.omit) result$x # $ d$V1[5] <- NA # $ result <- prcomp(~V1+V2, data=d, center = TRUE, scale = TRUE, na.action = …

23 r pca missing-data data-imputation

2

随机森林进行多元回归

我有一个输入和输出的多输出回归问题。输出具有复杂的非线性相关结构。dxdxd_xdydyd_y 我想使用随机森林进行回归。据我所知，用于回归的随机森林仅适用于单个输出，因此我将必须训练随机森林-每个输出一个。这忽略了它们的相关性。dydyd_y 是否有将输出相关性考虑在内的随机森林扩展？也许类似高斯过程回归的多任务学习。

23 regression multivariate-analysis random-forest

3

AIC和BIC号码解释

我正在寻找有关如何解释AIC（赤池信息标准）和BIC（贝叶斯信息标准）估计值的示例。 BIC之间的负差可以解释为一种模型相对于另一种模型的后验几率吗？我该如何说呢？例如，BIC = -2可能暗示较好模型相对于其他模型的几率约为？Ë2= 7.4Ë2=7.4e^2= 7.4 任何新手都会受到这个新手的赞赏。

23 interpretation aic bic

1

在R中的自然立方样条曲线中设置结

我的数据具有许多相关的功能，在运行LDA之前，我想先使用平滑基函数来简化这些功能。我正在尝试使用splines带有ns功能的程序包中的自然三次样条。如何分配结点？这是基本的R代码： library(splines) lda.pred <- lda(y ~ ns(x, knots=5)) 但是我不知道该如何选择结ns。

23 r splines

4

用于统计计算的C ++库

我有一个特定的MCMC算法，我想移植到C / C ++。许多昂贵的计算已经通过Cython用C语言编写，但是我希望整个采样器都以编译语言编写，这样我就可以为Python / R / Matlab /任何东西编写包装器。闲逛之后，我倾向于使用C ++。我知道的几个相关库是Armadillo（http://arma.sourceforge.net/）和Scythe（http://scythe.wustl.edu/）。两者都试图模仿R / Matlab的某些方面以简化学习曲线，这是我非常喜欢的。镰刀使我想做的事情变得更好。特别是，其RNG包含很多分布，其中Armadillo仅具有统一/正态分布，这很不方便。镰刀（Scythe）于2007年发布其最新版本时，犰狳似乎处于相当活跃的开发状态。因此，我想知道的是，是否有人有使用这些库的经验，或者我几乎肯定会错过的其他库，如果是这样，对于非常熟悉Python / R / Matlab的统计学家，是否有什么值得推荐的？但是对于编译语言却不是这样（不是完全无知，但不是完全精通...）。

23 mcmc software c++ computing