统计和大数据

6

给定凸成本函数，使用SGD进行优化，我们将在优化过程中的某个点处具有一个梯度（矢量）。我的问题是，给定凸面上的点，梯度是否仅指向函数增加/减少最快的方向，或者梯度始终指向成本函数的最优/极端？前者是本地概念，后者是全球概念。 SGD最终可以收敛到成本函数的极值。我想知道给定凸面上任意点的渐变方向与指向全局极值的方向之间的差异。梯度的方向应该是函数在该点上最快增减的方向，对吗？

25 neural-networks optimization gradient-descent sgd convex

1

是否有一个结果，当且仅当统计数据是平滑的时，提供引导程序才有效？

在整个过程中，我们假设统计量是某些数据的函数是从分布函数得出的；我们样本的经验分布函数是。因此，是被视为随机变量的统计量，而是该统计量的引导版本。我们使用作为KS距离θ （⋅ ）θ（⋅）\theta(\cdot) ˚F ˚F θ （˚F ）θ （X1个，… XñX1,…XñX_1, \ldots X_nFFFF^F^\hat{F}θ （˚F）θ（F）\theta(F)d∞θ （˚F^）θ（F^）\theta(\hat{F})d∞d∞d_\infty 如果统计信息是简单的线性统计信息，则对于引导程序的有效性有“ if and only if”结果。例如Mammen的定理1“引导程序何时起作用？” 如果用于某些任意函数则引导程序的作用是如果且仅当存在和使得我们可以在其中将定义为样本的某些函数，并且ħñd∞[大号（θ（ ˚F） -吨 Ñ），大号（θ（˚F）-吨Ñ）]→p0σÑ吨Ñd∞[L（θ（F）−tn）θ （˚F）= 1ñ∑ñi − 1Hñ（ X一世）θ（F）=1个ñ∑一世-1个ñHñ（X一世）\theta(F) = \frac{1}{n} \sum_{i-1}^n h_n(X_i)HñHñh_nd∞[ L（θ （F^）− t^ñ），大号（θ （F）− tñ）] →p0d∞[大号（θ（F^）-Ť^ñ），大号（θ（F）-Ťñ）]→p0d_\infty\big[\mathscr{L}(\theta(\hat{F})-\hat{t}_n), \mathscr{L}(\theta(F)-t_n)\big] \underset{p}{\rightarrow} 0σñσñ\sigma_nŤñŤñt_n ^ 吨Ñ吨Ñ = È（吨 Ñ）d∞[ L（θ （F）− tñ），Ñ（0 …

25 probability mathematical-statistics bootstrap asymptotics consistency

3

堆叠多个LSTM有什么优势？

有什么优势，为什么一个人在深度网络中使用多个并排堆叠的LSTM？我正在使用LSTM将一系列输入表示为单个输入。因此，一旦有了这种单一表示形式，为什么还要再次通过呢？我之所以这样问是因为我在自然语言生成程序中看到了这一点。

25 classification neural-networks deep-learning lstm rnn

1

为什么将整流线性单位视为非线性？

为什么将整流线性单位（ReLU）的激活函数视为非线性？ F（x ）= 最大（0 ，x ）f(x)=max(0,x) f(x) = \max(0,x) 当输入为正时，它们是线性的，并且据我了解，要释放深层网络的代表性力量，必须进行非线性激活，否则整个网络可以用一个层表示。

25 neural-networks deep-learning

5

机器学习算法来处理丢失的数据

我正在尝试使用包括实验室值在内的高维度临床数据来开发预测模型。数据空间稀疏，包含5k个样本和200个变量。想法是使用特征选择方法（IG，RF等）对变量进行排名，并使用排名靠前的特征来开发预测模型。尽管使用朴素贝叶斯方法进行的特征选择进展顺利，但由于变量空间中缺少数据（NA），我现在在实现预测模型时遇到了一个问题。是否有任何机器学习算法可以仔细处理缺少数据的样本？

25 machine-learning missing-data

4

独立随机变量的功能

是否声称独立随机变量的功能本身是独立的，正确的？我已经看到该结果通常在某些证明中被隐式使用，例如，在样本均值和正态分布的样本方差之间的独立性证明中，但我无法为其找到理由。似乎有些作者认为是给定的，但我不确定情况总是如此。

25 probability self-study random-variable independence

2

逻辑回归背后的直觉

最近，我开始学习机器学习，但是未能掌握逻辑回归的直觉。以下是我了解的关于逻辑回归的事实。作为假设的基础，我们使用S形函数。我确实理解为什么这是一个正确的选择，但是为什么它是我不理解的唯一选择。假设表示适当的输出为的概率，因此我们函数的域应该为，这是我在这里发现有用和合适的S型函数的唯一属性，但是许多函数都满足此属性。另外，S形函数具有形式的导数，但是我看不到这种特殊形式在逻辑回归中的效用。[ 0 ，1 ] ˚F （X ）（1 - ˚F （X ））1个1个1[ 0 ，1 ][0，1个][0,1]F（x ）（1 − f（x ））F（X）（1个-F（X））f(x)(1-f(x)) 问题：sigmoid函数有何特别之处，为什么我们不能在域使用任何其他函数？[ 0 ，1 ][0，1个][0,1] 成本函数由两个参数如果如果则。就像上面一样，我确实理解为什么它是正确的，但是为什么它是唯一的形式？例如，为什么不是成本函数的好选择？Ý = 1 ，Ç Ò 小号吨（ħ θ（X ），Ý ）= - 日志（1 - H ^ θ（X ））y = 0 | ħ θ （X ）Ç Ò 小号吨（ ħθ(x),y)=−log(hθ(x))CØsŤ（Hθ（X），ÿ）=-日志⁡（Hθ（X））{\rm …

25 regression machine-learning logistic

2

来自Dirichlet分布图

比方说，我们有一个狄利克雷分布维向量参数→交通α = [ α 1，α 2，。。。，α ķ ]。如何从该分布中绘制样本（K维矢量）？我需要一个（可能）简单的解释。ķķKα⃗ = [ α1个，α2，。。。，αķ]α→=[α1个，α2，。。。，αķ]\vec\alpha = [\alpha_1, \alpha_2,...,\alpha_K]ķķK

25 sampling dirichlet-distribution

3

贝叶斯如何比较分布？

因此，我认为我对频繁出现概率和统计分析的基础知识（以及使用它的严重程度）有很好的了解。在一个频繁论者的世界中，提出这样的问题是有意义的：“此分布是否不同于该分布”，因为假定分布是真实的，客观的且不变的（至少对于给定的情况而言），因此我们可以得出从一个形状像另一个样本的分布中抽取一个样本的可能性有多大。在贝叶斯世界观中，考虑到我们过去的经验，我们只关心我们期望看到的结果（在这一部分上我仍然有点含糊，但是我理解贝叶斯更新的概念）。如果是这样，贝叶斯怎么能说“这组数据与那组数据不同”？出于这个问题的目的，我不在乎统计意义或类似意义，而只是在乎如何量化差异。我同样对参数和非参数分布感兴趣。

25 distributions bayesian

5

您是否应该标准化二进制变量？

我有一个具有一组功能的数据集。其中一些是二进制的活动或已发射，非活动或处于休眠状态），其余为实际值，例如。0 = 4564.342（1 =（1个=(1=0 =0=0=4564.3424564.3424564.342 我想这个数据馈送到机器学习算法，所以我 -score所有的实值的功能。我大约在到之间。现在二进制值也为得分，因此零变为而其变为。3 − 2 z − 0.222 0.5555žžz333− 2-2-2žžz− 0.222-0.222-0.2220.55550.55550.5555 这样标准化二进制变量有意义吗？

25 machine-learning normalization binary-data

3

像SVM这样的离散分类器的ROC曲线：为什么我们仍称其为“曲线”？它不只是一个“点”吗？

在讨论中：如何为二进制分类生成roc曲线，我认为混淆是，“二进制分类器”（可以将2个类分开的任何分类器）对于Yang来说是所谓的“离散分类器”（产生离散输出0/1，例如SVM），而不是连续输出，例如ANN或贝叶斯分类器...等。因此，讨论的是如何为“二进制连续分类器”绘制ROC，答案是对输出进行排序因为输出是连续的，所以使用它们的分数，并使用阈值在ROC曲线上产生每个点。我的问题是针对“二进制离散分类器”，例如SVM，输出值为0或1。因此，ROC仅生成一个点，而不生成曲线。我对为什么我们仍然称其为曲线感到困惑？！我们还能谈阈值吗？特别是如何在SVM中使用阈值？如何计算AUC？交叉验证在这里起什么作用？

25 cross-validation roc auc

1

留一法交叉验证如何工作？如何从不同的模型中选择最终模型？

我有一些数据，我想根据这些数据建立模型（例如线性回归模型）。下一步，我想在模型上应用“留一法”交叉验证（LOOCV），以便了解其性能。如果我对LOOCV的理解正确，那么我将使用除该样本（训练集）之外的每个样本为每个样本（测试集）建立一个新模型。然后，我使用该模型预测测试集并计算误差。（预测- 实际）（预料到的-实际）(\text{predicted} - \text{actual}) 在下一步中，我汇总使用所选函数生成的所有误差，例如均方误差。我可以使用这些值来判断模型的质量（或拟合优度）。问题：这些质量值适用的模型是哪个模型，因此，如果我发现从LOOCV生成的度量适合我的情况，我应该选择哪个模型？LOOCV研究了种不同的模型（其中是样本量）；我应该选择哪种型号？ññnññn 是使用所有样本的模型吗？在LOOCV流程中从未计算过该模型！是误差最小的模型吗？

25 cross-validation

1

行和列长度受限制的随机矩阵

我需要生成带有行和列的随机非平方矩阵，这些元素的均值= 0随机分布，并且受约束，使得每行的长度（L2范数）为，每列的长度为。等效地，每行的平方和为1，每列的。Ç 1 √RRRCCC111 [R[RC--√RC\sqrt{\frac{R}{C}}[RCRC\frac{R}{C} 到目前为止，我已经找到一种实现此目的的方法：简单地随机初始化矩阵元素（例如，从均值为零且具有任意方差的均匀分布，正态分布或拉普拉斯分布），然后将行和列交替归一化为，以行规范化结束。这似乎可以相当快地收敛到所需的结果（例如，对于和，列长度的变异通常在次迭代后），但是我不确定是否可以依靠这种快速收敛速度通常（针对各种矩阵尺寸和初始元素分布）。- [R = 40 Ç = 80 0.00001 2升Ë Ñ 克吨ħ =1length=1{\rm length} = 1R = 40R=40R=40C= 80C=80C=80 0.00001 0.00001~0.00001222 我的问题是：是否有一种方法可以直接获得所需的结果（，，而无需在行/列归一化？例如，类似用于对随机向量进行归一化的算法（随机初始化元素，测量平方值的总和，然后按通用标量缩放每个元素）。如果不是，是否存在上述迭代方法的收敛速度（例如，迭代次数直到错误）的简单表征？c o l u m n l e n g t h s = √row lengths=1row lengths=1{\rm row \ lengths} = 1 <ϵcolumn lengths=RC−−√column lengths=RC{\rm …

25 random-generation normalization markov-process random-matrix

3

R中的列式矩阵归一化

关闭。这个问题是题外话。它当前不接受答案。想改善这个问题吗？更新问题，使它成为交叉验证的主题。 6年前关闭。我想在R中执行矩阵的列式归一化。给定一个矩阵m，我想通过将每个元素除以该列的总和来归一化每个列。一种执行此操作的方法如下： m / t(replicate(nrow(m), colSums(m))) 有没有更简洁/更优雅/更有效的方法来完成相同的任务？

25 r data-transformation normalization matrix

2

子集R时间序列向量

我有一个时间序列，我想将其作为子集，同时将其保留为时间序列，以保留开始，结束和频率。例如，假设我有一个时间序列： > qs <- ts(101:110, start=c(2009, 2), frequency=4) > qs Qtr1 Qtr2 Qtr3 Qtr4 2009 101 102 103 2010 104 105 106 107 2011 108 109 110 现在，我将其子集化： > qs[time(qs) >= 2010 & time(qs) < 2011] [1] 104 105 106 107 请注意，我得到了正确的结果，但是我丢失了时间序列（即开始，结束，频率）中的“包裹”。我正在为此寻找一个功能。划分时间序列不是常见的情况吗？由于我还没有找到，所以我写了一个函数： subset.ts <- function(data, start, end) { …

25 r time-series