Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。

2
在梯度下降中使用固定步长时,为什么步长会变小?
假设我们正在做一个关于梯度合适的玩具示例,使用固定步长最小化二次函数。()α = 0.03 甲= [ 10 ,2 ; 2 ,3 ]XŤ一个XxTAxx^TAxα = 0.03α=0.03\alpha=0.03甲= [ 10 ,2 ; 2 ,3 ]A=[10,2;2,3]A=[10, 2; 2, 3] 如果在每次迭代中绘制的轨迹,我们将得到下图。当我们使用固定步长时,为什么点变得“非常密集” ?直观地,它看起来不像固定步长,而是递减的步长。Xxx PS:R代码包括情节。 A=rbind(c(10,2),c(2,3)) f <-function(x){ v=t(x) %*% A %*% x as.numeric(v) } gr <-function(x){ v = 2* A %*% x as.numeric(v) } x1=seq(-2,2,0.02) x2=seq(-2,2,0.02) df=expand.grid(x1=x1,x2=x2) contour(x1,x2,matrix(apply(df, …

1
发现高维,相关数据和主要特征/协变量;多重假设检验?
我有一个约有5,000个经常相关的特征/协变量和二进制响应的数据集。数据是给我的,我没有收集。我使用套索和梯度提升来构建模型。我使用迭代的嵌套交叉验证。我报告了Lasso在梯度增强树中最大(绝对)的40个系数和40个最重要的特征(40个并没有什么特别的;它似乎是一个合理的信息量)。我还报告了这些数量在CV的折叠和迭代中的变化。 我有点想“重要”功能,不对p值或因果关系或其他任何东西做任何陈述,而是考虑将此过程视为一种现象-尽管不完美,而且是某种随机性-而不是某种现象。 假设我正确完成了所有这些操作(例如,正确执行了交叉验证,针对套索进行了缩放),这种方法是否合理?是否存在多个假设检验,事后分析,错误发现等问题?还是其他问题? 目的 预测不良事件的可能性 首先,准确估计概率 更为次要的是,作为一项健全性检查,但也许还可以揭示一些可以进一步研究的新颖预测变量,请检查上述系数和重要性。 消费者 有兴趣预测此事件的研究人员以及最终不得不修复该事件的人员 我希望他们摆脱困境 如果他们希望使用自己的数据重复所述的建模过程,则使他们能够预测事件。 为意外的预测因素提供一些启示。例如,可能发现完全出乎预料的是最佳预测器。因此,其他地方的建模者可能会更认真地考虑所述预测变量。


1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

4
如何解释考克斯风险模型的生存曲线?
您如何从考克斯比例风险模型解释生存曲线? 在这个玩具示例中,假设我们对数据age变量有一个cox比例风险模型kidney,并生成了生存曲线。 library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() 例如,在时间,哪个说法是正确的?还是两者都不对?200200200 陈述1:我们将剩下20%的主题(例如,如果我们有人,那么到200天时,我们应该剩下200个左右), 100010001000200200200200200200 陈述2:对于一个给定的人,他/她有200 20%20%20\%机会在200天生存200200200。 我的尝试:我不认为这两个陈述是相同的(如果我错了,请纠正我),因为我们没有iid假设(所有人的生存时间不是独立地来自一个分布)。在这里我的问题类似于逻辑回归,每个人的危险率取决于该人的。βTxβTx\beta^Tx

4
训练神经网络进行回归总是可以预测均值
我正在训练一个简单的卷积神经网络进行回归,其中的任务是预测图像中盒子的(x,y)位置,例如: 网络的输出有两个节点,一个用于x,一个用于y。网络的其余部分是标准的卷积神经网络。损失是盒子的预测位置和地面真实位置之间的标准均方误差。我正在训练10000张这些图像,并在2000年进行验证。 我的问题是,即使经过大量培训,损失也不会真正减少。观察网络的输出后,我注意到对于两个输出节点,网络都倾向于输出接近零的值。这样,盒子位置的预测始终是图像的中心。预测中存在一些偏差,但始终在零附近。下面显示了损失: 我已经运行了比此图所示更多的时期,并且损失仍然从未减少。有趣的是,损失实际上增加了一点。 因此,似乎网络只是在预测训练数据的平均值,而不是学习合适的数据。关于这可能是什么的任何想法?我使用Adam作为优化器,初始学习率为0.01,并将relus作为激活 如果您对我的某些代码(Keras)感兴趣,请参见以下代码: # Create the model model = Sequential() model.add(Convolution2D(32, 5, 5, border_mode='same', subsample=(2, 2), activation='relu', input_shape=(3, image_width, image_height))) model.add(Convolution2D(64, 5, 5, border_mode='same', subsample=(2, 2), activation='relu')) model.add(Convolution2D(128, 5, 5, border_mode='same', subsample=(2, 2), activation='relu')) model.add(Flatten()) model.add(Dense(100, activation='relu')) model.add(Dense(2, activation='linear')) # Compile the model adam = Adam(lr=0.01, beta_1=0.9, …

1
了解LSTM拓扑
和其他许多人一样,我发现这里和这里的资源对于理解LSTM单元非常有用。我确信我了解值是如何流动和更新的,并且我也有足够的信心添加上述“窥孔连接”等。 在我的示例中,每个时间步长都有一个输入向量length i和一个输出向量length in o,其中o < i。 这两页都没有真正涵盖的是如何安排和培训这些内容。 我有两个问题: 在我的训练数据中,我有很多输入/输出向量对,它们对应许多很多时间单位。假设我用所有数据训练LSTM。然后可以通过它运行任意长度的输入集吗?我的意思是,如果我有整个2015年和2016年的培训数据,那么我可以通过网络运行2017年的数据吗?还是从2017年到2020年? 根据我所读的内容,感觉每个时间单位都有一个LSTM单元,因此,如果我有很多时间单位,那么我会有许多链接的LSTM单元。由于链的长度取决于我要通过网络运行的数据的长度,并且大概是任意的,所以我看不到如何训练它,除非我只训练一个LSTM单元,然后将其复制为一个数字次。因此,似乎我将训练一个LSTM单元,然后n将它们链接在一起以获得给定长度的输入矢量列表n?即使单个LSTM单元包含许多元素和功能,也感觉不足以在这么小的事物中捕获这么多的信息吗? 谢谢。我还有其他(相对较快)可以消耗的资源可以帮助我理解实施细节吗?上面的2个链接给出了正在发生的事情的高级概述,但未能捕获这些更详细的信息。

2
随机变分推断在高斯贝叶斯混合中的应用
我试图实现与随机变推理高斯混合模型,如下文。 这是高斯混合的pgm。 根据本文,随机变异推断的完整算法为: 我仍然对将其缩放到GMM的方法感到非常困惑。 首先,我认为局部变分参数仅为qzqzq_z,其他均为全局参数。如果我错了,请纠正我。步骤6是什么意思as though Xi is replicated by N times?我应该怎么做才能做到这一点? 你能帮我吗?提前致谢!

2
我们应该一直做简历吗?
我的问题:即使是相对较大的数据集,我也应该进行简历吗? 我有一个相对较大的数据集,我将对数据集应用机器学习算法。 由于我的电脑运行不快,因此CV(和网格搜索)有时会花费很长时间。特别是,由于许多调整参数,SVM永远都不会停止。因此,如果我进行简历,那么我需要选择一个相对较小的数据。 另一方面,验证集也应该很大,因此我认为使用与训练集大小相同(或更大)的验证集是个好主意。(也就是说,我使用大型验证集代替CV进行参数调整。) 所以我现在至少有两个选择。 对小数据集进行简历。 使用相对较大的训练集和验证集而不使用简历。 其他想法。 最好的主意是什么?无论是理论上还是实践上的意见都值得欢迎。

2
在交叉验证之前执行无监督特征选择实际上是否还好?
在“统计学习的要素”中,我发现以下语句: 有一项条件:可以在不进行样品检测之前进行初始的无监督筛选步骤。例如,在开始交叉验证之前,我们可以在所有50个样本中选择具有最高方差的1000个预测变量。由于此过滤不涉及类标签,因此不会给预测变量带来不公平的优势。 这真的有效吗?我的意思是,通过预先过滤属性,我们不会模仿训练数据/新数据环境-那么,是否对正在执行的过滤没有监督是很重要的吗?在交叉验证过程中实际执行所有预处理步骤是否更好?如果不是这种情况,则意味着可以预先执行所有无监督的预处理,包括功能归一化/ PCA等。但是,通过对整个训练集进行这些操作,实际上是在向训练集泄漏一些数据。我可以同意,相对稳定的数据集,这些差异很可能应该很小-但这并不意味着它们不存在,对吧?思考这个问题的正确方法是什么?

1
有人可以从Hastie的ESL书中解释一下像我5岁这样的问题吗?
我正在阅读Hastie的ESL书,而在问题2.3方面却遇到了困难。问题如下: 我们正在考虑原点处的最近邻居估计,并且由该方程式给出了从原点到最近数据点的中值距离。我不知道从哪里开始尝试得出这一点。 我知道大多数数据点比其他任何数据点(维数的诅咒)都更接近样本空间的边界,但是我很难将其转换为线性代数/概率意义。 谢谢!

6
我想学习概率论,度量理论,最后是机器学习。我从哪里开始?[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 3年前关闭。 我想学习概率论,度量理论,最后是机器学习。我的最终目标是在一个软件中使用机器学习。 我在大学里学习了微积分和非常基本的概率,但是仅此而已。您知道一些我可以用来学习这些主题的在线课程或书籍吗?我在网上找到了很多资源,但它们似乎都是针对专业观众的。我知道这将需要一些时间,但是如果我想从头开始学习,该从哪里开始呢?

1
线性基础学习器如何促进学习?以及它如何在xgboost库中工作?
我知道如何在XGBoost中实现线性目标函数和线性提升。我的具体问题是:当算法适合残差(或负梯度)时,是在每个步骤使用一个特征(即单变量模型)还是在所有特征(多元模型)中使用? 任何有关XGBoost中线性增强功能的文档参考都将受到赞赏。 编辑:通过将“ booster”参数设置为“ gblinear”,可以在XGBoost中实现线性增强。有关线性增强的有用信息,请参见:http : //www.ncbi.nlm.nih.gov/pmc/articles/PMC3885826/。请注意,我并不是在谈论目标函数(也可以是线性的),而是关于提升它们自己。 谢谢!

1
每个动作只有一个输出单元时,使用神经网络进行Q学习的效率如何?
背景: 我在强化学习任务中使用了神经网络Q值近似。该方法与该问题中描述的方法完全相同,但是问题本身不同。 在这种方法中,输出数量就是我们可以采取的行动数量。简单来说,算法如下:执行动作A,探索奖励,要求NN预测所有可能动作的Q值,选择最大Q值,将特定动作A的Q计算为R + max(new_state_Q)。在预测的Q值上拟合模型,只有其中一个被代替R + max(new_state_Q)。 问题:如果产出数量很大,这种方法的效率如何? 尝试:假设我们可以采取10个动作。在每个步骤中,我们都要求模型预测10个值,而在模型的早期,这种预测就是一团糟。然后,我们修改输出的1个值,并使模型适合这些值。 对于这种方法的优缺点,我有两种相反的想法,无法确定哪种方法是正确的: 从一个角度来看,我们在随机数据上训练每个神经元9次,而在接近实际值的数据上仅训练一次。如果NN在状态S下为动作A预测5,但实际值为-100,则将使NN与值5匹配9次,然后与值-100匹配一次。听起来很疯狂。 从其他角度来看,神经网络的学习是作为错误的反向传播实现的,因此,当模型预测5且我们在5上对其进行训练时,由于错误为0,因此不会学习任何新知识。权重不受影响。并且只有当我们将计算-100并将其拟合到模型中时,它才会进行权重计算。 哪个选项正确?也许还有其他我没有考虑的东西? 更新: “有效率”是指与一种输出(预期回报)的方法进行比较。当然,在这种情况下,动作将是输入的一部分。因此,方法1根据某种状态对所有动作进行预测,方法2对某种状态下采取的特定动作进行预测。

1
深度学习需要多少数据?
我正在学习深度学习(特别是CNN),以及它通常如何需要大量数据来防止过拟合。但是,我还被告知,模型具有更高的容量/更多的参数,需要更多的数据来防止过拟合。因此,我的问题是:为什么您不能只减少深度神经网络中每层的层数/节点数,而使其仅处理少量数据呢?在“插入”之前,神经网络是否需要基本的“最小参数数量”?在一定数量的层以下,神经网络的性能似乎不如手工编码的功能好。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.