Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。

2
贝叶斯套索vs普通套索
套索可使用不同的实现软件。我知道在不同的论坛上有很多关于贝叶斯方法与常客方法的讨论。我的问题特别针对套索- 贝叶斯套索与常规套索有什么区别或优势? 这是该包中的两个实现示例: # just example data set.seed(1233) X <- scale(matrix(rnorm(30),ncol=3))[,] set.seed(12333) Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1) require(monomvn) ## Lasso regression reg.las <- regress(X, Y, method="lasso") ## Bayesian Lasso regression reg.blas <- blasso(X, Y) 那么我什么时候应该选择一种或其他方法呢?还是一样?

2
自动编码器无法学习有意义的功能
我有50,000张图片,例如这两张图片: 它们描绘了数据图。我想从这些图像中提取特征,因此我使用了Theano(deeplearning.net)提供的自动编码器代码。 问题是,这些自动编码器似乎没有学习任何功能。我已经尝试过RBM,它是相同的。 MNIST数据集提供了不错的功能,但我的数据似乎没有任何结果。我在下面附上示例: 在MNIST上创建的过滤器: 通过对数据进行训练而创建的过滤器: 我使用了隐藏层大小和训练时期的许多不同排列方式,但结果始终相同。 为什么不起作用?为什么自动编码器不能从这些图像中提取特征? 编辑: 对于有类似问题的任何人。解决方法非常简单,原因也很愚蠢。我只是忘了重新调整RGB编码的像素值以使其浮动在0-1的范围内。 重新调整值可以解决问题。

3
交叉验证或自举以评估分类性能?
在特定数据集上评估分类器的性能并将其与其他分类器进行比较的最合适的抽样方法是什么?交叉验证似乎是标准做法,但是我已经读过诸如.632 bootstrap之类的方法是更好的选择。 作为后续措施:性能指标的选择是否会影响答案(如果我使用AUC而不是准确性)? 我的最终目标是能够自信地说一种机器学习方法优于特定的数据集。

3
每日时间序列分析
我正在尝试进行时间序列分析,并且是该领域的新手。我每天都在统计2006-2009年的某个事件,因此我想为其拟合时间序列模型。这是我取得的进步: timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) plot.ts(timeSeriesObj) 我得到的结果图是: 为了验证是否存在季节性和趋势数据,或者不是,我按照此提到的步骤后: ets(x) fit <- tbats(x) seasonal <- !is.null(fit$seasonal) seasonal 在Rob J Hyndman的博客中: library(fma) fit1 <- ets(x) fit2 <- ets(x,model="ANN") deviance <- 2*c(logLik(fit1) - logLik(fit2)) df <- attributes(logLik(fit1))$df - attributes(logLik(fit2))$df #P value 1-pchisq(deviance,df) 两种情况都表明没有季节性。 当我绘制该系列的ACF和PACF时,得到的是: 我的问题是: 这是处理每日时间序列数据的方式吗?该页面建议我应该同时查看每周和年度模式,但是这种方法对我来说并不明确。 一旦有了ACF和PACF图,我将不知道如何进行。 我可以简单地使用auto.arima函数吗? 适合<-arima(myts,order = c(p,d,q) *****更新了Auto.Arima结果****** 当我根据罗布海德门的评论的数据的频率改变为7 这里,auto.arima选择一个季节性ARIMA模型和输出: …

7
如何在机器学习模型或推荐系统中表示地理或邮政编码?
我正在建立模型,我认为地理位置可能非常擅长预测目标变量。我有每个用户的邮政编码。不过,我并不完全确定将邮政编码作为模型中的预测器功能的最佳方式。尽管邮政编码是一个数字,但是无论数字升或降,它都没有任何意义。我可以对所有30,000个邮政编码进行二值化处理,然后将其包含为功能或新列(例如{user_1:{61822:1,62118:0,62444:0等}}}。但是,这似乎会增加很多模型的功能 对解决这种情况的最佳方法有何想法?

3
稀疏PCA到底比PCA好多少?
我之前在课堂上的一些讲座中了解了PCA,并且通过深入了解这个引人入胜的概念,我了解了稀疏的PCA。 我想问一下,如果我没记错的话,这就是稀疏的PCA:在PCA中,如果您有个带有变量的数据点,则可以在应用PCA之前表示维空间中的每个数据点。应用PCA之后,您可以再次在同一维空间中表示它,但是,这一次,第一个主成分将包含最大的方差,第二个主要成分将包含第二个最大方差方向,依此类推。因此,您可以消除最后几个主要组件,因为它们不会导致大量数据丢失,并且可以压缩数据。对?ññnpppppp 稀疏PCA正在选择主成分,以使这些成分的矢量系数中包含较少的非零值。 应该如何帮助您更好地解释数据?谁能举一个例子?

3
高斯核的特征图
K(x,y)=exp(−∥x−y∥222σ2)=ϕ(x)Tϕ(y)K(x,y)=exp⁡(−‖x−y‖222σ2)=ϕ(x)Tϕ(y)K(x,y)=\exp\left({-\frac{\|x-y\|_2^2}{2\sigma^2}}\right)=\phi(x)^T\phi(y)x,y∈Rnx,y∈Rnx, y\in \mathbb{R^n}ϕϕ\phi 我还想知道是否 其中中的。现在,我认为这并不相等,因为使用内核可以处理线性分类器无法工作的情况。我知道将x到一个无限的空间。因此,即使它仍然保持线性,无论它有多少个维度,svm仍然无法进行良好的分类。∑iciϕ(xi)=ϕ(∑icixi)∑iciϕ(xi)=ϕ(∑icixi)\sum_ic_i\phi(x_i)=\phi \left(\sum_ic_ix_i \right)ci∈Rci∈Rc_i\in \mathbb Rϕϕ\phi

2
如何初始化过滤矩阵的元素?
我试图通过编写不依赖库的Python代码(例如Convnet或TensorFlow)来更好地理解卷积神经网络,并且我陷入了如何选择内核矩阵值的文献中。在图像上执行卷积。 我试图在下图显示CNN图层的功能图之间的步骤中了解实现细节。 根据此图: 内核矩阵内核在图像上“步进”,创建特征图,其中每个像素是内核(或滤波器矩阵)的每个权重与输入图像的相应像素值之间的所有按元素乘积的总和。 我的问题是:我们如何初始化内核(或过滤器)矩阵的权重? 在上面的演示中,它们只是1和0,但是我认为这是从图中简化的。 是否在某些预处理步骤中对这些权重进行了训练?还是由用户明确选择?



4
为什么要根据其他优化问题来定义优化算法?
我正在对机器学习的优化技术进行一些研究,但是很惊讶地发现,根据其他优化问题定义了大量的优化算法。我在下面说明一些示例。 例如https://arxiv.org/pdf/1511.05133v1.pdf 一切看起来不错,不错,但接下来有一个在更新....所以什么是算法,为求解?我们不知道,也没有说。因此,神奇的是,我们要解决另一个优化问题,即找到最小化向量,以使内积最小化-如何做到这一点?z k + 1 argmin精氨酸X精氨酸X\text{argmin}_xžk + 1zk+1z^{k+1}精氨酸argmin\text{argmin} 再举一个例子:https : //arxiv.org/pdf/1609.05713v1.pdf 一切都很好,直到您在算法中间点击了最接近的运算符为止,该运算符的定义是什么? 繁荣: 现在,请告诉我们,我们如何解决近端运算符中的问题?没有说 无论如何,取决于是什么,该优化问题看起来很难(NP HARD)。 f精氨酸XargminX\text{argmin}_xFFf 有人可以启发我: 为什么要根据其他优化问题定义这么多优化算法? (这不是鸡和蛋的问题吗?要解决问题1,您需要解决问题2,请使用解决问题3的方法,这依赖于解决问题....) 您如何解决这些算法中嵌入的优化问题?例如,,如何在右侧找到最小化器?Xk + 1= 精氨酸X真正复杂的损失函数Xķ+1个=精氨酸X真正复杂的损失函数x^{k+1} = \text{argmin}_x \text{really complicated loss function} 最终,我对如何以数字方式实现这些算法感到困惑。我认识到加和乘向量是python中的简单操作,但是,是否有一些函数(脚本)神奇地为您提供了函数的最小化器?精氨酸X精氨酸X\text{argmin}_x (赏金:有人能参考作者明确阐明高级优化算法中嵌入的子问题的算法的论文吗?)

1
如何解释TensorBoard中TensorFlow给出的直方图?
我最近正在跑步并学习张量流,并得到了一些我不知道如何解释的直方图。通常我将条形的高度视为频率(或相对频率/计数)。但是,没有像通常的直方图那样没有条形的事实以及事物被阴影化的事实使我感到困惑。似乎一次也有很多行/高度? 是否有人知道如何解释以下图表(也许提供了很好的建议,它们通常可以帮助阅读张量流中的直方图): 也许还有其他值得讨论的事情,如果原始变量是矢量,矩阵或张量,那么张量流实际上显示了什么,就像每个坐标的直方图一样?另外,也许引用如何获取这些信息以使人们自给自足会很好,因为我现在在文档上很难找到有用的东西。也许一些教程示例等?也许一些关于操纵它们的建议也会很好。 作为参考,这里摘录了给出此代码的代码: (X_train, Y_train, X_cv, Y_cv, X_test, Y_test) = data_lib.get_data_from_file(file_name='./f_1d_cos_no_noise_data.npz') (N_train,D) = X_train.shape D1 = 24 (N_test,D_out) = Y_test.shape W1 = tf.Variable( tf.truncated_normal([D,D1], mean=0.0, stddev=std), name='W1') # (D x D1) S1 = tf.Variable( tf.constant(100.0, shape=[]), name='S1') # (1 x 1) C1 = tf.Variable( tf.truncated_normal([D1,1], mean=0.0, stddev=0.1), name='C1' ) …

2
最终(生产准备就绪)模型应该在完整数据上还是仅在训练集中进行训练?
假设我在训练集上训练了多个模型,请使用交叉验证集选择最佳模型,并在测试集上测量性能。所以现在我有了一个最终的最佳模型。我应该在所有可用数据上对其进行再培训还是仅在培训集中接受培训的船舶解决方案?如果是后者,那为什么呢? 更新:正如@ P.Windridge所指出的,交付经过重新训练的模型基本上意味着未经验证就交付了模型。但是我们可以报告测试集的性能,然后正确地在完整数据上对模型进行训练,以期期望性能更好-因为我们使用了最好的模型加上更多的数据。这种方法会引起什么问题?

4
数学家机器学习入门
从某种意义上讲,这是我的math.stackexchange的交叉点,并且我觉得此网站可能会吸引广泛的受众。 我正在寻找关于机器学习的数学入门。特别是,可以找到的许多文献相对不准确,花费了很多页面而没有任何内容。 但是,从这些文献开始,我从安德鲁·伍(Andrew Ng),毕晓普(Bishop)关于模式识别的书以及斯莫拉(Smola)书中发现了Coursera课程。不幸的是,斯莫拉的书只是处于草稿状态。在Smola的书中甚至可以找到证明,这吸引了我。Bishop的书已经相当不错了,但是缺少一些严格的知识。 简而言之:我正在寻找一本类似Smola的书,即尽可能精确和严格,并使用数学背景(尽管简短的介绍当然可以)。 有什么建议吗?

2
主题模型中的主题稳定性
我正在一个项目中,我要提取有关一系列开放式论文内容的信息。在这个特定的项目中,作为大型实验的一部分,有148人撰写了有关假设的学生组织的文章。尽管在我的领域(社会心理学),分析这些数据的典型方法是手工编写论文,但我想定量地进行此操作,因为手工编码既费工又过于主观味道。 在对定量分析免费响应数据的方法进行调查期间,我偶然发现了一种称为主题建模(或潜在Dirichlet分配或LDA)的方法。主题建模采用数据的单词袋表示(术语文档矩阵),并使用有关单词共现的信息来提取数据的潜在主题。这种方法对我的应用程序似乎很完美。 不幸的是,当我将主题建模应用于数据时,我发现了两个问题: 主题建模发现的主题有时很难解释 当我使用其他随机种子重新运行主题模型时,主题似乎发生了巨大变化 我特别关心第2期。因此,我有两个相关的问题: 在LDA程序中,我可以做些什么来优化我的模型拟合程序的可解释性和稳定性?就我个人而言,我不太关心寻找具有最低困惑度和/或最佳模型拟合度的模型-我主要是想使用此过程来帮助我理解和表征本研究参与者在论文中写的内容。但是,我当然不希望我的结果成为随机种子的假象! 与上述问题相关,LDA是否需要多少数据的标准?我见过的大多数使用这种方法的论文都分析了大型语料库(例如,过去20年中所有科学论文的档案),但是,由于我使用的是实验数据,因此我的文档语料库要小得多。 我在这里张贴了论文数据,以供任何想弄脏他或她的手的人使用,并且我在下面粘贴了我正在使用的R代码。 require(tm) require(topicmodels) # Create a corpus from the essay c <- Corpus(DataframeSource(essays)) inspect(c) # Remove punctuation and put the words in lower case c <- tm_map(c, removePunctuation) c <- tm_map(c, tolower) # Create a DocumentTermMatrix. The stopwords are the LIWC function …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.