Questions tagged «unsupervised-learning»

在未标记的数据中查找隐藏的(统计)结构,包括用于降维的聚类和特征提取。

1
远距离监督:监督,半监督或两者兼而有之?
“远距离监督”是一种学习方案,其中在给定标记较弱的训练集的情况下学习分类器(训练数据基于启发式/规则自动标记)。我认为监督学习和半监督学习都可以通过“启发式/自动标记”来标记这种“远程监督”。但是,在此页面中,“远程监督”被定义为“半监督学习”(即,仅限于“半监督”)。 所以我的问题是,“远程监管”是否专门指半监管?我认为它可以应用于监督学习和半监督学习。请提供任何可靠的参考。



3
如何在非负矩阵分解中选择最佳潜在因子数量?
给定的矩阵Vm×nVm×n\mathbf V^{m \times n},非负矩阵分解(NMF)发现两个非负矩阵Wm×kWm×k\mathbf W^{m \times k}和Hk×nHk×n\mathbf H^{k \times n}(即与所有元素≥0≥0\ge 0)来表示分解矩阵为: V≈WH,V≈WH,\mathbf V \approx \mathbf W\mathbf H, 例如要求非负的WW\mathbf W和HH\mathbf H∥V−WH∥2.‖V−WH‖2.\|\mathbf V-\mathbf W\mathbf H\|^2. 是否有通用的方法来估算kkk NMF中?例如,如何将交叉验证用于此目的?

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 



4
什么是人工神经网络?
深入研究神经网络文献时,我们发现了具有神经形态拓扑结构的其他方法(“神经网络”架构)。而且我并不是在说通用逼近定理。示例如下。 然后,让我感到奇怪的是:人工神经网络的定义是什么?它的拓扑似乎涵盖了所有内容。 例子: 我们做出的第一个标识是在PCA和线性自动编码器之间,编码器和解码器具有约束权重,而瓶颈层则具有阈值激活。 此外,在线性模型(特殊情况下为逻辑回归)和没有隐藏层且只有一个输出层的神经网络之间进行了通用标识。此标识打开了几扇门。 傅里叶和泰勒级数?人工神经网络。SVM?人工神经网络。高斯过程?ANN(具有无限隐藏单元的单个隐藏层)。 因此,同样容易地,我们可以将具有这些算法的专门损失函数的任意正则化版本合并到神经网络框架中。 但是,我们挖掘的越多,相似之处就越多。我只是偶然发现了深度神经决策树,该树通过决策树来识别特定的ANN架构,并允许通过ANN方法(例如Gradient Descent反向传播)来学习这些决策树。由此,我们可以仅从神经网络拓扑结构构建随机森林和梯度增强决策树。 如果一切都可以表示为人工神经网络,那么什么定义了人工神经网络呢?

4
如何测量团簇的形状?
我知道这个问题的定义不明确,但是有些群集往往是椭圆形或位于较低维空间中,而其他群集则具有非线性形状(在2D或3D示例中)。 是否有任何衡量团簇非线性(或“形状”)的方法? 请注意,在2D和3D空间中,查看任何群集的形状都不是问题,但是在高维空间中,要说些有关形状的问题。特别是,是否有任何度量凸簇的方法? 许多其他集群问题启发了我这个问题,在这些问题中人们谈论集群,但没人能看到它们(在高维空间中)。此外,我知道2D曲线存在一些非线性度量。

3
使用T-SNE选择超参数进行分类
作为我要解决的特定问题(竞赛),我进行了以下设置:21个功能([0,1]上的数字)和二进制输出。我大约有10万行。设置似乎非常嘈杂。 我和其他参与者使用了一段时间的特征生成功能,并且在这种情况下,t分布的随机邻居嵌入非常强大。 我偶然发现了这篇文章“如何有效使用t-SNE”,但我仍然无法真正得出关于如何在我的分类设置中最佳选择超参数的结论。 是否有经验法则(特征数量,嵌入尺寸->困惑选择)? 我现在只是临时应用设置,因为迭代各种设置所需的时间太长。感谢您的任何评论。

4
通过数据集的随机子样本初始化K均值中心吗?
如果我有某个数据集,那么使用该数据集的随机样本来初始化聚类中心有多么聪明? 例如,假设我要5 clusters。我可以5 random samples说size=20%是原始数据集。然后,我可以对这5个随机样本中的每个样本取平均值,然后将这些均值用作我的5个初始聚类中心吗?我不知道我在哪里读这本书,但我想知道你们对这个想法的看法。 更新:请参阅此线程初始化K-means聚类:现有的方法有哪些?有关各种初始化方法的一般讨论。



2
将机器学习应用于DDoS过滤
在斯坦福大学的机器学习课程中, Andrew Ng提到了将ML应用于IT。一段时间后,当我在站点上获得中等大小的DDoS(大约2万个bot)时,我决定使用简单的神经网络分类器与之抗衡。 我已经在大约30分钟的时间内编写了这个python脚本:https : //github.com/SaveTheRbtz/junk/tree/master/neural_networks_vs_ddos 它采用pyBrain,并采取3个nginx的日志作为输入,其中两个来训练神经网络: 很好的查询 与坏人 和一个日志进行分类 来自错误的查询 0.0.0.0 - - [20/Dec/2011:20:00:08 +0400] "POST /forum/index.php HTTP/1.1" 503 107 "http://www.mozilla-europe.org/" "-" ...好的... 0.0.0.0 - - [20/Dec/2011:15:00:03 +0400] "GET /forum/rss.php?topic=347425 HTTP/1.0" 200 1685 "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; pl; rv:1.9) Gecko/2008052906 Firefox/3.0" ...它构造了一个字典: ['__UA___OS_U', '__UA_EMPTY', '__REQ___METHOD_POST', '__REQ___HTTP_VER_HTTP/1.0', …

5
针对名义/圆形变量的SOM聚类
只是想知道是否有人熟悉标称输入的聚类。我一直在将SOM作为解决方案,但显然它仅适用于数字功能。分类功能是否有扩展?我特别想知道“星期几”是否可能是功能。当然可以将其转换为数值特征(例如,周一至周日对应于1-7号),但是,周日与周一之间的欧几里得距离(1&7)将与周一至周二(1&2)之间的欧氏距离不同)。任何建议或想法将不胜感激。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.