Questions tagged «unsupervised-learning»

在未标记的数据中查找隐藏的(统计)结构,包括用于降维的聚类和特征提取。

2
如何理解卷积深度信念网络进行音频​​分类?
Lee等人在“ 用于分层表示的可扩展无监督学习的卷积深度信念网络 ”中。(PDF)提出了卷积DBN。还对该方法进行了图像分类评估。这听起来很合逻辑,因为具有自然的局部图像特征,例如小角和边缘等。 Lee等人在“ 使用卷积深度置信网络进行音频​​分类的无监督特征学习 ”中。等 此方法适用于不同类别的音频。说话者识别,性别识别,电话分类以及一些音乐流派/艺术家分类。 如何将网络的卷积部分解释为音频,就像将图像解释为边缘一样?

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
混合连续变量和二进制变量的t-SNE
我目前正在研究使用t-SNE进行高维数据的可视化。我有一些包含二进制和连续变量混合的数据,并且数据似乎很容易将二进制数据聚类。当然,这是按比例缩放(介于0和1之间)数据的预期:二进制变量之间的Euclidian距离将始终最大/最小。如何使用t-SNE处理混合的二进制/连续数据集?我们应该删除二进制列吗?它有一个不同的metric,我们可以使用? 作为示例,请考虑以下python代码: x1 = np.random.rand(200) x2 = np.random.rand(200) x3 = np.r_[np.ones(100), np.zeros(100)] X = np.c_[x1, x2, x3] # plot of the original data plt.scatter(x1, x2, c=x3) # … format graph 所以我的原始数据是: 其中颜色是第三个特征(x3)的值-在3D中,数据点位于两个平面(x3 = 0平面和x3 = 1平面)中。 然后,我执行t-SNE: tsne = TSNE() # sci-kit learn implementation X_transformed = StandardScaler().fit_transform(X) tsne = TSNE(n_components=2, …


1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
聚类问题的特征选择
我正在尝试使用无监督算法(聚类)将不同的数据集组合在一起。问题是我有很多功能(〜500)和少量情况(200-300)。 到目前为止,我以前只做分类问题,对此我总是将数据标记为训练集。在那里,我使用了一些标准(即random.forest.importance或information.gain)来预先选择特征,然后我使用了针对不同学习者的顺序正向选择来找到相关特征。 现在,我看到在无监督学习的情况下,我既没有任何预选标准,也不能使用顺序正向选择(至少在mlr软件包中没有)。 我想知道是否可以先进行主成分分析,然后再找到少量适合我的聚类算法的功能。还是您还有其他想法? 谢谢 编辑: 好的,所以在网上进行了一些研究之后,我可以稍微更新一下我的问题:首先,由于两个原因,我读了一些不鼓励在聚类算法之前使用PCA的文章: PC具有所有功能的功能,因此很难将结果与初始数据集相关联,因此很难解释 此外,如果您有一个问题,就是实际上只有很少一部分功能有助于进行聚类,则不必说这些功能也描述了样本之间最大的差异(PC就是这样做的) 因此PCA不在桌面上... 现在,我回到了最初的想法,对集群进行顺序的前向选择。 您会推荐什么绩效指标?(我想到过Dunn-Index)哪种聚类算法会导致大小大致相同的聚类?(对于分层集群,我通常会得到一个集群,其中有一个异常值,而另一个集群则具有所有其他异常值->因此,我需要某种可以防止异常值的东西) 希望你们能帮助我...

1
无法使此自动编码器网络正常运行(具有卷积层和maxpool层)
自动编码器网络似乎比普通分类器MLP网络更复杂。在使用Lasagne进行了几次尝试之后,我在重构输出中得到的所有内容在最好的情况下类似于MNIST数据库的所有图像的模糊平均,而没有区分输入位数是多少。 我选择的网络结构为以下层叠层: 输入层(28x28) 2D卷积层,滤镜尺寸7x7 最大汇聚层,大小3x3,步幅2x2 密集(完全连接)的展平层,10个单位(这是瓶颈) 密集(完全连接)层,共121个单元 将图层重塑为11x11 2D卷积层,滤镜大小3x3 2D放大层系数2 2D卷积层,滤镜大小3x3 2D放大层系数2 2D卷积层,滤镜尺寸5x5 功能最大池化(从31x28x28到28x28) 所有的2D卷积层都具有无偏差的偏置,S型激活和31个滤波器。 所有完全连接的层均具有S型激活。 使用的损失函数为平方误差,更新函数为adagrad。用于学习的块的长度是100个样本,乘以1000个纪元。 下面是该问题的说明:上面的行是设置为网络输入的一些样本,下面的行是重构: 为了完整起见,以下是我使用的代码: import theano.tensor as T import theano import sys sys.path.insert(0,'./Lasagne') # local checkout of Lasagne import lasagne from theano import pp from theano import function import gzip import numpy as np from …

6
如何准备/构造异常检测功能(网络安全数据)
我的目标是使用群集/异常检测(用于入侵检测)分析网络日志(例如Apache,syslog,Active Directory安全审核等)。 从日志中,我有很多文本字段,例如IP地址,用户名,主机名,目标端口,源端口等等(总共15-20个字段)。我不知道日志中是否存在一些攻击,并且想突出显示最可疑的事件(异常值)。 通常,异常检测将概率/频率较低的点标记为异常。但是,一半的日志记录包含字段的唯一组合。因此,数据集中的一半记录将具有最低的频率。 如果我使用基于聚类的异常检测(例如,找到聚类,然后选择远离所有聚类中心的点),则需要找到不同点之间的距离。由于我有15-20个字段,因此它将是一个多维空间,其中维是用户名,端口,IP地址等。但是,马氏距离只能应用于正态分布的要素。这意味着无法找到数据点之间的距离并构造聚类... 例如,假设我在20条记录的数据集中有用户Alice,Bob,Carol,Dave,Eve和Frank。它们在数据库中可能具有以下发生次数:2,5,2,5,1,5。如果我只是将用户名映射到数字,例如 Alice --> 1 Bob --> 2 Carol --> 3 Dave --> 4 Eve --> 5 Frank --> 6 然后,我的用户名概率分布将如下所示: p(1)= 0.1,p(2)= 0.25,p(3)= 0.1,p(4)= 0.25,p(5)= 0.05,p(6)= 0.25 当然,这不是正态分布,也没有太大意义,因为我可以以任何不同的方式映射用户名... 因此,用户名,操作,端口号,IP地址等字段到数字的简单映射不会带来任何影响。 因此,我想问一下,通常如何处理文本字段/构造特征以使无监督的异常/异常检测成为可能? 编辑:数据结构。 我在数据库表中大约有100列,其中包含来自Active Directory事件的信息。从这100列中,我选择最重要的(从我的角度来看):SubjectUser,TargetUser,SourceIPaddress,SourceHostName,SourcePort,计算机,DestinationIPaddress,DestinationHostName,DestinationPort,操作,状态,FilePath,EventID,WeekDay,DayTime。 事件是Active Directory事件,其中EventID定义了记录的内容(例如,创建Kerberos票证,用户登录,用户注销等)。 数据样本如下所示: + ------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -+ | ID …

4
如何在2 X 3桌子上进行多个事后卡方检验?
我的数据集包括近海,中海道和近海三种地点类型的生物的总死亡率或生存率。下表中的数字表示站点数。 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 我想知道根据地点​​类型,发生100%死亡率的地点数量是否显着。如果我运行2 x 3卡方,则会得到显着的结果。我是否可以进行事后成对比较,或者实际上应该使用对数方差分析或二项分布的回归?谢谢!
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.