Questions tagged «unsupervised-learning»

在未标记的数据中查找隐藏的(统计)结构,包括用于降维的聚类和特征提取。

3
如何生成k均值聚类分析结果的漂亮图?
我正在使用R进行K均值聚类。我正在使用14个变量来运行K均值 有什么漂亮的方法可以绘制K均值的结果? 是否有任何现有的实现? 具有14个变量会使绘制结果复杂吗? 我发现了一个叫做GGcluster的东西,它看上去很酷,但仍在开发中。我也阅读了一些有关sammon映射的内容,但并不太了解。这将是个好选择吗?

2
人工神经网络ANN如何用于无监督聚类?
我了解如何artificial neural network (ANN)使用反向传播以监督方式训练,以通过减少预测误差来改善拟合。我听说ANN可以用于无监督学习,但是如何在没有某种成本函数来指导优化阶段的情况下做到这一点呢?使用k-means或EM算法时,有一个函数,每次迭代搜索都在增加该函数。 我们如何使用ANN进行聚类,以及它使用什么机制对同一地点的数据点进行分组? (以及增加更多层带来了哪些额外的功能?)



3
手动计算逻辑回归95%置信区间与在R中使用confint()函数之间为什么会有区别?
亲爱的大家-我注意到我无法解释的怪事,可以吗?总之:在logistic回归模型中计算置信区间的手动方法和R函数confint()得出不同的结果。 我一直在研究Hosmer&Lemeshow的Applied Logistic回归(第二版)。在第3章中,有一个计算比值比和95%置信区间的示例。使用R,我可以轻松地重现模型: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

2
为分层聚类选择正确的链接方法
我正在对从Google BigQuery的reddit数据转储收集和处理的数据进行分层聚类。 我的过程如下: 在/ r / politics中获取最新的1000条帖子 收集所有评论 处理数据并计算n x m数据矩阵(n:用户/样本,m:帖子/功能) 计算距离矩阵进行层次聚类 选择一种链接方法并执行分层聚类 将数据绘制为树状图 我的问题是,如何确定最佳的链接方法是什么?我目前使用的Ward,但我怎么知道我是否应该使用single,complete,average等? 我对这些东西还很陌生,但是我不确定是否有一个答案,因此我无法在网上找到明确的答案。那么,对于我的应用程序来说,什么是个好主意呢?请注意,在n x m矩阵具有多个零的意义上,数据是相对稀疏的(大多数人对多则帖子的评论不多)。

2
监督学习,无监督学习和强化学习:工作流基础
监督学习 1)人们根据输入和输出数据构建分类器 2)使用训练数据集对分类器进行训练 3)该分类器已通过测试数据集进行了测试 4)如果输出令人满意,则进行部署 在以下情况下使用:“我知道如何对这些数据进行分类,我只需要您(分类器)对其进行分类即可。” 方法要点:分类标签或产生实数 无监督学习 1)人们根据输入数据建立算法 2)使用一个测试数据集测试该算法(该算法在其中创建分类器) 3)如果分类器令人满意,则进行部署 在以下情况下使用:“我不知道如何对这些数据进行分类,您(算法)可以为我创建分类器吗?” 方法要点:分类标签或预测(PDF) 强化学习 1)人们根据输入数据建立算法 2)该算法呈现取决于输入数据的状态,在该状态下,用户通过算法采取的行动来奖励或惩罚该算法,这种状态会随着时间的流逝而持续 3)该算法从奖励/惩罚中学习并自我更新,这继续 4)始终处于生产状态,它需要学习真实数据以能够呈现状态下的动作 在以下情况下使用:“我不知道如何对这些数据进行分类,您可以对这些数据进行分类,如果正确的话我会给您奖励,如果不正确的话我会给您惩罚。” 这是那种这些做法的流量,我听到了很多关于他们做什么,但实际和示范性的信息是令人吃惊的小!

5
在统计学和机器学习中区分两组:假设检验vs.分类vs.聚类
假设我有两个数据组,分别标记为A和B(每个数据组包含200个样本和1个特征),我想知道它们是否不同。我可以: a)进行统计检验(例如t检验)以查看它们是否在统计上不同。 b)使用监督机器学习(例如,支持向量分类器或随机森林分类器)。我可以对部分数据进行训练,然后对其余部分进行验证。如果之后机器学习算法正确地对其余部分进行分类,那么我可以确定样本是可区分的。 c)使用无监督算法(例如K-Means),然后将所有数据分为两个样本。然后,我可以检查找到的这两个样本是否与我的标签A和B一致。 我的问题是: 这三种不同方式如何重叠/排斥? b)和c)对任何科学论证有用吗? 如何从方法b)和c)中获得样品A和B之间差异的“重要性”? 如果数据具有多个功能而不是1个功能,将会发生什么变化? 如果它们包含不同数量的样本(例如100对300)会怎样?


5
每个聚类具有相同数量点的聚类过程?
我在有一些点,并且我想将这些点聚类,以便:X={x1,...,xn}X={x1,...,xn}X=\{x_1,...,x_n\}RpRpR^p 每个簇包含相等数量的元素。(假设簇数除以。)XXXnnn 每个聚类在某种意义上都是“空间内聚的”,就像来自均值的聚类一样。kķk 很容易想到很多满足其中一个或另一个要求的聚类过程,但是没有人知道同时获得两者的方法吗?

3
每日时间序列分析
我正在尝试进行时间序列分析,并且是该领域的新手。我每天都在统计2006-2009年的某个事件,因此我想为其拟合时间序列模型。这是我取得的进步: timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) plot.ts(timeSeriesObj) 我得到的结果图是: 为了验证是否存在季节性和趋势数据,或者不是,我按照此提到的步骤后: ets(x) fit <- tbats(x) seasonal <- !is.null(fit$seasonal) seasonal 在Rob J Hyndman的博客中: library(fma) fit1 <- ets(x) fit2 <- ets(x,model="ANN") deviance <- 2*c(logLik(fit1) - logLik(fit2)) df <- attributes(logLik(fit1))$df - attributes(logLik(fit2))$df #P value 1-pchisq(deviance,df) 两种情况都表明没有季节性。 当我绘制该系列的ACF和PACF时,得到的是: 我的问题是: 这是处理每日时间序列数据的方式吗?该页面建议我应该同时查看每周和年度模式,但是这种方法对我来说并不明确。 一旦有了ACF和PACF图,我将不知道如何进行。 我可以简单地使用auto.arima函数吗? 适合<-arima(myts,order = c(p,d,q) *****更新了Auto.Arima结果****** 当我根据罗布海德门的评论的数据的频率改变为7 这里,auto.arima选择一个季节性ARIMA模型和输出: …

3
有监督的聚类或分类?
第二个问题是,据我所知,我在网络上某处的讨论中发现“有监督的聚类”,而聚类是无监督的,那么“有监督的聚类”的确切含义是什么?关于“分类”有什么区别? 有很多链接在谈论这一点: http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf 等...


3
如何仅训练阳性病例来预测结果?
为了简单起见,假设我正在研究垃圾邮件/非垃圾邮件的经典示例。 我有一组20000封电子邮件。在这些邮件中,我知道2000是垃圾邮件,但没有任何非垃圾邮件的例子。我想预测其余18000个垃圾邮件是否为垃圾邮件。理想情况下,我要寻找的结果是电子邮件为垃圾邮件的概率(或p值)。 在这种情况下,我可以使用哪种算法做出明智的预测? 目前,我正在考虑一种基于距离的方法,该方法可以告诉我电子邮件与已知垃圾邮件的相似程度。我有什么选择? 更笼统地说,我可以使用监督学习方法吗?或者我是否必须在训练中包含负面案例才能做到这一点?我是否仅限于无监督学习方法?那么半监督方法呢?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.