Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。

2
从关系数据中学习
设置 许多算法对单个关系或表进行操作,而许多现实世界数据库将信息存储在多个表中(Domingos,2003年)。 问题 哪些类型的算法可以从多个(关系)表中很好地学习。特别是,我对适用于回归和分类任务的算法(而不是面向网络分析的算法,例如链接预测)感兴趣。 我知道下面列出了几种方法(但可以肯定的是我缺少了一些方法): 多关系数据挖掘(MRDM)(Dzeroski,2002) 归纳逻辑编程(ILP)(Muggleton,1992年) 统计关系学习(SRL)(Getoor,2007年) Džeroski,S。(2003)。多关系数据挖掘:简介。ACM SIGKDD勘探通讯。 Getoor,Lise和Ben Taskar编辑。统计关系学习简介。麻省理工学院出版社,2007。 S. Muggleton和C. Feng。逻辑程序的有效归纳。第一次算法学习理论会议论文集,第368–381页。1990年,东京,欧姆萨(Ohmsha)。

1
LSA与pLSA之间的并列
在pLSA的原始论文中,作者Thomas Hoffman在pLSA和LSA数据结构之间画了一条相似的线,我想与您讨论一下。 背景: 从信息检索中获得启发,假设我们有一个 ññN 单据 D = {d1个,d2,。。。。,dñ}d={d1个,d2,。。。。,dñ}D = \lbrace d_1, d_2, ...., d_N \rbrace 和一个词汇 中号中号M 条款 Ω = {ω1个,ω2,。。。,ω中号}Ω={ω1个,ω2,。。。,ω中号}\Omega = \lbrace \omega_1, \omega_2, ..., \omega_M \rbrace 一个语料库 XXX 可以用 ñ× Mñ×中号N \times M 共生矩阵。 在SVD的潜在语义Analisys中,矩阵XXX 被分为三个矩阵: X= UΣVŤX=üΣVŤX = U \Sigma V^T 哪里 Σ = d我一个克{σ1个,。。。,σs}Σ=d一世一个G{σ1个,。。。,σs}\Sigma = …

5
预先聚类有助于建立更好的预测模型吗?
对于流失建模的任务,我正在考虑: 计算数据的k个聚类 分别为每个集群构建k个模型。 这样做的理由是,没有证据可以证明子代客群体是同质的,因此有理由假设数据生成过程可能因不同的“组”而异。 我的问题是,这是否合适?它违反任何东西,还是出于某种原因被认为是不好的?如果是这样,为什么? 如果不是,您是否会分享有关该问题的一些最佳实践?第二件事-做预聚类通常比模型树好还是坏(如Witten,Frank中定义的那样,分类/回归树在叶子上有模型。直觉上看来,决策树阶段只是聚类的另一种形式,但是如果它比“常规”群集有任何优势,请访问idk。)。


1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
动态调整NN架构:发明不必要的东西吗?
我开始了我的博士之旅,而我自己设定的最终目标是开发ANN,以监控他们工作的环境并动态调整体系结构以解决当前的问题。明显的含义是数据的暂时性:如果数据集不是连续的并且不会随时间变化,那么为什么要进行调整呢? 最大的问题是:随着深度学习的兴起,它仍然是一个相关的话题吗?FFNN是否有机会在概念漂移问题中找到自己的位置? 我担心会给线程带来过多的问题,但这并不是完全不合时宜的事情:我知道RNN,但是我对它们的经验有限(可以,没有,或者纯粹是理论上的);我相信在RNN的背景下,动态架构适应必须是一个相关主题。问题是,它是否已经得到回答,我会重新发明轮子吗? PS交叉发布以进行MetaOptimize

2
混合模型的参数,半参数和非参数引导
接下来的嫁接摘自本文。我是新手,要引导并尝试为带有R boot包的线性混合模型实现参数,半参数和非参数自举。 R代码 这是我的R代码: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out 问题 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

3
预期的最佳性能数据集
说我有一个简单的机器学习问题,例如分类。作为视觉或听觉识别方面的一些基准,我作为人类是一个很好的分类器。因此,我对分类器的性能有一个直觉。 但是有大量数据,有一点是我不知道我训练的分类器有多好。这是我个人不是很好的分类器的数据(例如,从EEG数据分类一个人的情绪)。很难直觉我的问题有多难。 现在,如果遇到机器学习问题,我想知道我能得到什么。是否有任何原则性的方法?你会怎么做? 可视化数据?从简单的模型开始?从非常复杂的模型开始,看看我是否可以过拟合?如果您想回答这个问题,您正在寻找什么?您什么时候停止尝试?

1
具有一个主要预测因子的分类
我有一个(级)分类问题,具有100个实值预测变量的数量级,其中一个似乎比其他任何一个都具有更多的解释能力。我想更深入地了解其他变量的影响。但是,标准的机器学习技术(随机森林,SVM等)似乎被一个强大的预测因素所淹没,并且没有给我提供很多有关其他方面的有趣信息。ķķk 如果这是一个回归问题,我将仅针对强预测变量进行回归,然后将残差用作其他算法的输入。我真的看不到如何将这种方法转换为分类上下文。 我的直觉是,这个问题必须相当普遍:是否有标准的处理方法?


2
如何在R中为SVM输入变量执行遗传算法变量选择?
我在R中使用kernlab软件包来构建SVM,以对某些数据进行分类。 SVM运行良好,因为它提供了不错的准确性的“预测”,但是我的输入变量列表比我想要的要大,而且我不确定不同变量的相对重要性。 我想实现一个遗传算法,以选择产生最佳训练/最适合的SVM的输入变量子集。 在尝试此GA实施时(可能是一个简短的psuedo示例),我想选择使用哪个R包时需要一些帮助。 我已经查看了大部分R GA / P软件包(RGP,genalg,subselect,GALGO),但是我在概念上很难解决如何将ksvm函数作为健身函数的一部分传递并输入我的变量数组作为人口池...? 在正确的方向上得到的任何帮助,想法或推动都将不胜感激。 谢谢 解决此问题的代码在稍后的EDIT中添加 # Prediction function to be used for backtesting pred1pd = function(t) { print(t) ##add section to select the best variable set from those available using GA # evaluation function - selects the best indicators based on miminsied training error …

2
从训练集中删除重复项以进行分类
假设我有很多关于分类问题的行: X1,...XN,YX1,...XN,YX_1, ... X_N, Y 其中是 /预测变量,是该行的要素组合所属的类。X1,...,XNX1,...,XNX_1, ..., X_NYYY 许多特征组合及其类在数据集中重复进行,我正在使用它来拟合分类器。我只是想知道是否可以删除重复项(我基本上group by X1 ... XN Y在SQL中执行a )?谢谢。 PS: 这是针对仅二进制存在的数据集,其中类先验非常偏斜

1
从现有的多输入最大熵分类器创建最大熵马尔可夫模型
最大熵马尔可夫模型(MEMM)的概念引起了我的兴趣,我正在考虑将其用于词性(POS)标记器。目前,我正在使用常规的最大熵(ME)分类器来标记每个单词。这使用了许多功能,包括前面的两个标签。 MEMM使用维特比算法找到通过马尔可夫链的最优路径(即为句子找到完整的最优标签集,而不是为每个单词找到单独的最优值)。读到它,这似乎具有奇妙的优雅和简约。但是,每个阶段仅依赖于上一个阶段的“结果”(即,根据马尔可夫链)。 但是,我的ME模型使用了前两个阶段(即前两个单词的标签)。看来我有两种可能的方法: 与传统的Viterbi实现一样,使用根据一个(上一个)阶段存储的一组路径。我的ME分类器将使用此阶段和此阶段之前的“冻结”阶段(冻结到所考虑的路径中)来产生传递函数。 或者我编写算法来跟踪两个阶段。这更加复杂,将不再是真正的马尔可夫模型,因为每个传递函数(即,来自ME模型)将取决于前两个阶段而不是一个阶段。 令我惊讶的是,第二秒将更加准确,尽管它将更加复杂。 在文献搜索过程中,我还没有找到任何示例。是否尝试过?两阶段方法是否改善了整体精度?

1
何时选择PCA与LSA / LSI
题: 是否有关于输入数据特性的一般准则,可用于决定在应用PCA与LSA / LSI之间? PCA与LSA / LSI的简要概述: 从主要成分分析(PCA)和潜在语义分析(LSA)或潜在语义索引(LSI)的角度来看,它们都基本都依赖于奇异值分解(SVD)在矩阵上的应用。 据我所知,LSA和LSI是同一件事。LSA与PCA的根本区别不在于PCA,而在于在应用SVD之前对矩阵条目进行预处理的方式。 在LSA中,预处理步骤通常涉及规范化计数矩阵,其中列对应于“文档”,行对应于某种单词。可以将条目视为某种(规范化的)文档出现字数。 在PCA中,预处理步骤涉及从原始矩阵计算协方差矩阵。从概念上讲,原始矩阵在本质上比LSA更具“一般性”。在涉及PCA的情况下,通常称列指的是通用样本向量,而称行指的是要测量的单个变量。协方差矩阵的定义是平方和对称的,实际上,由于可以通过对角化分解协方差矩阵,因此不必应用SVD。值得注意的是,PCA矩阵几乎肯定比LSA / LSI变体更密集-零条目仅在变量之间的协方差为零(即变量独立)的情况下才会出现。 最后,另一个经常被用来区分两者的描述点是: LSA寻求Frobenius范数中的最佳线性子空间,而PCA则寻求最佳仿射线性子空间。 无论如何,这些技术的差异和相似性已在整个互联网的各个论坛中激烈辩论,并且显然存在一些显着差异,并且显然这两种技术将产生不同的结果。 因此,我重复我的问题:是否有关于输入数据特性的一般准则,可用于决定在应用PCA与LSA / LSI之间?如果我有类似术语文档矩阵的内容,那么LSA / LSI始终是最佳选择吗?在某些情况下,可能希望通过为LSA / LSI准备术语/文档矩阵,然后将PCA应用于结果,而不是直接应用SVD来获得更好的结果?

1
使用SVM处理不平衡的多类数据集的最佳方法
我正在尝试在相当不平衡的数据上使用SVM构建预测模型。我的标签/输出有三个类别,正,中性和负。我会说正面的例子约占我数据的10-20%,中立的约占50-60%,负数约占30-40%。我正在尝试平衡类,因为与类之间的错误预测相关的成本并不相同。一种方法是对训练数据进行重采样并生成一个相等的数据集,该数据集比原始数据集更大。有趣的是,当我这样做时,我倾向于对其他类别做出更好的预测(例如,当我平衡数据时,我增加了正面类别的示例数量,但在样本预测之外,负面类别的表现更好)。任何人都可以大致解释为什么会这样吗?如果我增加否定类别的榜样数量,我会从样本预测(例如更好的预测)中得到与肯定类别相似的东西吗? 关于如何通过对错误分类施加不同的成本或使用LibSVM中的类权重来解决不平衡数据的其他想法也非常开放,尽管我不确定如何正确选择/调整那些数据。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.