Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。

2
为什么期望最大化对于混合模型很重要?
有许多文献强调混合模型(高斯混合模型,隐马尔可夫模型等)上的期望最大化方法。 为何EM重要?EM只是一种优化方法,并未广泛用作基于梯度的方法(梯度体面或牛顿/准牛顿法)或此处讨论的其他无梯度方法。此外,EM仍然存在局部极小问题。 是因为该过程是直观的并且可以轻松地转换为代码吗?还是其他原因?

5
根据平均绝对误差的箱线图删除异常值以改进回归模型是否作弊
我有一个用四种方法测试的预测模型,如下面的箱线图所示。模型预测的属性在0到8的范围内。 您可能会注意到,所有方法都指示一个上界离群值和三个下界离群值。我想知道从数据中删除这些实例是否合适?还是这是一种欺骗,以改善预测模型?


1
与标准梯度下降相比,随机梯度下降如何节省时间?
标准梯度下降将为整个训练数据集计算梯度。 for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad 对于预定义的时期数,我们首先使用参数向量参数为整个数据集计算损失函数的梯度向量weights_grad。 相反,随机梯度下降为每个训练示例x(i)和标签y(i)执行参数更新。 for i in range(nb_epochs): np.random.shuffle(data) for example in data: params_grad = evaluate_gradient(loss_function, example, params) params = params - learning_rate * params_grad SGD据说要快得多。但是,我不明白如果仍然对所有数据点进行循环,那么如何更快。GD中梯度的计算是否比分别为每个数据点计算GD慢得多? 代码来自这里。

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
统计算法开发人员候选人有哪些好的面试问题?
我正在就统计/机器学习/数据挖掘上下文中的算法开发人员/研究人员的位置采访人们。 我正在寻找问题,以明确确定候选人对基础理论的熟悉程度,理解程度和灵活度,例如期望和方差的基​​本属性,一些常见分布等。 我当前需要解决的问题是:“有一个未知量,我们想估计。为此,我们有估计器,在给定,它们都是无偏且独立的,并且每个都有一个已知的方差,每个方差都不同。找到最优估计量,该方差是无偏的且方差最小。”XXXY1,Y2,…,YnY1,Y2,…,YnY_1, Y_2, \ldots, Y_nXXXσ2iσi2\sigma_i^2Y=f(Y1,…,Yn)Y=f(Y1,…,Yn)Y=f(Y_1,\ldots, Y_n) 我希望任何认真的候选人都可以轻松地处理它(给了一些时间进行计算),但是令我惊讶的是,据称来自相关领域的候选人竟然没有取得最小的进步。因此,我认为这是一个很好的,有区别的问题。这个问题的唯一问题是它仅仅是一个。 还有什么其他问题可以使用呢?另外,在哪里可以找到此类问题的集合?


3
在Kneser-Ney平滑中,如何处理看不见的单词?
从我所看到的,(二阶)Kneser-Ney平滑公式在某种程度上给定为 P2KN(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn)PKN2(wn|wn−1)=max{C(wn−1,wn)−D,0}∑w′C(wn−1,w′)+λ(wn−1)×Pcont(wn) \begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align} 归一化因子为λ(wn−1)λ(wn−1)\lambda(w_{n-1}) λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙)λ(wn−1)=D∑w′C(wn−1,w′)×N1+(wn−1∙) \begin{align} \lambda(w_{n-1}) &= \frac{D}{\sum_{w'} C\left(w_{n-1}, w'\right)} \times N_{1+}\left(w_{n-1}\bullet\right) \end{align} 和单词w_n的延续概率Pcont(wn)Pcont(wn)P_{cont}(w_n)wnwnw_n Pcont(wn)=N1+(∙wn)∑w′N1+(∙w′)Pcont(wn)=N1+(∙wn)∑w′N1+(∙w′) \begin{align} P_{cont}(w_n) &= \frac{N_{1+}\left(\bullet w_{n}\right)}{\sum_{w'} N_{1+}\left(\bullet w'\right)} \end{align} 其中N1+(∙w)N1+(∙w)N_{1+}\left(\bullet w\right)是在以下单词中看到的上下文数www,或更简单地,是在给定单词w之前的不同单词\ bullet的数量。据我了解,该公式可以递归应用。∙∙\bulletwww 现在,对于不同的n-gram长度,此方法可以很好地处理未知上下文中的已知单词,但是无法解释的是当词典单词超出单词时该怎么办。我尝试按照此示例进行说明,该示例指出在unigram的递归步骤中,Pcont(/)=P0KN(/)=1VPcont(/)=PKN0(/)=1VP_{cont}(/) = P^0_{KN}(/) = \frac{1}{V}。然后,文档使用这两个引号Chen和Goodman来证明上述公式为P1KN(w)=Pcont(w)PKN1(w)=Pcont(w)P^1_{KN}(w) = P_{cont}(w)。 …

1
统计和机器学习术语词典
是否存在统计和机器学习术语的参考词库?我知道Wikipedia文章通常包含同义词,但是我只想有一个同义词库,我可以轻松地通过它(相对于完整的百科全书)来确保我知道所有的术语。

3
在高度不平衡的环境中进行成本敏感型学习的建议
我有一个包含几百万行和约100列的数据集。我想检测数据集中大约1%的示例,它们属于一个普通类。我有一个最低限度的精度约束,但是由于成本非常不对称,所以我对任何特定的召回都不太热衷(只要我没有剩下10个正匹配项!) 在这种情况下,您会推荐哪些方法?(欢迎链接到论文,赞赏实现的链接)

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
gbm软件包中输出项的含义?
我正在使用gbm软件包进行分类。如预期的那样,效果很好。但是我试图理解分类器的输出。输出中有五个术语。 `Iter TrainDeviance ValidDeviance StepSize Improve` 谁能解释每个词的含义,特别的意义提高。


2
通过掷硬币来组合分类器
我正在学习机器学习课程,并且讲义幻灯片包含的信息与我推荐的书不符。 问题如下:存在三个分类器: 分类器A在较低的阈值范围内提供更好的性能, 分类器B在较高的阈值范围内提供更好的性能, 分类器C我们通过翻转p硬币并从两个分类器中进行选择来获得什么。 从ROC曲线上看,分类器C的性能如何? 演讲幻灯片指出,只需翻转硬币,我们就可以得到分类器A和B的ROC曲线的神奇“ 凸包 ”。 我不明白这一点。仅仅通过掷硬币,我们如何获得信息? 演讲幻灯片 这本书怎么说 推荐的书(《数据挖掘...》,作者:伊恩·H·威腾(Ian H. Witten),艾比·弗兰克(Eibe Frank)和马克·A。另一方面,)指出: 要看到这一点,请为方法A选择一个特定的概率临界值,分别给出真实的和错误的正比率tA和fA,为方法B选择另一个临界值,给出tB和fB。如果您以概率p和q随机使用这两种方案,其中p + q = 1,那么您将获得p的真假率。tA + q tB和p。fA + q fB。这表示位于连接点(tA,fA)和(tB,fB)的直线上的点,并且通过改变p和q可以找出这两个点之间的整条线。 以我的理解,这本书所说的是要真正获得信息并到达凸包,我们需要做的事情比简单地抛掷p硬币还要先进。 AFAIK,正确的方法(如书中所建议的)如下: 我们应该找到分类器A的最佳阈值Oa 我们应该找到分类器B的最佳阈值Ob 将C定义如下: 如果t <Oa,则将分类器A与t一起使用 如果t> Ob,则将分类器B与t一起使用 如果Oa <t <Ob,则用概率作为我们在Oa和Ob之间的线性组合,在带Oa的分类器A和带Ob的B之间进行选择。 它是否正确?如果是,则与幻灯片建议的内容有一些主要差异。 这不是简单的掷硬币,而是一种更高级的算法,该算法需要根据我们所处的区域手动定义点和拾取。 它永远不会使用阈值介于Oa和Ob之间的分类器A和B。 你能给我解释一下这个问题,什么是正确的理解方式,如果我的理解是不正确的? 如果我们像幻灯片所示那样简单地翻转p硬币,将会发生什么?我认为我们会得到一个介于A和B之间的ROC曲线,但是在给定的点上永远不会比更好的ROC曲线“更好”。 据我所知,我真的不理解幻灯片的正确性。左侧的概率计算对我来说没有意义。 更新: 找到了发明凸包方法的原始作者写的文章:http : //www.bmva.org/bmvc/1998/pdf/p082.pdf


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.