Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。


3
在助推中,为什么学习者“弱”?
另请参阅有关stats.SE的类似问题。 在AdaBoost和LPBoost之类的增强算法中,从Wikipedia已知,要合并的“弱”学习者只需要表现好于有用的机会即可。 它使用的分类器可能很弱(即显示出很大的错误率),但是只要它们的性能不是随机的(二进制分类的错误率是0.5),它们就会改善最终模型。即使错误率高于随机分类器期望值的分类器也将是有用的,因为它们在分类器的最终线性组合中将具有负系数,因此表现得像它们的逆。 与强者相比,弱者有什么好处?(例如,为什么不采用“强”的学习方法来提高学习能力呢? 弱者有某种“最佳”的力量吗?这与合奏中的学习人数有关吗? 是否有任何理论来支持这些问题的答案?

1
Google Prediction API的背后是什么?
Google Prediction API是一项云服务,用户可以提交一些训练数据来训练一些神秘的分类器,然后再要求它对传入的数据进行分类,例如实施垃圾邮件过滤器或预测用户的偏好。 但是幕后是什么?

1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

2
为什么均方误差是经验分布和高斯模型之间的交叉熵?
在5.5版《深度学习》中(由伊恩·古德费洛(Ian Goodfellow),约书亚·本吉欧(Yoshua Bengio)和亚伦·库维尔(Aaron Courville)指出) 由负对数可能性组成的任何损失都是训练集定义的经验分布与模型定义的概率分布之间的交叉熵。例如,均方误差是经验分布和高斯模型之间的交叉熵。 我不明白为什么它们是等同的,作者对此也没有扩展。

3
交叉验证,包括培训,验证和测试。为什么我们需要三个子集?
我有一个关于交叉验证过程的问题。我正在学习Cursera上的机器学习课程。主题之一是关于交叉验证。我发现很难遵循。我确实知道为什么需要CV,因为我们希望我们的模型能够很好地处理未来(未知)数据,并且CV可以防止过拟合。但是,该过程本身令人困惑。 我所了解的是,我将数据分为3个子集:训练,验证和测试。训练和验证是为了找到模型的最佳复杂性。我不明白的是第三个子集。我了解我为模型采用了许多功能,对其进行训练并在Validation子集上对其进行验证,并在更改结构时寻找最小的Cost Function。找到它后,我会在“测试”子集上测试模型。如果我已经在验证子集中找到了最小成本函数,为什么还要在测试子集中再次对其进行测试? 有人可以帮我澄清一下吗? 谢谢

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
在分类中选择不同的损失函数以近似0-1损失有什么影响
我们知道有些目标函数更容易优化,而有些则很难。而且我们有很多损失函数要使用但很难使用,例如0-1损失。因此,我们找到了一些代理丢失功能来完成这项工作。例如,我们使用铰链损失或逻辑损失来“近似” 0-1损失。 接下来的情节来自克里斯·毕晓普(Chris Bishop)的PRML书。铰链损耗用蓝色绘制,对数损耗用红色绘制,平方损耗用绿色绘制,0/1误差用黑色绘制。 我了解我们之所以设计(针对铰链和逻辑损失)的原因是我们希望目标函数是凸的。 通过查看铰链损失和逻辑损失,它会对严重错误分类的实例进行更严厉的处罚,有趣的是,如果分类不正确,则还会对正确分类的实例进行惩罚。这是一个非常奇怪的设计。 我的问题是,通过使用不同的“代理损失函数”(例如铰链损失和物流损失),我们需要支付的价格是多少?


1
交叉验证是否可以替代验证集?
在文本分类中,我有一个约800个样本的训练集和一个约150个样本的测试集。测试仪从未使用过,一直等到最后使用。 我正在使用整个800个样本训练集,并在调整和调整分类器和功能时进行10倍交叉验证。这意味着我没有单独的验证集,但是每次用完10折后,都会自动选择一个验证集。 当我对所有事情都感到满意并想要进入评估的最后阶段之后,我将对全部800个样本进行分类训练。并在150个样本测试仪上进行测试。 我理解交叉验证在文本分类中的这种用法正确吗?这种做法有效吗? 交叉验证的另一个问题是: 而不是10倍,我还尝试将其作为性能的一般指标。因为对于遗忘一事,不可能获得有关f1 /精确度/召回率的信息,所以我想知道遗忘一事的准确性与10倍的度量之间的关系是什么? 任何见解将不胜感激。 编辑: 这是对交叉验证的很好介绍。它还参考了其他研究论文。

4
为什么训练步骤和评估步骤之间不对称?
众所周知,尤其是在自然语言处理中,机器学习应分两个步骤进行,即训练步骤和评估步骤,并且它们应使用不同的数据。为什么是这样?从直觉上讲,此过程有助于避免数据过拟合,但是我看不到这种情况(信息理论上的原因)。 与此相关的是,我已经看到了一些数字,用于训练的数据集有多少,评估的数据有多少,分别为2/3和1/3。选择特定分布是否有任何理论依据?



6
为什么较小的权重会导致正规化模型更简单?
大约一年前,我完成了Andrew Ng的机器学习课程,现在正在写我的高中数学探索性知识,介绍Logistic回归的工作原理和优化性能的技术。这些技术之一当然是正则化。 正则化的目的是通过扩展成本函数以包括模型简化的目标来防止过度拟合。我们可以通过将权重的每一个乘以平方,再乘以一些正则化参数,来对权重的大小进行惩罚,从而实现这一目标。 现在,机器学习算法将旨在减小权重的大小,同时保持训练集的准确性。我们的想法是,我们将到达中间的某个点,在这里我们可以生成一个模型,该模型可以对数据进行泛化,而不会因为复杂度降低而无法适应所有随机噪声。 我的困惑是为什么我们要惩罚砝码的大小?为什么较大的权重创建更复杂的模型,为什么较小的权重创建更简单/平滑的模型?吴安德(Andrew Ng)在他的演讲中声称,这种解释很难讲,但我想我现在正在寻找这种解释。 Ng教授确实给出了一个示例,说明新的成本函数如何使要素的权重(即x ^ 3和x ^ 4)趋于零,从而降低了模型的程度,但这并不能创建一个完整的模型。说明。 我的直觉是,具有较小指数的特征将比具有较小指数的特征更易于接受(因为具有较小权重的特征就像函数的基础一样)。较小的权重意味着对高阶特征的较小“贡献”。但是这种直觉不是很具体。

7
在朴素贝叶斯(Naive Bayes)中,当我们在测试集中有未知单词时,为什么还要打扰Laplace平滑?
我今天正在阅读朴素贝叶斯分类法。我在Parameter Estimation的标题下加上了1 smoothing进行了阅读: 令指代一个类(例如正或负),而令指代一个标记或单词。cccwww 用于最大似然估计是P(w|c)P(w|c)P(w|c)count(w,c)count(c)=counts w in class ccounts of words in class c.count(w,c)count(c)=counts w in class ccounts of words in class c.\frac{count(w,c)}{count(c)} = \frac{\text{counts w in class c}}{\text{counts of words in class c}}. 这种估计可能会产生问题,因为它会使单词未知的文档的概率为。解决此问题的常用方法是使用拉普拉斯平滑。P(w|c)P(w|c)P(w|c)000 令V为训练集中的单词集合,向单词集合添加一个新元素(未知)。UNKUNKUNK 定义P(w|c)=count(w,c)+1count(c)+|V|+1,P(w|c)=count(w,c)+1count(c)+|V|+1,P(w|c)=\frac{\text{count}(w,c) +1}{\text{count}(c) + |V| + 1}, 其中表示词汇表(训练集中的单词)。VVV 特别是,任何未知单词的概率都为 1count(c)+|V|+1.1count(c)+|V|+1.\frac{1}{\text{count}(c) + |V| + 1}. 我的问题是:为什么我们要完全不理会Laplace平滑处理?如果我们在测试集中遇到的这些未知单词的概率显然几乎为零,即,将它们包括在模型中有什么意义?为什么不忽略它们并删除它们呢? …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.