Questions tagged «pac-learning»

PAC大概是正确的学习方法

20
两种文化:统计与机器学习?
去年,我读了布伦丹·奥康纳(Brendan O'Connor)的博客文章,标题为“统计与机器学习,战斗!”。讨论了两个领域之间的一些差异。 安德鲁·盖尔曼对此表示赞同: 西蒙·布隆伯格: 从R的命运包中得出:挑衅地说,“机器学习是统计减去对模型和假设的任何检查”。-Brian D. Ripley(关于机器学习和统计之间的区别)useR!2004,维也纳(2004年5月):-)节日的问候! 安德鲁·盖尔曼: 在这种情况下,也许我们应该更频繁地摆脱模型和假设的检验。然后,也许我们能够解决机器学习人员可以解决但我们不能解决的一些问题! Leo Breiman于2001年发表的“统计建模:两种文化”论文指出,统计学家过于依赖数据建模,而机器学习技术正在取得进步,而仅依靠模型的预测准确性。 在过去的十年中,统计领域是否因这些批评而发生了变化?不要将两种文化依然存在或已发展统计拥抱机器学习技术如神经网络和支持向量机?


4
数学家机器学习入门
从某种意义上讲,这是我的math.stackexchange的交叉点,并且我觉得此网站可能会吸引广泛的受众。 我正在寻找关于机器学习的数学入门。特别是,可以找到的许多文献相对不准确,花费了很多页面而没有任何内容。 但是,从这些文献开始,我从安德鲁·伍(Andrew Ng),毕晓普(Bishop)关于模式识别的书以及斯莫拉(Smola)书中发现了Coursera课程。不幸的是,斯莫拉的书只是处于草稿状态。在Smola的书中甚至可以找到证明,这吸引了我。Bishop的书已经相当不错了,但是缺少一些严格的知识。 简而言之:我正在寻找一本类似Smola的书,即尽可能精确和严格,并使用数学背景(尽管简短的介绍当然可以)。 有什么建议吗?

6
机器学习用于估计参数的“基本”思想是什么?
用于估计参数的统计学的“基本”思想是最大可能性。我想知道机器学习中对应的想法是什么。 Qn 1.可以公平地说,机器学习中用于估计参数的“基本”思想是:“损失函数” [注:给我的印象是机器学习算法经常优化损失函数,因此会产生上述问题。] 问题2:是否有任何文献试图弥合统计学与机器学习之间的鸿沟? [注:也许,通过将损失函数与最大似然联系起来。(例如,OLS等于正态分布错误的最大可能性等)

1
为什么我们假设错误是正态分布的?
我想知道为什么在对误差建模时使用高斯假设。在斯坦福大学的ML课程中,Ng教授基本上以两种方式对其进行描述: 在数学上很方便。(与最小二乘拟合有关,易于通过伪逆求解) 由于中心极限定理,我们可以假设存在许多影响过程的潜在事实,并且这些单个错误的总和往往表现为零均值正态分布。实际上,情况似乎是这样。 我实际上对第二部分感兴趣。据我所知,中心极限定理适用于iid样本,但我们不能保证基础样本为iid。 您对误差的高斯假设有任何想法吗?

2
VC维度用于测量神经网络的复杂性的替代方法是什么?
我遇到了一些测量神经网络复杂性的基本方法: 幼稚和非正式:计算神经元,隐藏的神经元,层或隐藏层的数量 VC维度(Eduardo D. Sontag [1998]“神经网络的VC维数” [ pdf ]。) 等效于TC0dTCd0TC^0_d过程粒度和渐近计算复杂性度量。 还有其他选择吗? 首选: 如果复杂性度量可用于在相同规模上测量来自不同范式的神经网络(以测量反向传播,动力学神经网络,级联相关性等)。例如,VC维度可用于网络(甚至是神经网络以外的其他事物)上的不同类型,而神经元的数量仅在激活函数,信号(基本和尖峰)以及其他函数非常特定的模型之间有用。网络的属性是相同的。 如果它与网络可学习的功能复杂性的标准度量有很好的对应关系 如果很容易在特定网络上计算度量标准(尽管这不是必须的)。 笔记 该问题基于对CogSci.SE 的更一般的问题。



2
计算数据的ROC曲线
因此,我进行了16次试验,试图使用汉明距离从生物特征中鉴定一个人。我的阈值设置为3.5。我的数据如下,只有试验1为“真阳性”: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 我的困惑是,我真的不确定如何根据此数据制作ROC曲线(FPR与TPR或FAR与FRR)。哪一个都不重要,但是我只是对如何进行计算感到困惑。任何帮助,将不胜感激。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.