Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。

1
PROC Mixed和LME / LMER在R自由度上的区别
注意:这个问题是一个转贴,因为我的上一个问题出于法律原因不得不删除。 在比较SAS的PROC MIXED与R中lme的nlme软件包的功能时,我偶然发现了一些相当混乱的差异。更具体地说,不同测试的自由度在PROC MIXED和之间有所不同lme,我想知道为什么。 从以下数据集(以下给出的R代码)开始: ind:指示进行测量的个人的因子 fac:进行测量的器官 trt:表示治疗的因素 y:一些连续响应变量 这个想法是建立以下简单模型: y ~ trt + (ind):ind作为随机因子 y ~ trt + (fac(ind)):fac嵌套在ind作为随机因子 需要注意的是最后一个模型应引起奇异性,因为只有1的值y对每一个组合ind和fac。 第一模型 在SAS中,我建立以下模型: PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; 根据教程,R中使用的相同模型nlme应为: > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 两种模型对系数及其SE均给出相同的估计,但是在对F的影响进行F检验时trt,它们使用的自由度不同: SAS : Type …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

1
了解Duda等人的模式分类中没有免费的午餐定理
我对第9.2节Duda,Hart和Stork的模式分类中的任何分类器缺乏固有的优越性所用的符号有疑问。首先让我引用书中的一些相关文字: 为简单起见,考虑一个两类问题,其中训练集由模式和相关联的类别标签 ,其中由待学习的未知目标函数,其中。DDDxixix^iyi=±1yi=±1y_i = ± 1i=1,...,ni=1,...,ni = 1,..., nF(x)F(x)F(x)yi=F(xi)yi=F(xi)y_i = F(x^i) 令表示假设(离散)或可能学习的参数集。的特定假设 可以通过神经网络中的量化权重或功能模型中的参数0或树中的决策集等来描述。HHHh(x)∈Hh(x)∈Hh(x) \in H 此外,是算法在训练后产生假设的先验概率;注意,这不是正确的可能性。P(h)P(h)P(h)hhhhhh 接下来,表示算法在对数据训练时产生假设的概率。在确定性学习算法(例如最近邻居和决策树)中, 在任何地方都为零,除了单个假设。对于随机方法(例如从随机初始权重训练的神经网络)或随机Boltzmann学习,可能分布很广。P(h|D)P(h|D)P(h|D)hhhDDDP(h|D)P(h|D)P(h|D)hhhP(h|D)P(h|D)P(h|D) 设为零一或其他损失函数的误差。EEE 给出真实函数为且第个候选学习算法的概率为时的预期训练集分类错误F(x)F(x)F(x)kkkPk(h(x)|D)Pk(h(x)|D)P_k(h(x)|D)Ek(E|F,n)=∑x∉DP(x)[1−δ(F(x),h(x))]Pk(h(x)|D)Ek(E|F,n)=∑x∉DP(x)[1−δ(F(x),h(x))]Pk(h(x)|D) \mathcal{E}_k(E|F,n) = \sum_{x\notin D} P(x) [1-\delta(F(x), h(x))] P_k(h(x)|D) 定理9.1。(不提供免费午餐)对于任何两个学习算法和,以下事实都是正确的,与采样分布和训练点数无关:P 2(h | D )P (x )nP1(h|D)P1(h|D)P_1 (h |D)P2(h|D)P2(h|D)P_2(h|D)P(x)P(x)P(x)nnn 对所有目标函数均匀地求平均,E 1(E | F ,FFFE1(E|F,n)—E2(E|F,n)=0E1(E|F,n)—E2(E|F,n)=0\mathcal{E}_1 (E|F, n) — \mathcal{E}_2(E|F, n) = 0 对于任何固定的训练集,均匀地平均, …

2
预测多个目标或类别?
假设我正在建立一个预测模型,在该模型中我试图预测多个事件(例如,掷骰子和掷硬币)。我熟悉的大多数算法都只能使用一个目标,因此我想知道是否存在针对此类问题的标准方法。 我看到两个可能的选择。也许最幼稚的方法是将它们简单地视为两个不同的问题,然后组合结果。但是,当两个目标不是独立的(在许多情况下它们可能非常依赖)时,这将带来严重的缺陷。 对我来说,更明智的方法是合并目标属性。因此,在骰子和硬币的情况下,我们将具有状态(等)。但是,这可能导致复合目标中的状态/类的数量变得相当大(很快,如果我们有2个骰子,等等)。此外,在一个属性是分类属性而另一个属性是数字属性的情况下,这似乎很奇怪(例如,如果预测温度和降水类型)。6⋅2=126⋅2=126\cdot 2=12(1,H),(1,T),(2,H)(1,H),(1,T),(2,H)(1, H), (1, T), (2, H) 有没有标准的方法来处理这类事情?另外,是否有专门设计的学习算法来处理此问题?

2
SVM,变量交互和训练数据拟合
我有2个一般/更多理论问题。 1)我很好奇在建立预测模型时SVM如何处理变量交互。例如,如果我有两个特征f1和f2,并且目标取决于f1,f2,并说f1 * f2(或某些函数h(f1,f2)),则SVM是否适合(不仅适用于OOS,甚至适用于训练数据)在仅包括f1和f2的特征中包括f1,f2和h(f1,f2)时是否有所改善?SVM算法处理特征交互吗?SVM如何尝试在更高维度的空间中创建超平面,但似乎并不确定。 2)在将SVM拟合训练数据时,如果具有足够的功能并找到最佳参数(通过蛮力搜索或其他方法),SVM会总是琐碎地拟合训练数据吗?不知道我的措词是否正确,但是基本上,如果功能中有足够的方差/噪声,SVM是否总是100%适合训练数据?相反,如果SVM无法100%拟合训练数据,这是否意味着某些影响目标变量的信息(或其他功能)并未在数据中捕获? 谢谢 小澄清。我指的是内核SVM

2
训练数据中具有不相等组大小的SVM
我正在尝试从训练数据构建一个SVM,其中一组代表的数量更多。但是,组将在最终的测试数据中均等地代表。因此,我想使用R包接口的class.weights参数来平衡两组在训练数据中的影响。e1071libsvm 由于我不确定应该如何指定这些权重,因此我进行了一些测试: 生成一些空数据(随机特征;组标签之间的比例为2:1) 使用class.weights参数集安装一个svm 。 预测一堆新的空数据集并查看类比例。 针对不同的空训练集重复整个过程很多次。 这是我正在使用的R代码: nullSVM <- function(n.var, n.obs) { # Simulate null training data vars = matrix(rnorm(n.var*n.obs), nrow=n.obs) labels = rep(c('a', 'a', 'b'), length.out=n.obs) data = data.frame(group=labels, vars) # Fit SVM fit = svm(group ~ ., data=data, class.weights=c(a=0.5, b=1)) # Calculate the average fraction of 'a' …


9
本书提供了统计方法的广泛而概念性的概述
我对统计分析在模拟/预测/功能估计等方面的潜力非常感兴趣。 但是,我对此并不太了解,我的数学知识仍然非常有限-我是软件工程专业的一名本科生。 我正在寻找一本可以让我开始不断学习的东西的书:线性回归和其他类型的回归,贝叶斯方法,蒙特卡洛方法,机器学习等。我也想开始使用R,所以如果有一本书将两者结合在一起,真是太棒了。 最好是,我希望这本书从概念上而不是过多的技术细节上进行解释-我希望统计数据对我来说非常直观,因为我知道统计数据存在很多风险。 我当然愿意阅读更多书籍,以增进对我认为有价值的主题的理解。

2
Akinator.com和朴素贝叶斯分类器
上下文:我是一名程序员,在单门课程的统计方面有一些(被遗忘的)经验。最近,我偶然发现了http://akinator.com,并花了一些时间尝试使其失败。谁不是?:) 我决定找出它是如何工作的。在查阅并阅读了相关的博客文章并将一些(有限的)知识添加到结果组合中之后,我想到了以下模型(我确定我会使用错误的符号,请不要为此而杀了我): 有主题(S)和问题(Q)。预测器的目的是在给定的问题和答案的情况下,选择具有最大后验概率成为用户正在考虑的主题的主题S。 让游戏G为一系列问题和给出的答案:。{q1,a1},{q2,a2}...{qn,an}{q1,a1},{q2,a2}...{qn,an}\{q_1, a_1\}, \{q_2, a_2\} ... \{q_n, a_n\} 然后,预测变量正在寻找。P(S|G)=P(G|S)∗P(S)P(G)P(S|G)=P(G|S)∗P(S)P(G)P(S|G) = \frac{P(G|S) * P(S)}{P(G)} 主题的先验值(P(S)P(S)P(S))可以是猜测主题的次数除以游戏总数。 假设所有答案都是独立的,给定游戏G,我们可以计算出主题S的可能性,如下所示: P(G|S)=∏i=1..nP({qi,ai}|S)P(G|S)=∏i=1..nP({qi,ai}|S)P(G|S) = \prod_{i=1..n} P(\{q_i, a_i\} | S) 如果我们跟踪当使用了给定主题时给出了哪些问题和答案,我们可以计算:P({qi,ai}|S)P({qi,ai}|S)P(\{q_i, a_i\} | S) P(q,a|S)=answer a was given to question q in the game when S was the subjectnumber of times q was asked in the …



1
RMSProp和亚当vs SGD
我正在使用带有RMSProp,Adam和SGD的网络对EMNIST验证集进行实验。我使用SGD(学习率为0.1)和辍学(辍学概率为0.1)以及L2正则化(1e-05惩罚)达到了87%的准确度。当使用RMSProp和Adam测试相同的精确配置以及0.001的初始学习率时,我实现了85%的准确度和明显不那么平滑的训练曲线。我不知道如何解释这种行为。训练曲线缺乏平滑度并导致较低的准确性和较高的错误率的原因是什么?


2
Keras:为什么损失减少而val_loss增加?
我为一组参数设置了网格搜索。我正在尝试为进行二进制分类的Keras神经网络找到最佳参数。输出为1或0。大约有200个要素。当我进行网格搜索时,我得到了一堆模型及其参数。最佳模型具有以下参数: Epochs : 20 Batch Size : 10 First Activation : sigmoid Learning Rate : 1 First Init : uniform 该模型的结果是: loss acc val_loss val_acc 1 0.477424 0.768542 0.719960 0.722550 2 0.444588 0.788861 0.708650 0.732130 3 0.435809 0.794336 0.695768 0.732682 4 0.427056 0.798784 0.684516 0.721137 5 0.420828 0.803048 0.703748 0.720707 …

4
在CNN中,升采样和转置卷积是否相同?
当您进行“反卷积”时,会同时使用“上采样”和“转置卷积”(<-不是一个好术语,但让我在这里使用它)。最初,我以为它们的意思是相同的,但是在我阅读这些文章后,在我看来它们是不同的。有人可以澄清一下吗? 转置卷积:当我们通过卷积神经网络传播损失时,似乎可以使用它。 http://andrew.gibiansky.com/blog/machine-learning/convolutional-neural-networks/#Backward-Propagation https://github.com/vdumoulin/conv_arithmetic https://arxiv.org/pdf/1312.6034v2.pdf,第4节“用于卷积层...” 升采样:想要在convnet-decovnet结构中从较小的输入到较大的输入进行升采样时,似乎可以使用它。 https://www.youtube.com/watch?v=ByjaPdWXKJ4&feature=youtu.be&t=22m


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.