Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。

5
对于R中的随机森林分类,应该如何针对不平衡的班级规模进行调整?
我正在为我正在研究的项目探索不同的分类方法,并且对尝试“随机森林”感兴趣。我正在努力地进行自我教育,并感谢CV社区提供的任何帮助。 我已将数据分为训练/测试集。通过在R中使用随机森林进行实验(使用randomForest包),我遇到了麻烦,因为我的小班级误分类率很高。我已经阅读了有关随机森林在不平衡数据上的性能的文章,作者提出了两种使用随机森林时处理类不平衡的方法。 1.加权随机森林 2.平衡的随机森林 R软件包不允许对类进行加权(从R帮助论坛中,我已经阅读到classwt参数无法正常运行,并计划将其作为将来的错误修复程序),因此我可以选择选项2。我可以指定随机森林每次迭代从每个类中采样的对象数。 对于为随机森林设置相等的样本大小,我感到不安,因为我好像会丢失太多有关较大类的信息,从而导致将来的数据表现不佳。对较大类别进行下采样时,分类错误率有所提高,但是我想知道在随机森林中是否还有其他方法可以处理类别不平衡的情况?

2
具有多个输出的随机森林是否可能/可行?
随机森林(RF)是一种竞争性的数据建模/挖掘方法。 RF模型具有一个输出-输出/预测变量。 用RF建模多个输出的简单方法是为每个输出变量构造一个RF。因此,我们有N个独立的模型,并且在输出变量之间存在相关性的地方,我们将具有冗余/重复的模型结构。确实,这可能非常浪费。通常,更多的模型变量意味着更多的拟合模型(较少的泛化)。不知道这是否适用于此,但可能适用。 原则上我们可以有一个带有多个输出的RF。预测变量现在是一个向量(n元组)。现在,每个决策树中的决策节点都基于阈值向量拆分目标/预测向量集,我认为该阈值被视为n维空间中的一个平面,因此我们可以确定阈值的哪一侧向量每个目标向量都打开。 决策拆分每一侧的最佳预测值是为每一侧的向量计算的平均值(质心)。 在处理单个变量时找到最佳分割点很简单,而且计算速度快/效率高。对于n元组,我们无法找到最佳拆分(或者至少随着N的增加,它在计算上变得不可行),但是我们可以使用Monte Carlo类型方法(或Monte Carlo和Local的某种混合)找到接近最佳拆分梯度遍历)。 这真的行得通吗?也就是说,它是否可以仅映射训练对而不进行概括?此技术是否已经以其他名称存在? 您可能还需要考虑这与诸如限制玻尔兹曼机器(RBM)和深度信念网络之类的神经网络之间的关系。

3
不平衡数据集上的ROC与精确召回曲线
我刚刚阅读完此讨论。他们认为,在不平衡数据集上,PR AUC比ROC AUC更好。 例如,我们在测试数据集中有10个样本。9个样本为阳性,1个样本为阴性。我们有一个糟糕的模型,它预测一切都是积极的。因此,我们将得到一个度量,TP = 9,FP = 1,TN = 0,FN = 0。 然后,Precision = 0.9,Recall = 1.0。精度和召回率都很高,但是分类器很差。 另一方面,TPR = TP /(TP + FN)= 1.0,FPR = FP /(FP + TN)= 1.0。由于FPR很高,我们可以确定这不是一个很好的分类器。 显然,在不平衡数据集上,ROC优于PR。有人可以解释为什么PR更好吗?

4
解释余弦负相似度
我的问题可能很愚蠢。所以我会提前道歉。 我正在尝试使用由Stanford NLP组预训练的GLOVE模型(链接)。但是,我注意到我的相似性结果显示为负数。 那立刻促使我看了字向量数据文件。显然,字向量中的值可以为负。这就解释了为什么我看到负余弦相似度。 我习惯了频率向量的余弦相似度的概念,其值以[0,1]为界。我知道一个事实,根据向量之间的夹角,点积和余弦函数可以为正也可以为负。但是,我确实很难理解和解释这种负余弦相似性。 例如,如果我有一对相似度为-0.1的单词,它们是否比另一对相似度为0.05的单词少?如何比较-0.9与0.8的相似性? 还是我应该看看的最小角度差的绝对值?分数的绝对值?nπnπn\pi 非常感谢。



2
当我在逻辑回归设置中使用平方损失时,这里发生了什么?
我正在尝试使用平方损失对玩具数据集进行二进制分类。 我正在使用mtcars数据集,使用英里/加仑和重量来预测传输类型。下图显示了两种不同颜色的传输类型数据,以及由不同损失函数生成的决策边界。平方损失是 ∑i(yi−pi)2∑i(yi−pi)2\sum_i (y_i-p_i)^2,其中yiyiy_i是地面实况标签(0或1)和pipip_i是预测概率pi=Logit−1(βTxi)pi=Logit−1(βTxi)p_i=\text{Logit}^{-1}(\beta^Tx_i)。换句话说,我将逻辑损失替换为分类设置中的平方损失,其他部分相同。 对于一个玩具的例子 mtcars数据,在很多情况下,我得到的模型与逻辑回归相似(请参见下图,随机种子为0)。 但是在某些方面(如果我们这样做 set.seed(1)),平方损失似乎效果不佳。 这是怎么回事 优化不收敛?与平方损失相比,逻辑损失更易于优化?任何帮助,将不胜感激。 码 d=mtcars[,c("am","mpg","wt")] plot(d$mpg,d$wt,col=factor(d$am)) lg_fit=glm(am~.,d, family = binomial()) abline(-lg_fit$coefficients[1]/lg_fit$coefficients[3], -lg_fit$coefficients[2]/lg_fit$coefficients[3]) grid() # sq loss lossSqOnBinary<-function(x,y,w){ p=plogis(x %*% w) return(sum((y-p)^2)) } # ---------------------------------------------------------------- # note, this random seed is important for squared loss work # ---------------------------------------------------------------- set.seed(0) x0=runif(3) x=as.matrix(cbind(1,d[,2:3])) y=d$am opt=optim(x0, lossSqOnBinary, …



5
合奏方法如何胜过其所有成分?
我对整体学习有些困惑。简而言之,它可以运行k个模型并获得这k个模型的平均值。如何保证k个模型的平均值比任何一个模型都好?我确实知道这种偏见是“分散”或“平均”的。但是,如果集成中有两个模型(即k = 2),而其中一个模型比另一个模型差,该集合不会比更好的模型差吗?

1
我应该知道哪些因果理论?
作为应用统计学家/计量经济学家,我应该知道哪种因果关系理论方法? 我知道(一点点) Neyman–Rubin因果模型(以及Roy,Haavelmo等) 珍珠的因果关系工作 格兰杰因果关系(尽管较少以治疗为导向) 我想念或应该了解哪些概念? 相关:哪些理论是机器学习因果关系的基础? 我已阅读这些有趣的问题和答案(1,2,3),但我认为这是一个不同的问题。我很惊讶地发现,例如《统计学习要素》中没有提到“因果关系” 。


2
如何进行探索性数据分析以选择合适的机器学习算法
我们正在通过“机器学习:概率论”(Kevin Murphy)研究机器学习。虽然文字解释了每种算法的理论基础,但很少说明哪种情况下哪种算法更好,什么时候做的更好,却没有说明如何判断我所处的情况。 例如,对于内核的选择,有人告诉我进行探索性数据分析以评估数据的复杂程度。在简单的二维数据中,我可以绘图并查看线性或径向核是否合适。但是在更高维度上做什么? 更一般地说,人们在选择算法之前说“开始了解您的数据”是什么意思?现在,我只能区分分类算法与回归算法,以及线性算法与非线性算法(我无法检查)。 编辑:即使我最初的问题是关于普遍的经验法则,我被要求提供有关我的特定问题的更多信息。 数据:每行一个国家/地区月的面板(总计约30,000行,涵盖约15年中的165个国家/地区)。 回应:5个感兴趣的二元变量(例如,该月是否发生抗议/政变/危机等)。 特征:〜400个变量(连续,类别和二进制的混合),详细说明了前两个国家/地区的月份的特征(可以创建更长的滞后时间)。我们只使用滞后变量,因为目标是预测。 例子包括汇率,GDP增长(连续),新闻自由水平(绝对),民主,邻国是否存在冲突(二元)。请注意,这400个功能中有很多是滞后变量。

3
对于不平衡数据,ROC曲线下的面积还是PR曲线下的面积?
我对使用哪种性能指标,ROC曲线下的面积(TPR与FPR的函数)或精确召回曲线下的面积(精度与召回的函数)之间的使用存在疑问。 我的数据不平衡,即,否定实例的数量比肯定实例大得多。 我正在使用weka的输出预测,示例是: inst#,actual,predicted,prediction 1,2:0,2:0,0.873 2,2:0,2:0,0.972 3,2:0,2:0,0.97 4,2:0,2:0,0.97 5,2:0,2:0,0.97 6,2:0,2:0,0.896 7,2:0,2:0,0.973 我正在使用pROC和ROCR r库。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.