Questions tagged «supervised-learning»

监督学习是从标记的训练数据中推断功能的机器学习任务。训练数据包含一组训练示例。在监督学习中,每个示例都是一对,由输入对象(通常是矢量)和期望的输出值(也称为监督信号)组成。监督学习算法会分析训练数据并产生一个推断函数,该函数可用于映射新示例。

2
梯度下降在此数据集上找不到普通最小二乘法的解?
我一直在研究线性回归,并在下面的集合{(x,y)}上进行过尝试,其中x以平方英尺为单位指定房屋面积,y以美元指定价格。这是Andrew Ng Notes中的第一个示例。 2104,400 1600,330 2400,369 1416,232 3000,540 我开发了一个示例代码,但是当我运行它时,成本随着每一步都在增加,而应该随着每一步而降低。代码和输出如下。bias是W 0 X 0,其中X 0 = 1。featureWeights是[X 1,X 2,...,X N ] 的数组 我还尝试了这里提供的在线python解决方案,并在此处进行了说明。但是此示例也提供了相同的输出。 理解概念的差距在哪里? 码: package com.practice.cnn; import java.util.Arrays; public class LinearRegressionExample { private float ALPHA = 0.0001f; private int featureCount = 0; private int rowCount = 0; private float bias = …

1
自动关键字提取:使用余弦相似度作为特征
我有一个文档项矩阵,现在我想使用一种监督学习方法(SVM,Naive Bayes等)为每个文档提取关键字。在此模型中,我已经使用了Tf-idf,Pos标签,...MMM 但是现在我想知道下一个。我有一个矩阵,两个词之间的余弦相似。CCC 是否可以将这种相似性用作模型的功能?我的想法是对长期在文档d,用平均所有条款的余弦相似的文档d足月我。这有用吗?iiiddddddiii

1
Fisher精确检验和超几何分布
我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示: > soda_gender f m n 0 5 y 5 0 显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。 在R中运行fisher精确测试时,得到以下结果: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。 我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令: > …

2
有不确定数据的监督学习?
是否存在将监督学习模型应用于不确定数据集的现有方法?例如,假设我们有一个类别为A和B的数据集: +----------+----------+-------+-----------+ | FeatureA | FeatureB | Label | Certainty | +----------+----------+-------+-----------+ | 2 | 3 | A | 50% | | 3 | 1 | B | 80% | | 1 | 1 | A | 100% | +----------+----------+-------+-----------+ 我们如何在此基础上训练机器学习模型?谢谢。

2
R中分类模型的增量学习
假设,我有一个分类器(可以是任何标准分类器,例如决策树,随机森林,逻辑回归等),可以使用以下代码进行欺诈检测 library(randomForest) rfFit = randomForest(Y ~ ., data = myData, ntree = 400) # A very basic classifier Say, Y is a binary outcome - Fraud/Not-Fraud 现在,我已经预测了一个看不见的数据集。 pred = predict(rfFit, newData) 然后,我从调查团队获得了有关我的分类的反馈,发现我犯了一个错误,将欺诈分类为“非欺诈”(即“ 一个假阴性”)。无论如何,我是否可以让我的算法理解它已经犯了一个错误?即是否可以在算法中添加反馈环,以便纠正错误? 我可以想到的一个选择就是构建一个,adaboost classifier以便新的分类器纠正旧分类器的错误。或我听到了Incremental Learning或的声音Online learning。中有任何现有的实现(包)R吗? 这是正确的方法吗?还是有其他方法可以调整模型而不是从头开始构建模型?

2
机器学习技术,用于学习字符串模式
我有一个单词列表,属于不同的自定义类别。每个类别都有其自己的模式(例如,一个具有固定长度的特殊字符,另一种仅存在于“单词”的类别中的字符,...)。 例如: "ABC" -> type1 "ACC" -> type1 "a8 219" -> type2 "c 827" -> type2 "ASDF 123" -> type2 "123123" -> type3 ... 我正在寻找一种机器学习技术,根据训练数据自行学习这些模式。我已经尝试自己定义一些预测变量(例如,字长,特殊字符的数量...),然后使用神经网络来学习和预测类别。但这根本不是我想要的。我希望有一种技术可以自己学习每个类别的模式,甚至可以学习我从未想过的模式。 因此,我提供了算法学习数据(由单词类别示例组成),并希望它学习每种类别的模式,以便以后根据相似或相等的单词来预测类别。 有最先进的方法吗? 谢谢你的帮助


1
如何使用准则找到和评估连续变量的最佳离散化?
我有一个包含连续变量和二进制目标变量(0和1)的数据集。 我需要相对于目标变量离散化连续变量(用于逻辑回归),并约束每个间隔的观察频率应该保持平衡。我尝试了机器学习算法,例如Chi Merge,决策树。Chi merge给我的间隔在每个间隔中具有非常不平衡的数字(一个间隔有3个观测值,另一个间隔有1000个观测值)。决策树很难解释。 我得出的结论是,最佳离散化应最大化离散化变量和目标变量之间的统计量,并且其间隔应包含大致相同数量的观察值。χ2χ2\chi^2 有解决这个问题的算法吗? 这在R中看起来是这样(def是目标变量,x是要离散化的变量)。我计算了Tschuprow的来评估转换后的变量与目标变量之间的“相关性”,因为统计量倾向于随着间隔数的增加而增加。我不确定这是否是正确的方法。χ 2ŤTTχ2χ2\chi^2 除了Tschuprow的(当班级数量减少时会增加)之外,还有其他方法可以评估我的离散化是否最佳吗?ŤTT chitest <- function(x){ interv <- cut(x, c(0, 1.6,1.9, 2.3, 2.9, max(x)), include.lowest = TRUE) X2 <- chisq.test(df.train$def,as.numeric(interv))$statistic #Tschuprow Tschup <- sqrt((X2)/(nrow(df.train)*sqrt((6-1)*(2-1)))) print(list(Chi2=X2,freq=table(interv),def=sum.def,Tschuprow=Tschup)) }

2
如何找到权重来衡量差异性
我想学习(推论)可以用于聚类的差异度量的属性权重。 我有一些例子对对象的是“相似的”(应该是相同的簇中),以及一些实施例中(Ç 我,ð 我)对对象的是“不相似”(不应位于同一群集中)。每个对象都有许多属性:如果您愿意,我们可以将每个对象视为特征的d维向量,其中每个特征都是非负整数。是否有技术使用类似/相似对象的此类示例,从中估算出相似度度量的最佳特征权重?(一个一世,b一世)(一个一世,b一世)(a_i,b_i)(c一世,d一世)(C一世,d一世)(c_i,d_i)ddd 如果有帮助,在我的应用程序中,集中精力学习作为加权L2范数的相异性度量可能是合理的: d(x ,y)= ∑ĴαĴ(x [ j ] − y[ j ] )2。d(X,ÿ)=∑ĴαĴ(X[Ĵ]-ÿ[Ĵ])2。d(x,y) = \sum_j \alpha_j (x[j] - y[j])^2. 其中权重不知道和应该汲取的。(或者,某种加权余弦相似度的可能是合理的了。)是否有好的算法来学习权重α Ĵ对于这样的措施,给出的例子?还是我应该考虑其他方法来学习相似性度量/相异性度量?αĴαĴ\alpha_jαĴαĴ\alpha_j 不幸的是,维数非常大(数千个或更高;它是从单词袋特征派生的)。但是,我确实有数以万计的示例。然后,我有成千上万个要聚类的对象,因此对示例进行归纳以学习良好的相异性度量很重要。 我认为这属于半监督聚类的范畴,这听起来像是“适应相似性”的范畴,但是我无法找到用于此目的的算法的清晰描述。

3
LDA与感知器
我正在尝试了解LDA如何“适合”其他受监督的学习技术。我已经在这里阅读了有关LDA的一些LDA风格的帖子。我已经熟悉感知器,但是现在才学习LDA。 LDA如何“适应”监督学习算法系列?与其他方法相比,它的缺点可能是什么?它可能会更好地用于哪些方面?为什么要使用LDA,例如当人们只能使用感知器时?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.