Questions tagged «machine-learning»

机器学习算法可建立训练数据模型。术语“机器学习”的定义模糊不清;它包括所谓的统计学习,强化学习,无监督学习等。始终添加更多特定标签。

2
如何在助推树中找到调整参数的最佳值?
我意识到在Boosting Trees模型中有3个调整参数,即 树数(迭代数) 收缩参数 分割数(每个构成树的大小) 我的问题是:对于每个调整参数,我应该如何找到其最佳值?什么方法? 请注意:收缩参数和树木数量参数一起使用,即收缩参数的值越小,树木数量的值就越高。我们也需要考虑到这一点。 我对为分割数找到最佳值的方法特别感兴趣。是否应该基于交叉验证或有关背后模型的领域知识? 这些事情如何gbm在R 的包中进行?

4
如何进行多元机器学习?(预测多个因变量)
我希望预测某人会购买的物品组...即,我有多个共线性因变量。 我不应该建立7个左右的独立模型来预测某人购买这7个项目中的每一个的概率,然后结合结果,而是应该采用什么方法来建立一个模型来说明7个相关的因变量之间的关系(他们可以购买的东西)。 我将R用作编程语言,因此请特别感谢R的任何建议。

1
什么时候合适的评分规则可以更好地估计分类设置中的泛化?
解决分类问题的一种典型方法是识别一类候选模型,然后使用诸如交叉验证之类的过程执行模型选择。通常,人们会选择精度最高的模型,或者选择一些编码特定问题信息的相关函数,例如。FβFβ\text{F}_\beta 假设最终目标是产生一个准确的分类器(准确度的定义再次取决于问题,则取决于问题),在哪种情况下,最好使用适当的评分规则来进行模型选择,而不是诸如准确性,准确性,召回率之类的不正确内容等等?此外,让我们忽略模型复杂性的问题,并假设我们认为所有模型具有同等可能性。 以前我不会说。从形式上讲,我们知道分类比回归[1],[2]更容易解决,并且我们可以得出前者比后者()更严格的界限。此外,在某些情况下,尝试准确匹配概率可能会导致错误的决策边界或过度拟合。但是,基于此处的对话和社区对此类问题的投票方式,我一直对此观点提出质疑。∗∗* 露芙·德沃罗伊。模式识别的概率论。卷 31. springer,1996年,第6.7节 Kearns,Michael J.和Robert E. Schapire。高效无分布学习概率概念。计算机科学基础,1990年。会议论文集,第31届年度研讨会。IEEE,1990年。 (∗)(∗)(*)这句话可能有点草率。我具体是指给定形式为带标签数据,其中和,它似乎更容易估计比准确估计的条件概率判定边界。S={(x1,y1),…,(xn,yn)}S={(x1,y1),…,(xn,yn)}S = \{(x_1, y_1), \ldots, (x_n, y_n)\}xi∈Xxi∈Xx_i \in \mathcal{X}yi∈{1,…,K}yi∈{1,…,K}y_i \in \{1, \ldots, K\}

2
耦合来自具有多个空间分辨率/尺度的源的时间序列信息
我有许多来自不同传感器的卫星光栅图像。根据这些,较粗的那些具有非常丰富的时间分辨率。中分辨率栅格的采集日期往往较少,但仍可获得一定程度的信息。较高分辨率的时间分辨率非常低,在不到两年的时间内从2到6个观测日期跨越。我想知道是否有人以任何方式努力研究这种多尺度时间序列?我希望使用较粗略的可用信息来预测较细微的将来值。对我来说有意义的是,数据必须相关(是的,图像覆盖相同的区域),但是我不知道如何在预测模型中开始耦合此信息。

1
隐马尔可夫模型用于事件预测
问题:在隐式马尔可夫模型的合理实现下进行设置吗? 我有一组108,000观察数据(在100天的时间内进行),并且2000在整个观察时间范围内大约都有事件发生。数据如下图所示,其中观察到的变量可以采用3个离散值,红色列突出显示事件时间,即:[ 1 , 2 ,3 ][1个,2,3][1,2,3]ŤËŤËt_E 如图中红色矩形所示,我对每个事件都剖析了{到 },将它们有效地视为“事件前窗口”。ŤËŤËt_EŤË− 5ŤË-5t_{E-5} HMM训练:我计划使用Pg上建议的多观察序列方法,基于所有“事前窗口” 训练隐马尔可夫模型(HMM)。Rabiner 论文 273 。希望这将使我能够训练HMM,以捕获导致事件的序列模式。 HMM预测:然后,我计划使用此HMM 预测 新一天的对,其中将是一个滑动窗口矢量,实时更新以包含当前时间至随着时间的推移。升Ò 克[ P(O b s e r v a t i o n s | H中号中号)]升ØG[P(ØbsË[Rv一个Ť一世Øñs|H中号中号)]log[P(Observations|HMM)]Øb 小号Ë - [R v 一个吨我ö Ñ 小号ØbsË[Rv一个Ť一世ØñsObservationsŤŤtŤ - 5Ť-5t-5 对于与“事前窗口”类似的,我希望看到增加。实际上,这应该使我能够在事件发生之前进行预测。升Ò 克[ P(O b s e r v …


1
R / caret:训练和测试集与交叉验证?
这可能是一个愚蠢的问题,但是当使用插入符号生成模型并使用诸如LOOCV或(甚至更重要)时LGOCV,如果这实际上是交叉验证步骤的话,将数据分为训练集和测试集有什么好处?反正吗? 我阅读了一些相关的问题,他们建议一些交叉验证方法(例如,在插入符号处描述的方法)是出于特征选择的目的。但就我而言,我使用的是randomForest(method = "rf")和kernlab(method = svmRadial),它们在试图清除预测变量的组中未列出。 所以,我的问题是,如果我使用类似的方法cross_val <- trainControl(method = "LGOCV", p = 0.8),那与对80%的数据进行训练,对其余20%的数据进行测试所得模型并反复进行以了解模型是否有效? 如果是这样,是否有必要将我的数据分为训练/测试集? PS:我在根据经验生成的DOE原型进行模型处理时会提出一些要求(想想一些硬货,我们会调整输入,然后使用测试方法来测量该原型的各种属性)。 因此,我没有庞大的数据集,可以使用许多重叠的预测变量级别进行建模-我们经常在每个DOE兴趣点进行一次试验,因为在这种情况下,数据生成非常昂贵。因此,我想使用所有可能的数据建立一个准确的模型,但我想在这里检查一下,我没有遗漏明显的东西,也没有通过拆分来制作一个不好的模型。 编辑:针对@topepo的问题,我正在根据调整配方的化学输入来对化合物的物理测量属性进行建模。我无法讨论我的实际应用,但是我将基于配制内部乳胶​​漆组成一个示例。我正在运行设计的实验,我们将4-5种化学物质混合在一起,也许与%的固体混合,并花费一定的时间加热聚合物溶液以调节聚合度。 然后,我们可以测量流变性,分子量,油漆涂层的硬度,耐水性等。 我们有几个变量的不错的复制品,但是从每个DOE级别完全相同的意义上讲,真正复制品很少。总数据集为〜80个观察值,也许4-5是精确重复。我们已经进行了15种不同的测试,也许对每个观察都进行了5-6次测试。对于25-50%的数据,存在一些响应。 从这里开始,我们想对输出的属性上的7个预测变量的效果进行建模,然后进行优化以定位最有可能提供所需属性的新设计空间。 (因此,请在这里提出我的问题。一旦我拥有训练有素的模型,最好进行“反向”操作并输入所需的响应,以在可能的输入水平上获得最佳的猜测,然后再尝试)。

3
LDA与感知器
我正在尝试了解LDA如何“适合”其他受监督的学习技术。我已经在这里阅读了有关LDA的一些LDA风格的帖子。我已经熟悉感知器,但是现在才学习LDA。 LDA如何“适应”监督学习算法系列?与其他方法相比,它的缺点可能是什么?它可能会更好地用于哪些方面?为什么要使用LDA,例如当人们只能使用感知器时?



1
使用文本挖掘/自然语言处理工具进行计量经济学
我不确定这个问题在这里是否完全合适,否则请删除。 我是经济学研究生。对于一个调查社会保险问题的项目,我可以访问大量涉及资格评估的行政案例报告(> 200k)。这些报告可以链接到单个管理信息。我想从这些报告中提取可用于定量分析的信息,最好是使用grep/ awk等进行简单的关键字/正则表达式搜索。 自然语言处理对此有多有用?还有哪些其他有用的文本挖掘方法?据我了解,这是一个很大的领域,很可能某些报告必须进行转换才能用作语料库。是否值得花一些时间来熟悉文献和方法?会有所帮助吗,以前做过类似的事情吗?就回报而言,是否值得?也就是说,我是否可以使用NLP进行潜在的有用信息来进行经济学实证研究? 可能会有资金雇用某人来阅读和准备一些报告。这是一个较大的项目,有可能申请更多的资金。如果绝对必要,我可以提供有关该主题的更多详细信息。一种潜在的并发症是该语言是德语,而不是英语。 关于资格,我主要接受计量经济学方面的培训,并且在Hastie等人的水平上对计算统计有所了解。书。我知道Python,R,Stata,并且可能很快就会熟悉Matlab。给定这些库,我认为Python是为此选择的工具。如果相关的话,根本就不需要定性方法方面的培训,但是我知道我可以联系一些人。 我很高兴为此提供任何输入,即,如果这可能有用,那么,从哪里开始阅读,以及特别关注哪些工具。

2
使用EM算法进行记录链接
我对按名字,姓氏和出生年份跨2个数据集链接记录感兴趣。使用EM算法可能可行,如果可以,怎么办? 以第一个记录中的以下记录为例:Carl McCarthy,1967。我将搜索第二个数据集中的所有记录,并在第一个名字和Carl之间分配一个jaro-winkler距离,在姓和麦卡锡之间分配一个jaro-winkler距离。这些距离是概率,出生年龄之间的距离也是概率。我们将这3个概率(乘以平均值)相乘为1。 现在是决策规则部分。让我们对所有概率从最高到最低进行排名。首先,我们希望P(第一个匹配项)> =阈值。其次,我们还希望P(第二次匹配)/ P(第二次匹配)> =如果P(第二次匹配)阈值存在。第三,我们希望第二个数据集中的第一个匹配项与Carl McCarthy,1967年的第一个数据集中的匹配人数不超过1个。 如何确定这些阈值? 我更喜欢Stata和/或Perl中的方法。 参见,例如: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf (尽管如此,我仍然没有完全理解为什么或如何,以及输入和输出是什么,以及假设和约束的严格性)。


1
与线性动力系统有关的混乱
我正在读Bishop的这本书《模式识别和机器学习》。我对线性动力学系统的推导感到困惑。在LDS中,我们假定潜变量是连续的。如果Z表示潜在变量,X表示观测变量 p (žñ|žn − 1)= N(žñ| 一个žn − 1,τ)p(žñ|žñ-1个)=ñ(žñ|一个žñ-1个,τ)p(z_n|z_{n-1}) = N(z_n|Az_{n-1},\tau) p (Xñ|žñ)= N(Xñ,Cžñ,Σ )p(Xñ|žñ)=ñ(Xñ,Cžñ,Σ)p(x_n|z_n) = N(x_n,Cz_n,\Sigma) p (ž1个)= N(ž1个|ü0,V0)p(ž1个)=ñ(ž1个|ü0,V0)p(z_1) = N(z_1|u_0,V_0) 在LDS中,也使用alpha beta前向后向消息传递来计算后向潜在分布,即p (žñ| X)p(žñ|X)p(z_n|X) α (žñ)= p (x 1 ... x n ,žñ)α(žñ)=p(X1 ...Xñ,žñ)\alpha(z_n)=p(x1...xn,z_n) α^(žñ)= α (žñ)/ P(x 1 .... x n )α^(žñ)=α(žñ)/P(X1 ....Xñ)\hat\alpha(z_n) = \alpha(z_n)/P(x1....xn) 我的第一个问题在书中给出为 α^(žñ)= …

2
通过具有Logistic损失函数的矩阵分解进行协同过滤
考虑协作过滤问题。我们有#users * #items个大小的矩阵如果用户i喜欢项目j,则如果用户i不喜欢项目j,则,并且如果没有关于(i,j)对的数据。我们希望为将来的用户项对预测。中号中号M中号我,Ĵ= 1中号一世,Ĵ=1个M_{i,j} = 1中号我,Ĵ= 0中号一世,Ĵ=0M_{i,j} = 0中号我,Ĵ= ?中号一世,Ĵ=?M_{i,j}=?中号我,Ĵ中号一世,ĴM_{i,j} 标准协作过滤方法是将M表示为2个矩阵乘积,从而ü× Vü×VU \times V| | 中号- U× V||2||中号-ü×V||2||M - U \times V||_2 是最小的(例如,最小化已知元素的均方误差 中号中号M)。 对我来说,逻辑损失函数似乎更合适,为什么所有算法都使用MSE?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.