Questions tagged «convergence»

2
深度学习中的局部极小值与鞍点
我听过Andrew Ng(不幸的是,在视频中我找不到)谈论关于深度学习问题中的局部最小值的理解已经发生了改变,因为它们现在被认为问题较少,因为在高维空间中(遇到深度学习),关键点更有可能是鞍点或平稳状态,而不是局部最小值。 我看过一些论文(例如本篇论文)讨论了“每个局部最小值都是一个全局最小值”的假设。这些假设都是相当技术性的,但是据我了解,它们倾向于在神经网络上施加某种使其线性的结构。 在深度学习(包括非线性体系结构)中,高原比局部极小概率更有可能是正确的说法吗?如果是这样,它背后是否有(可能是数学上的)直觉? 关于深度学习和鞍点,有什么特别之处吗?

4
Gensim Word2Vec实现中的时期数
Word2Vec实现中有一个iter参数gensim gensim.models.word2vec.Word2Vec类(句子=无,大小= 100,alpha = 0.025,窗口= 5,min_count = 5,max_vocab_size =无,sample = 0,seed = 1,workers = 1,min_alpha = 0.0001,sg = 1,hs = 1,否定= 0,cbow_mean = 0,hashfxn =,iter = 1,null_word = 0,trim_rule = None,sorted_vocab = 1) 指定时期数,即: iter =语料库上的迭代次数(时期)。 有谁知道这是否有助于改进语料库模型? 有什么理由将iter默认设置为1?增加No不会有太大影响。时代? 是否有关于如何设置否的科学/经验评估。时代? 与分类/回归任务不同,网格搜索方法不会真正起作用,因为矢量是以无监督方式生成的,而目标函数只是通过分层softmax或负采样进行。 是否有一个早期停止机制来缩短否。向量收敛后的历元数?分层softmax或负采样目标可以收敛吗?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.