统计和大数据 machine-learning

3

我正在读10年级，正在寻找模拟机器学习科学博览会项目的数据的方法。最终模型将用于患者数据，并将预测一周中某些时间与其在单个患者数据内对药物依从性的影响之间的相关性。坚持值将是二进制的（0表示未服用药物，1表示已服用药物）。我正在寻找一种机器学习模型，该模型能够从一周中的时间之间的关系中学习，并将一周分为21个时间段，一天中的每个时间段分为三个时间段（1是星期一上午，2是星期一下午，等等。）。我正在寻找模拟1,000名患者的数据。每位患者将获得30周的数据。我想插入与一周的时间和遵守相关的某些趋势。例如，在一个数据集中，我可以说一周中的第7个时隙与依从性在统计上有显着关系。为了确定该关系是否具有统计显着性，要求我执行两个样本t检验，将一个时隙与其他每个时隙进行比较，并确保显着性值小于0.05。但是，与其模拟自己的数据并检查我插入的趋势是否显着，不如倒退工作，也许我使用一个程序，要求我在一定的时隙内分配一个重要的趋势，并坚持执行。二进制数据中包含我所要求的趋势，以及其他时隙中的二进制数据，其中包含一些噪声但没有产生统计上显着的趋势。是否有任何程序可以帮助我实现这样的目标？或者也许是python模块？任何帮助（甚至对我的项目的一般性评论）将不胜感激！！

18 machine-learning statistical-significance t-test python simulation

7

机器学习中的有偏数据

我正在一个机器学习项目中，该项目的数据已经（严重）受到数据选择的影响。假设您有一组硬编码规则。当它可以使用的所有数据都是已经被这些规则过滤的数据时，您如何构建一个机器学习模型来替换它？为了明确起见，我猜最好的例子是信用风险评估：任务是过滤所有可能无法付款的客户。现在，您拥有的唯一（带有标签的）数据来自该组规则已接受的客户，因为只有在接受之后，您才能看到有人付款（显然）。您不知道这套规则有多好，它们将对有偿分配到无偿分配产生多大影响。此外，再次由于规则集，您已经拒绝了来自客户端的未标记数据。因此，您不知道如果这些客户被接受，将会发生什么情况。例如，规则之一可能是：“如果客户年龄小于18岁，则不接受” 分类器无法学习如何处理已被这些规则过滤的客户端。分类器应如何在此处学习模式？忽略此问题，将导致模型暴露于从未遇到过的数据中。基本上，我想在x在[a，b]之外时估计f（x）的值。

18 machine-learning classification data-mining bias extrapolation

3

神经网络的标志性（玩具）模型

我的研究生物理学教授以及诺贝尔奖获得者费曼（Feynman）总是会提出他们所谓的玩具模型，以说明物理学的基本概念和方法，例如谐波振荡器，摆锤，陀螺和黑匣子。什么样的玩具模型用来说明神经网络应用的基本概念和方法？（请参考。）所谓玩具模型，是指一种特别简单，尺寸最小的网络，该网络适用于高度受限的问题，通过该网络可以介绍基本方法，并可以通过实际实现来测试和理解自己的理解，即构造基本代码，并且最好在一定程度上执行/手动检查基本数学或在符号数学应用程序的辅助下进行检查。

18 machine-learning neural-networks deep-learning

4

为什么Q-Learning在测试过程中使用epsilon-greedy？

在DeepMind关于Atari视频游戏的Deep Q-Learning的论文（此处）中，他们在训练过程中使用epsilon-greedy方法进行探索。这意味着在训练中选择一个动作时，它要么被选为q值最高的动作，要么是随机动作。两者之间的选择是随机的，并且基于epsilon的值，并且在训练过程中对epsilon进行退火，这样一开始，会采取许多随机动作（探索），但是随着训练的进行，会采取许多具有最大q值的动作（开发）。然后，在测试过程中，他们也使用这种epsilon-greedy方法，但是epsilon的值非常低，因此对开发的偏向是对勘探的偏向，倾向于选择q值最高的行为而不是随机行为。但是，有时仍会选择随机动作（5％的时间）。我的问题是：鉴于已经进行了培训，为什么在这一点上根本不需要进行任何探索？如果系统已经学会了最佳策略，那么为什么不总是将行动选择为q值最高的行动呢？难道不应该只在培训中进行探索，然后一旦学会了最佳策略，代理就可以反复选择最佳行动？谢谢！

18 machine-learning reinforcement-learning q-learning deep-rl

1

普遍关于过采样的观点，尤其是关于SMOTE算法的观点[关闭]

已关闭。这个问题是基于观点的。它当前不接受答案。想改善这个问题吗？更新问题，以便通过编辑此帖子以事实和引用的形式回答。 2年前关闭。您总体上对分类过采样，特别是对SMOTE算法有何看法？为什么我们不仅仅应用成本/罚金来调整类数据的不平衡和任何不平衡的错误成本？就我的目的而言，对未来一组实验单位的预测准确性是最终的衡量标准。作为参考，SMOTE论文：http : //www.jair.org/papers/paper953.html

18 machine-learning classification oversampling

1

我们真的用*百万*系数/独立变量执行多元回归分析吗？

我花了一些时间学习机器学习（对于递归很抱歉：），在多变量线性回归的情况下，我选择选择梯度下降而不是直接方程求解来计算回归系数的经验法则使我很感兴趣。经验法则：如果特征数目（读出的系数/自变量）是间或以上一百万，去与梯度下降，否则矩阵求逆运算是在商用硬件相当可控，从而计算系数直接应该足够好。10 ，000 - 1 ，000 ，00010，000-1个，000，00010,000 - 1,000,000 从计算上来说，我得到了权衡/限制。但是从统计学的角度来看，我们真的可以计算出具有这么多系数的模型吗？如果我还记得我在研究生院的多元线性回归课，我们被警告不要使用过多的自变量，因为它们对因变量的影响可能微乎其微，否则它们的分布将不服从我们对数据所做的假设。即使我确实开阔了思维以考虑“许多IV”，我仍然不会想成千上万。问题：这是真的发生还是理论上的问题？分析一百万个静脉注射有什么意义？相对于无视它们，这是否真的使我们获得的信息价值大大增加了？还是因为一开始我们不知道什么是有用的，所以我们只是运行该死的回归来看看什么是有用的，然后从那里去并可能删减IV组？我仍然相信，仅仅因为我们可以分析“一切”，并不意味着我们应该将其扔到求解器中（或者这样做），而我过去的一些问题也反映了类似的POV。我尚未完成课程，我可能会很快提这个问题，但是我只是想不出这个“为什么”的想法，而是想尽我所能来理解它。

18 machine-learning multiple-regression large-data

2

速度，PCA，LASSO，弹性网的计算费用

我正在尝试比较Hastie等人中区分的三组线性回归方法的计算复杂度/估计速度。“统计学习的要素”（第二版），第3章：子集选择收缩方式使用派生输入方向的方法（PCR，PLS）进行比较可能很粗略，只是为了给出一些想法。我认为答案可能取决于问题的严重程度以及如何适应计算机体系结构，因此举一个具体的例子，可以考虑样本量为500和50个候选回归变量。我最感兴趣的是计算复杂性/估计速度背后的动机，而不是对于给定示例而言，使用某个处理器需要多长时间。

18 machine-learning estimation feature-selection algorithms time-complexity

4

为什么将数据分为训练和测试集还不够

我知道，为了访问分类器的性能，我必须将数据分为训练/测试集。但是读这个：在评估估算器的不同设置（“超参数”）（例如必须为SVM手动设置的C设置）时，仍然存在测试集过拟合的风险，因为可以对参数进行调整，直到估算器达到最佳性能为止。这样，有关测试集的知识可以“渗入”模型，并且评估指标不再报告泛化性能。为了解决此问题，可以将数据集的另一部分保留为所谓的“验证集”：对训练集进行训练，然后对验证集进行评估，以及实验何时成功，可以对测试集进行最终评估。我看到引入了另一个（第三个）验证集，这是通过在超参数调整期间对测试集进行过度拟合来证明的。问题是我无法理解这种过度拟合的外观，因此无法理解第三组的合理性。

18 machine-learning cross-validation

1

K-fold交叉验证如何报告混淆矩阵？

假设我用K = 10折进行K折交叉验证。每折都会有一个混淆矩阵。报告结果时，我应该计算什么是平均混淆矩阵，还是仅对混淆矩阵求和？

18 machine-learning cross-validation accuracy

3

为什么k-means的差异统计表明一个聚类，即使显然有两个？

我正在使用K-means对数据进行聚类，并且正在寻找一种建议“最佳”聚类编号的方法。间隙统计似乎是找到一个好的簇号的常用方法。由于某种原因，它返回1作为最佳群集数，但是当我查看数据时，很明显有2个群集：这就是我所说的R中的差距： gap <- clusGap(data, FUN=kmeans, K.max=10, B=500) with(gap, maxSE(Tab[,"gap"], Tab[,"SE.sim"], method="firstSEmax")) 结果集： > Number of clusters (method 'firstSEmax', SE.factor=1): 1 logW E.logW gap SE.sim [1,] 5.185578 5.085414 -0.1001632148 0.1102734 [2,] 4.438812 4.342562 -0.0962498606 0.1141643 [3,] 3.924028 3.884438 -0.0395891064 0.1231152 [4,] 3.564816 3.563931 -0.0008853886 0.1387907 [5,] 3.356504 3.327964 -0.0285393917 …

18 r machine-learning clustering k-means

2

隐藏的马尔可夫模型与马尔可夫过渡模型与状态空间模型……？

对于我的硕士学位论文，我正在为血清状态定义的不同状态之间的转换开发统计模型。现在，我不会在此上下文中提供太多细节，因为我的问题是更笼统/理论上的。无论如何，我的直觉是我应该使用隐马尔可夫模型（HMM）。在研究文献和制定模型所需的其他背景研究时，我遇到的麻烦是对术语的困惑以及不同类型的隐藏过程模型之间的确切差异。我只是很模糊地意识到它们的区别（后面的例子）。此外，在我看来，至少从我在文献中看到的来看，围绕这种类型的建模建立了非常不标准的词汇，因此，我希望人们能帮助我消除其中的某些歧义。我有很多问题，但是我猜想，随着一两个问题得到令人满意的回答，其余的事情将因此而纠结。我希望这不会太冗长；如果主持人希望我将其拆分为多个帖子，我会。无论如何，我都会用粗体显示问题，然后是在文献搜索过程中发现的问题的详细信息。因此，没有特别的顺序： 1）什么是“隐藏过程模型”？我一直认为“隐藏过程模型”是一个笼统的术语，可以用来描述许多不同类型的统计模型，这些模型本质上都是对“重叠系统，潜在隐藏的线性累加过程”（[1]）。确实，[2]将“隐藏过程模型”定义为“指代状态空间模型或隐藏马尔可夫模型的通用术语”。[1]似乎可以推断出隐马尔可夫模型是专门针对二进制状态推论的隐式过程模型的子类型。在我看来，基本含义是隐藏过程模型是隐藏马尔可夫模型的概括。我有时会看到“隐藏的流程模型”和“ 我的直觉对吗？如果不是，是否有人参考可以更清楚地描述这些方法？ 2）隐马尔可夫模型和状态空间模型有什么区别？再次回到[2]（仅是因为该论文带有清晰的术语表，而不是因为该论文本身似乎特别权威；它只是单句定义的便捷来源），差异似乎在于隐马尔可夫模型是状态空间模型的一种特定类型，其中状态是马尔可夫状态（似乎对马尔可夫过程的阶没有明确的限制；即，一阶，...，k阶）。这里，状态空间模型被定义为“一个模型，它并行运行两个时间序列，一个捕获真实状态（潜在）的动态，另一个捕获由这些潜在但可能未知的状态组成的观测值。” 如果那些州也表现出马尔可夫性质，那么它就是一个隐马尔可夫模型。然而，[3]将状态空间模型与隐马尔可夫模型之间的差异定义为与潜在状态的特征有关。在这里，隐马尔可夫模型处理离散状态，而状态空间模型处理连续状态。否则，它们在概念上是相同的。在我看来，这是两个截然不同的定义。在一种情况下，隐马尔可夫模型是状态空间模型的子类型，而在另一种情况下，它们两者都是更广泛的隐藏过程模型类的不同实例。以下哪项是正确的？我的直觉指向我遵循[3]而不是[2]，但是我找不到支持这一观点的权威资料。 3）什么是“马尔可夫转移模型”？许多资料中出现的另一个术语是“马尔可夫过渡模型”。我在任何教科书中都找不到该短语，但是在期刊文章中却出现了很多（只需将其插入Google进行确认即可）。我无法找到该术语的严格定义（我发现每篇论文都引用了另一篇论文，引用了另一篇论文，等等，将我送往一个毫无理智的PubMed兔子洞中）。我从上下文中得到的印象是，这是一个非常笼统的术语，指的是其中推论的对象是遵循马尔可夫过程的状态之间的转换的任何模型，并且隐马尔可夫模型可以被视为马尔可夫转换模型的一种特定类型。。[4]然而，似乎可以互换使用过渡模型，隐马尔可夫模型和几个类似的术语。另一方面，[5]在讨论马尔可夫转移模型和隐马尔可夫模型方面有些不同。作者指出：“过渡模型提供了一种汇总响应者动力学的方法，有助于解释更复杂的隐马尔可夫模型的结果”。我不完全理解这句话的含义，也无法在本文的其他地方找到理由。但是，他们似乎暗示Markov过渡模型将时间用作连续变量，而隐藏的Markov模型将时间用作离散变量（它们没有直接说出来；他们说他们使用R包'msm'来拟合Markov过渡模型，后来将“ msm”描述为与HMM的R包相比，连续地处理时间）。 4）其他概念（例如动态贝叶斯网络）适合什么地方？根据维基百科，动态贝叶斯网络是“隐马尔可夫模型和卡尔曼滤波器的概括”。在其他地方，我看到了隐马尔可夫模型，它被定义为动态贝叶斯网络的一种特例，“世界的整个状态由一个单独的隐藏状态变量表示”（动态贝叶斯系统的定义及其与HMM的关系？）。。我通常理解这种关系，[6]对此做了很好的解释。但是，我很难理解这种关系如何适用于更广泛的事物。也就是说，考虑到HMM和DBN之间的这种关系，状态空间模型和隐藏过程模型如何与两者相关？考虑到隐马尔可夫模型似乎有多个“概括”，所有这些不同类型的方法如何相互关联？参考文献： [1]汤姆·米切尔（Tom M. Mitchell），丽贝卡·哈金森（Rebecca Hutchinson），Indrayana Rustandi。“隐藏的过程模型”。2006.CMU-CALD-05-116。卡内基·梅隆大学。 [2]奥利弗·吉米尼斯（Oliver Giminez），让·多米尼克·勒布雷顿（Jean-Dominique Lebreton），让·米歇尔·盖拉德（Jean-Michel Gaillard），雷米·乔奎特（Remi Choquet），罗杰·普拉德尔（Roger Pradel）。“使用隐藏的过程动态模型估计人口统计参数”。理论种群生物学。2012.82（4）：307-316。 [3]芭芭拉·恩格哈特。“隐马尔可夫模型和状态空间模型”。STA561：概率机器学习。杜克大学。http://www.genome.duke.edu/labs/engelhardt/courses/scribe/lec_09_25_2013.pdf [4] Jeroen K. Vermunt。“连续时间的多级潜在马尔可夫建模及其在动态情绪评估数据分析中的应用”。社会统计讲习班。2012年，蒂尔堡大学。http://www.lse.ac.uk/statistics/events/SpecialEventsandConferences/LSE2013-Vermunt.pdf [5]肯·理查森，大卫·哈特，克里斯蒂·卡特。“了解健康和劳动力转移：将Markov模型应用于SoFIE纵向数据”。官方统计研究丛书。2012。 [6] Zoubin Ghahramani。“隐马尔可夫模型和贝叶斯网络简介”。模式识别与人工智能杂志。2001. 15（1）：9-42。

18 machine-learning self-study hidden-markov-model

2

为什么直接在计算上优化高斯混合很难？

考虑混合高斯的对数似然： l(Sn;θ)=∑t=1nlogf(x(t)|θ)=∑t=1nlog{∑i=1kpif(x(t)|μ(i),σ2i)}l(Sn;θ)=∑t=1nlog⁡f(x(t)|θ)=∑t=1nlog⁡{∑i=1kpif(x(t)|μ(i),σi2)}l(S_n; \theta) = \sum^n_{t=1}\log f(x^{(t)}|\theta) = \sum^n_{t=1}\log\left\{\sum^k_{i=1}p_i f(x^{(t)}|\mu^{(i)}, \sigma^2_i)\right\} 我想知道为什么要直接最大化该方程在计算上很困难？我一直在寻找一个清晰的直觉，以了解为什么它应该如此艰难，或者为什么要对其为何如此艰难做出更严格的解释。这个问题是NP完整的，还是我们还不知道如何解决？这是我们诉诸使用EM（期望最大化）算法的原因吗？符号： SnSnS_n =训练数据。 x(t)x(t)x^{(t)} =数据点。 θθ\theta =一组参数，指定高斯，其均值，标准偏差以及从每个聚类/类/高斯生成点的概率。 pipip_i =从聚类/类/高斯i生成点的概率。

18 machine-learning gaussian-mixture expectation-maximization

1

极端随机森林与随机森林有何不同？

ER是否更有效地实现（类似于Extreme Gradient Boosting梯度提升）？从实际角度来看，差异重要吗？有实现它们的R包。是新的算法，不仅在效率方面，还是在某些其他方面，都克服了“通用”实现（R的RandomForest包）？极端随机森林http://link.springer.com/article/10.1007%2Fs10994-006-6226-1

18 r machine-learning algorithms random-forest

2

为什么自然语言处理不属于机器学习领域？[关闭]

按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实，参考或专业知识的支持，但是这个问题可能会引起辩论，争论，民意调查或扩展讨论。如果您认为此问题可以解决并且可以重新提出，请访问帮助中心以获取指导。 7年前关闭。我在许多书籍和网络中都遇到了它。据说自然语言处理和机器学习是人工智能的不同子集。为什么？通过将声音模式输入到机器学习算法中，我们可以获得自然语言处理的结果。那有什么区别

18 machine-learning text-mining natural-language

2

线性判别分析如何减小尺寸？

第91页上的“统计学习的要素”中有一些词： p维输入空间中的K个质心跨度最多为K-1维子空间，并且如果p比K大得多，则维数将显着下降。我有两个问题：为什么p维输入空间中的K个质心最多跨越K-1维子空间？ K重心如何定位？书中没有任何解释，我也没有从相关论文中找到答案。

18 machine-learning discriminant-analysis

Questions tagged «machine-learning»