计算机科学 statistics

12

我已经研究了很多，他们说过度适合机器学习中的动作是不好的，但是我们的神经元确实变得非常强大，可以找到我们所经历或避免的最佳动作/感觉，并且可以从不良中减少/增加。 /好或坏触发的好，表示动作会趋于平缓，最终得到最佳（正确），超强自信的动作。这怎么会失败？它使用正负感应触发器来减少/重新增加44pos中的动作。至22neg。

27 machine-learning statistics

1

将期望最大化应用于抛硬币示例

最近，我一直在自学“期望最大化”，并在过程中掌握了一些简单的示例：从这里开始：三个硬币，和带有，和c 1 c 2 p 0 p 1c0c0c_0c1c1c_1c2c2c_2p0p0p_0p1p1p_1p2p2p_2分别是被抛掷时落在头上的概率。投掷c0c0c_0。如果结果是Head，则将掷c1c1c_1三遍，否则将掷c2c2c_2三遍。c1c1c_1和产生的观测数据c2c2c_2如下：HHH，TTT，HHH，TTT，HHH。隐藏数据是的结果c0c0c_0。估计p0p0p_0，p1p1p_1和p2p2p_2。从这里开始：有两个硬币cAcAc_A和cBcBc_B其中pApAp_A和pBpBp_B分别是被抛掷落在Head上的概率。每回合随机选择一枚硬币，掷十次；记录结果。观察到的数据是这两个硬币提供的抛掷结果。但是，我们不知道为特定回合选择了哪个硬币。估计pApAp_A和pBpBp_B。虽然我可以得到计算结果，但是我无法将它们的求解方式与原始的EM理论联系起来。具体来说，在两个示例的M-Step中，我都看不到它们如何使任何东西最大化。似乎他们正在重新计算参数，并且以某种方式，新参数比旧参数要好。而且，这两个电子步骤看上去甚至都不相似，更不用说原始理论的电子步骤了。那么这些示例如何工作？

18 probability-theory statistics

6

在一个间隔中找到两个数字的最大异或：我们能做得比二次更好吗？

lllrrrmax(i⊕j)max(i⊕j)\max{(i\oplus j)}l≤i,j≤rl≤i,j≤rl\le i,\,j\le r 天真的算法只检查所有可能的对。例如在红宝石中，我们有： def max_xor(l, r) max = 0 (l..r).each do |i| (i..r).each do |j| if (i ^ j > max) max = i ^ j end end end max end 我感觉到，我们可以做得比二次。是否有针对此问题的更好算法？

14 algorithms algorithms machine-learning statistics testing terminology asymptotics landau-notation reference-request optimization scheduling complexity-theory time-complexity lower-bounds communication-complexity computational-geometry computer-architecture cpu-cache cpu-pipelines operating-systems multi-tasking algorithms algorithm-analysis education correctness-proof didactics algorithms data-structures time-complexity computational-geometry algorithms combinatorics efficiency partitions complexity-theory satisfiability artificial-intelligence operating-systems performance terminology computer-architecture

4

机器学习中相关性与因果关系是什么？

众所周知，“关联不等于因果关系”，但是机器学习似乎几乎完全基于关联。我正在使用一个系统，根据学生过去的表现来评估学生对问题的表现。与其他任务（例如Google搜索）不同的是，这似乎不是一种容易玩的系统-因此，因果关系在这方面并不重要。显然，如果我们想做实验以优化系统，我们将不得不考虑相关性/因果关系的区别。但是，从仅构建一个系统来选择可能具有适当难度级别的问题的角度来看，这种区别是否重要？

13 machine-learning statistics

1

朴素贝叶斯模型中的平滑

朴素贝叶斯预测器使用以下公式进行预测： P(Y=y|X=x)=αP(Y=y)∏iP(Xi=xi|Y=y)P(Y=y|X=x)=αP(Y=y)∏iP(Xi=xi|Y=y)P(Y=y|X=x) = \alpha P(Y=y)\prod_i P(X_i=x_i|Y=y) 其中是归一化因子。这需要从数据中估计参数。如果我们使用平滑进行此操作，则可以得到估计值αα\alphaP(Xi=xi|Y=y)P(Xi=xi|Y=y)P(X_i=x_i|Y=y)kkk P^(Xi=xi|Y=y)=#{Xi=xi,Y=y}+k#{Y=y}+nikP^(Xi=xi|Y=y)=#{Xi=xi,Y=y}+k#{Y=y}+nik\hat{P}(X_i=x_i|Y=y) = \frac{\#\{X_i=x_i,Y=y\} + k}{\#\{Y=y\}+n_ik} 可能有值。我对此很好。但是，以前，我们有ninin_iXiXiX_i P^(Y=y)=#{Y=y}NP^(Y=y)=#{Y=y}N\hat{P}(Y=y) = \frac{\#\{Y=y\}}{N} 数据集中有示例。为什么我们也不能简化先验？或者说，做我们顺利前？如果是这样，我们选择什么平滑参数？也选择似乎有点愚蠢，因为我们正在做不同的计算。有共识吗？还是没有太大关系？NNNkkk

13 machine-learning probability-theory statistics

Questions tagged «statistics»