统计和大数据

3

我试图从法语维基百科页面了解什么是马尔可夫链蒙特卡洛（MCMC）。他们说：“马尔可夫链蒙特卡罗方法包括仅从向量数据x i - 1生成向量xixix_ {i}，因此这是一个“没有内存”的过程”xi−1xi−1x_ {i-1} 莱斯méthodes蒙特卡洛帕CHAINES德马尔可夫一致的générer未vecteur xixix_{i} uniquementàpartir德拉donnée杜vecteur xi−1xi−1x_{{i-1}} ; c'est donc un processus«sansmémoire»，我不明白为什么他们说MCMC是“没有内存的”，只要我们使用向量数据xi−1xi−1x_ {i-1}来生成xixix_i。

18 mcmc

3

如何模拟具有统计意义的数据？

我正在读10年级，正在寻找模拟机器学习科学博览会项目的数据的方法。最终模型将用于患者数据，并将预测一周中某些时间与其在单个患者数据内对药物依从性的影响之间的相关性。坚持值将是二进制的（0表示未服用药物，1表示已服用药物）。我正在寻找一种机器学习模型，该模型能够从一周中的时间之间的关系中学习，并将一周分为21个时间段，一天中的每个时间段分为三个时间段（1是星期一上午，2是星期一下午，等等。）。我正在寻找模拟1,000名患者的数据。每位患者将获得30周的数据。我想插入与一周的时间和遵守相关的某些趋势。例如，在一个数据集中，我可以说一周中的第7个时隙与依从性在统计上有显着关系。为了确定该关系是否具有统计显着性，要求我执行两个样本t检验，将一个时隙与其他每个时隙进行比较，并确保显着性值小于0.05。但是，与其模拟自己的数据并检查我插入的趋势是否显着，不如倒退工作，也许我使用一个程序，要求我在一定的时隙内分配一个重要的趋势，并坚持执行。二进制数据中包含我所要求的趋势，以及其他时隙中的二进制数据，其中包含一些噪声但没有产生统计上显着的趋势。是否有任何程序可以帮助我实现这样的目标？或者也许是python模块？任何帮助（甚至对我的项目的一般性评论）将不胜感激！！

18 machine-learning statistical-significance t-test python simulation

4

当标准偏差增大到无穷大时，正态分布会收敛为均匀分布吗？

如果标准偏差无边增长，正态分布会收敛到某个分布吗？看来，我是PDF开始看起来像与由给定边界的均匀分布[−2σ,2σ][−2σ,2σ][-2 \sigma, 2 \sigma]。这是真的？

18 normal-distribution convergence

2

将Logistic回归与二进制结果和预测变量一起使用是否有意义？

我有一个二进制结果变量{0,1}和一个预测变量{0,1}。我的想法是，除非我包括其他变量并计算优势比，否则进行逻辑物流是没有意义的。使用一个二元预测变量，计算概率就足以满足优势比吗？

18 r regression probability logistic odds-ratio

3

后验概率可以大于1吗？

用贝叶斯公式： P(x|a)=P(a|x)P(x)P(a)P(x|a)=P(a|x)P(x)P(a)P(x|a) = \frac{P(a|x) P(x)}{P(a)} 后验概率P(x|a)P(x|a)P(x|a)超过1？我认为，例如，假设0<P(a)<10<P(a)<10 < P(a) < 1且P(a)<P(x)<1P(a)<P(x)<1P(a) < P(x) < 1且P(a)/P(x)<P(a|x)<1P(a)/P(x)<P(a|x)<1P(a)/P(x) < P(a|x) < 1。但是我对此不确定，因为概率大于1意味着什么？

18 probability bayesian conditional-probability

1

当被字“偏见”杜撰的意思

当被字“偏见”杜撰的意思 E[θ^−θ]E[θ^−θ]\mathbb{E}[\hat{\theta}-\theta]？我现在正在考虑这个问题的原因是因为我似乎想起了Jaynes，在他的概率论课本中，批评了使用“ bias”一词来描述该公式，并提出了另一种选择。根据Jaynes的概率论，第17.2节“无偏估计”：为什么东正教徒这么偏重偏见？我们怀疑其主要原因仅仅是因为他们陷入了自己制造的心理狂陷阱中。当我们调用量(⟨β⟩−α)(⟨β⟩−α)(\langle\beta\rangle-\alpha)“偏见”，这听起来像是应该谴责的，我们必须不惜一切代价消除它。如果按照毕达哥拉斯式（17.2）的建议，将其称为“与方差正交的误差分量”，则很明显，这两个对误差的贡献是相等的；减少一个以牺牲另一个为代价是愚蠢的。这只是选择一种技术术语所付出的代价，该术语承载着情感上的负担，暗示着价值的判断；正统思想不断陷入这种战术错误。

18 terminology bias history

2

为什么在卷积神经网络中需要最大池化？

最常见的卷积神经网络包含池化层以减小输出特征的尺寸。为什么仅通过增加卷积层的步幅就无法实现相同的目的？是什么使得池化层成为必需？

18 deep-learning conv-neural-network pooling

11

矩阵“列数”的术语

是否有一个英文单词表示矩阵的“列数”？例如，2 × 32×32\times 3 × 3矩阵的“维数”是2 × 2 × 32×32\times 3。在此示例中，我需要3项333。当然，我总是可以说“列数”，但是我可以说一个字吗？

18 terminology matrix

7

机器学习中的有偏数据

我正在一个机器学习项目中，该项目的数据已经（严重）受到数据选择的影响。假设您有一组硬编码规则。当它可以使用的所有数据都是已经被这些规则过滤的数据时，您如何构建一个机器学习模型来替换它？为了明确起见，我猜最好的例子是信用风险评估：任务是过滤所有可能无法付款的客户。现在，您拥有的唯一（带有标签的）数据来自该组规则已接受的客户，因为只有在接受之后，您才能看到有人付款（显然）。您不知道这套规则有多好，它们将对有偿分配到无偿分配产生多大影响。此外，再次由于规则集，您已经拒绝了来自客户端的未标记数据。因此，您不知道如果这些客户被接受，将会发生什么情况。例如，规则之一可能是：“如果客户年龄小于18岁，则不接受” 分类器无法学习如何处理已被这些规则过滤的客户端。分类器应如何在此处学习模式？忽略此问题，将导致模型暴露于从未遇到过的数据中。基本上，我想在x在[a，b]之外时估计f（x）的值。

18 machine-learning classification data-mining bias extrapolation

6

线性回归或有序逻辑回归预测葡萄酒等级（从0到10）

我从这里获得了葡萄酒数据，该数据由11个数值自变量组成，每个条目的从属评分与0到10之间的值相关。这使它成为使用回归模型研究变量与关联变量之间关系的绝佳数据集。评分。但是，线性回归是否合适，还是使用多项式/有序逻辑回归更好？对于特定类别，逻辑回归似乎更好，即没有连续因变量，但（1）有11个类别（有点太多？），（2）经检查，这些类别中只有6-7个数据，即其余5-4类别在数据集中没有示例。另一方面，线性回归应该线性地估计0-10之间的等级，这似乎更接近我要找出的数值。但是因变量在数据集中不是连续的。哪种方法更好？注意：我正在使用R进行分析编辑，解决答案中提到的一些要点：没有业务目标，因为这实际上是针对大学课程的。任务是分析我认为合适的选择数据集。收视率的分布看起来很正常（直方图/ qq图）。数据集中的实际值在3到8之间（即使从技术上来说为0到10）。

18 r regression logistic ordered-logit

4

使用对数似然比与可能性的理论动机

我试图在更深层次上理解统计和概率论中对数似然性（也许更一般地说对数概率）的普遍性。对数概率随处可见：我们通常使用对数似然进行分析（例如，最大化），Fisher信息是根据对数似然的二阶导数定义的，熵是预期的对数概率，Kullback-Liebler散度涉及对数概率，预期差异是预期对数可能性，等等。现在，我感谢许多实际和方便的原因。许多常见和有用的pdf都来自指数族，这在对数转换时会导致术语的简化。总和比产品更容易使用（尤其是用于区分）。对数概率比直概率有很大的浮点优势。对数转换pdf通常会将非凹函数转换为凹函数。但是对数概率的理论原因/合理性/动机是什么？作为我困惑的一个示例，请考虑Fisher信息（FI）。理解FI的通常解释是对数似然率的二阶导数告诉我们对数似然率有多“峰值”：对数似然率高度峰值意味着MLE已得到很好的指定，我们相对确定其价值，尽管近似平坦的对数似然（低曲率）意味着许多不同的参数值（就对数似然而言）几乎与MLE一样好，所以我们的MLE更加不确定。这一切都很好，但是仅仅找到似然函数本身的曲率（不进行对数转换）是否更自然？乍一看，对数转换的强调似乎是任意和错误的。当然，我们对实际似然函数的曲率更感兴趣。Fisher使用计分函数和对数似然的Hessian的动机是什么？答案是否简单，最后，我们从对数似然渐近地得到了不错的结果？例如，Mram /后部的Cramer-Rao和正态性。还是有更深层次的原因？

18 probability bayesian likelihood log-likelihood

3

神经网络的标志性（玩具）模型

我的研究生物理学教授以及诺贝尔奖获得者费曼（Feynman）总是会提出他们所谓的玩具模型，以说明物理学的基本概念和方法，例如谐波振荡器，摆锤，陀螺和黑匣子。什么样的玩具模型用来说明神经网络应用的基本概念和方法？（请参考。）所谓玩具模型，是指一种特别简单，尺寸最小的网络，该网络适用于高度受限的问题，通过该网络可以介绍基本方法，并可以通过实际实现来测试和理解自己的理解，即构造基本代码，并且最好在一定程度上执行/手动检查基本数学或在符号数学应用程序的辅助下进行检查。

18 machine-learning neural-networks deep-learning

2

假设

证明以下陈述正确的最简单方法是什么？假设Y1,…,Yn∼iidExp(1)Y1,…,Yn∼iidExp(1)Y_1, \dots, Y_n \overset{\text{iid}}{\sim} \text{Exp}(1)。显示∑ni=1(Yi−Y(1))∼Gamma(n−1,1)∑i=1n(Yi−Y(1))∼Gamma(n−1,1)\sum_{i=1}^{n}(Y_i - Y_{(1)}) \sim \text{Gamma}(n-1, 1)。注意，Y(1)=min1≤i≤nYiY(1)=min1≤i≤nYiY_{(1)} = \min\limits_{1 \leq i \leq n}Y_i。通过X∼Exp(β)X∼Exp(β)X \sim \text{Exp}(\beta)，这意味着，fX(x)=1βe−x/β⋅1{x>0}fX(x)=1βe−x/β⋅1{x>0}f_{X}(x) = \dfrac{1}{\beta}e^{-x/\beta} \cdot \mathbf{1}_{\{x > 0\}}。很容易看到Y(1)∼Exponential(1/n)Y(1)∼Exponential(1/n)Y_{(1)} \sim \text{Exponential}(1/n)。此外，我们也有∑ni=1Yi∼Gamma(α=n,β=1)∑i=1nYi∼Gamma(α=n,β=1)\sum_{i=1}^{n}Y_i \sim \text{Gamma}(\alpha = n, \beta = 1)的参数化下 fY(y)=1Γ(α)βαxα−1e−x/β1{x>0}, α,β>0.fY(y)=1Γ(α)βαxα−1e−x/β1{x>0}, α,β>0.f_{Y}(y) =\dfrac{1}{\Gamma(\alpha)\beta^{\alpha}}x^{\alpha-1}e^{-x/\beta}\mathbf{1}_{\{x > 0\}}\text{, }\qquad \alpha, \beta> 0\text{.} 西安人给出的解决方案答案：在原始问题中使用符号：由此，我们得到了Σ Ñ …

18 self-study distributions exponential order-statistics jacobian

1

为什么t检验和ANOVA为两组比较给出不同的p值？

在有关ANOVA的Wikipedia文章中，它说 ANOVA以其最简单的形式提供了几组均值是否相等的统计检验，因此将t检验推广到了两组以上。我的理解是，在进行两组比较时，方差分析与t检验相同。但是，在下面的简单示例中（R），ANOVA和t检验给出了相似但略有不同的p值。谁能解释为什么？ x1=rnorm(100,mean=0,sd=1) x2=rnorm(100,mean=0.5,sd=1) y1=rnorm(100,mean=0,sd=10) y2=rnorm(100,mean=0.5,sd=10) t.test(x1,x2)$p.value # 0.0002695961 t.test(y1,y2)$p.value # 0.8190363 df1=as.data.frame(rbind(cbind(x=x1,type=1), cbind(x2,type=2))) df2=as.data.frame(rbind(cbind(x=y1,type=1), cbind(y2,type=2))) anova(lm(x~type,df1))$`Pr(>F)`[1] # 0.0002695578 anova(lm(x~type,df2))$`Pr(>F)`[1] # 0.8190279

18 r hypothesis-testing anova t-test

4

为什么Q-Learning在测试过程中使用epsilon-greedy？

在DeepMind关于Atari视频游戏的Deep Q-Learning的论文（此处）中，他们在训练过程中使用epsilon-greedy方法进行探索。这意味着在训练中选择一个动作时，它要么被选为q值最高的动作，要么是随机动作。两者之间的选择是随机的，并且基于epsilon的值，并且在训练过程中对epsilon进行退火，这样一开始，会采取许多随机动作（探索），但是随着训练的进行，会采取许多具有最大q值的动作（开发）。然后，在测试过程中，他们也使用这种epsilon-greedy方法，但是epsilon的值非常低，因此对开发的偏向是对勘探的偏向，倾向于选择q值最高的行为而不是随机行为。但是，有时仍会选择随机动作（5％的时间）。我的问题是：鉴于已经进行了培训，为什么在这一点上根本不需要进行任何探索？如果系统已经学会了最佳策略，那么为什么不总是将行动选择为q值最高的行动呢？难道不应该只在培训中进行探索，然后一旦学会了最佳策略，代理就可以反复选择最佳行动？谢谢！

18 machine-learning reinforcement-learning q-learning deep-rl