统计和大数据

2

假设我想建立一个模型来预测某种比率或百分比。例如，假设我要预测参加聚会的男孩与女孩的数量，并且我可以在模型中使用的聚会功能包括诸如聚会广告的数量，场地的大小，是否有将是聚会上的任何酒类，等等。（这只是一个虚构的示例；功能并不是很重要。）我的问题是：预测比率与百分比之间有什么区别，并且根据选择的模型，我的模型如何变化？这个比那个好吗？其他功能是否比其中任何一个更好？（我并不真正在乎比率与百分比的具体数字；我只想能够确定哪些政党更有可能是“男孩政党”还是“女孩政党”。）例如，我思维：如果我要预测百分比（例如，# boys / (# boys + # girls)则为0，则由于我的依存特征被限制在1与1之间，我可能应该使用逻辑回归而不是线性回归）。如果我想预测比率（例如，# boys / # girls或# boys / (1 + # girls)避免除以零的误差），那么我的从属特征为正，那么在使用线性回归之前，我是否应该应用某种（log？）变换？（或其他一些模型？对于正的非计数数据使用哪种回归模型？）通常最好预测（说）百分比而不是比率，如果是，为什么？

20 regression logistic

2

方差分析中变量的顺序很重要，不是吗？

我是否正确理解，在多元ANOVA中指定变量的顺序会有所不同，但是在进行多元线性回归时顺序并不重要？因此，假设存在诸如测得的失血量 y和两个分类变量之类的结果增殖腺切除术的方法 a，扁桃体切除方法 b。该模型y~a+b不同于该模型y~b+a（或因此我在R中的实现似乎表明了这一点）。我是否正确理解这里的术语是方差分析是一种层次模型，因为它在尝试将剩余方差归因于第二因素之前首先将尽可能多的方差归因于第一因素？在上面的示例中，层次结构是有道理的，因为我总是在进行扁桃体切除术之前先进行腺样体切除术，但是如果一个人有两个没有内在顺序的变量会怎样？

20 regression hypothesis-testing anova unbalanced-classes sums-of-squares

3

为什么要抑制线性回归中的截距？

在许多统计数据包中，包括SAS，SPSS甚至更多，都有“抑制拦截”的选项。你为什么想这么做？

20 regression

1

在全基因组关联研究中，主要成分是什么？

在全基因组关联研究（GWAS）中：主要成分是什么？为什么使用它们？如何计算？是否可以在不使用PCA的情况下进行全基因组关联研究？

20 pca genetics gwas

4

生存分析：连续时间与离散时间

我对如何决定在生存分析中将时间视为连续时间还是离散时间感到困惑。具体来说，我想使用生存分析来确定对男孩和女孩（5岁以下）的生存影响最大的儿童和家庭变量。我有一个儿童年龄（以月为单位）的数据集，以及该儿童是否还活着，死亡年龄（以月为单位）以及其他儿童和家庭水平变量的指标。由于时间是以月为单位记录的，并且所有儿童都在5岁以下，因此生存时间很多（通常每半年间隔：0mos，6mos，12mos等）。根据我对生存分析的了解，有很多捆绑的生存时间，使我认为我应该将时间视为离散的。但是，我还阅读了其他几项研究，例如生存时间以人年为单位（因此肯定存在生存时间），并且使用了诸如Cox比例风险之类的连续时间方法。我应该使用什么标准来决定将时间视为连续时间还是离散时间？对于我的数据和问题，使用某种连续时间模型（Cox，Weibull等）对我来说很直观，但是我的数据的离散性质和有限的生存时间似乎暗示了其他问题。

20 survival ties

3

分布的时刻-是否用于部分或更高时刻？

通常使用分布的第二，第三和第四时刻来描述某些属性。局部矩或高于第四矩的矩是否描述了分布的任何有用特性？

20 distributions moments partial-moments

7

箱图有哪些替代方案？

我正在创建一个网站，该网站显示用户选择的多边形的普查数据，并希望以图形方式显示各种参数的分布（每个参数一个图）。数据通常具有以下属性：样本数量往往很大（例如大约10,000个数据点）值的范围往往要求较大（例如，最小人口可以小于100，最大人口可以是500,000） q1通常接近最小值（例如200），而q2和q3将在10,000以内它看起来不像正态分布我不是统计学家，因此我的描述可能不太清楚。我想在图表上显示此分布，市民（外行，如果您愿意）可以看到该分布。我本来希望使用直方图，但是由于值的范围很大，因此是不可能的，因为这使得制作垃圾箱并不是一件容易的事。据我对统计的了解很少，通常使用箱形图来显示此类数据，但我认为对于外行而言，解密箱形图并不容易。我有什么选择可以以一种易于理解的方式显示此数据？

20 distributions data-visualization boxplot

6

始终报告鲁棒（白色）标准错误？

Angrist和Pischke已建议将稳健（即对异方差或不等方差具有鲁棒性）的标准误差报告为理所当然的事情，而不是对其进行测试。两个问题：当存在同方差时，对标准误差有何影响？有人在工作中实际这样做吗？

20 regression standard-error heteroscedasticity robust-standard-error

9

在时间序列的Ljung-Box测试中要使用多少个滞后？

在将ARMA模型拟合到时间序列后，通常通过Ljung-Box portmanteau测试（以及其他测试）来检查残差。Ljung-Box测试返回ap值。它有一个参数h，它是要测试的延迟数。有些文字建议使用h = 20；其他人建议使用h = ln（n）; 大多数人并不说什么^ h使用。而不是对h使用单个值，假设我对所有<50的h做Ljung-Box测试，然后选择h给出最小p值。这种方法合理吗？优点和缺点是什么？（一个明显的缺点是增加了计算时间，但这在这里不是问题。）是否有关于此的文献？略作详细说明。...如果测试对所有h都给出p> 0.05 ，则显然时间序列（残差）通过了测试。我的问题涉及在h的某些值而不是其他值的情况下p <0.05时如何解释检验。

20 time-series

2

最大似然估计-多元高斯

语境多元高斯在机器学习中经常出现，并且以下结果在许多没有衍生的机器学习书籍和课程中使用。给定以m × p尺寸的矩阵形式给出的数据，如果我们假设数据遵循参数均值为μ（p × 1）和协方差矩阵Σ（p × p）的p变量高斯分布，则最大似然估计为由：XX\mathbf{X} m × pm×p m \times ppppμμ\mup × 1p×1p \times 1 ΣΣ\Sigmap × pp×pp \times p μ^= 1米∑米我= 1X（我）= x¯μ^=1m∑i=1mx(i)=x¯\hat \mu = \frac{1}{m} \sum_{i=1}^m \mathbf{ x^{(i)} } = \mathbf{\bar{x}} Σ^= 1米∑米我= 1（x（我）- μ^）（x（我）- μ^）ŤΣ^=1m∑i=1m(x(i)−μ^)(x(i)−μ^)T\hat \Sigma = \frac{1}{m} \sum_{i=1}^m \mathbf{(x^{(i)} - …

20 normal-distribution maximum-likelihood estimators multivariate-normal

3

XGBoost vs Python Sklearn梯度增强树

我试图了解XGBoost的工作原理。我已经了解了梯度增强树如何在Python sklearn上工作。我不清楚XGBoost是否以相同的方式工作，但速度更快，或者它与python实现之间存在根本差异。当我读这篇论文时 http://learningsys.org/papers/LearningSys_2015_paper_32.pdf 在我看来，XGboost的最终结果与Python实现中的结果相同，但是主要区别在于XGboost如何在每个回归树中找到最佳分割。基本上，XGBoost提供相同的结果，但是速度更快。这是正确的，还是我还缺少其他东西？

20 scikit-learn boosting gbm xgboost

5

深度学习：我如何知道哪些变量很重要？

在神经网络术语方面（y =权重* x +偏差），我如何知道哪些变量比其他变量更重要？我有一个具有10个输入的神经网络，1个具有20个节点的隐藏层和1个具有1个节点的输出层。我不确定如何知道哪些输入变量比其他变量更有影响力。我在想的是，如果输入很重要，那么它将与第一层具有高度加权的连接，但是权重可能为正也可能为负。因此，我可能要做的是取输入权重的绝对值并将其求和。更重要的输入将具有更高的总和。因此，例如，如果头发长度是输入之一，则它应该与下一层中的每个节点具有1个连接，因此有20个连接（因此有20个权重）。我可以仅取每个权重的绝对值并将它们相加吗？

20 machine-learning neural-networks bias tensorflow theano

3

遗传算法什么时候是优化的好选择？

遗传算法是优化方法的一种形式。通常，随机梯度下降及其导数是函数优化的最佳选择，但有时仍会使用遗传算法。例如，NASA ST5航天器的天线是使用遗传算法创建的：什么时候比最常见的梯度下降方法更好的选择是遗传优化方法？

20 machine-learning optimization gradient-descent genetic-algorithms

3

代数的条件期望的直觉

让是一个概率空间，给定一个随机变量和 -代数我们可以构造一个新的随机变量，这是条件期望值。(Ω,F,μ)(Ω,F,μ)(\Omega,\mathscr{F},\mu)ξ:Ω→Rξ:Ω→R\xi:\Omega \to \mathbb{R}σσ\sigmaG⊆FG⊆F\mathscr{G}\subseteq \mathscr{F}E[ξ|G]E[ξ|G]E[\xi|\mathscr{G}] 考虑的直觉到底是什么？我了解以下几点的直觉：E[ξ|G]E[ξ|G]E[\xi|\mathscr{G}] （i）其中是一个事件（概率为正）。E[ξ|A]E[ξ|A]E[\xi|A]AAA （ii）其中是离散随机变量。E[ξ|η]E[ξ|η]E[\xi|\eta]ηη\eta 但是我无法可视化。我了解它的数学原理，并且了解它的定义方式是概括我们可以看到的更简单的情况。但是，尽管如此，我认为这种思维方式没有用。它对我来说仍然是一个神秘的对象。E[ξ|G]E[ξ|G]E[\xi|\mathscr{G}] 例如，让为的事件。形成 -algebra，由生成。那么等于如果等于如果。换句话说，如果，而如果。AAAμ(A)>0μ(A)>0\mu(A)>0σσ\sigmaG={∅,A,Ac,Ω}G={∅,A,Ac,Ω}\mathscr{G} = \{ \emptyset, A, A^c, \Omega\}AAAE[ξ|G](ω)E[ξ|G](ω)E[\xi|\mathscr{G}](\omega)1μ(A)∫Aξ1μ(A)∫Aξ\frac{1}{\mu(A)} \int_A \xiω∈Aω∈A\omega \in A1μ(Ac)∫Acξ1μ(Ac)∫Acξ\frac{1}{\mu(A^c)} \int_{A^c} \xiω∉Aω∉A\omega \not \in AE[ξ|G](ω)=E[ξ|A]E[ξ|G](ω)=E[ξ|A]E[\xi|\mathscr{G}](\omega) = E[\xi|A]ω∈Aω∈A\omega\in AE[ξ|G](ω)=E[ξ|Ac]E[ξ|G](ω)=E[ξ|Ac]E[\xi|\mathscr{G}](\omega) = E[\xi|A^c]ω∈Acω∈Ac\omega \in A^c 令人困惑的部分是，所以为什么我们不只写？我们为什么要更换通过根据是否不，但不允许替换通过？è [ ξ | G ] （ω ）= E [ ξ | Ω ] = …

20 probability conditional-probability conditional-expectation conditioning sigma-algebra

3

为什么RNN / LSTM网络的权重会随时间共享？

我最近对LSTM产生了兴趣，当得知权重在时间上共享时，我感到很惊讶。我知道，如果您跨时间共享权重，那么您的输入时间序列可以是可变长度。使用共享权重，您需要训练的参数要少得多。根据我的理解，之所以转向LSTM而不是其他学习方法，是因为您认为想要学习的数据中存在某种时间/顺序结构/依赖性。如果您牺牲了可变长度的“奢侈”，并接受了较长的计算时间，那么没有共享权重的RNN / LSTM会不会表现得更好（或者在每个时间步中您都有不同的权重），或者我缺少什么？

20 machine-learning lstm rnn