统计和大数据

1

一种“依靠数据说谎”的常见方法是使用y轴刻度，使看起来好像变化比实际变化更重要。当我审阅科学出版物或学生的实验报告时，我常常对这种“数据可视化的罪过”感到沮丧（我相信作者无意间犯了这个错误，但仍然会引起误导。）但是，“始终将y轴从零开始”并不是一成不变的规则。例如，爱德华·塔夫特（Edward Tufte）指出，在时间序列中，基线不一定为零：通常，在时间序列中，使用显示数据而不是零点的基线。如果在绘制数据时出现零点，则很好。但是，不要花很多空的垂直空间试图降低到零点，而要隐藏数据线本身中发生的事情。（这本书“如何用统计说谎”在这一点上是错误的。）例如，在整个时间序列中都没有零点的地方，可以看看任何主要的科学研究出版物。科学家们希望展示他们的数据，而不是零。对数据进行上下文化的冲动是一个很好的冲动，但是上下文并不是来自空的垂直空间下降到零，这一数字甚至在很多数据集中都不会出现。相反，对于上下文，水平显示更多数据！我想指出我撰写的论文中的误导性陈述，但我不想成为零Y轴纯粹主义者。是否有任何准则可解决何时将y轴从零开始以及何时不必要和/或不合适的情况？（尤其是在学术工作中。）

45 data-visualization

6

机器（深度）学习的主要定理是什么？

Al Rahimi最近发表了非常挑衅的讲话在NIPS 2017上做，将当前的机器学习与炼金术进行了比较。他的主张之一是，我们需要回到理论发展上，以得到证明基本结果的简单定理。当他这么说的时候，我开始寻找ML的主要定理，但找不到能很好理解主要结果的参考。所以这是我的问题：ML / DL中当前的主要数学定理（理论）是什么，它们证明了什么？我猜想瓦普尼克的工作会在这里进行。另外，主要的理论开放问题是什么？

45 machine-learning deep-learning theory

10

如何正确绘制趋势

我正在创建一张图表，以显示不同国家的死亡率趋势（每1000人），应该从该图得出的故事是，德国（浅蓝色线）是唯一一个趋势在1932年之后呈上升趋势的国家。我的第一次（基本）尝试我认为，该图已经显示了我们想要告诉我们的内容，但是它不是超级直观。您是否有任何建议可以使趋势之间的区别更加清晰？我当时在考虑绘制增长率，但我尝试了，但并没有更好。数据如下 year de fr be nl den ch aut cz pl 1927 10.9 16.5 13 10.2 11.6 12.4 15 16 17.3 1928 11.2 16.4 12.8 9.6 11 12 14.5 15.1 16.4 1929 11.4 17.9 14.4 10.7 11.2 12.5 14.6 15.5 16.7 1930 10.4 15.6 12.8 9.1 10.8 11.6 …

45 data-visualization

2

支持向量机的线性核和非线性核？

使用支持向量机时，有没有关于选择线性核与非线性核（例如RBF）的指南？我曾经听过，一旦特征数量很大，非线性内核往往表现不佳。关于这个问题有参考吗？

45 machine-learning classification svm references kernel-trick

3

在多元回归模型中具有相关的预测变量有什么影响？

我在线性模型课程中了解到，如果两个预测变量相关，并且两个预测变量都包含在模型中，那么一个预测变量将是不重要的。例如，假设房屋的大小和卧室的数量是相关的。当使用这两个预测器预测房屋成本时，可以放弃其中一个，因为它们都提供了大量相同的信息。从直觉上讲，这是有道理的，但是我还有一些技术问题：当仅在模型中包含一个或两个预测变量时，这种影响如何在回归系数的p值中体现出来？通过在模型中包括两个预测变量或仅包含一个预测变量，如何影响回归系数的方差？我怎么知道模型将选择不太重要的预测变量？仅包含一个或两个预测变量如何改变我的预测成本的价值/差异？

45 regression multiple-regression p-value linear-model multicollinearity

2

如何模拟人工数据进行逻辑回归？

我知道我对逻辑回归的理解中缺少一些东西，非常感谢您的帮助。据我所知，逻辑回归假设给定输入的结果为“ 1”的概率是通过逆逻辑函数传递的输入的线性组合。以下R代码对此进行了举例说明： #create data: x1 = rnorm(1000) # some continuous variables x2 = rnorm(1000) z = 1 + 2*x1 + 3*x2 # linear combination with a bias pr = 1/(1+exp(-z)) # pass through an inv-logit function y = pr > 0.5 # take as '1' if probability > 0.5 …

45 r regression logistic generalized-linear-model simulation

4

如何计算IID均匀随机变量样本最大值的概率密度函数？

给定随机变量 Y=max(X1,X2,…,Xn)Y=max(X1,X2,…,Xn)Y = \max(X_1, X_2, \ldots, X_n) 其中XiXiX_i是IID统一变量，如何计算Y的PDF YYY？

45 pdf maximum

8

是否有用于模拟不规则间隔时间序列的金标准？

在经济学领域（我认为），我们有ARIMA和GARCH用于规则间隔时间序列，而Poisson，Hawkes用于建模点过程，那么尝试对不规则（不均匀）间隔时间序列进行建模的尝试-是否存在（至少）任何常见实践？（如果您对该主题有一定的了解，还可以展开相应的Wiki文章。）版本（关于缺失值和不规则间隔的时间序列）：回答@Lucas Reis评论。如果测量或实现变量之间的间隙由于（例如）泊松过程而间隔开，则这种正则化的空间就不大了，但它存在一个简单的过程：t(i)是变量x的第i个时间索引（x的第i个时间）实现x），则限定间隙的测量值作为时间之间g(i)=t(i)-t(i-1)，那么我们就离散g(i)使用常数c，dg(i)=floor(g(i)/c并与原来的时间序列的老观测之间的空白值的数量创建新的时间序列i和i+1等于DG（我），但问题是，这该过程很容易产生时间序列，而缺失数据的数量远大于观测值的数量，因此，对缺失观测值的合理估计可能是不可能的，而且可能太大c删除“时间结构/时间依赖性等”。分析的问题（极端情况是通过将c>=max(floor(g(i)/c))简单地将不规则间隔的时间序列分解为规则间隔而给出的 Edition2（只是为了好玩）：图像说明了在不规则间隔的时间序列甚至点过程中缺失的值。

45 time-series garch poisson-process point-process unevenly-spaced-time-series

5

在线使用R-无需安装[关闭]

是否可以在Web界面中使用R而无需安装它？我只有一个喜欢运行的小脚本，但我只想花一点时间就可以完成安装。谢谢。

45 r

15

预期出生女孩与出生男孩的比例

我在求职面试能力测验中遇到了一个批判性思考的问题。它是这样的： Zorganian Republic有一些非常奇怪的习俗。夫妻只希望生女，因为只有女才能继承家庭的财产，因此，如果有男生，他们将继续生更多的孩子，直到有了女孩。如果他们有一个女孩，他们就不再有孩子。在Zorgania，男女比例是多少？我不同意问题作者给出的模型答案，该答案大约为1：1。有道理的是，任何出生都会有50％的机会成为男性或女性。如果是该国的女孩人数，B是该国的男孩人数，您能否用数学上更强的答案说服我？GE [ G ] ：E [ B ]E[G]:E[B]\text{E}[G]:\text{E}[B]GGG

45 probability ratio

3

什么是偏差？（特别是在CART / rpart中）

什么是“偏差”，它是如何计算的，在统计的不同字段中有什么用？特别是，我个人对它在CART中的使用（及其在R中的rpart中的实现）感兴趣。我之所以这么问，是因为维基文章似乎有所欠缺，您的见解将受到极大欢迎。

45 r cart rpart deviance

1

随机梯度下降的亚当方法如何工作？

我熟悉用于训练神经网络的基本梯度下降算法。我已经阅读了有关提出亚当：ADAM：一种随机优化方法的论文。尽管我确实有一定的见识（至少），但这篇论文对我总体而言似乎太高了。例如，成本函数通常是许多不同函数的总和，因此必须进行大量计算以优化其价值；就我所了解的主题而言，随机梯度下降仅针对这些函数的子集计算优化。对我来说，目前尚不清楚亚当如何做到这一点，以及为什么这会导致整个J （θ ）的训练误差减小。Ĵ（θ ）Ĵ（θ）J(\theta)Ĵ（θ ）Ĵ（θ）J(\theta) 我认为Adam通过考虑以前的渐变来更新其渐变。他们称其为利用动量吗？这种势头到底是什么？根据论文第二页的算法，它是某种移动平均值，例如对“规则”梯度的第一和第二矩的一些估计？实际上，我会怀疑亚当可以使人使用更大的有效步长来减小梯度，从而减小训练误差并结合随机逼近。因此，所得的更新向量应在空间维度上更多地“跳跃”，而不是像正常的梯度下降算法那样描述某些曲线。有人可以揭开亚当的神秘面纱吗？特别是它是如何收敛的，特别是亚当方法为何起作用以及其确切好处是什么？

45 neural-networks optimization gradient-descent adam

3

高斯家族的lm和lm之间有什么区别吗？

具体来说，我想知道lm(y ~ x1 + x2)和之间是否有区别glm(y ~ x1 + x2, family=gaussian)。我认为glm的这种特殊情况等于lm。我错了吗？

45 r normal-distribution generalized-linear-model lm

5

梯度下降的替代方法是什么？

梯度下降存在陷入局部极小值的问题。我们需要运行梯度下降指数时间才能找到全局最小值。谁能告诉我关于在神经网络学习中应用的梯度下降的任何替代方案，以及它们的优缺点。

45 machine-learning svm neural-networks

2

多元回归如何真正“控制”协变量？

我们都熟悉观察性研究，这些研究试图通过在多元回归模型中包含所有可能的潜在混杂因素，在非随机预测变量X和结果之间建立因果关系。该论点认为，通过“控制”所有混杂因素，我们可以分离出感兴趣的预测变量的影响。我对这个想法越来越感到不适，主要是根据我的统计课程的各个教授的副言。它们分为几个主要类别： 1.您只能控制您认为和测量的协变量。这是显而易见的，但是我想知道它是否真的是所有最有害和不可克服的。 2.这种做法在过去导致了丑陋的错误。例如，Petitti＆Freedman（2005）讨论了数十年经过统计学调整的观察性研究如何得出关于激素替代疗法对心脏病风险的影响的灾难性错误结论。后来的RCT发现了几乎相反的效果。 3.当您控制协变量时，预测结果与结果之间的关系可能会表现得很奇怪。 Tu Yu-Kang Tu，Gunnell和Gilthorpe（2008）讨论了一些不同的表现形式，包括Lord悖论，Simpson悖论和抑制变量。 4.单一模型（多元回归）很难充分调整协变量并同时对预测结果关系建模。我听说这是因为倾向得分和对混杂因素进行分层等方法具有优越性的原因，但是我不确定我是否真的理解。 5. ANCOVA模型要求相关的协变量和预测变量是独立的。当然，我们会精确地调整混杂因素，因为它们与感兴趣的预测因素相关联，因此，看起来该模型在我们最想要的确切实例中不会成功。有观点认为，调整仅适用于随机试验中的降噪。Miller＆Chapman，2001年作了很好的评论。所以我的问题是：这些问题和我可能不知道的其他问题有多严重？当我看到一项研究“控制一切”时，我应该有多害怕？（我希望这个问题不会在讨论中冒出太大的麻烦，并乐意邀请任何改进它的建议。）编辑：我找到新参考文献后添加了第5点。

45 multiple-regression ancova observational-study