统计和大数据

3

令随机点的笛卡尔x,yx,yx,y坐标为st (x,y)∼U(−10,10)×U(−10,10)(x,y)∼U(−10,10)×U(−10,10)(x,y) \sim U(-10,10) \times U(-10,10)。因此，半径ρ=x2+y2−−−−−−√ρ=x2+y2\rho = \sqrt{x^2 + y^2}并不是ρρ\rho的pdf所暗示的均匀分布。尽管如此，我希望θ=arctanyxθ=arctan⁡yx\theta = \arctan{\frac{y}{x}}几乎是均匀的，不包括由于边缘4个残差而导致的假象：以下是grafically计算概率密度函数的θθ\theta和ρρ\rho：现在，如果我让分布为st那么似乎是均匀分布的：x,yx,yx,yx,y∼N(0,202)×N(0,202)x,y∼N(0,202)×N(0,202)x,y \sim N(0,20^2)\times N(0,20^2)θθ\theta 为什么当时不均匀而当时是均匀的吗？θθ\theta(x,y)∼U(−10,10)×U(−10,10)(x,y)∼U(−10,10)×U(−10,10)(x,y) \sim U(-10,10) \times U(-10,10)x,y∼N(0,202)×N(0,202)x,y∼N(0,202)×N(0,202)x,y \sim N(0,20^2)\times N(0,20^2) 我使用的Matlab代码： number_of_points = 100000; rng('shuffle') a = -10; b = 10; r = (b-a).*randn(2,number_of_points); r = reshape(r, [2,number_of_points]); I = eye(2); e1 = …

19 normal-distribution matlab pdf uniform

5

当中心极限定理和大数定律不一致时

从本质上讲，这是我在math.se上发现的一个问题的复制，但没有得到我所希望的答案。令为一系列独立的，均布的随机变量，其中和。{Xi}i∈N{Xi}i∈N\{ X_i \}_{i \in \mathbb{N}}E[Xi]=1E[Xi]=1\mathbb{E}[X_i] = 1V[Xi]=1V[Xi]=1\mathbb{V}[X_i] = 1 考虑对 limn→∞P(1n−−√∑i=1nXi≤n−−√)limn→∞P(1n∑i=1nXi≤n) \lim_{n \to \infty} \mathbb{P}\left(\frac{1}{\sqrt{n}} \sum_{i=1}^n X_i \leq \sqrt{n}\right) 由于不平等事件的两面都趋于无穷大，因此必须对此表达式进行操作。 A）尝试减法在考虑限制语句之前，请从两侧减去n−−√n\sqrt{n}： limn→∞P(1n−−√∑i=1nXi−n−−√≤n−−√−n−−√)=limn→∞P(1n−−√∑i=1n(Xi−1)≤0)=Φ(0)=12limn→∞P(1n∑i=1nXi−n≤n−n)=limn→∞P(1n∑i=1n(Xi−1)≤0)=Φ(0)=12\lim_{n \to \infty} \mathbb{P}\left(\frac{1}{\sqrt{n}} \sum_{i=1}^n X_i -\sqrt{n} \leq \sqrt{n}-\sqrt{n} \right) = \lim_{n \to \infty} \mathbb{P}\left(\frac{1}{\sqrt{n}} \sum_{i=1}^n (X_i - 1) \leq 0\right) \\ = \Phi(0) = \frac{1}{2} CLT的最后一个等式，其中Φ()Φ()\Phi()是标准正态分布函数。 …

19 probability mathematical-statistics asymptotics

3

首先应该教什么：概率或统计？

我刚以数学系的老师的身份加入。一家知名机构。我将在本科阶段教授“概率与统计”课程。该机构已经为该课程制定了课程提纲，对此我不太满意。在该课程表中，首先涵盖了统计信息，也缺少估计部分。我一直认为，在教授统计学之前，应该先教概率基础。有人可以对此发表意见吗？同样，对于在此课程中应涵盖的主题的建议也深表感谢。

19 teaching

1

方差的反义词

有没有一个词是“方差的倒数”？也就是说，如果方差高，则低。对近义词（例如“协议”或“相似性”）不感兴趣，但具体含义是？X ... 1 / σ 2XXXXXX……\dots1 / σ21个/σ21/\sigma^2

19 bayesian variance terminology precision

5

名称中的内容：超参数

因此，在正态分布中，我们有两个参数：均值和方差。在《模式识别与机器学习》一书中，突然出现了误差函数的正则化项中的超参数。μμ\muσ2σ2\sigma^2λλ\lambda 什么是超参数？为什么这样命名？它们在直观上与一般参数有何不同？

19 terminology definition parameterization hyperparameter

2

如果我们只对建模感兴趣，而对预测不感兴趣，则正则化功能会有所帮助吗？

如果我们仅对估计（和解释）模型参数感兴趣，而对预测或预测不感兴趣，则正则化功能会有所帮助吗？如果您的目标是对新数据做出良好的预测，我将看到正则化/交叉验证非常有用。但是，如果您正在做传统经济学，而您所关心的只是估计呢？在这种情况下，交叉验证是否也有用？我在概念上遇到的困难是，我们实际上可以在测试数据上计算，但我们永远无法计算因为根据定义，从未观察到真实的。（假设存在一个真实的，即我们知道从中生成数据的模型族。）ββ\beta大号（ ÿ，Y^）大号（ÿ，ÿ^）\mathcal{L}\left(Y, \hat{Y}\right)大号（ β，β^）大号（β，β^）\mathcal{L}\left(\beta, \hat{\beta}\right)ββ\betaββ\beta 假设您的损失是。您将面临偏差方差的折衷，对吗？因此，从理论上讲，您最好进行一些正则化。但是，如何选择正则化参数呢？大号（ β，β^） = ∥ β-β^∥大号（β，β^）=‖β-β^‖\mathcal{L}\left(\beta, \hat{\beta}\right) = \lVert \beta - \hat{\beta} \rVert 我很高兴看到一个线性回归模型的简单数值示例，其系数为β≡ （β1个，β2，… ，βķ）β≡（β1个，β2，…，βķ）\beta \equiv (\beta_1, \beta_2, \ldots, \beta_k)，其中研究人员的损失函数为∥ β- β^∥‖β-β^‖\lVert \beta - \hat{\beta} \rVert，或什至（β1个- β^1个）2（β1个-β^1个）2(\beta_1 - \hat{\beta}_1)^2。在实践中，如何在这些示例中使用交叉验证来改善预期损失？编辑：约翰逊（DJohnson）将我指向https://www.cs.cornell.edu/home/kleinber/aer15-prediction.pdf，与该问题相关。作者写道机器学习技术...提供了一种预测\ hat {Y}的有条理的方法， ÿ^ÿ^\hat{Y}该方法（i）使用数据本身来决定如何进行偏差方差的权衡，并且（ii）可以搜索非常丰富的变量和函数形式。但是，一切都是有代价的：必须始终牢记，因为它们针对\ hat {Y}进行了调整，所以它们ÿ^ÿ^\hat{Y} （在没有其他许多假设的情况下）不会为\ hat {\ beta}提供非常有用的保证β^β^\hat{\beta}。再次感谢DJohnson，这是另一篇相关论文：http ://arxiv.org/pdf/1504.01132v3.pdf 。本文解决了我在上面遇到的问题：将现成的回归树等机器学习方法应用于因果推理问题的一个根本挑战是，基于交叉验证的正则化方法通常依赖于观察“基本事实”，即实际结果在交叉验证样本中。但是，如果我们的目标是最小化治疗效果的均方误差，则会遇到[11]所说的“因果推理的基本问题”：没有观察到因果关系的任何个体，因此我们不会直接有一个基本的事实。我们通过提出用于构建治疗因果效应的均方误差的无偏估计的方法来解决此问题。

19 cross-validation econometrics model-selection interpretation regularization

3

为什么对于不常用的单词，skip-gram比CBOW更好？

我想知道为什么不常见单词的skip-gram比word2vec中的CBOW更好。我已阅读https://code.google.com/p/word2vec/上的声明。

19 natural-language word2vec word-embeddings

5

有什么好的数据集可以学习基本的机器学习算法，为什么呢？

我是机器学习的新手，正在寻找一些可以比较和对比不同机器学习算法（决策树，Boosting，SVM和神经网络）之间差异的数据集。在哪里可以找到这样的数据集？考虑数据集时我应该寻找什么？如果您可以指向一些好的数据集，并告诉我是什么使它们成为一个好的数据集，那将是很好的选择？

19 machine-learning dataset

1

LDA是一种分类技术，又如何像PCA一样用作降维技术

在本文中，作者将线性判别分析（LDA）链接到主成分分析（PCA）。以我的有限知识，我无法理解LDA如何与PCA有点相似。我一直认为LDA是分类算法的一种形式，类似于逻辑回归。我将对理解LDA与PCA的相似之处（即它如何降低维度）有一些帮助。

19 classification pca dimensionality-reduction discriminant-analysis canonical-correlation

2

哪种优化方法最适合LSTM？

我一直在使用theano来试验LSTM，并且想知道哪种优化方法（SGD，Adagrad，Adadelta，RMSprop，Adam等）最适合LSTM？是否有关于该主题的研究论文？另外，答案是否取决于我使用LSTM的应用程序类型？如果是这样，我正在使用LSTM进行文本分类（首先将文本转换为单词向量）。最后，对于RNN，答案是相同还是不同？任何指向研究论文或个人见解的指针将不胜感激！ LSTM似乎很强大，我有兴趣学习更多有关如何最好地使用它们的知识。

19 machine-learning neural-networks optimization lstm

2

为什么最大似然估计被认为是一种频繁使用的技术

对我来说，频繁统计数据就是尝试做出对所有可能样本均有利的决策的代名词。即，常客决策规则应始终尝试使常客风险最小化，这取决于损失函数和自然的真实状态：δδ\deltaLLLθ0θ0\theta_0 Rfreq=Eθ0(L(θ0,δ(Y))Rfreq=Eθ0(L(θ0,δ(Y))R_\mathrm{freq}=\mathbb{E}_{\theta_0}(L(\theta_0,\delta(Y)) 最大似然估计与频繁发生者风险如何联系？鉴于这是常客使用的最常用的点估计技术，因此必须存在某种联系。据我所知，最大似然估计比常客风险的概念还早，但是仍然必须存在某种联系，为什么还有很多人会认为这是常客风险的技术？我发现的最接近的联系是 “对于满足弱规律性条件的参数模型，最大似然估计量约为minimax” Wassermann，2006，p。201 “ 公认的答案或者将最大似然点估计与较强的常客风险联系起来，或者提供常客推断的替代形式定义，表明MLE是常客推断技术。

19 maximum-likelihood frequentist

2

提升：为什么将学习率称为正则化参数？

所述学习率参数（在梯度）推进收缩每个新的基础模型-通常浅树形是在串联加入的贡献。它被证明可以极大地提高测试仪的精度，这是可以理解的，因为步数越小，损耗函数的最小值就可以越精确地达到。 ν∈[0,1]ν∈[0,1]\nu \in [0,1] 我不明白为什么学习率被视为正则化参数？引用统计学习的要素，第10.12.1节，第364页：控制树的数量不是唯一可能的正则化策略。与山脊回归和神经网络一样，也可以使用收缩技术。值越小（收缩率越大），对于相同数量的迭代M，导致更大的训练风险。因此，ν和M都控制训练数据的预测风险。νν\nuMMMνν\nuMMM 正则化意味着“避免过度拟合的方式”，因此很明显迭代次数在这方面至关重要（M太大会导致过度拟合）。但：MMMMMM 值越小（收缩率越大），对于相同数量的迭代M，导致更大的训练风险。νν\nuMMM 仅仅意味着在低学习率的情况下，需要更多的迭代才能在训练集上达到相同的准确性。那么，这与过度拟合有何关系？

19 machine-learning data-mining predictive-models boosting overfitting

8

为什么不将方差定义为彼此跟随的每个值之间的差异？

对于许多人来说，这可能是一个简单的问题，但这是：为什么不将方差定义为彼此跟随的每个值之间的差异，而不是平均值的差异？对我来说，这将是更合乎逻辑的选择，我想我显然已经忽略了一些缺点。谢谢编辑：让我尽可能清楚地改写一下。这就是我的意思：假设您有一系列数字，顺序为：1、2、3、4、5 计算并总结（绝对，连续）每个值之间的差异（连续，在每个后续值之间，而不是成对）（不使用平均值）。除以差异数量（后续：如果数字是无序的，答案会有所不同） ->与方差的标准公式相比，此方法有哪些缺点？

19 variance

3

使用RNN（LSTM）预测时间序列向量（Theano）

我有一个非常简单的问题，但找不到合适的工具来解决。我有一些长度相同的向量序列。现在，我想在这些序列的训练样本上训练LSTM RNN，然后使其基于几个启动向量来预测长度为的向量的新序列。ññn 我找不到能做到这一点的简单实现。我的基本语言是Python，但是任何几天都不会安装的东西都可以使用。我尝试使用Lasagne，但是RNN的实现尚未准备好，并且在nntools单独的软件包中。无论如何，我尝试了后者，但是我不知道如何训练它，然后通过一些测试向量对其进行填充，并让它预测新的。块是同样的问题-尽管似乎有些类和函数可以工作（例如blocks.bricks.recurrent），但是LSTM RNN没有可用的文档。有在Theano，像几个实施RNN LSTM的GroundHog，theano-rnn，theano_lstm和一些文件的代码，但非那些与教程或指导怎么做我想做的。我发现的唯一可用解决方案是使用Pybrain。但是不幸的是，它缺少Theano的功能（主要是GPU计算），并且是孤立的（没有新功能和支持）。有谁知道我在哪里可以找到我想要的东西？使用RNN LSTM易于预测载体序列吗？编辑：我像这样尝试了Keras： from keras.models import Sequential from keras.layers.core import Dense, Dropout, Activation from keras.layers.embeddings import Embedding from keras.layers.recurrent import LSTM model = Sequential() model.add(Embedding(12, 256)) model.regularizers = [] model(LSTM(256, 128, activation='sigmoid', inner_activation='hard_sigmoid')) model.add(Dropout(0.5)) model.add(Dense(128, 12)) model.add(Activation('sigmoid')) model.compile(loss='mean_squared_error', optimizer='rmsprop') 但是我在尝试适应它时遇到此错误 …

19 neural-networks python lstm

3

稀有事件逻辑回归偏差：如何用一个最小的例子模拟被低估的p？

CrossValidated对于何时以及如何应用King和Zeng（2001）的罕见事件偏差校正有几个问题。我正在寻找与众不同的东西：一个基于模拟的最小演示，证明存在偏差。特别是国王和曾国 “……在极少数事件数据中，几千个样本量的概率偏差可能实际上是有意义的，并且处于可预测的方向：估计的事件概率太小。” 这是我尝试模拟R中的这种偏差： # FUNCTIONS do.one.sim = function(p){ N = length(p) # Draw fake data based on probabilities p y = rbinom(N, 1, p) # Extract the fitted probability. # If p is constant, glm does y ~ 1, the intercept-only model. # If p is not constant, assume …

19 r logistic simulation bias rare-events