统计和大数据

7

我正在R中运行LOESS回归模型，我想比较具有不同样本量的12个不同模型的输出。如果可以帮助回答问题，我可以更详细地描述实际模型。以下是样本数量： Fastballs vs RHH 2008-09: 2002 Fastballs vs LHH 2008-09: 2209 Fastballs vs RHH 2010: 527 Fastballs vs LHH 2010: 449 Changeups vs RHH 2008-09: 365 Changeups vs LHH 2008-09: 824 Changeups vs RHH 2010: 201 Changeups vs LHH 2010: 330 Curveballs vs RHH 2008-09: 488 Curveballs vs LHH …

26 r regression loess

1

如何在R中凭经验证明AIC和BIC等效于哪种交叉验证方法？

在该站点上其他地方的问题中，有几个答案提到AIC等同于留一法（LOO）交叉验证，而BIC等同于K倍交叉验证。有没有一种方法可以在R中以经验方式证明这一点，从而弄清楚LOO和K折中涉及的技术并证明它们与AIC和BIC值等效？注释良好的代码将在这方面有所帮助。另外，在演示BIC时，请使用lme4软件包。请参阅下面的示例数据集... library(lme4) #for the BIC function generate.data <- function(seed) { set.seed(seed) #Set a seed so the results are consistent (I hope) a <- rnorm(60) #predictor b <- rnorm(60) #predictor c <- rnorm(60) #predictor y <- rnorm(60)*3.5+a+b #the outcome is really a function of predictor a and b but not predictor …

26 r aic cross-validation bic

4

为什么RANSAC没有最广泛地用于统计？

来自计算机视觉领域，我经常使用RANSAC（随机样本共识）方法将模型拟合到具有许多异常值的数据。但是，我从未见过统计学家使用过这种方法，而且一直给人一种不被认为是“统计上合理”的方法的印象。为什么？它本质上是随机的，这使得分析起来更加困难，但是引导方法也是如此。还是仅仅是一个学术孤岛不互相交谈的情况？

26 outliers bootstrap robust

5

Fisher的“获取更多数据”方法何时才有意义？

引用龚的好答案据称，一位研究人员曾经以“不重要”的结果向费舍尔求助，问他应该怎么做，费舍尔说“要获取更多数据”。从Neyman-Pearson的角度来看，这是公然的 hacking，但是在费雪的go-get-more-data方法中是否存在用例呢？ppp

26 hypothesis-testing p-value intuition philosophical

2

神经网络：对于二进制分类，使用1或2个输出神经元？

假设我要进行二进制分类（属于A类或B类）。在神经网络的输出层中可以执行以下操作：使用1个输出节点。输出0（<0.5）被视为A类，输出1（> = 0.5）被视为B类（在S型情况下）使用2个输出节点。输入属于具有最高值/概率（argmax）的节点的类别。是否有书面论文对此进行了讨论？要搜索哪些特定关键字？这个问题已经在此站点上问过，例如，看到此链接时没有真实答案。我需要做出选择（硕士论文），因此我想深入了解每种解决方案的优点/缺点/局限性。

26 machine-learning classification neural-networks

1

训练损失再次上升和下降。怎么了？

我的训练损失下降，然后又上升。这很奇怪。交叉验证损失跟踪训练损失。到底是怎么回事？我有两个堆叠的LSTMS，如下所示（在Keras上）： model = Sequential() model.add(LSTM(512, return_sequences=True, input_shape=(len(X[0]), len(nd.char_indices)))) model.add(Dropout(0.2)) model.add(LSTM(512, return_sequences=False)) model.add(Dropout(0.2)) model.add(Dense(len(nd.categories))) model.add(Activation('sigmoid')) model.compile(loss='binary_crossentropy', optimizer='adadelta') 我训练了100个纪元： model.fit(X_train, np.array(y_train), batch_size=1024, nb_epoch=100, validation_split=0.2) 训练127803个样本，验证31951个样本这就是损失的样子：

26 machine-learning neural-networks loss-functions lstm

3

贝叶斯先验是否与大样本量无关？

在执行贝叶斯推理时，我们通过最大化似然函数以及关于参数的先验来进行操作。因为对数似然比更方便，所以我们使用MCMC 有效地最大化或以其他方式生成后验分布（使用pdf每个参数的先验和每个数据点的可能性）。∑ln(prior)+∑ln(likelihood)∑ln⁡（事前）+∑ln⁡（可能性）\sum \ln (\text{prior}) + \sum \ln (\text{likelihood}) 如果我们有大量数据，那么通过简单的数学方法，可能会淹没先验提供的任何信息。最终，这是好的，这是设计使然。我们知道，后验将收敛到具有更多数据的可能性，因为它应该这样做。对于共轭先验定义的问题，这甚至是完全可以证明的。有没有一种方法可以确定何时先验对给定的似然函数和样本量不重要？

26 bayesian prior

5

维基百科关于可能性的条目似乎模棱两可

我有一个关于“条件概率”和“可能性”的简单问题。（我已经在这里调查了这个问题，但无济于事。）它从可能性的Wikipedia 页面开始。他们说：的似然性的一组参数值中的，，给出的结果，等于所给出的那些参数值的那些观察到的结果的概率，也就是Xθθ\thetaxxx 大号（θ|X）=P（X | θ ）L(θ∣x)=P(x∣θ)\mathcal{L}(\theta \mid x) = P(x \mid \theta) 大！因此，用英语，我这样读：“在给定数据X = x（左侧）的情况下，参数等于theta的可能性等于在给定参数的情况下数据X等于x的可能性。等于theta”。（粗体是我的重点）。但是，在同一页面上，不少于3行，然后Wikipedia条目继续说：假设是一个随机变量，其随机变量 p取决于参数\ theta。然后功能XXXpppθθ\theta 大号（θ|X）= pθ（x ）= Pθ（X= x ），L(θ∣x)=pθ(x)=Pθ(X=x),\mathcal{L}(\theta \mid x) = p_\theta (x) = P_\theta (X=x), \, 被认为是\ theta的函数的函数θθ\theta被称为似然函数（\ theta的似然函数θθ\theta，给定随机变量 X的结果x）。有时，参数值\ theta的X值x的概率表示为P（X = x \ mid \ theta）；通常写为P（X = x; \ …

26 probability bayesian conditional-probability likelihood definition

3

在R的皮尔逊相关中找到p值

是否有可能在R中的皮尔逊相关中找到p值？为了找到皮尔逊相关性，我通常这样做 col1 = c(1,2,3,4) col2 = c(1,4,3,5) cor(col1,col2) # [1] 0.8315218 但是我如何找到这个的p值呢？

26 r correlation p-value pearson-r

5

线性回归如何使用正态分布？

在线性回归中，假定每个预测值都是从可能值的正态分布中选取的。见下文。但是，为什么每个预测值都假定来自正态分布呢？线性回归如何使用此假设？如果可能的值不是正态分布怎么办？

26 regression probability distributions normal-distribution modeling

4

为什么有人会使用KNN进行回归？

据我了解，我们只能建立一个位于训练数据间隔内的回归函数。例如（仅一个面板是必要的）：如何使用KNN回归器预测未来？同样，它似乎仅近似位于训练数据间隔内的函数。我的问题：使用KNN回归器有什么优势？我知道这是一个非常强大的分类工具，但在回归场景中似乎效果不佳。

26 regression machine-learning k-nearest-neighbour

3

为什么对套索识别的变量子集使用套索估计而不是OLS估计？

对于套索回归假设最佳解决方案（例如最小测试误差）选择了k个特征，这样\ hat {\ beta} ^ {lasso} = \ left（\ hat {\ beta} _1 ^ {lasso}，\ hat {\ beta} _2 ^ {lasso}，...，\ hat {\ beta} _k ^ {lasso}，0，... 0 \ right）。L(β)=(Xβ−y)′(Xβ−y)+λ∥β∥1,L(β)=(Xβ−y)′(Xβ−y)+λ‖β‖1,L(\beta)=(X\beta-y)'(X\beta-y)+\lambda\|\beta\|_1,kkkβ^lasso=(β^lasso1,β^lasso2,...,β^lassok,0,...0)β^lasso=(β^1lasso,β^2lasso,...,β^klasso,0,...0)\hat{\beta}^{lasso}=\left(\hat{\beta}_1^{lasso},\hat{\beta}_2^{lasso},...,\hat{\beta}_k^{lasso},0,...0\right) 我们知道(β^lasso1,β^lasso2,...,β^lassok)(β^1lasso,β^2lasso,...,β^klasso)\left(\hat{\beta}_1^{lasso},\hat{\beta}_2^{lasso},...,\hat{\beta}_k^{lasso}\right)是一个\ left（\ beta_1，\ beta_2，...，\ beta_k \ right）的估计值有偏差(β1,β2,...,βk)(β1,β2,...,βk)\left(\beta_1,\beta_2,...,\beta_k\right)，所以为什么我们仍将β^lassoβ^lasso\hat{\beta}^{lasso}作为最终解决方案，而不是更“合理的” β^new=(β^new1:k,0,...,0)β^new=(β^1:knew,0,...,0)\hat{\beta}^{new}=\left(\hat{\beta}_{1:k}^{new},0,...,0\right)，其中β^new1:kβ^1:knew\hat{\beta}_{1:k}^{new}是部分模型Lnew(β1:k)=(X1:kβ−y)′(X1:kβ−y)Lnew(β1:k)=(X1:kβ−y)′(X1:kβ−y)L^{new}(\beta_{1:k})=(X_{1:k}\beta-y)'(X_{1:k}\beta-y)。（X1:kX1:kX_{1:k}表示与k个所选要素相对应的X列）。XXXkkk 简而言之，为什么我们同时将Lasso用于特征选择和参数估计，而不是仅用于变量选择（并将选定特征的估计留给OLS）？（此外，“套索最多可以选择nnn特征” 是什么意思？nnn是样本大小。）

26 regression feature-selection lasso regularization

4

标准差背后的直觉

我试图更好地直观了解标准差。据我所知，它代表着数据集中的一组观测值与该数据集的平均值之差的平均值。但是，它实际上并不等于差的平均值，因为它使平均值之外的观测值更具权重。假设我有以下几种值-{1,3,5,7,9}{1,3,5,7,9}\{1, 3, 5, 7, 9\} 平均值是。555 如果我根据绝对值来衡量点差，我会得到 ∑5i=1|xi−μ|5=2.4∑i=15|xi−μ|5=2.4\frac{\sum_{i = 1}^5|x_i - \mu|}{5} = 2.4 如果我使用标准偏差对价差进行度量，我会得到 ∑5i=1(xi−μ)25−−−−−−−−−−−−√=2.83∑i=15(xi−μ)25=2.83\sqrt{\frac{\sum_{i = 1}^5(x_i - \mu)^2}{5}} = 2.83 如预期的那样，使用标准偏差的结果更大，因为它赋予了远离平均值的额外权重。但是，如果仅告诉我我正在处理一个均值为且标准偏差为的总体，那么我如何推断该总体是由诸如？似乎的数字非常武断...我看不出您应该如何解释它。难道意味着该值是传播很广或者是他们都紧紧围绕均值聚类...2.83 { 1 ，3 ，5 ，7 ，9 } 2.83 2.835552.832.832.83{1,3,5,7,9}{1,3,5,7,9}\{1, 3, 5, 7, 9\}2.832.832.832.832.832.83 当您看到一个陈述，即您正在处理一个均值为且标准偏差为的总体时，这将告诉您有关总体的什么信息？2.835552.832.832.83

26 standard-deviation intuition

7

结合不同来源的概率/信息

可以说我有三个独立的消息源，每个消息源都对明天的天气做出了预测。第一个说明天下雨的概率是0，第二个说明天下雨的概率是1，最后一个说明天下雨的概率是50％。我想知道给出该信息的总概率。如果将乘法定理应用于独立事件，我将得到0，这似乎是不正确的。如果所有来源都是独立的，为什么不能将这三个数相乘？当我获得新信息时，是否有贝叶斯方法来更新先验信息？注意：这不是作业，是我一直在考虑的事情。

26 probability bayesian pooling model-averaging forecast-combination

7

不相关但不独立的和简单示例

任何勤奋的学生都是“所有学生都是懒惰的”的反例。对于“如果随机变量和不相关，则它们是独立的”，有哪些简单的反例？ÿXXXÿYY

26 correlation random-variable independence