统计和大数据

2

在论文中包括分位数回归模型后，审稿人希望我在论文中包含调整后的。我已经为我研究的三个感兴趣的分位数计算了伪（来自Koenker和Machado的1999 JASA论文）。[R2[R2R^2[R2[R2R^2 但是，我从未听说过针对分位数回归调整过的，也不知道如何计算。我要求您提供以下任一服务：[R2[R2R^2 优选地：关于如何有意义地计算用于分位数回归的经调整的的公式或方法。[R2[R2R^2 或者：说服论点向审稿人提供为什么分位数回归中不存在调整后的。[R2[R2R^2

22 goodness-of-fit r-squared quantile-regression

7

均匀分布的数字之间的差异是否均匀分布？

我们多次滚动6面模具。计算一卷与其前一卷之间的差异（绝对值），期望差异是否均匀分布？为了说明10卷： roll num result diff 1 1 0 2 2 1 3 1 1 4 3 2 5 3 0 6 5 2 7 1 4 8 6 5 9 4 2 10 4 0 这些diff值会均匀分布吗？

22 distributions uniform

6

平均值悖论-这叫什么？

我有一个数据集。说出观察值和变量：101010333 obs A B C 1 0 0 1 2 0 1 0 3 1 0 1 4 1 1 0 5 1 0 1 6 1 0 0 7 1 1 0 8 0 0 1 9 0 1 1 10 0 1 1 假设有客户在每个类别中购买了（）或没有（）。那里有个，因此这客户平均购买产品类别。10101010A, B, C1616161010101.61.61.6 请注意，客户可以购买A，B和C中的多个。如果仅查看购买者A，则有客户购买了产品类别，因此平均为。5559991.81.81.8 …

22 proportion descriptive-statistics paradox

3

Relu vs Sigmoid vs Softmax作为隐藏层神经元

我正在使用Tensorflow制作的只有一个隐藏层的简单神经网络，然后尝试对隐藏层进行不同的激活：露露乙状结肠 Softmax（嗯，通常在最后一层使用softmax。） Relu提供最佳的列车精度和验证精度。我不确定如何解释这一点。我们知道Relu具有良好的品质，例如稀疏性（例如无梯度消失）等，但是问：Relu神经元通常比乙状结肠/ softmax神经元好吗？我们是否应该几乎总是在NN（甚至CNN）中使用Relu神经元？我认为，如果我们担心过度拟合，则更复杂的神经元会带来更好的结果，至少可以提高训练的准确性。谢谢PS：该代码基本上来自“ Udacity-Machine learning -assignment2”，它是使用简单的1层-NN识别notMNIST的。 batch_size = 128 graph = tf.Graph() with graph.as_default(): # Input data. tf_train_dataset = tf.placeholder(tf.float32, shape=(batch_size, image_size * image_size)) tf_train_labels = tf.placeholder(tf.float32, shape=(batch_size, num_labels)) tf_valid_dataset = tf.constant(valid_dataset) tf_test_dataset = tf.constant(test_dataset) # hidden layer hidden_nodes = 1024 hidden_weights = …

22 machine-learning neural-networks conv-neural-network tensorflow sigmoid-curve

4

无偏最大似然估计器是否始终是最佳无偏估计器？

我知道对于常规问题，如果我们有最佳的常规无偏估计量，则它必须是最大似然估计量（MLE）。但是总的来说，如果我们有一个无偏的MLE，那它也是最好的无偏估计量吗（或者，只要它具有最小的方差，也许我应该称其为UMVUE）？

22 mathematical-statistics maximum-likelihood unbiased-estimator

1

网桥惩罚与Elastic Net正则化

很好地研究了一些罚函数和近似值，例如LASSO（）和Ridge（）以及它们如何进行回归比较。L1L1L_1L2L2L_2 我一直在阅读有关Bridge惩罚的信息，即广义惩罚。将其与具有\ gamma = 1的LASSO 和具有\ gamma = 2的Ridge进行比较，使其成为特殊情况。 γ = 1 γ = 2∑∥βj∥γ∑‖βj‖γ\sum \|\beta_{j}\|^{\gamma}γ=1γ=1\gamma = 1γ=2γ=2\gamma = 2 Wenjiang [ 1 ]将\ gamma \ geq 1时的Bridge惩罚γ≥1γ≥1\gamma \geq 1与LASSO进行了比较，但是我找不到与LASSO和Ridge惩罚相结合的弹性网正则化的比较，给出为∑λ2∥β∥2+λ1∥β∥1∑λ2‖β‖2+λ1‖β‖1\sum \lambda_{2} \|\beta\|^{2}+\lambda_{1}\|\beta\|_{1}。这是一个有趣的问题，因为Elastic Net和此特定的Bridge具有相似的约束形式。使用不同的度量比较这些单位圆（ppp是Minkowski距离的幂）： p=1p=1p = 1对应于LASSO，p=2p=2p = 2对应于Ridge，p=1.4p=1.4p = 1.4于一个可能的网桥。弹性网在L1L1L_1和L2L2L_2罚分上具有相等的权重。例如，这些数字可用于识别稀疏性（Bridge明显缺少稀疏性，而Elastic Net将其保存在LASSO中）。那么在正则化（稀疏性除外）方面，具有1 <\ gamma <2的Bridge与1<γ<21<γ<21<\gamma <2Elastic Net相比如何？我对监督学习特别感兴趣，因此也许有关特征选择/加权的讨论是适当的。也欢迎几何论证。也许更重要的是，在这种情况下，Elastic Net是否总是更理想？ …

22 regression lasso regularization ridge-regression elastic-net

4

为什么贝叶斯方法不需要多次测试校正？

安德鲁·盖尔曼（Andrew Gelman）写了一篇广泛的文章，论述为什么贝叶斯AB测试不需要多个假设校正：为什么我们（通常）不必担心多重比较，2012年。我不太了解：为什么贝叶斯方法不需要多次测试更正？ A ~ Distribution1 + Common Distribution B ~ Distribution2 + Common Distribution C ~ Distribution3 + Common Distribution Common Distribution ~ Normal 我的理解是，以上显示的贝叶斯方法解释了所有假设的共同基础分布（与常客Bonferroni修正不同）。我的推理正确吗？

22 hypothesis-testing bayesian multiple-comparisons

5

当A和B是正相关的变量时，它们是否会对结果变量C产生相反的影响？

A与B正相关。 C是A和B的结果，但A对C的影响为负，而B对C的影响为正。这会发生吗？

22 regression correlation

4

该图表显示虚假和真实的阳性率的名称是什么，它是如何产生的？

下图显示了假阳性率与真阳性率的连续曲线：但是，我没有立即得到的是如何计算这些费率。如果将方法应用于数据集，则该方法具有一定的FP速率和一定的FN速率。这不是说每种方法都应该有一个点而不是一条曲线吗？当然，有多种方法可以配置一个方法，产生多个不同的点，但是我不清楚这种比率的连续性是如何产生的或如何产生的。

22 machine-learning data-visualization roc auc

3

为什么要对神经网络使用梯度下降？

当使用反向传播算法训练神经网络时，使用梯度下降法确定权重更新。我的问题是：与其使用梯度下降法相对于某个权重缓慢地定位最小点，不如我们只设置导数，并找到将误差最小化的权重的值？d（错误）dw= 0d（错误）dw=0\frac{d(\text{Error})}{dw}=0www 另外，为什么我们可以确定反向传播中的误差函数将是最小的？难道不是错误函数是最大值？压扁函数是否具有特定的特性，可以保证具有任意数量的具有任意权重和输入矢量的隐藏节点的网络将始终提供具有某些最小值的误差函数？

22 neural-networks gradient-descent backpropagation

2

如何推导二项式分布的似然函数以进行参数估计？

根据Miller和Freund的《工程师概率与统计》，第8版（第217-218页），对于二项分布（伯努利试验），最大化的似然函数为 L(p)=∏ni=1pxi(1−p)1−xiL(p)=∏i=1npxi(1−p)1−xiL(p) = \prod_{i=1}^np^{x_i}(1-p)^{1-x_i} 如何得出这个方程式？对于其他分布，泊松和高斯，对我来说似乎很清楚。 L(θ)=∏ni=1PDF or PMF of dist.L(θ)=∏i=1nPDF or PMF of dist.L(\theta) = \prod_{i=1}^n \text{PDF or PMF of dist.} 但是二项式的只是一点点不同。坦率地说，如何 nCx px(1−p)n−xnCx px(1−p)n−XnC_x~p^x(1-p)^{n-x} 成为 px一世（1 − p)1个−x一世pxi(1个-p）1个-X一世p^{x_i}(1-p)^{1-x_i} 在上述似然函数中？

22 estimation maximum-likelihood bernoulli-distribution point-estimation

1

使用相关性作为距离度量（用于层次聚类）

我想对数据进行分层聚类，但我不想使用欧几里得距离，而是想使用相关性。此外，由于相关系数的范围从-1到1，用在我的研究都在-1和1表示“共同调控”，我治疗既-1和1为d = 0。因此，我的计算ð = 1 - | r | d=1−|r| d=1−|r|\ d = 1-|r| 我读了一个单独的问题（关于k均值聚类），您应该使用余弦定理将r转换为真正的欧几里得d：d=2(1−r)−−−−−−−√d=2(1−r)d = \sqrt{2(1-r)} 将相关性转换为距离以进行层次聚类的最准确方法是什么？

22 correlation clustering distance hierarchical-clustering

2

为什么拉普拉斯事前生产稀疏解决方案？

我浏览了有关正则化的文献，经常看到一些段落将L2重新调节与高斯先验联系起来，将L1与拉普拉斯联系起来的中心是零。我知道这些先验的样子，但我不知道它如何转换为线性模型中的权重。在L1中，如果我理解正确，我们期望稀疏解，即某些权重将被精确地推为零。在L2中，我们获得较小的权重，但没有获得零权重。但是为什么会发生呢？如果需要提供更多信息或阐明我的思路，请发表评论。

22 regression bayesian prior regularization laplace-distribution

3

负二项分布与二项分布

负二项式分布和二项式分布有什么区别？我尝试在线阅读，发现当数据点离散时使用负二项式分布，但是我认为即使二项分布也可以用于离散数据点。

22 categorical-data data-mining binomial negative-binomial

2

有哪些非贝叶斯方法可用于预测推理？

在贝叶斯推断中，通过整合未知参数可以得出未来数据的预测分布。对这些参数的后验分布进行积分可得出后验预测分布，即以已观察到的条件为前提的未来数据的分布。有哪些非贝叶斯预测推理方法考虑了参数估计中的不确定性（即，不仅将最大似然估计或其他任何东西都插入了密度函数中）？每个人都知道如何在线性回归后计算预测间隔，但是计算背后的原理是什么以及如何将它们应用在其他情况下（例如，从数据中估算出速率参数后为新的指数变量计算确切的预测间隔）？

22 prediction inference prediction-interval