统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

2
分位数回归模型是否存在诸如调整后的类的东西?
在论文中包括分位数回归模型后,审稿人希望我在论文中包含调整后的。我已经为我研究的三个感兴趣的分位数计算了伪(来自Koenker和Machado的1999 JASA论文)。[R2[R2R^2[R2[R2R^2 但是,我从未听说过针对分位数回归调整过的,也不知道如何计算。我要求您提供以下任一服务:[R2[R2R^2 优选地:关于如何有意义地计算用于分位数回归的经调整的的公式或方法。[R2[R2R^2 或者:说服论点向审稿人提供为什么分位数回归中不存在调整后的。[R2[R2R^2


6
平均值悖论-这叫什么?
我有一个数据集。说出观察值和变量:101010333 obs A B C 1 0 0 1 2 0 1 0 3 1 0 1 4 1 1 0 5 1 0 1 6 1 0 0 7 1 1 0 8 0 0 1 9 0 1 1 10 0 1 1 假设有客户在每个类别中购买了()或没有()。那里有个,因此这客户平均购买产品类别。10101010A, B, C1616161010101.61.61.6 请注意,客户可以购买A,B和C中的多个。 如果仅查看购买者A,则有客户购买了产品类别,因此平均为。5559991.81.81.8 …

3
Relu vs Sigmoid vs Softmax作为隐藏层神经元
我正在使用Tensorflow制作的只有一个隐藏层的简单神经网络,然后尝试对隐藏层进行不同的激活: 露露 乙状结肠 Softmax(嗯,通常在最后一层使用softmax。) Relu提供最佳的列车精度和验证精度。我不确定如何解释这一点。 我们知道Relu具有良好的品质,例如稀疏性(例如无梯度消失)等,但是 问:Relu神经元通常比乙状结肠/ softmax神经元好吗?我们是否应该几乎总是在NN(甚至CNN)中使用Relu神经元? 我认为,如果我们担心过度拟合,则更复杂的神经元会带来更好的结果,至少可以提高训练的准确性。 谢谢PS:该代码基本上来自“ Udacity-Machine learning -assignment2”,它是使用简单的1层-NN识别notMNIST的。 batch_size = 128 graph = tf.Graph() with graph.as_default(): # Input data. tf_train_dataset = tf.placeholder(tf.float32, shape=(batch_size, image_size * image_size)) tf_train_labels = tf.placeholder(tf.float32, shape=(batch_size, num_labels)) tf_valid_dataset = tf.constant(valid_dataset) tf_test_dataset = tf.constant(test_dataset) # hidden layer hidden_nodes = 1024 hidden_weights = …


1
网桥惩罚与Elastic Net正则化
很好地研究了一些罚函数和近似值,例如LASSO()和Ridge()以及它们如何进行回归比较。L1L1L_1L2L2L_2 我一直在阅读有关Bridge惩罚的信息,即广义惩罚。将其与具有\ gamma = 1的LASSO 和具有\ gamma = 2的Ridge进行比较,使其成为特殊情况。 γ = 1 γ = 2∑∥βj∥γ∑‖βj‖γ\sum \|\beta_{j}\|^{\gamma}γ=1γ=1\gamma = 1γ=2γ=2\gamma = 2 Wenjiang [ 1 ]将\ gamma \ geq 1时的Bridge惩罚γ≥1γ≥1\gamma \geq 1与LASSO进行了比较,但是我找不到与LASSO和Ri​​dge惩罚相结合的弹性网正则化的比较,给出为∑λ2∥β∥2+λ1∥β∥1∑λ2‖β‖2+λ1‖β‖1\sum \lambda_{2} \|\beta\|^{2}+\lambda_{1}\|\beta\|_{1}。 这是一个有趣的问题,因为Elastic Net和此特定的Bridge具有相似的约束形式。使用不同的度量比较这些单位圆(ppp是Minkowski距离的幂): p=1p=1p = 1对应于LASSO,p=2p=2p = 2对应于Ridge,p=1.4p=1.4p = 1.4于一个可能的网桥。弹性网在L1L1L_1和L2L2L_2罚分上具有相等的权重。例如,这些数字可用于识别稀疏性(Bridge明显缺少稀疏性,而Elastic Net将其保存在LASSO中)。 那么在正则化(稀疏性除外)方面,具有1 &lt;\ gamma &lt;2的Bridge与1&lt;γ&lt;21&lt;γ&lt;21<\gamma <2Elastic Net相比如何?我对监督学习特别感兴趣,因此也许有关特征选择/加权的讨论是适当的。也欢迎几何论证。 也许更重要的是,在这种情况下,Elastic Net是否总是更理想? …

4
为什么贝叶斯方法不需要多次测试校正?
安德鲁·盖尔曼(Andrew Gelman)写了一篇广泛的文章,论述为什么贝叶斯AB测试不需要多个假设校正:为什么我们(通常)不必担心多重比较,2012年。 我不太了解:为什么贝叶斯方法不需要多次测试更正? A ~ Distribution1 + Common Distribution B ~ Distribution2 + Common Distribution C ~ Distribution3 + Common Distribution Common Distribution ~ Normal 我的理解是,以上显示的贝叶斯方法解释了所有假设的共同基础分布(与常客Bonferroni修正不同)。我的推理正确吗?


4
该图表显示虚假和真实的阳性率的名称是什么,它是如何产生的?
下图显示了假阳性率与真阳性率的连续曲线: 但是,我没有立即得到的是如何计算这些费率。如果将方法应用于数据集,则该方法具有一定的FP速率和一定的FN速率。这不是说每种方法都应该有一个点而不是一条曲线吗?当然,有多种方法可以配置一个方法,产生多个不同的点,但是我不清楚这种比率的连续性是如何产生的或如何产生的。

3
为什么要对神经网络使用梯度下降?
当使用反向传播算法训练神经网络时,使用梯度下降法确定权重更新。我的问题是:与其使用梯度下降法相对于某个权重缓慢地定位最小点,不如我们只设置导数,并找到将误差最小化的权重的值?d(错误)dw= 0d(错误)dw=0\frac{d(\text{Error})}{dw}=0www 另外,为什么我们可以确定反向传播中的误差函数将是最小的?难道不是错误函数是最大值?压扁函数是否具有特定的特性,可以保证具有任意数量的具有任意权重和输入矢量的隐藏节点的网络将始终提供具有某些最小值的误差函数?

2
如何推导二项式分布的似然函数以进行参数估计?
根据Miller和Freund的《工程师概率与统计》,第8版(第217-218页),对于二项分布(伯努利试验),最大化的似然函数为 L(p)=∏ni=1pxi(1−p)1−xiL(p)=∏i=1npxi(1−p)1−xiL(p) = \prod_{i=1}^np^{x_i}(1-p)^{1-x_i} 如何得出这个方程式?对于其他分布,泊松和高斯,对我来说似乎很清楚。 L(θ)=∏ni=1PDF or PMF of dist.L(θ)=∏i=1nPDF or PMF of dist.L(\theta) = \prod_{i=1}^n \text{PDF or PMF of dist.} 但是二项式的只是一点点不同。坦率地说,如何 nCx px(1−p)n−xnCx px(1−p)n−XnC_x~p^x(1-p)^{n-x} 成为 px一世(1 − p)1个−x一世pxi(1个-p)1个-X一世p^{x_i}(1-p)^{1-x_i} 在上述似然函数中?

1
使用相关性作为距离度量(用于层次聚类)
我想对数据进行分层聚类,但我不想使用欧几里得距离,而是想使用相关性。此外,由于相关系数的范围从-1到1,用在我的研究都在-1和1表示“共同调控”,我治疗既-1和1为d = 0。因此,我的计算ð = 1 - | r | d=1−|r| d=1−|r|\ d = 1-|r| 我读了一个单独的问题(关于k均值聚类),您应该使用余弦定理将r转换为真正的欧几里得d:d=2(1−r)−−−−−−−√d=2(1−r)d = \sqrt{2(1-r)} 将相关性转换为距离以进行层次聚类的最准确方法是什么?

2
为什么拉普拉斯事前生产稀疏解决方案?
我浏览了有关正则化的文献,经常看到一些段落将L2重新调节与高斯先验联系起来,将L1与拉普拉斯联系起来的中心是零。 我知道这些先验的样子,但我不知道它如何转换为线性模型中的权重。在L1中,如果我理解正确,我们期望稀疏解,即某些权重将被精确地推为零。在L2中,我们获得较小的权重,但没有获得零权重。 但是为什么会发生呢? 如果需要提供更多信息或阐明我的思路,请发表评论。


2
有哪些非贝叶斯方法可用于预测推理?
在贝叶斯推断中,通过整合未知参数可以得出未来数据的预测分布。对这些参数的后验分布进行积分可得出后验预测分布,即以已观察到的条件为前提的未来数据的分布。有哪些非贝叶斯预测推理方法考虑了参数估计中的不确定性(即,不仅将最大似然估计或其他任何东西都插入了密度函数中)? 每个人都知道如何在线性回归后计算预测间隔,但是计算背后的原理是什么以及如何将它们应用在其他情况下(例如,从数据中估算出速率参数后为新的指数变量计算确切的预测间隔)?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.