统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

4
哪个损失函数对逻辑回归是正确的?
我读到了两个用于逻辑回归的损失函数版本,其中哪个是正确的,为什么? 来自机器学习的 Zhou ZH(中文),其中:β=(w,b) and βTx=wTx+bβ=(w,b) and βTx=wTx+b\beta = (w, b)\text{ and }\beta^Tx=w^Tx +b l(β)=∑i=1m(−yiβTxi+ln(1+eβTxi))(1)(1)l(β)=∑i=1m(−yiβTxi+ln⁡(1+eβTxi))l(\beta) = \sum\limits_{i=1}^{m}\Big(-y_i\beta^Tx_i+\ln(1+e^{\beta^Tx_i})\Big) \tag 1 从我的大学课程中,:zi=yif(xi)=yi(wTxi+b)zi=yif(xi)=yi(wTxi+b)z_i = y_if(x_i)=y_i(w^Tx_i + b) L(zi)=log(1+e−zi)(2)(2)L(zi)=log⁡(1+e−zi)L(z_i)=\log(1+e^{-z_i}) \tag 2 我知道第一个是所有样本的累加,第二个是单个样本的累加,但是我对两个损失函数形式的差异感到更加好奇。不知何故,我觉得它们是等效的。

1
输出层中的交叉熵或对数似然
我阅读了此页面:http : //neuralnetworksanddeeplearning.com/chap3.html 它说具有交叉熵的S形输出层与具有对数似然的softmax输出层非常相似。 如果我在输出层中使用具有对数似然的S型或具有交叉熵的softmax会发生什么?可以吗 因为我看到交叉熵(eq.57)之间的方程式几乎没有区别: C=−1n∑x(ylna+(1−y)ln(1−a))C=−1n∑x(yln⁡a+(1−y)ln⁡(1−a))C = -\frac{1}{n} \sum\limits_x (y \ln a + (1-y) \ln (1-a)) 和对数似然(eq.80): C=−1n∑x(lnaLy)C=−1n∑x(ln⁡ayL)C =-\frac{1}{n} \sum\limits_x(\ln a^L_y)


3
后验和后验预测分布有什么区别?
我知道什么是后验,但我不确定后者意味着什么? 两者有何不同? 凯文·P·墨菲(Kevin P Murphy)在他的教科书《机器学习:概率论》中指出,这是“一种内部信念状态”。那个的真实意义是什么?我的印象是,先验代表您的内部信念或偏见,我在哪里做错了?

7
存在数百万个点时可以更有效地绘制数据的统计方法?
我发现当存在数百万个点时,R可能需要很长时间才能生成图-考虑到点是单独绘制的,这不足为奇。此外,这样的地块常常太杂乱,太密集而无法使用。许多点重叠并形成黑色块,并且花费大量时间在该块上绘制更多点。 在标准散点图中,有没有其他统计方法可以表示大数据?我考虑过密度图,但是还有哪些其他选择?ññn


3
功能工程实用程序:为什么要基于现有功能创建新功能?
我经常看到人们基于机器学习问题的现有功能来创建新功能。例如,在这里:https : //triangleinequality.wordpress.com/2013/09/08/basic-feature-engineering-with-the-titanic-data/人们已经将一个人的家庭规模视为一项新功能,基于现有的功能,包括兄弟姐妹和父母的数量。 但是,这有什么意义呢?我不明白为什么创建相关的新功能很有用。独自执行此操作不是算法的工作吗?


6
为什么将期望值如此命名?
我知道我们如何获得3.5作为滚动6面模具的期望值。但从直觉上讲,我可以期望每张脸的机会均等为1/6。 那么,掷骰子的期望值是否不应该是1-6之间相等的概率? 换句话说,当被问到“投掷一个合理的6面骰子的预期价值是什么?”这个问题时,人们应该回答“哦,它可以是1-6之间的机会相等。” 相反,它是3.5。 在现实世界中,有人可以直观地解释我在掷骰子时的期望值是3.5吗? 同样,我不希望公式或期望的推导。




2
50%的置信区间是否比95%的置信区间更可靠地估计?
我的问题来自于安德鲁·盖尔曼(Andrew Gelman)的博客文章中的这一评论,他在文章中主张使用50%的置信区间代替95%的置信区间,尽管并不是以更可靠的估计为依据: 我更喜欢50%到95%的间隔,原因有3个: 计算稳定性 更直观的评估(50%的间隔应包含真实值的一半), 从某种意义上说,最好是了解参数和预测值的位置,而不要尝试不切实际的接近确定性。 评论者的想法似乎是,如果置信区间为95%,则置信区间的基础假设的问题将比置信区间为50%的影响更大。但是,他并没有真正解释原因。 [...]随着间隔的增加,总体上,您对模型的细节或假设变得更加敏感。例如,您永远不会相信自己已经正确识别了99.9995%的间隔。至少那是我的直觉。如果是正确的话,它认为应该比95%更好地估计50%。还是“更可靠”地估算,因为它对有关噪声的假设不太敏感? 是真的吗 为什么/为什么不呢?

2
谁首先使用/发明了p值?
我试图写一系列有关p值的博客文章,我认为回到所有起点很有趣-这似乎是Pearson的1900年论文。如果您熟悉那篇论文,您会记住这涵盖了拟合优度测试。 在涉及p值时,Pearson的语言有些松懈。他在描述如何解释其p值时反复使用“奇数”。例如,在第168页中,当谈到重复掷12个骰子的结果时,他说“ ...导致我们得出P = .0000016,或者相对于这样的随机偏差系统,赔率是62499对1有了这样的几率,就可以合理地得出结论,骰子表现出对更高点的偏见。 ” 在本文中,他提到了较早的作品,包括1891年Merriman撰写的关于最小二乘法的书。 但是Pearson确实为p值(拟合检验的卡特卡方差)进行了计算。 皮尔森(Pearson)是第一个认识p值的人吗?当我搜索p值时,提到了费舍尔-他的工作是在1920年代。 编辑:感谢您提到拉普拉斯(Laplace)-他似乎没有解决零假设(皮尔逊似乎隐含地这样做,尽管他从未在1900年的论文中使用该术语)。培生(Pearson)从以下方面看拟合检验的优劣:假设计数是从无偏过程中得出的,那么观察到的计数(以及计数更加偏差)从假设的分布中产生的概率是多少? 他对概率/奇数的处理(他将概率转换为几率)表明他正在对原假设进行隐式设计。至关重要的是,他还提到x ^ 2值引起的概率表明,相对于他现在计算出的p值,“相对于我们现在所认识的语言,这种偏离系统是不可能的或比现在更不可能的”。 阿布诺没有走那么远吗? 随时将您的评论作为答案。很高兴看到讨论。

1
交叉验证滥用(报告性能以获得最佳超参数值)
最近,我遇到了一篇论文,提出在特定数据集上使用k-NN分类器。作者使用所有可用的数据样本对不同的k值执行k倍交叉验证,并报告最佳超参数配置的交叉验证结果。 据我所知,这个结果是有偏差的,他们应该保留一个单独的测试集,以获取未用于执行超参数优化的样本的准确性估计。 我对吗?您能否提供一些参考(最好是研究论文)来描述交叉验证的这种滥用?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.