统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

2
偏最小二乘回归背后的理论
谁能为了解SVD和PCA的人推荐一个关于偏最小二乘回归背后的理论的很好的解释(可在线获得)?我在网上查看了许多资料,但没有找到将严谨性和可访问性完美结合的任何内容。 我研究了《统计学习的要素》,这是在对交叉验证提出的一个问题的评论中提出的,什么是偏最小二乘(PLS)回归?它与OLS有何不同?,但我认为该参考文献并未涉及“正义”这一主题(这样做太简短了,并且没有提供关于该主题的太多理论)。从我读过,PLS利用预测变量,的线性组合zi=Xφizi=Xφiz_i=X \varphi_i协方差最大化yTziyTzi y^Tz_i 受约束∥φi∥=1‖φi‖=1\|\varphi_i\|=1和zTizj=0ziTzj=0z_i^Tz_j=0 if i≠ji≠ji \neq j, where the φiφi\varphi_i are chosen iteratively, in the order in which they maximize the covariance. But even after all I've read, I'm still uncertain whether that is true, and if so, how the method is executed.

2
如何使用时间序列数据进行引导?
我最近了解了有关使用自举技术来计算估计器的标准误差和置信区间的信息。我了解到的是,如果数据是IID,则可以将样本数据视为总体,并进行替换抽样,这将使您能够对测试统计信息进行多次模拟。 对于时间序列,您显然无法执行此操作,因为可能存在自相关。我有一个时间序列,想计算固定日期前后的数据平均值。是否有使用修改后的引导程序来执行此操作的正确方法?

10
为什么两个随机变量之和是卷积?
长期以来,我不明白为什么两个随机变量的“和”是它们的卷积,而和的混合密度函数之和是f(x)f(x)f(x)g(x)g(x)g(x)pf(x)+(1−p)g(x)pf(x)+(1−p)g(x)p\,f(x)+(1-p)g(x); 算术和而不是它们的卷积。确切的短语“两个随机变量的总和”在Google中出现了146,000次,并且如下所示是椭圆形的。如果认为RV产生单个值,则可以将该单个值添加到另一个RV单个值,这与卷积无关,至少不是直接相关,所有都是两个数字的和。但是,统计数据中的RV结果是值的集合,因此更精确的短语类似于“来自两个RV的相关个体值对的协调总和的集合是它们的离散卷积”……并且可以通过以下方式近似:对应于那些RV的密度函数的卷积。更简单的语言: 2个RVnnn样本实际上是两个n维向量,它们相加作为向量和。 请详细说明两个随机变量的和如何是卷积和。


7
如何解释变异系数?
我试图了解变化系数。当我尝试将其应用于以下两个数据样本时,我无法理解如何解释结果。 假设样本1为 ,样本2为。如您所见,这里的样本2样本1。10 ,15 ,17 ,22 ,21 ,27 = + 100 ,5 ,7 ,12 ,11 ,170,5,7,12,11,17{0, 5, 7, 12, 11, 17}10,15,17,22,21,2710,15,17,22,21,27{10 ,15 ,17 ,22 ,21 ,27}===+ 10+ 10+\ 10 两者具有相同的标准偏差但和。μ 2 = 18.67 μ 1 = 8.66667σ2=σ1=5.95539σ2=σ1个=5.95539\sigma_{2} = \sigma_{1}= 5.95539μ2=18.67μ2=18.67\mu_{2}=18.67μ1=8.66667μ1个=8.66667\mu_{1}=8.66667 现在,变异系数将有所不同。对于样本2,它将小于样本1。但是,我如何解释该结果?就方差而言,两者是相同的;只是他们的手段不同。那么,这里的变异系数有什么用呢?这只是在误导我,或者也许我无法解释结果。σ/ μσ/μ{\sigma}/{\mu}

3
为什么在大型研究中发现较小的影响会表明发表偏见?
几篇方法论论文(例如Egger等,1997a,1997b)使用漏斗图(如下图)讨论了荟萃分析揭示的出版偏倚。 1997b论文继续说:“如果存在出版偏见,则预计在已发表的研究中,最大的研究将报告最小的影响。” 但是为什么呢?在我看来,所有这一切都可以证明我们已经知道:只有在样本量较大的情况下,才能检测到微小的影响。对尚未发表的研究一言不发。 另外,引用的工作还声称,在漏斗图中通过视觉评估的不对称性“表明存在选择性的不公开规模较小的试验,而获益较小。” 但是,再次,我不明白已发表研究的任何特征如何可能告诉我们有关未发表作品的任何信息(允许我们进行推论)! 参考 Egger,M.,Smith,GD和Phillips,AN(1997)。荟萃分析:原则和程序。BMJ,315(7121),1533-1537。 Egger,M.,Smith,GD,Schneider,M。,&Minder,C。(1997)。通过简单的图形化测试可以检测荟萃分析中的偏倚。BMJ,315(7109),629-634。


2
JürgenSchmidhuber引入了生成性对抗网络吗?
我在https://en.wikipedia.org/wiki/Generative_adversarial_networks上阅读: [生成对抗网络]由Ian Goodfellow等人于2014年引入。 但Jurgen Schmidhuber声称曾在该方向上进行过类似的工作(例如,在生成对抗网络教程期间,NIPS 2016上进行了一些辩论:https://channel9.msdn.com/Events/Neural-Information-Processing-Systems-会议/神经信息处理系统会议-NIPS-2016 / Generative-Adversarial-Networks,请参阅1h03min)。 生成对抗网络背后的想法是由JürgenSchmidhuber首次公开提出的吗?如果没有,尤尔根·施密德胡伯(JürgenSchmidhuber)的想法有多相似?


6
有没有中心极限定理不成立的例子?
维基百科说- 在概率论中,中心极限定理(CLT)确定,在大多数情况下,添加独立随机变量时,即使原始变量本身不存在,其适当归一化的总和仍趋于正态分布(非正式地为“钟形曲线”)。正态分布... 当它说“在大多数情况下”时,中央极限定理在哪些情况下不起作用?


8
我应该先教贝叶斯统计还是常客统计?
我正在帮助正在读中学的男孩们了解统计学,并且我正在考虑从一些简单的例子开始,而不必理会理论上的一些内容。 我的目标是给他们一种最直观但最有建设性的方法,以从头开始学习统计学,以激发他们对进一步追求统计学和定量学习的兴趣。 不过,在开始之前,我有一个特别的问题,它具有非常普遍的含义: 我们是否应该开始使用贝叶斯或常客制框架教授统计学? 到处进行研究,我发现一种常见的方法是从对常客统计学的简要介绍开始,然后再深入讨论贝叶斯统计(例如Stangl)。

2
随机森林中高度相关的变量会不会扭曲准确性和特征选择?
据我了解,高度相关的变量不会在随机森林模型中引起多重共线性问题(如果我做错了,请纠正我)。但是,另一方面,如果我有太多包含相似信息的变量,那么模型在此集合上的权重会比其他集合高吗? 例如,有两组具有相同预测能力的信息(A,B)。变量,X 2,...全部包含信息A,只有Y包含信息B。当随机采样变量时,大多数树将在信息A上生长,结果信息B不完全被抓?X1X1X_1X2X2X_2X1000X1000X_{1000}

4
为什么在多项式回归中使用正则化而不是降低度数?
例如,在进行回归时,要选择的两个超参数通常是函数的容量(例如多项式的最大指数)和正则化量。我感到困惑的是,为什么不只选择一个低容量函数,然后忽略任何正则化?这样,它不会过拟合。如果我同时具有高容量功能和正则化功能,那是否与低容量功能和无正则化功能一样?

5
为什么会有“异方差”或“异方差”两个拼写?
我经常看到“ heteroskedastic”和“ heteroscedastic”这两个拼写,以及“ homoscedastic”和“ homoskedastic”的相似。“ c”和“ k”变体之间的含义似乎没有差异,只是与该词的希腊词源有关的正字法差异。 这两种不同的拼法的起源是什么? 一种用法是否比另一种用法更常见,它们是否反映了地区或研究领域之间的差异,还是仅反映了作者(或实际上是社论)的偏爱? 顺便说一句,其他语言在将希腊语根源拉丁化为英语方面也有不同的政策:我注意到,我认为法语中总是“hétéroscédasticité”,而德语中则总是“Heteroskedastizität”。因此,如果以英语为第二语言的作者可能偏爱与其母语相对应的英语拼写,我不会感到惊讶。也许真正的考验是希腊统计学家用英语书写时所说的!

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.