统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

2
PCA和渐近PCA有什么区别?
在1986年和1988年的两篇论文中,Connor和Korajczyk提出了一种建模资产收益的方法。由于这些时间序列通常具有比时间段观察更多的资产,因此他们建议对资产收益的横截面协方差执行PCA。他们称此方法为渐近主成分分析(APCA,这很令人困惑,因为听众立即想到PCA的渐近性质)。 我已经计算出方程,这两种方法在数值上似乎是等效的。渐近性当然是不同的,因为证明了收敛是而不是。我的问题是:有人使用过APCA并将其与PCA相比吗?有具体的区别吗?如果是这样,哪个?N→∞N→∞N \rightarrow \inftyT→∞T→∞T \rightarrow \infty
23 pca  econometrics 



2
统计取证:本福德及以后
有哪些广泛的方法可以检测第三方制作的科学作品中的欺诈,异常,伪造等情况?(最近马克·豪瑟(Marc Hauser)的事使我很想问这个问题。)通常对于选举和会计欺诈,会引用本福德定律的某些变体。我不确定如何将其应用于例如马克·豪瑟(Marc Hauser)案,因为本福德定律要求数字近似为对数统一。 举一个具体的例子,假设一篇论文引用了大量统计检验的p值。可以将其转换为对数均匀度,然后应用本福德定律吗?这种方法似乎会遇到各种各样的问题(例如,某些零假设可能合法地是错误的,统计代码可能会给出仅近似正确的p值,测试可能只会给出统一的p值渐近地在null下等)


2
根据变量之间的相关性对变量进行聚类
问题: 我有一个很大的相关矩阵。除了将各个相关性聚类之外,我还想根据变量之间的相关性对变量进行聚类,即,如果变量A和变量B与变量C到Z具有相似的相关性,则A和B应该属于同一聚类。一个很好的现实例子是不同的资产类别-资产类别内的关联高于资产间类别的关联。 我也在考虑变量之间的跨度关系聚类,例如,当变量A和B之间的相关性接近于0时,它们或多或少地独立发挥作用。如果突然一些基本条件发生变化,并且出现了很强的相关性(正或负),我们可以认为这两个变量属于同一集群。因此,与其寻找正相关,不如寻找关系而不是关系。我猜比喻可能是带正电和带负电的粒子簇。如果电荷降为0,则粒子将从簇中漂移。但是,正电荷和负电荷都将粒子吸引到相关的簇中。 如果其中一些内容不太清楚,我深表歉意。请让我知道,我将澄清具体细节。

9
计数数据的时间序列,计数<20
我最近开始为结核病诊所工作。我们会定期开会,讨论我们目前正在治疗的结核病病例数,进行的检测数目等。我想开始对这些计数进行建模,以便我们不只是猜测是否有异常。不幸的是,我几乎没有时间序列方面的培训,并且我大部分时间都在接触非常连续的数据(股价)或大量计数(流感)的模型。但是我们每月处理0-18例(平均6.68,中位数7,变量12.3),分布情况如下: [图像迷失在时间的迷雾中] [被烟灰吞噬的图像] 我已经找到了一些有关此类模型的文章,但我非常感谢听到您的建议-无论是方法还是我可以用来实现这些方法的R包。 编辑: mbq的回答迫使我对我在这里要问的问题进行更仔细的思考。我对每月的工作太挂了,失去了问题的实际重点。我想知道的是:(从2008年开始)(明显可见)的下降是否反映了案件总数的下降趋势?在我看来,2001-2007年间每月的案件数量反映了一个稳定的过程;也许有些季节性,但总体稳定。从2008年至今,情况似乎正在发生变化:案件总数正在下降,尽管由于随机性和季节性,每月的案件数可能会上下波动。如何测试流程中是否存在真正的变化?如果我能确定下降,

5
这种“天真”的改组算法有什么问题?
这是有关随机随机排列数组的Stackoverflow 问题的后续内容。 已经建立了一些算法(例如Knuth-Fisher-Yates Shuffle),人们应该使用它们来对数组进行混洗,而不是依赖于“天真的”临时实现。 我现在有兴趣证明(或证明)我的幼稚算法已损坏(例如:不会以相等的概率生成所有可能的排列)。 这是算法: 循环几次(应该执行数组的长度),然后在每次迭代中获取两个随机数组索引,然后在其中交换两个元素。 显然,这需要比KFY(两倍多)更多的随机数,但是除此之外,它还能正常工作吗?合适的迭代次数是多少(“数组长度”是否足够)?

1
xgboost算法中min_child_weight的说明
xgboost中min_child_weight参数的定义为: 子级中实例重量的最小总和(hessian)。如果树分区步骤导致叶节点的实例权重之和小于min_child_weight,则构建过程将放弃进一步的分区。在线性回归模式下,这仅对应于每个节点中需要的最少实例数。越大,算法将越保守。 我已经在xgboost上阅读了很多东西,包括原始论文(请参见公式8和等式9后面的文章),该问题以及与xgboost有关的大多数事情,这些事都出现在Google搜索的前几页中。;) 基本上我还是不满意我们为什么要限制粗麻布的总和?从原始论文开始,我唯一的想法是,它与加权分位数草图部分(以及公式3的平方化加权平方损失的重新制定)有关,其中H一世hih_i是每个实例的“权重”。 另一个问题涉及为什么线性回归模式中的实例数仅仅是个数?我想这与平方和方程的二阶导数有关吗?

1
注意力机制到底是什么?
在过去的几年中,各种深度学习论文都使用了注意力机制。Open AI研究负责人Ilya Sutskever热情地称赞了他们:https ://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 普渡大学的Eugenio Culurciello声称应该放弃RNN和LSTM,而转而使用纯粹基于注意力的神经网络: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 这似乎有点夸张,但不可否认的是,纯粹基于注意力的模型在序列建模任务中做得很好:我们都知道Google恰当命名的论文,Attention是您所需要的 但是,基于注意力的模型到底是什么?我还没有找到关于此类模型的清晰说明。假设我要根据给定的历史值来预测多元时间序列的新值。很清楚如何使用具有LSTM单元的RNN来做到这一点。对于基于注意力的模型,我该怎么做?

1
汉密尔顿蒙特卡洛vs.顺序蒙特卡洛
我试图了解这两种MCMC方案的相对优缺点以及不同的应用领域。 什么时候使用,为什么? 当一个可能失败而另一个不失败时(例如,HMC在哪里适用,但SMC不适用,反之亦然) 一个天真地被授予的方法,能否将一种方法的实用性与另一种方法相比(即,一种方法通常更好)? 我目前正在阅读Betancourt关于HMC的出色论文。

2
为什么会有两种不同的逻辑损失表述/符号?
我已经看到两种类型的逻辑损失公式。我们可以轻松地表明它们是相同的,唯一的区别是标签的定义。yyy 公式/符号1,:y∈{0,+1}y∈{0,+1}y \in \{0, +1\} L(y,βTx)=−ylog(p)−(1−y)log(1−p)L(y,βTx)=−ylog⁡(p)−(1−y)log⁡(1−p) L(y,\beta^Tx)=-y\log(p)-(1-y)\log(1-p) 其中p=11+exp(−βTx)p=11+exp⁡(−βTx)p=\frac 1 {1+\exp(-\beta^Tx)},其中逻辑函数将实数\ beta ^ T x映射βŤXβŤX\beta^T x到0.1区间。 公式/符号2,ÿ∈ { − 1 ,+ 1 }ÿ∈{-1个,+1个}y \in \{-1, +1\}: 大号(ÿ,βŤx )= 对数(1 + 经验(- ÿ&CenterDot;&βŤx))大号(ÿ,βŤX)=日志⁡(1个+经验值⁡(-ÿ⋅βŤX)) L(y,\beta^Tx)=\log(1+\exp{(-y\cdot \beta^Tx})) 选择一种表示法就像选择一种语言一样,使用一种或另一种是有利有弊。这两种表示法的优缺点是什么? 我试图回答这个问题的尝试是,统计学界似乎喜欢第一种表示法,而计算机科学界似乎喜欢第二种表示法。 第一种表示法可以用术语“概率”来解释,因为逻辑函数将实数βŤXβŤX\beta^Tx为0.1区间。 第二种表示法更简洁,可以更轻松地与铰链损失或0-1损失进行比较。 我对吗?还有其他见解吗?

3
高永远没有用吗?
该问题是从Stack Overflow 迁移而来的,因为可以通过交叉验证来回答。 迁移 3年前。 在统计数据中,我们正在进行线性回归,即线性回归。总的来说,我们知道越高越好,但是有没有一种场景,其中高将是无用的模型?R2R2R^2R2R2R^2

2
什么是最高密度区域(HDR)?
在统计推断问题9.6b中,提到了“最高密度区域(HDR)”。但是,我在书中找不到该术语的定义。 一个类似的术语是最高后密度(HPD)。但这并不适合这种情况,因为9.6b没有提及任何关于先验的东西。在建议的解决方案中,它只说“显然是HDR”。Ç (ÿ)C(ÿ)c(y) 还是HDR是一个包含pdf模式的区域? 什么是最高密度区域(HDR)?

3
时间序列中的AIC与交叉验证:小样本案例
我对时间序列设置中的模型选择感兴趣。具体来说,假设我要从具有不同滞后顺序的ARMA模型池中选择一个ARMA模型。最终目的是预测。 型号选择可以通过 交叉验证, 使用信息标准(AIC,BIC), 在其他方法中。 Rob J. Hyndman提供了一种对时间序列进行交叉验证的方法。对于相对较小的样本,交叉验证中使用的样本大小可能与原始样本大小在质量上有所不同。例如,如果原始样本大小为200个观测值,则可以考虑通过获取前101个观测值并将窗口扩展到102、103,...,200个观测值来获得100个交叉验证结果,从而开始交叉验证。显然,对于200个观测值而言,合理地简约的模型对于100个观测值而言可能太大,因此其验证误差将很大。因此,交叉验证可能会系统地偏爱过于简约的模型。由于样本大小不匹配,这是不希望的效果。 交叉验证的替代方法是使用信息标准进行模型选择。由于我关心预测,因此我将使用AIC。尽管AIC渐近等效于最小化时间序列模型的样本外一步预测MSE(根据Rob J.Hyndman的帖子),但我怀疑这与样本有关在这里是否有意义我关心的尺寸不是很大... 问题:对于中/小样本,我应该在时间序列交叉验证中选择AIC吗? 一些相关的问题可以在这里,这里和这里找到。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.