统计和大数据

2

在1986年和1988年的两篇论文中，Connor和Korajczyk提出了一种建模资产收益的方法。由于这些时间序列通常具有比时间段观察更多的资产，因此他们建议对资产收益的横截面协方差执行PCA。他们称此方法为渐近主成分分析（APCA，这很令人困惑，因为听众立即想到PCA的渐近性质）。我已经计算出方程，这两种方法在数值上似乎是等效的。渐近性当然是不同的，因为证明了收敛是而不是。我的问题是：有人使用过APCA并将其与PCA相比吗？有具体的区别吗？如果是这样，哪个？N→∞N→∞N \rightarrow \inftyT→∞T→∞T \rightarrow \infty

23 pca econometrics

4

使用卡尔曼滤波器进行时间序列预测的R代码

在R中使用卡尔曼滤波器进行时间序列预测/平滑的人有没有很好的例子？

23 r time-series kalman-filter

2

空间统计模型：CAR与SAR

在为自相关地理参考的航空数据建模时，谁会比同时使用自回归模型更喜欢使用条件自回归模型？

23 modeling spatial

2

统计取证：本福德及以后

有哪些广泛的方法可以检测第三方制作的科学作品中的欺诈，异常，伪造等情况？（最近马克·豪瑟（Marc Hauser）的事使我很想问这个问题。）通常对于选举和会计欺诈，会引用本福德定律的某些变体。我不确定如何将其应用于例如马克·豪瑟（Marc Hauser）案，因为本福德定律要求数字近似为对数统一。举一个具体的例子，假设一篇论文引用了大量统计检验的p值。可以将其转换为对数均匀度，然后应用本福德定律吗？这种方法似乎会遇到各种各样的问题（例如，某些零假设可能合法地是错误的，统计代码可能会给出仅近似正确的p值，测试可能只会给出统一的p值渐近地在null下等）

23 meta-analysis fraud

5

具有更好的预测（例如CV）性能的分类树的替代方案？

我正在寻找分类树的替代方法，它可能会产生更好的预测能力。我正在处理的数据对于解释变量和解释变量都有影响。我记得在这种情况下遇到过随机森林和神经网络，尽管以前从未尝试过，但是是否有另一个很好的候选人来进行这种建模任务（显然是在R中）？

23 r machine-learning classification cart

2

根据变量之间的相关性对变量进行聚类

问题：我有一个很大的相关矩阵。除了将各个相关性聚类之外，我还想根据变量之间的相关性对变量进行聚类，即，如果变量A和变量B与变量C到Z具有相似的相关性，则A和B应该属于同一聚类。一个很好的现实例子是不同的资产类别-资产类别内的关联高于资产间类别的关联。我也在考虑变量之间的跨度关系聚类，例如，当变量A和B之间的相关性接近于0时，它们或多或少地独立发挥作用。如果突然一些基本条件发生变化，并且出现了很强的相关性（正或负），我们可以认为这两个变量属于同一集群。因此，与其寻找正相关，不如寻找关系而不是关系。我猜比喻可能是带正电和带负电的粒子簇。如果电荷降为0，则粒子将从簇中漂移。但是，正电荷和负电荷都将粒子吸引到相关的簇中。如果其中一些内容不太清楚，我深表歉意。请让我知道，我将澄清具体细节。

23 correlation clustering correlation-matrix

9

计数数据的时间序列，计数<20

我最近开始为结核病诊所工作。我们会定期开会，讨论我们目前正在治疗的结核病病例数，进行的检测数目等。我想开始对这些计数进行建模，以便我们不只是猜测是否有异常。不幸的是，我几乎没有时间序列方面的培训，并且我大部分时间都在接触非常连续的数据（股价）或大量计数（流感）的模型。但是我们每月处理0-18例（平均6.68，中位数7，变量12.3），分布情况如下： [图像迷失在时间的迷雾中] [被烟灰吞噬的图像] 我已经找到了一些有关此类模型的文章，但我非常感谢听到您的建议-无论是方法还是我可以用来实现这些方法的R包。编辑： mbq的回答迫使我对我在这里要问的问题进行更仔细的思考。我对每月的工作太挂了，失去了问题的实际重点。我想知道的是：（从2008年开始）（明显可见）的下降是否反映了案件总数的下降趋势？在我看来，2001-2007年间每月的案件数量反映了一个稳定的过程；也许有些季节性，但总体稳定。从2008年至今，情况似乎正在发生变化：案件总数正在下降，尽管由于随机性和季节性，每月的案件数可能会上下波动。如何测试流程中是否存在真正的变化？如果我能确定下降，

23 r time-series poisson-distribution count-data epidemiology

5

这种“天真”的改组算法有什么问题？

这是有关随机随机排列数组的Stackoverflow 问题的后续内容。已经建立了一些算法（例如Knuth-Fisher-Yates Shuffle），人们应该使用它们来对数组进行混洗，而不是依赖于“天真的”临时实现。我现在有兴趣证明（或证明）我的幼稚算法已损坏（例如：不会以相等的概率生成所有可能的排列）。这是算法：循环几次（应该执行数组的长度），然后在每次迭代中获取两个随机数组索引，然后在其中交换两个元素。显然，这需要比KFY（两倍多）更多的随机数，但是除此之外，它还能正常工作吗？合适的迭代次数是多少（“数组长度”是否足够）？

23 combinatorics randomness

1

xgboost算法中min_child_weight的说明

xgboost中min_child_weight参数的定义为：子级中实例重量的最小总和（hessian）。如果树分区步骤导致叶节点的实例权重之和小于min_child_weight，则构建过程将放弃进一步的分区。在线性回归模式下，这仅对应于每个节点中需要的最少实例数。越大，算法将越保守。我已经在xgboost上阅读了很多东西，包括原始论文（请参见公式8和等式9后面的文章），该问题以及与xgboost有关的大多数事情，这些事都出现在Google搜索的前几页中。;）基本上我还是不满意我们为什么要限制粗麻布的总和？从原始论文开始，我唯一的想法是，它与加权分位数草图部分（以及公式3的平方化加权平方损失的重新制定）有关，其中H一世hih_i是每个实例的“权重”。另一个问题涉及为什么线性回归模式中的实例数仅仅是个数？我想这与平方和方程的二阶导数有关吗？

23 machine-learning xgboost hessian

1

注意力机制到底是什么？

在过去的几年中，各种深度学习论文都使用了注意力机制。Open AI研究负责人Ilya Sutskever热情地称赞了他们：https ://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 普渡大学的Eugenio Culurciello声称应该放弃RNN和LSTM，而转而使用纯粹基于注意力的神经网络： https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 这似乎有点夸张，但不可否认的是，纯粹基于注意力的模型在序列建模任务中做得很好：我们都知道Google恰当命名的论文，Attention是您所需要的但是，基于注意力的模型到底是什么？我还没有找到关于此类模型的清晰说明。假设我要根据给定的历史值来预测多元时间序列的新值。很清楚如何使用具有LSTM单元的RNN来做到这一点。对于基于注意力的模型，我该怎么做？

23 time-series deep-learning lstm rnn attention

1

汉密尔顿蒙特卡洛vs.顺序蒙特卡洛

我试图了解这两种MCMC方案的相对优缺点以及不同的应用领域。什么时候使用，为什么？当一个可能失败而另一个不失败时（例如，HMC在哪里适用，但SMC不适用，反之亦然）一个天真地被授予的方法，能否将一种方法的实用性与另一种方法相比（即，一种方法通常更好）？我目前正在阅读Betancourt关于HMC的出色论文。

23 mcmc random-walk particle-filter probabilistic-programming hmc

2

为什么会有两种不同的逻辑损失表述/符号？

我已经看到两种类型的逻辑损失公式。我们可以轻松地表明它们是相同的，唯一的区别是标签的定义。yyy 公式/符号1，：y∈{0,+1}y∈{0,+1}y \in \{0, +1\} L(y,βTx)=−ylog(p)−(1−y)log(1−p)L(y,βTx)=−ylog⁡(p)−(1−y)log⁡(1−p) L(y,\beta^Tx)=-y\log(p)-(1-y)\log(1-p) 其中p=11+exp(−βTx)p=11+exp⁡(−βTx)p=\frac 1 {1+\exp(-\beta^Tx)}，其中逻辑函数将实数\ beta ^ T x映射βŤXβŤX\beta^T x到0.1区间。公式/符号2，ÿ∈ { − 1 ，+ 1 }ÿ∈{-1个，+1个}y \in \{-1, +1\}：大号（ÿ，βŤx ）= 对数（1 + 经验（- ÿ＆CenterDot;＆βŤx））大号（ÿ，βŤX）=日志⁡（1个+经验值⁡（-ÿ⋅βŤX）） L(y,\beta^Tx)=\log(1+\exp{(-y\cdot \beta^Tx})) 选择一种表示法就像选择一种语言一样，使用一种或另一种是有利有弊。这两种表示法的优缺点是什么？我试图回答这个问题的尝试是，统计学界似乎喜欢第一种表示法，而计算机科学界似乎喜欢第二种表示法。第一种表示法可以用术语“概率”来解释，因为逻辑函数将实数βŤXβŤX\beta^Tx为0.1区间。第二种表示法更简洁，可以更轻松地与铰链损失或0-1损失进行比较。我对吗？还有其他见解吗？

23 logistic generalized-linear-model notation loss-functions

3

高永远没有用吗？

该问题是从Stack Overflow 迁移而来的，因为可以通过交叉验证来回答。迁移 3年前。在统计数据中，我们正在进行线性回归，即线性回归。总的来说，我们知道越高越好，但是有没有一种场景，其中高将是无用的模型？R2R2R^2R2R2R^2

23 regression r-squared

2

什么是最高密度区域（HDR）？

在统计推断问题9.6b中，提到了“最高密度区域（HDR）”。但是，我在书中找不到该术语的定义。一个类似的术语是最高后密度（HPD）。但这并不适合这种情况，因为9.6b没有提及任何关于先验的东西。在建议的解决方案中，它只说“显然是HDR”。Ç （ÿ）C（ÿ）c(y) 还是HDR是一个包含pdf模式的区域？什么是最高密度区域（HDR）？

23 confidence-interval estimation definition credible-interval highest-density-region

3

时间序列中的AIC与交叉验证：小样本案例

我对时间序列设置中的模型选择感兴趣。具体来说，假设我要从具有不同滞后顺序的ARMA模型池中选择一个ARMA模型。最终目的是预测。型号选择可以通过交叉验证，使用信息标准（AIC，BIC），在其他方法中。 Rob J. Hyndman提供了一种对时间序列进行交叉验证的方法。对于相对较小的样本，交叉验证中使用的样本大小可能与原始样本大小在质量上有所不同。例如，如果原始样本大小为200个观测值，则可以考虑通过获取前101个观测值并将窗口扩展到102、103，...，200个观测值来获得100个交叉验证结果，从而开始交叉验证。显然，对于200个观测值而言，合理地简约的模型对于100个观测值而言可能太大，因此其验证误差将很大。因此，交叉验证可能会系统地偏爱过于简约的模型。由于样本大小不匹配，这是不希望的效果。交叉验证的替代方法是使用信息标准进行模型选择。由于我关心预测，因此我将使用AIC。尽管AIC渐近等效于最小化时间序列模型的样本外一步预测MSE（根据Rob J.Hyndman的帖子），但我怀疑这与样本有关在这里是否有意义我关心的尺寸不是很大... 问题：对于中/小样本，我应该在时间序列交叉验证中选择AIC吗？一些相关的问题可以在这里，这里和这里找到。

23 time-series forecasting cross-validation model-selection aic