统计和大数据

3

我正在尝试对R中的计数数据进行建模，R的数据显然分散不足（分散参数〜.40）。这可能就是为什么glm具有family = poisson二项式（glm.nb）模型或负二项式（）模型不重要的原因。当我查看数据的描述时，我没有计数数据的典型偏斜，并且在我的两个实验条件下的残差也是均匀的。所以我的问题是：如果我的计数数据确实不像计数数据那样运行，我是否还需要对计数数据使用特殊的回归分析？有时我会遇到非正态性（通常是由于峰度），但是我使用百分位数自举法比较修整后的均值（Wilcox，2012年）以解决非正态性问题。可以用Wilcox建议并在WRS软件包中实现的任何可靠方法代替计数数据的方法吗？如果必须对计数数据使用回归分析，如何计算色散不足？泊松分布和负二项式分布具有较高的色散，所以这不合适吗？我当时正在考虑应用拟泊松分布，但是通常建议将其用于过度分散。我阅读了有关R包中似乎能够解释过度散布和欠散的beta二项式模型VGAM的信息。但是，作者似乎建议使用倾斜的Poisson分布，但我在包中找不到它。谁能推荐用于散布数据的过程，并可能提供一些示例R代码？

24 r poisson-distribution negative-binomial beta-binomial underdispersion

5

用于更改点分析的Python模块

我正在寻找一个在时间序列上执行变更点分析的Python模块。有很多不同的算法，我想探索其中一些算法的有效性，而不必手动滚动每种算法。理想情况下，我需要R中的一些模块，例如bcp（贝叶斯变更点）或strucchange软件包。我希望在Scipy中找到一些模块，但是我无法打开任何东西。我很惊讶其中没有任何设施： statsmodels.tsa：时间序列统计分析工具 scikits.timeseries：扩展scipy的时间序列分析工具 scipy.signal：scipy中的信号处理工具 Python中是否有带有变更点检测算法的模块？

24 time-series python change-point

3

高斯核的特征图

K(x,y)=exp(−∥x−y∥222σ2)=ϕ(x)Tϕ(y)K(x,y)=exp⁡(−‖x−y‖222σ2)=ϕ(x)Tϕ(y)K(x,y)=\exp\left({-\frac{\|x-y\|_2^2}{2\sigma^2}}\right)=\phi(x)^T\phi(y)x,y∈Rnx,y∈Rnx, y\in \mathbb{R^n}ϕϕ\phi 我还想知道是否其中中的。现在，我认为这并不相等，因为使用内核可以处理线性分类器无法工作的情况。我知道将x到一个无限的空间。因此，即使它仍然保持线性，无论它有多少个维度，svm仍然无法进行良好的分类。∑iciϕ(xi)=ϕ(∑icixi)∑iciϕ(xi)=ϕ(∑icixi)\sum_ic_i\phi(x_i)=\phi \left(\sum_ic_ix_i \right)ci∈Rci∈Rc_i\in \mathbb Rϕϕ\phi

24 machine-learning svm kernel-trick

4

如何确定多元正态分布的分位数（等值线）

我对如何计算多元分布的分位数感兴趣。在图中，我绘制了给定单变量正态分布的5％和95％分位数（左）。对于正确的多元正态分布，我想象一个类似物将是一个等密度线，它包围密度函数的基数。以下是我尝试使用软件包计算此结果的示例mvtnorm-但未成功。我想可以通过计算多元密度函数结果的等值线来做到这一点，但是我想知道是否还有另一种选择（例如，qnorm）。谢谢你的帮助。例： mu <- 5 sigma <- 2 vals <- seq(-2,12,,100) ds <- dnorm(vals, mean=mu, sd=sigma) plot(vals, ds, t="l") qs <- qnorm(c(0.05, 0.95), mean=mu, sd=sigma) abline(v=qs, col=2, lty=2) #install.packages("mvtnorm") require(mvtnorm) n <- 2 mmu <- rep(mu, n) msigma <- rep(sigma, n) mcov <- diag(msigma^2) mvals <- expand.grid(seq(-2,12,,100), seq(-2,12,,100)) mvds <- …

24 r pdf quantiles multivariate-normal multivariate-distribution

3

方差分析后的事后测试，使用R进行重复测量

我在R中执行了重复测量方差分析，如下所示： aov_velocity = aov(Velocity ~ Material + Error(Subject/(Material)), data=scrd) summary(aov_velocity) 在使用重复测量进行方差分析后，R中的哪种语法可以用于执行事后测试？用Bonferroni校正进行Tukey检验是否合适？如果是这样，如何在R中完成呢？

24 r anova repeated-measures post-hoc contrasts

6

结构方程建模简介

同事问我在这个问题上有什么帮助，我真的不知道。他们在一项研究中对某些潜在变量的作用进行了假设，然后一名裁判要求他们在SEM中将其正式化。由于他们的需求似乎并不困难，我想我会尝试一下……现在，我只是在寻找有关该主题的不错的入门指南！ Google并不是我真正的朋友。提前谢谢了... PS：我读了结构方程模型利用SEM包中的R由约翰·福克斯，以及本文由同一作者。我认为这足以满足我的目的，无论如何欢迎其他参考。

24 references modeling sem psychometrics

2

您能用外行的术语解释Parzen窗口（内核）密度估计吗？

Parzen窗口密度估计被描述为 p(x)=1n∑i=1n1h2ϕ(xi−xh)p(x)=1n∑i=1n1h2ϕ(xi−xh) p(x)=\frac{1}{n}\sum_{i=1}^{n} \frac{1}{h^2} \phi \left(\frac{x_i - x}{h} \right) 其中nnn是在向量元素的数目，是一个向量，被的概率密度，是Parzen窗的尺寸，和是窗口函数。xxxp(x)p(x)p(x)xxxhhhϕϕ\phi 我的问题是： Parzen窗口函数和其他密度函数（例如高斯函数）之间的基本区别是什么？窗口函数（）在查找的密度中的作用是什么？ϕϕ\phixxx 为什么我们可以插入其他密度函数来代替窗口函数？在求密度中的作用是什么？hhhxxx

24 pdf kernel-smoothing intuition density-estimation

3

什么是“混淆系数”？

在R（lm）中建立回归模型时，我经常收到此消息 "there are aliased coefficients in the model" 这到底是什么意思？另外，由于此predict()原因也发出警告。尽管这只是一个警告，但我想知道在构建模型之前如何检测/删除别名系数。另外，忽略此警告可能会带来什么后果？

24 r regression

3

为什么逻辑回归是线性模型？

我想知道为什么逻辑回归称为线性模型。它使用S形函数，该函数不是线性的。那么为什么逻辑回归是线性模型呢？

24 regression logistic terminology

1

F1 / Dice-Score vs IoU

我对F1分数，Dice分数和IoU（联合上方的交集）之间的差异感到困惑。到目前为止，我发现F1和Dice的含义相同（对吗？），IoU的公式与其他两个公式非常相似。 F1 /骰子：2TP2TP+FP+FN2TP2TP+FP+FN\frac{2TP}{2TP+FP+FN} IoU / Jaccard：TPTP+FP+FNTPTP+FP+FN\frac{TP}{TP+FP+FN} 除了F1赋予真实正数更高的权重之外，是否存在任何实际差异或其他值得注意的东西？有一种情况我会用一种而不用另一种吗？

24 terminology accuracy precision-recall

2

dropout和drop connect有什么区别？

dropout和drop connect有什么区别？ AFAIK，在训练过程中，dropout会随机丢弃隐藏的节点，但会使其处于测试状态，而drop connect会断开连接。但是，删除连接是否不等于删除隐藏节点？节点（或连接）不是一组权重吗？

24 neural-networks dropout

2

如何初始化过滤矩阵的元素？

我试图通过编写不依赖库的Python代码（例如Convnet或TensorFlow）来更好地理解卷积神经网络，并且我陷入了如何选择内核矩阵值的文献中。在图像上执行卷积。我试图在下图显示CNN图层的功能图之间的步骤中了解实现细节。根据此图：内核矩阵内核在图像上“步进”，创建特征图，其中每个像素是内核（或滤波器矩阵）的每个权重与输入图像的相应像素值之间的所有按元素乘积的总和。我的问题是：我们如何初始化内核（或过滤器）矩阵的权重？在上面的演示中，它们只是1和0，但是我认为这是从图中简化的。是否在某些预处理步骤中对这些权重进行了训练？还是由用户明确选择？

24 machine-learning neural-networks deep-learning feature-construction conv-neural-network

3

从1到100之间的25个随机数中，最高的概率出现多次的概率是多少？

在许多在线游戏中，当玩家完成一项艰巨的任务时，有时会给予特殊奖励，每个完成任务的人都可以使用。这通常是坐骑（运输方式）或其他虚荣物品（不会提高角色性能的物品，主要用于外观定制）。当给出这样的奖励时，确定谁获得奖励的最常见方法是通过随机数。游戏通常有一个特殊的命令，该命令会生成一个介于1到100之间的随机数（可能是伪随机数，而不是加密安全随机数）（有时玩家可以选择另一种价差，但100是最常见的）。每个玩家都使用此命令，所有玩家都可以看到谁掷出了哪些东西，并且该物品被授予了掷骰最高的人。大多数游戏甚至都具有内置系统，玩家只需按下一个按钮，而每个人都按下按钮后，游戏就会自动完成其余的工作。有时，有些玩家会产生相同的高数字，而没人能击败他们。这通常由那些重新生成号码的玩家来解决，直到有一个唯一的最高号码为止。我的问题如下：假设一个随机数生成器可以以相同的概率生成1到100之间的任何数字。假设您有一组25位玩家，每个玩家使用这样的随机数生成器生成1个数字（每个都有自己的种子）。您将拥有25个介于1到100之间的数字，对多少个掷骰子的玩家没有限制，并且数字之间没有关系。超过1个玩家产生最高生成数字的机会是什么？换句话说，平局的可能性是多少？

23 probability random-generation

4

关于神经网络/ ML算法“理论”的教科书？

到目前为止，我看过的每本教科书都描述了ML算法以及如何实现它们。是否还有一本教科书为这些算法的行为建立了定理和证明？例如说在条件下，梯度下降总是导致A ，B ，C？X ，ÿ，žx,y,zx,y,zA ，B ，CA,B,CA,B,C

23 machine-learning mathematical-statistics references algorithms

5

在进行纯预测性建模时，探索性数据分析重要吗？

使用机器学习技术构建预测模型时，进行探索性数据分析（EDA）有什么意义？可以直接进入特征生成并构建模型吗？EDA中使用的描述性统计如何重要？

23 machine-learning predictive-models descriptive-statistics eda