统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

3
分散数据计数的合适模型是什么?
我正在尝试对R中的计数数据进行建模,R的数据显然分散不足(分散参数〜.40)。这可能就是为什么glm具有family = poisson二项式(glm.nb)模型或负二项式()模型不重要的原因。当我查看数据的描述时,我没有计数数据的典型偏斜,并且在我的两个实验条件下的残差也是均匀的。 所以我的问题是: 如果我的计数数据确实不像计数数据那样运行,我是否还需要对计数数据使用特殊的回归分析?有时我会遇到非正态性(通常是由于峰度),但是我使用百分位数自举法比较修整后的均值(Wilcox,2012年)以解决非正态性问题。可以用Wilcox建议并在WRS软件包中实现的任何可靠方法代替计数数据的方法吗? 如果必须对计数数据使用回归分析,如何计算色散不足?泊松分布和负二项式分布具有较高的色散,所以这不合适吗?我当时正在考虑应用拟泊松分布,但是通常建议将其用于过度分散。我阅读了有关R包中似乎能够解释过度散布和欠散的beta二项式模型VGAM的信息。但是,作者似乎建议使用倾斜的Poisson分布,但我在包中找不到它。 谁能推荐用于散布数据的过程,并可能提供一些示例R代码?

5
用于更改点分析的Python模块
我正在寻找一个在时间序列上执行变更点分析的Python模块。有很多不同的算法,我想探索其中一些算法的有效性,而不必手动滚动每种算法。 理想情况下,我需要R中的一些模块,例如bcp(贝叶斯变更点)或strucchange软件包。我希望在Scipy中找到一些模块,但是我无法打开任何东西。 我很惊讶其中没有任何设施: statsmodels.tsa:时间序列统计分析工具 scikits.timeseries:扩展scipy的时间序列分析工具 scipy.signal:scipy中的信号处理工具 Python中是否有带有变更点检测算法的模块?

3
高斯核的特征图
K(x,y)=exp(−∥x−y∥222σ2)=ϕ(x)Tϕ(y)K(x,y)=exp⁡(−‖x−y‖222σ2)=ϕ(x)Tϕ(y)K(x,y)=\exp\left({-\frac{\|x-y\|_2^2}{2\sigma^2}}\right)=\phi(x)^T\phi(y)x,y∈Rnx,y∈Rnx, y\in \mathbb{R^n}ϕϕ\phi 我还想知道是否 其中中的。现在,我认为这并不相等,因为使用内核可以处理线性分类器无法工作的情况。我知道将x到一个无限的空间。因此,即使它仍然保持线性,无论它有多少个维度,svm仍然无法进行良好的分类。∑iciϕ(xi)=ϕ(∑icixi)∑iciϕ(xi)=ϕ(∑icixi)\sum_ic_i\phi(x_i)=\phi \left(\sum_ic_ix_i \right)ci∈Rci∈Rc_i\in \mathbb Rϕϕ\phi

4
如何确定多元正态分布的分位数(等值线)
我对如何计算多元分布的分位数感兴趣。在图中,我绘制了给定单变量正态分布的5%和95%分位数(左)。对于正确的多元正态分布,我想象一个类似物将是一个等密度线,它包围密度函数的基数。以下是我尝试使用软件包计算此结果的示例mvtnorm-但未成功。我想可以通过计算多元密度函数结果的等值线来做到这一点,但是我想知道是否还有另一种选择(例如,qnorm)。谢谢你的帮助。 例: mu <- 5 sigma <- 2 vals <- seq(-2,12,,100) ds <- dnorm(vals, mean=mu, sd=sigma) plot(vals, ds, t="l") qs <- qnorm(c(0.05, 0.95), mean=mu, sd=sigma) abline(v=qs, col=2, lty=2) #install.packages("mvtnorm") require(mvtnorm) n <- 2 mmu <- rep(mu, n) msigma <- rep(sigma, n) mcov <- diag(msigma^2) mvals <- expand.grid(seq(-2,12,,100), seq(-2,12,,100)) mvds <- …


6
结构方程建模简介
同事问我在这个问题上有什么帮助,我真的不知道。他们在一项研究中对某些潜在变量的作用进行了假设,然后一名裁判要求他们在SEM中将其正式化。由于他们的需求似乎并不困难,我想我会尝试一下……现在,我只是在寻找有关该主题的不错的入门指南! Google并不是我真正的朋友。提前谢谢了... PS:我读了结构方程模型利用SEM包中的R由约翰·福克斯,以及本文由同一作者。我认为这足以满足我的目的,无论如何欢迎其他参考。

2
您能用外行的术语解释Parzen窗口(内核)密度估计吗?
Parzen窗口密度估计被描述为 p(x)=1n∑i=1n1h2ϕ(xi−xh)p(x)=1n∑i=1n1h2ϕ(xi−xh) p(x)=\frac{1}{n}\sum_{i=1}^{n} \frac{1}{h^2} \phi \left(\frac{x_i - x}{h} \right) 其中nnn是在向量元素的数目,是一个向量,被的概率密度,是Parzen窗的尺寸,和是窗口函数。xxxp(x)p(x)p(x)xxxhhhϕϕ\phi 我的问题是: Parzen窗口函数和其他密度函数(例如高斯函数)之间的基本区别是什么? 窗口函数()在查找的密度中的作用是什么?ϕϕ\phixxx 为什么我们可以插入其他密度函数来代替窗口函数? 在求密度中的作用是什么?hhhxxx

3
什么是“混淆系数”?
在R(lm)中建立回归模型时,我经常收到此消息 "there are aliased coefficients in the model" 这到底是什么意思? 另外,由于此predict()原因也发出警告。 尽管这只是一个警告,但我想知道在构建模型之前如何检测/删除别名系数。 另外,忽略此警告可能会带来什么后果?
24 r  regression 


1
F1 / Dice-Score vs IoU
我对F1分数,Dice分数和IoU(联合上方的交集)之间的差异感到困惑。到目前为止,我发现F1和Dice的含义相同(对吗?),IoU的公式与其他两个公式非常相似。 F1 /骰子:2TP2TP+FP+FN2TP2TP+FP+FN\frac{2TP}{2TP+FP+FN} IoU / Jaccard:TPTP+FP+FNTPTP+FP+FN\frac{TP}{TP+FP+FN} 除了F1赋予真实正数更高的权重之外,是否存在任何实际差异或其他值得注意的东西?有一种情况我会用一种而不用另一种吗?

2
dropout和drop connect有什么区别?
dropout和drop connect有什么区别? AFAIK,在训练过程中,dropout会随机丢弃隐藏的节点,但会使其处于测试状态,而drop connect会断开连接。 但是,删除连接是否不等于删除隐藏节点?节点(或连接)不是一组权重吗?

2
如何初始化过滤矩阵的元素?
我试图通过编写不依赖库的Python代码(例如Convnet或TensorFlow)来更好地理解卷积神经网络,并且我陷入了如何选择内核矩阵值的文献中。在图像上执行卷积。 我试图在下图显示CNN图层的功能图之间的步骤中了解实现细节。 根据此图: 内核矩阵内核在图像上“步进”,创建特征图,其中每个像素是内核(或滤波器矩阵)的每个权重与输入图像的相应像素值之间的所有按元素乘积的总和。 我的问题是:我们如何初始化内核(或过滤器)矩阵的权重? 在上面的演示中,它们只是1和0,但是我认为这是从图中简化的。 是否在某些预处理步骤中对这些权重进行了训练?还是由用户明确选择?

3
从1到100之间的25个随机数中,最高的概率出现多次的概率是多少?
在许多在线游戏中,当玩家完成一项艰巨的任务时,有时会给予特殊奖励,每个完成任务的人都可以使用。这通常是坐骑(运输方式)或其他虚荣物品(不会提高角色性能的物品,主要用于外观定制)。 当给出这样的奖励时,确定谁获得奖励的最常见方法是通过随机数。游戏通常有一个特殊的命令,该命令会生成一个介于1到100之间的随机数(可能是伪随机数,而不是加密安全随机数)(有时玩家可以选择另一种价差,但100是最常见的)。每个玩家都使用此命令,所有玩家都可以看到谁掷出了哪些东西,并且该物品被授予了掷骰最高的人。大多数游戏甚至都具有内置系统,玩家只需按下一个按钮,而每个人都按下按钮后,游戏就会自动完成其余的工作。 有时,有些玩家会产生相同的高数字,而没人能击败他们。这通常由那些重新生成号码的玩家来解决,直到有一个唯一的最高号码为止。 我的问题如下:假设一个随机数生成器可以以相同的概率生成1到100之间的任何数字。假设您有一组25位玩家,每个玩家使用这样的随机数生成器生成1个数字(每个都有自己的种子)。您将拥有25个介于1到100之间的数字,对多少个掷骰子的玩家没有限制,并且数字之间没有关系。超过1个玩家产生最高生成数字的机会是什么?换句话说,平局的可能性是多少?



By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.