统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

3
p值0.04993是否足以拒绝原假设?
在Wilcoxon符号秩统计显着性检验中,我们遇到了一些数据,得出值为。在的阈值下,此结果是否足以拒绝原假设,还是更安全地说该检验没有结论,因为如果将p值四舍五入到小数点后三位,则它变为?0.04993 p &lt; 0.05 0.050ppp0.049930.049930.04993p &lt; 0.05p&lt;0.05p < 0.050.0500.0500.050


2
二进制数据的相似系数:为什么选择Jaccard而不是Russell和Rao?
从《统计科学百科全书》中,我了解到,给定二分(二进制:1 =存在; 0 =不存在)属性(变量),我们可以为样本的任意两个对象i和j形成列联表:ppp j 1 0 ------- 1 | a | b | i ------- 0 | c | d | ------- a = number of variables on which both objects i and j are 1 b = number of variables where object i is 1 and j is …

3
Fisher度量与相对熵之间的联系
有人能以纯粹的数学严格方式证明 Fisher信息量度与相对熵(或KL散度)之间的以下联系吗? D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(∥da∥3)D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(‖da‖3)D( p(\cdot , a+da) \parallel p(\cdot,a) ) =\frac{1}{2} g_{i,j} \, da^i \, da^j + (O( \|da\|^3) 其中a=(a1,…,an),da=(da1,…,dan)a=(a1,…,an),da=(da1,…,dan)a=(a^1,\dots, a^n), da=(da^1,\dots,da^n),gi,j=∫∂i(logp(x;a))∂j(logp(x;a)) p(x;a) dxgi,j=∫∂i(log⁡p(x;a))∂j(log⁡p(x;a)) p(x;a) dxg_{i,j}=\int \partial_i (\log p(x;a)) \partial_j(\log p(x;a))~ p(x;a)~dx和gi,jdaidaj:=∑i,jgi,jdaidajgi,jdaidaj:=∑i,jgi,jdaidajg_{i,j} \, da^i \, da^j := \sum_{i,j}g_{i,j} \, da^i \, da^j是爱因斯坦求和约定。 我在John Baez的漂亮博客中找到了上述内容,Vasileios Anagnostopoulos在评论中谈到了这一点。

2
手动执行EM算法
我想手动实现EM算法,然后比较它的结果normalmixEM的mixtools包。当然,如果它们都能带来相同的结果,我将很高兴。主要参考文献是Geoffrey McLachlan(2000),有限混合模型。 我有两个高斯混合密度,一般形式下,对数似然由(McLachlan第48页)给出: 日志大号C(Ψ )= Σ我= 1G∑j = 1ñž我Ĵ{ 日志π一世+ 日志F一世(y一世; θ一世)} 。log⁡Lc(Ψ)=∑i=1g∑j=1nzij{log⁡πi+log⁡fi(yi;θi)}. \log L_c(\Psi) = \sum_{i=1}^g \sum_{j=1}^n z_{ij}\{\log \pi_i + \log f_i(y_i;\theta_i)\}. 所述是,如果观察是从个元件密度,否则。该是正态分布的密度。所述是混合物的比例,所以是概率,即观察是从第一高斯分布和是概率,即观察是从第二高斯分布。ž我Ĵzijz_{ij}1个11一世ii000F一世fif_iππ\piπ1个π1\pi_1π2π2\pi_2 该ê步现在,条件期望的计算: Q (Ψ ; Ψ(0 ))= EΨ (0 ){ 日志大号C(| Ψ )| ÿ} 。Q(Ψ;Ψ(0))=EΨ(0){log⁡Lc(|Ψ)|y}. Q(\Psi;\Psi^{(0)}) = E_{\Psi(0)}\{\log L_c(|\Psi)|y\}. 经过一些推导得出结果(第49页): τ一世(yĴ; Ψ(k ))= π(k )一世F一世(yĴ; θ(k )一世F(yĴ; …

5
期望最大化算法的动机
该问题是从Mathematics Stack Exchange 迁移而来的,因为可以通过交叉验证来回答。 迁移 6年前。 在EM算法的方法,我们用Jensen不等式在到达logp(x|θ)≥∫logp(z,x|θ)p(z|x,θ(k))dz−∫logp(z|x,θ)p(z|x,θ(k))dzlog⁡p(x|θ)≥∫log⁡p(z,x|θ)p(z|x,θ(k))dz−∫log⁡p(z|x,θ)p(z|x,θ(k))dz\log p(x|\theta) \geq \int \log p(z,x|\theta) p(z|x,\theta^{(k)}) dz - \int \log p(z|x,\theta) p(z|x,\theta^{(k)})dz θ(k+1)θ(k+1)\theta^{(k+1)}θ(k+1)=argmaxθ∫logp(z,x|θ)p(z|x,θ(k))dzθ(k+1)=arg⁡maxθ∫log⁡p(z,x|θ)p(z|x,θ(k))dz\theta^{(k+1)}=\arg \max_{\theta}\int \log p(z,x|\theta) p(z|x,\theta^{(k)}) dz 我读过EM的所有内容都只能解决这个问题,但是我一直对不了解EM算法为何自然产生的解释感到不安。我了解到可能性通常是用来处理加法而不是乘法,但是定义中的出现对我来说没有动力。为什么要考虑\ log而不考虑其他单调函数?由于种种原因,我怀疑期望最大化背后的“含义”或“动机”在信息论和足够的统计方面有某种解释。如果有这样的解释,那将不仅仅是抽象算法而已。loglog\logloglog\logθ(k+1)θ(k+1)\theta^{(k+1)}loglog\log

1
当且仅当它们的等级相关时,随机变量才相关吗?
假设是具有有限第二矩的连续随机变量。Spearman秩相关系数ρ_s的总体版本可以定义为概率积分变换F_X(X)和F_Y(Y)的皮尔逊积矩系数ρ ,其中F_X,F_Y是X和Y的cdf 。ρ小号˚F X(X )˚F Ý(Ý )˚F X,˚F ÿ X ÿX,YX,YX,Yρsρsρ_sFX(X)FX(X)F_X(X)FY(Y)FY(Y)F_Y(Y)FX,FYFX,FYF_X,F_YXXXYÿY ρs(X,Y)= ρ(F(X),˚F(是))ρs(X,Y)=ρ(F(X),F(Y))ρ_s(X,Y)=ρ(F(X),F(Y))。 我想知道是否可以普遍得出这样的结论: ρ(X,Y)≠ 0 ↔ ρ(˚F(X),˚F(是))≠ 0ρ(X,ÿ)≠0↔ρ(F(X),F(ÿ))≠0ρ(X,Y)≠0↔ρ(F(X),F(Y))≠0? 即,当且仅当秩之间具有线性相关性时,我们才具有线性相关性吗? 更新:在评论中给出了两个例子,为什么 ρ (˚FX(X),˚Fÿ(是))= 0 → ρ (X,Y)= 0ρ(FX(X),Fÿ(ÿ))=0→ρ(X,ÿ)=0\rho(F_X(X),F_Y(Y))=0\rightarrow \rho(X,Y) = 0 即使XXX和ÿÿY具有相同的分布,通常也不是正确的。所以这个问题应该改写为 ρ(X,Y)= 0 → ρ (FX(X),˚Fÿ(是))ρ(X,ÿ)=0→ρ(FX(X),Fÿ(ÿ))\rho(X,Y) = 0 \rightarrow \rho(F_X(X),F_Y(Y))吗? 如果XXX和ÿÿY具有相同的分布,那么这是否为真对我也很感兴趣。 (注意:如果XXX和ÿÿY与正象限相关,即δ(x,y)= FX,Y(x ,y)- ˚FX(x )Fÿ(y)&gt; 0δ(X,ÿ)=FX,ÿ(X,ÿ)-FX(X)Fÿ(ÿ)&gt;0δ(x,y)=F_{X,Y}(x,y)−F_X(x)F_Y(y)>0则霍夫丁的协方差公式CØ v (X,Y)= …

3
测试线性可分离性
有没有一种方法可以测试高维两类数据集的线性可分离性?我的特征向量长40。 我知道我总是可以进行逻辑回归实验,并确定命中率与误报率,以得出两类是否线性可分离的结论,但是最好知道是否已经存在标准方法来做到这一点。

2
我们可以在自然界某处看到法线的形状吗?
我不想知道自然界中某些现象是否具有正态分布,但是我们是否可以在某个地方看到正态曲线的形状,例如在高尔顿盒中可以看到的。从Wikipedia看到此图。 请注意,自然界中可以直接看到许多数学形状或曲线,例如在蜗牛中可以找到黄金均值和对数螺旋。 第一个天真的答案是未倾斜的山丘是否经常“拟合”正态分布:-)。

1
libsvm“达到最大迭代次数”警告和交叉验证
我在C-SVC模式下使用2级多项式内核的libsvm,并且需要训练多个SVM。每个训练集都有10个特征和5000个向量。在训练过程中,我收到有关我训练的大多数SVM的警告: WARNING: reaching max number of iterations optimization finished, #iter = 10000000 有人可以解释这个警告的含义,以及如何避免它吗? 我还想对我的模型进行交叉验证,以便确定γ和C(正则化)的最佳选择。我的计划是仅尝试这10个值的每种组合:两个参数都为0.00001、0.0001、0.001、0.01、0.1、1、10、100、1000、10000,然后看看哪种组合在交叉验证期间产生最佳精度。这够了吗?我应该在此间隔中使用更多的值,还是应该选择更大的间隔?

4
转化以增加正常rv的峰度和偏度
我正在研究一种算法,该算法依赖于观测值 s呈正态分布这一事实,并且我想凭经验测试该假设对算法的鲁棒性。YYY 为此,我正在寻找一系列转换,这些转换将逐渐破坏的正态性。例如,如果正常,则其偏度T1(),…,Tn()T1(),…,Tn()T_1(), \dots, T_n()YYYYYY=0=0= 0且峰度=3=3= 3,并且找到一个逐渐增加两者的转换序列会很好。 我的想法是模拟一些近似正态分布的数据YYY并在其上测试算法。在每个变换后的数据集T1(Y),…,Tn(y)T1(Y),…,Tn(y)T_1(Y), \dots, T_n(y),使用测试算法,以查看输出变化了多少。 请注意,我不控制模拟YYY的分布,因此无法使用对法线进行一般化的分布(例如“偏斜广义误差分布”)对它们进行模拟。

4
在对连续数据建模时,泊松分布如何工作,是否会导致信息丢失?
一位同事正在为她的论文分析一些生物学数据,并得出一些令人讨厌的异方差(下图)。她正在使用混合模型对其进行分析,但仍然无法处理残差。 对数转换响应变量可以清除内容,并且根据对该问题的反馈,这似乎是一种适当的方法。但是,最初,我们曾认为将转换变量与混合模型一起使用存在问题。事实证明,我们一直在误解Littell&Milliken(2006)的SAS for Mixed Models中的一个陈述,该陈述指出了为什么不适合转换计数数据然后使用正常的线性混合模型进行分析的原因(下面有完整的引号) 。 一种也可以改善残差的方法是使用具有Poisson分布的广义线性模型。我已经读过Poisson分布可用于对连续数据进行建模(例如,如本文中所讨论的),并且stats包允许这样做,但是我不了解模型适合时的情况。 为了理解如何进行基础计算,我的问题是:当您将Poisson分布拟合到连续数据时,1)是否将数据四舍五入到最接近的整数2)这样做会导致信息丢失,并且3)何时(如果有的话)将Poisson模型用于连续数据是否合适? Littel&Milliken 2006,第529页,“转换[count]数据可能会适得其反。例如,转换可能会使随机模型效应的分布或模型的线性变形。更重要的是,转换数据仍然留有可能性。负预测计数。因此,高度怀疑使用转换数据的混合模型进行推断。”

1
为什么随机林木不需要修剪?
布雷曼说,树木生长时没有修剪。为什么?我的意思是说,肯定有理由不修剪随机森林中的树木。另一方面,修剪单个决策树以避免过度拟合被认为非常重要。为此,是否有一些文献可供阅读?当然,树可能没有关联,但是仍然有可能过度拟合。

5
配对与非配对t检验
假设我有20只老鼠。我以某种方式配对了老鼠,所以我得到了10对。出于这个问题的目的,它可能是随机配对,或者可能是明智的配对,例如试图配对来自同一窝,同性别,体重相似的小鼠,或者可能是故意的愚蠢配对,例如尝试将体重不相等的老鼠配对。然后,我使用随机数将每对中的一只鼠标分配给对照组,另一只鼠标分配给待治疗组。我现在做实验,只治疗要治疗的小鼠,否则不理会刚才的安排。 当要分析结果时,可以使用未配对的t检验或配对的t检验。答案会以什么方式(如果有)不同?(我基本上对需要估计的任何统计参数的系统差异感兴趣。) 我之所以这样问,是因为我最近参与的一篇论文被生物学家批评为使用配对t检验而不是未配对t检验。当然,在实际实验中,这种情况并不像我所描述的那样极端,我认为配对是有充分理由的。但是生物学家不同意。 在我看来,在我绘制的情况下,即使配对不合适,也无法通过配对t检验而不是未配对检验来错误地提高统计显着性(降低p值)。但是,如果小鼠配对不当,可能会使统计意义恶化。这是正确的吗?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.