统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

2
有界互信息在点向互信息上有界
假设我有两个集合和以及在这些集合的联合概率分布。令和分别表示和的边际分布。XXXYYYp(x,y)p(x,y)p(x,y)p(x)p(x)p(x)p(y)p(y)p(y)XXXYYY 和之间的相互信息定义为: XXXYYYI(X;Y)=∑x,yp(x,y)⋅log(p(x,y)p(x)p(y))I(X;Y)=∑x,yp(x,y)⋅log⁡(p(x,y)p(x)p(y))I(X; Y) = \sum_{x,y}p(x,y)\cdot\log\left(\frac{p(x,y)}{p(x)p(y)}\right) 即它是点向互信息pmi的平均值。(x,y)≡log(p(x,y)p(x)p(y))(x,y)≡log⁡(p(x,y)p(x)p(y))(x,y) \equiv \log\left(\frac{p(x,y)}{p(x)p(y)}\right) 假设我知道pmi上限和下限:即,我知道对于所有,以下成立: -k \ leq \ log \ left(\ frac {p(x,y)} {p( x)p(y)} \右)\ leq k(x,y)(x,y)(x,y)x,yx,yx,y−k≤log(p(x,y)p(x)p(y))≤k−k≤log⁡(p(x,y)p(x)p(y))≤k-k \leq \log\left(\frac{p(x,y)}{p(x)p(y)}\right) \leq k 这意味着I(X; Y)的上限I(X;Y)I(X;Y)I(X; Y)。当然,这意味着I(X;Y)≤kI(X;Y)≤kI(X; Y) \leq k,但是如果可能的话,我希望有一个更严格的界限。这在我看来是合理的,因为p定义了概率分布,并且pmi (x,y)(x,y)(x,y)不能针对xxx和y的每个值取其最大值(甚至是非负数)yyy。

2
詹姆斯-斯坦因估计:如何做埃夫隆和莫里斯计算
在1977年《科学美国人》的布拉德利·埃夫隆(Bradley Efron)和卡尔·莫里斯(Carl Morris)发表的“统计中的斯坦因悖论”一文中,我对计算詹姆斯-斯坦因收缩因子有疑问。 我收集了棒球选手的数据,数据如下: Name, avg45, avgSeason Clemente, 0.400, 0.346 Robinson, 0.378, 0.298 Howard, 0.356, 0.276 Johnstone, 0.333, 0.222 Berry, 0.311, 0.273 Spencer, 0.311, 0.270 Kessinger, 0.289, 0.263 Alvarado, 0.267, 0.210 Santo, 0.244, 0.269 Swoboda, 0.244, 0.230 Unser, 0.222, 0.264 Williams, 0.222, 0.256 Scott, 0.222, 0.303 Petrocelli, 0.222, 0.264 Rodriguez, …



4
如果我想要一个可解释的模型,除了线性回归之外还有其他方法吗?
我遇到了一些统计学家,他们从未使用线性回归以外的模型进行预测,因为他们认为诸如随机森林或梯度增强之类的“ ML模型”很难解释或“无法解释”。 在线性回归中,假设已验证一组假设(误差的正态性,同方差,无多重共线性),则t检验提供了一种检验变量重要性的方法,据我所知随机森林或梯度增强模型。 因此,我的问题是,是否要使用一组自变量来建模因变量,为了便于解释,我是否应该始终使用线性回归?

3
在进行统计推断时使用正则化
我了解建立预测模型时进行正则化的好处(偏差与方差,防止过度拟合)。但是,我想知道当回归模型的主要目的是对系数进行推断(看看哪些预测变量具有统计学意义)时,也进行正则化(套索,岭,弹性网)是否是一个好主意。我很想听听人们的想法以及与之相关的任何学术期刊或非学术文章的链接。

2
如何对lmer模型执行事后测试?
这是我的数据框: Group <- c("G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3") Subject <- c("S1","S2","S3","S4","S5","S6","S7","S8","S9","S10","S11","S12","S13","S14","S15","S1","S2","S3","S4","S5","S6","S7","S8","S9","S10","S11","S12","S13","S14","S15","S1","S2","S3","S4","S5","S6","S7","S8","S9","S10","S11","S12","S13","S14","S15") Value <- c(9.832217741,13.62390117,13.19671612,14.68552076,9.26683366,11.67886655,14.65083473,12.20969772,11.58494621,13.58474896,12.49053635,10.28208078,12.21945867,12.58276212,15.42648969,9.466436017,11.46582655,10.78725485,10.66159358,10.86701127,12.97863424,12.85276916,8.672953949,10.44587257,13.62135205,13.64038394,12.45778874,8.655142642,10.65925259,13.18336949,11.96595556,13.5552118,11.8337142,14.01763101,11.37502161,14.14801305,13.21640866,9.141392359,11.65848845,14.20350364,14.1829714,11.26202565,11.98431285,13.77216009,11.57303893) data <- data.frame(Group, Subject, Value) 然后,我运行一个线性混合效果模型来比较“价值”上这3组的差异,其中“主题”是随机因素: library(lme4) library(lmerTest) model <- lmer (Value~Group + (1|Subject), data = data) summary(model) 结果是: Fixed effects: Estimate Std. Error df t value Pr(>|t|) (Intercept) 12.48771 0.42892 31.54000 29.114 <2e-16 *** GroupG2 -1.12666 0.46702 28.00000 -2.412 …
18 r  lme4-nlme  post-hoc 

1
k-NN计算复杂度
采用朴素搜索方法(无kd树或类似树)的k -NN算法的时间复杂度是多少? 我也考虑到超参数k对其时间复杂度感兴趣。我发现矛盾的答案: O(nd + kn),其中n是训练集的基数,d是每个样本的维数。[1] O(ndk),这里n又是训练集的基数,d是每个样本的维数。[2] [1] http://www.csd.uwo.ca/courses/CS9840a/Lecture2_knn.pdf(第18/20页) [2] http://www.cs.haifa.ac.il/~rita/ml_course/lectures/KNN.pdf(第18/31页)



3
Kullback-Leibler散度分析
让我们考虑以下两个概率分布 P Q 0.01 0.002 0.02 0.004 0.03 0.006 0.04 0.008 0.05 0.01 0.06 0.012 0.07 0.014 0.08 0.016 0.64 0.928 我已经计算出等于 Kullback-Leibler散度,我想知道这个数字通常向我显示什么?通常,Kullback-Leibler散度告诉我一个概率分布与另一个概率分布有多远,对吗?它与熵术语相似,但是就数字而言,这意味着什么?如果我得到的结果是0.49,我可以说大约一个分布与另一个分布相差50%吗?0.4928202580.4928202580.492820258

4
贝叶斯方法何时比频率论者更可取?
我真的很想学习贝叶斯技术,所以我一直在努力教自己一些知识。但是,我很难知道何时使用贝叶斯技术比频频方法具有优势。例如:我在文献中已经看到一些关于如何使用信息先验,而另一些如何使用非信息先验的信息。但是,如果您使用的是非信息性先验(这似乎真的很普遍?),并且您发现后验分布是一个beta分布...难道您不只是在开始时就适合一个beta分布并称为好吗 我看不出如何构造一个不会告诉您任何事情的先验发行版……可以,真的告诉您什么吗? 事实证明,我在R中使用的某些方法混合使用了贝叶斯方法和贝叶斯方法(作者承认这有些矛盾),我什至无法辨别贝叶斯的组成部分。除了分布拟合,我什至无法弄清楚如何使用贝叶斯方法。有“贝叶斯回归”吗?那会是什么样?我能想像的是,一遍又一遍地猜测基础分布,而频率论者则在思考数据,观察数据,观察泊松分布并运行GLM。(这不是批评……我真的不明白!) 所以..也许一些基本的例子会有所帮助?而且,如果您知道一些像我这样的真正初学者的实用参考资料,那也将非常有帮助!

2
对过采样的不平衡数据进行测试分类
我正在处理严重不平衡的数据。在文献中,使用几种方法通过重新采样(过采样或欠采样)来重新平衡数据。两种好的方法是: SMOTE:合成少数类过采样技术(SMOTE) ADASYN:用于失衡学习的自适应合成采样方法(ADASYN) 我之所以实现ADASYN,是因为它具有自适应性并且易于扩展到多类问题。 我的问题是如何测试由ADASYN产生的过采样数据(或任何其他过采样方法)。在上述两篇论文中还不清楚他们如何进行实验。有两种情况: 1-对整个数据集进行过采样,然后将其拆分为训练和测试集(或交叉验证)。 2-拆分原始数据集后,仅对训练集执行过采样,然后对原始数据测试集进行测试(可以通过交叉验证执行)。 在第一种情况下,结果要比不进行过度采样好得多,但我担心是否存在过度拟合。在第二种情况下,结果比没有过采样的情况略好,但比第一种情况差得多。但是第二种情况的问题在于,如果所有少数族裔样本都进入测试集,那么过采样将不会带来任何好处。 我不确定是否还有其他设置可以测试此类数据。

1
R平方的条件期望
考虑简单的线性模型: yy=X′ββ+ϵyy=X′ββ+ϵ\pmb{y}=X'\pmb{\beta}+\epsilon 其中ϵi∼i.i.d.N(0,σ2)ϵi∼i.i.d.N(0,σ2)\epsilon_i\sim\mathrm{i.i.d.}\;\mathcal{N}(0,\sigma^2)和 X∈Rn×pX∈Rn×pX\in\mathbb{R}^{n\times p},和包含常数的列。p≥2p≥2p\geq2XXX 我的问题是,给定,和,是否存在 * 上非平凡上界的公式?(假设模型是由OLS估算的)。E(X′X)E(X′X)\mathrm{E}(X'X)ββ\betaσσ\sigmaE(R2)E(R2)\mathrm{E}(R^2) *我以书面形式假设,不可能获得本身。E(R2)E(R2)E(R^2) 编辑1 使用StéphaneLaurent派生的解决方案(见下文),我们可以得出的非平凡上界。一些数值模拟(如下)表明,这个界限实际上是很严格的。E(R2)E(R2)E(R^2) 斯特凡·洛朗(StéphaneLaurent)得到了以下: 其中是具有以下项的非中心Beta分布非中心参数与R2∼B(p−1,n−p,λ)R2∼B(p−1,n−p,λ)R^2\sim\mathrm{B}(p-1,n-p,\lambda)B(p−1,n−p,λ)B(p−1,n−p,λ)\mathrm{B}(p-1,n-p,\lambda)λλ\lambda λ=||X′β−E(X)′β1n||2σ2λ=||X′β−E(X)′β1n||2σ2\lambda=\frac{||X'\beta-\mathrm{E}(X)'\beta1_n||^2}{\sigma^2} 所以 E(R2)=E(χ2p−1(λ)χ2p−1(λ)+χ2n−p)≥E(χ2p−1(λ))E(χ2p−1(λ))+E(χ2n−p)E(R2)=E(χp−12(λ)χp−12(λ)+χn−p2)≥E(χp−12(λ))E(χp−12(λ))+E(χn−p2)\mathrm{E}(R^2)=\mathrm{E}\left(\frac{\chi^2_{p-1}(\lambda)}{\chi^2_{p-1}(\lambda)+\chi^2_{n-p}}\right)\geq\frac{\mathrm{E}\left(\chi^2_{p-1}(\lambda)\right)}{\mathrm{E}\left(\chi^2_{p-1}(\lambda)\right)+\mathrm{E}\left(\chi^2_{n-p}\right)} 其中是具有参数和自由度的非中心。因此的非平凡上限是χ2k(λ)χk2(λ)\chi^2_{k}(\lambda)χ2χ2\chi^2λλ\lambdakkkE(R2)E(R2)\mathrm{E}(R^2) λ+p−1λ+n−1λ+p−1λ+n−1\frac{\lambda+p-1}{\lambda+n-1} 它非常紧(比我预期的要紧得多): 例如,使用: rho<-0.75 p<-10 n<-25*p Su<-matrix(rho,p-1,p-1) diag(Su)<-1 su<-1 set.seed(123) bet<-runif(p) 在1000次仿真中的平均值为。上面的理论上限给出。在许多值上,边界似乎同样精确。真令人震惊![R2R2R^20.9608190.9609081[R2R2R^2 编辑2: 经过进一步研究,似乎随着增加(与其他所有相等的情况,随增加),对的上限近似的质量会更好。λ + p λ ÑË(R2)E(R2)E(R^2)λ + pλ+p\lambda+pλλ\lambdañnn

1
用Gamma分布构造Dirichlet分布
令是相互独立的随机变量,每个变量的伽玛分布参数为表示,与X1,…,Xk+1X1,…,Xk+1X_1,\dots,X_{k+1}αi,i=1,2,…,k+1αi,i=1,2,…,k+1\alpha_i,i=1,2,\dots,k+1Yi=XiX1+⋯+Xk+1,i=1,…,kYi=XiX1+⋯+Xk+1,i=1,…,kY_i=\frac{X_i}{X_1+\cdots+X_{k+1}},i=1,\dots,kDirichlet(α1,α2,…,αk;αk+1)Dirichlet(α1,α2,…,αk;αk+1)\text{Dirichlet}(\alpha_1,\alpha_2,\dots,\alpha_k;\alpha_{k+1}) 的联合PDF。然后找到关节(y_1,\ dots,Y_ {k + 1})的 pdf文件,我找不到jacobian即J(\ frac {x_1,\ dots,x_ {k + 1}} {y_1,\ dots,y_ {k + 1} })(Ý1,...,ÿķ+1)Ĵ(X1,...,X ķ + 1(X1,…,Xk+1)=e−∑k+1i=1xixα1−11…xαk+1−1k+1Γ(α1)Γ(α2)…Γ(αk+1)(X1,…,Xk+1)=e−∑i=1k+1xix1α1−1…xk+1αk+1−1Γ(α1)Γ(α2)…Γ(αk+1)(X_1,\dots,X_{k+1})=\frac{e^{-\sum_{i=1}^{k+1}x_i}x_1^{\alpha_1-1}\dots x_{k+1}^{\alpha_{k+1}-1}}{\Gamma(\alpha_1)\Gamma(\alpha_2)\dots \Gamma(\alpha_{k+1})}(Y1,…,Yk+1)(Y1,…,Yk+1)(Y_1,\dots,Y_{k+1})J(x1,…,xk+1y1,…,yk+1)J(x1,…,xk+1y1,…,yk+1)J(\frac{x_1,\dots,x_{k+1}}{y_1,\dots,y_{k+1}})

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.