统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答



1
两个高斯加权混合的方差是多少?
假设我有两个正态分布A和B,均值和以及方差和。我想使用权重和对这两个分布进行加权混合,其中和。我知道这种混合的平均值是。μ 乙σ 甲σ 乙 p q 0 ≤ p ≤ 1个q = 1 - p μ 阿乙 = (p × μ 甲)+ (q × μ 乙)μAμA\mu_AμBμB\mu_BσAσA\sigma_AσBσB\sigma_Bpppqqq0≤p≤10≤p≤10\le p \le 1q=1−pq=1−pq = 1-pμAB=(p×μA)+(q×μB)μAB=(p×μA)+(q×μB)\mu_{AB} = (p\times\mu_A) + (q\times\mu_B) 差异是多少? 一个具体的例子是,如果我知道男女身高分布的参数。如果我的房间里有60%是男性,那么我可以得出整个房间的预期平均身高,但是方差又如何呢?

1
手动计算的
我知道这是一个相当具体的R问题,但我可能正在考虑错误解释的比例方差。开始。[R2R2R^2 我正在尝试使用该R包装randomForest。我有一些训练数据和测试数据。当我拟合随机森林模型时,该randomForest函数允许您输入新的测试数据进行测试。然后,它告诉您此新数据中说明的方差百分比。当我看到这个时,我得到一个数字。 当我使用该predict()函数基于训练数据的模型拟合来预测测试数据的结果值时,并取这些值与测试数据的实际结果值之间的平方相关系数,得出一个不同的数字。这些值不匹配。 这是一些R代码来演示该问题。 # use the built in iris data data(iris) #load the randomForest library library(randomForest) # split the data into training and testing sets index <- 1:nrow(iris) trainindex <- sample(index, trunc(length(index)/2)) trainset <- iris[trainindex, ] testset <- iris[-trainindex, ] # fit a model to the training set (column …


3
将单词嵌入应用于整个文档,以获得特征向量
如何使用词嵌入将文档映射到适合于监督学习的特征向量? 甲字嵌入每个单词映射到一个向量,其中是一些不太大数目(例如,500)。流行的词嵌入包括word2vec和Glove。v ∈ [R d dwwwv∈Rdv∈Rdv \in \mathbb{R}^dddd 我想应用监督学习对文档进行分类。我目前正在使用单词袋表示法将每个文档映射到特征向量,然后应用现成的分类器。我想用一个基于现有的预训练词嵌入的词替换词袋特征向量,以利用词嵌入中包含的语义知识。有标准的方法吗? 我可以想象出一些可能性,但是我不知道是否有最有意义的东西。我考虑过的候选方法: 我可以计算文档中每个单词的向量,然后将它们平均。但是,这似乎可能会丢失很多信息。例如,使用词袋表示法,如果有几个词与分类任务高度相关,而大多数词都不相关,则分类器可以轻松地学习到;如果我将文档中所有单词的向量平均,分类器就没有机会了。 将所有单词的向量连接起来是行不通的,因为这不会导致固定大小的特征向量。同样,这似乎是一个坏主意,因为它将对单词的特定位置过于敏感。 我可以使用单词嵌入将所有单词的词汇聚类为一组固定的聚类,例如1000个聚类,其中我在向量上使用余弦相似度作为单词相似度的度量。然后,我可以有一个词包,而不是词包:我提供给分类器的特征向量可以是1000个向量,其中第个分量计算文档中的词数是集群一部分。我iiiiii 给定单词,这些单词嵌入使我能够计算出前20个最相似的单词及其相似度得分的集合。我可以使用它来适应类似词袋的特征向量。当我看到这个词,除了增加相应字元素由,我还可以增加对应的字元素通过,增加对应的字元素通过,等等。w 1,… ,w 20 s 1,… ,s 20 w w w 1 w 1 s 1 w 2 s 2wwww1,…,w20w1,…,w20w_1,\dots,w_{20}s1,…,s20s1,…,s20s_1,\dots,s_{20}wwwwww111w1w1w_1s1s1s_1w2w2w_2s2s2s_2 是否有任何特定的方法可能对文档分类有效? 我不是在寻找para2vec或doc2vec;这些需要在大型数据语料库上进行培训,而我没有大型数据语料库。相反,我想使用现有的单词嵌入。

2
A / B测试:z检验,t检验,卡方检验和fisher精确检验
我试图通过在处理简单的A / B测试时选择一种特定的测试方法来理解其原因-(例如,两个具有二进制响应的变体/组(已转换或未转换)。作为示例,我将使用以下数据 Version Visits Conversions A 2069 188 B 1826 220 此处的最高答案很好,并讨论了z,t和卡方检验的一些基本假设。但是令我感到困惑的是,不同的在线资源会引用不同的方法,您会认为基本A / B测试的假设应该几乎相同吗? 例如,本文使用z-score: 本文使用以下公式(我不确定它是否与zscore计算不同?): 本文引用了t检验(p 152): 那么,对于这些不同的方法,可以提出哪些主张呢?为什么会有一个偏好? 要增加一个候选者,可以将上面的表重写为2x2列联表,其中可以使用Fisher精确检验(p5) Non converters Converters Row Total Version A 1881 188 2069 Versions B 1606 220 1826 Column Total 3487 408 3895 但是,根据该线索, fisher的精确测试应仅在较小的样本量下使用(临界值是多少?) 然后有成对的t和z检验,f检验(以及逻辑回归,但我现在暂时不考虑)。在这个简单的A / B测试案例中,对不同方法进行某种论证。 使用示例数据,我得到以下p值 https://vwo.com/ab-split-test-significance-calculator/给出0.001的p值(z得分) http://www.evanmiller.org/ab-testing/chi-squared.html(使用卡方检验)得出的p值为0.00259 在R中fisher.test(rbind(c(1881,188),c(1606,220)))$p.value给出p值为0.002785305 …

1
PCA和对应关系分析与Biplot的关系
Biplot通常用于显示主成分分析(和相关技术)的结果。它是一个双散点图或叠加散点图,同时显示了组件负荷和组件分数。今天,@ amoeba通知我,他给出的答案与我的评论不符,而是一个问题,询问如何生成/缩放Biplot坐标;他的回答更详细地考虑了几种方式。@amoeba询问我是否愿意与biplot分享我的经验。 我的经验(无论是理论上还是实验上的经验),尽管非常谦虚,但都突出了两点,但这两点很少得到人们的认可:(1)应将Biplot归类为分析技术,而不是辅助散点图;(2)PCA,对应分析(以及其他一些众所周知的技术)实际上是双图的特殊情况。或者至少,他们俩几乎都是双胞胎。如果可以做双图,则可以做另外两个。 我对您的问题是:它们(PCA,CA,Biplot)如何为您连接?请分享您的想法。同时,我正在发布自己的帐户。我想请增加更多答案并发表批评。

2
解释R的输出以进行二项式回归
对于二项式数据测试,我是一个新手,但需要做一个,现在我不确定如何解释结果。y变量(响应变量)是二项式的,解释因素是连续的。这是我总结结果时得到的: glm(formula = leaves.presence ~ Area, family = binomial, data = n) Deviance Residuals: Min 1Q Median 3Q Max -1.213 -1.044 -1.023 1.312 1.344 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 *** leaves.presence 0.0008166 0.0002472 3.303 0.000956 *** --- Signif. codes: 0 ‘***’ 0.001 …


3
折交叉验证估计的方差为
TL,DR:看来,与经常重复的建议相反,采用留一法交叉验证(LOO-CV),即KKK倍CV,其中KKK(折数)等于NNN(数训练观察值)-得出泛化误差的估计值,该估计值对于任何 K都是最小变量,而不是最大变量,假设模型/算法,数据集或两者都有一定的稳定性条件(我不确定哪个是正确的,因为我不太了解这种稳定性条件。KKK 有人可以清楚地说明这个稳定条件到底是什么吗? 线性回归就是这样一种“稳定”算法,这是否真的意味着在这种情况下,就泛化误差估计的偏差和方差而言,LOO-CV严格来说是CV的最佳选择? 传统观点认为,在K倍CV中选择KKK时要遵循偏差方差的折衷,这样较低的K值(逼近2)会导致对泛化误差的估计,这些偏差具有更悲观的偏差,但方差较小,而值较高(接近N)的K导致估计的偏差较小,但方差更大。关于这种随着K增大而增加的方差现象的常规解释可能在《统计学习的要素》(第7.10.1节)中最突出地给出:KKKKKKKKKNNNKKK 在K = N的情况下,交叉验证估计器对于真实的(预期)预测误差几乎是无偏的,但是由于N个“训练集”彼此非常相似,因此交叉验证估计器可能具有较高的方差。 这意味着NNN验证错误之间的相关性更高,因此它们的总和更具可变性。在本网站(例如,这里,这里,这里,这里,这里,这里和这里)以及各种博客等上的许多答案中都重复了这种推理方法。但是实际上,从来没有给出详细的分析,而是只是分析的直觉或简要草图。 但是,人们可以找到矛盾的陈述,通常是出于某种我不太了解的“稳定”条件。例如,这个矛盾的答案引用了2015年一篇论文的几段内容,其中包括:“对于不稳定性低的模型/建模程序,LOO通常具有最小的可变性”(强调后加)。本文(第5.2节)似乎同意,只要模型/算法“稳定” ,LOO就代表的最小变量选择。对此问题甚至采取另一种立场(推论2),该论文说:“ k倍交叉验证的方差不取决于kKKKkkkkkk”,再次引用了某种“稳定性”条件。 关于为什么LOO可能是变化最大的折CV的解释很直观,但是有一个直觉。均方误差(MSE)的最终CV估算值是每一倍MSE估算值的平均值。因此,当K增加到N时,CV估计值是随机变量数量增加的平均值。而且我们知道,均值的方差会随着变量数量的平均化而减小。因此,为了使LOO成为变化最大的K倍CV,必须确实如此,由于MSE估计之间的相关性增加而导致的方差增加要大于因平均获得的折叠次数更多而导致的方差减少。KKKKKKNNNKKK。事实并非如此,这一点也不明显。 考虑到所有这些问题后,我变得非常困惑,我决定对线性回归案例进行一些模拟。我用 = 50和3个不相关的预测变量模拟了10,000个数据集,每次使用K = 2、5、10 或50 = N的K倍CV 估计泛化误差。R代码在这里。以下是所有10,000个数据集(以MSE单位)的CV估计值的均值和方差:NNNKKKKKKNNN k = 2 k = 5 k = 10 k = n = 50 mean 1.187 1.108 1.094 1.087 variance 0.094 0.058 0.053 0.051 这些结果显示了预期的模式,即较高的值导致较小的悲观偏见,但似乎也证实了在LOO情况下CV估计的方差最低,而不是最高。KKK 因此,线性回归似乎是上述论文中提到的“稳定”情况之一,其中增加与CV估计中的减少而不是增加的方差有关。但是我仍然不明白的是:KKK “稳定”条件到底是什么?它在某种程度上适用于模型/算法,数据集,或两者都适用? 有没有一种直观的方式来考虑这种稳定性? …

5
我的意大利儿子即将上小学的事实是否会改变预期在班上的意大利孩子人数?
这是源于现实生活中的问题,对此我真的感到困惑。 我儿子将在伦敦上小学。由于我们是意大利人,所以我很想知道已经有多少意大利孩子上学了。我在申请时向招生官问了这个问题,她告诉我他们每班平均有2名意大利孩子(共30名)。 现在,我知道我的孩子已被接纳,但我没有其他孩子的其他信息。入学标准基于距离,但是出于这个问题的目的,我相信我们可以假设它基于大量申请人的随机分配。 我儿子的班级有望有多少意大利孩子?会接近2还是3?

2
MEAN胜过ARIMA是不寻常的吗?
我最近应用了多种预测方法(MEAN,RWF,ETS,ARIMA和MLP),发现MEAN的表现出奇的好。(均值:所有未来的预测均等于观测值的算术平均值。)在我使用的三个序列中,均值甚至优于ARIMA。 我想知道这是否不寻常?这是否意味着我使用的时间序列很奇怪?还是这表明我设置有误?

2
R中lmer()混合效应模型的预测间隔
我想从lmer()模型获得围绕预测的预测间隔。我发现了一些有关此的讨论: http://rstudio-pubs-static.s3.amazonaws.com/24365_2803ab8299934e888a60e7b16113f619.html http://glmm.wikidot.com/faq 但他们似乎并未考虑随机效应的不确定性。 这是一个具体的例子。我在比赛金鱼。我有过去100场比赛的数据。考虑到我的RE估算和FE估算的不确定性,我想预测第101位。我包括鱼的随机拦截(有10种不同的鱼)和重量的固定效应(较轻的鱼更快)。 library("lme4") fish <- as.factor(rep(letters[1:10], each=100)) race <- as.factor(rep(900:999, 10)) oz <- round(1 + rnorm(1000)/10, 3) sec <- 9 + rep(1:10, rep(100,10))/10 + oz + rnorm(1000)/10 fishDat <- data.frame(fishID = fish, raceID = race, fishWt = oz, time = sec) head(fishDat) plot(fishDat$fishID, fishDat$time) lme1 <- lmer(time …

6
测试两个二项分布在统计上是否彼此不同
我有三组数据,每组都有二项式分布(即,每组都有成功或失败的元素)。我没有成功的预测概率,而是只能依靠每个成功率作为真实成功率的近似值。我只发现了这个问题,虽然很接近,但似乎并不能完全解决这种情况。 为了简化测试,我们只说我有2个小组(在这个基本案例中可以扩展3个小组)。 第1组试验: = 2455ñ1个n1n_1 第2组试验: = 2730ñ2n2n_2 第1组成功: = 1556ķ1个k1k_1 第2组成功: = 1671ķ2k2k_2 我没有预期的成功概率,只有我从样本中知道的概率。因此,我对这两个组的隐含成功率是: 第1组的成功率: = 1556/2455 = 63.4%p1个p1p_1 第2组的成功率: = 1671/2730 = 61.2%p2p2p_2 每个样本的成功率都相当接近。但是我的样本量也很大。如果我检查二项式分布的CDF来查看它与第一个分布有何不同(我假设第一个是零检验),那么第二个可以实现的可能性很小。 在Excel中: 1-BINOM.DIST(1556,2455,61.2%,TRUE)= 0.012 但是,这没有考虑第一个结果的任何方差,它只是假设第一个结果是测试概率。 有没有更好的方法来测试这两个数据样本在统计上是否彼此实际上有所不同?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.