统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

1
为什么glmer无法达到最大可能性(已通过应用进一步的通用优化方法进行了验证)?
数值推导MLE第GLMM是困难的,在实践中,我知道,我们不应该用蛮力优化(例如,使用optim一个简单的方法)。但是出于我自己的教育目的,我想尝试一下以确保正确理解该模型(请参见下面的代码)。我发现我总是从中得到不一致的结果glmer()。 特别是,即使我使用MLE glmer作为初始值,根据我写的似然函数(negloglik),它们也不是MLE(opt1$value小于opt2)。我认为两个潜在的原因是: negloglik 写得不好,以至于其中有太多的数字误差,并且 型号规格错误。对于模型规范,预期模型为: 其中 ˚F是二项式PMF和克是一个正常的PDF文件。我试图估计 a, b和 s。我特别想知道模型规格是否错误,正确的规格是什么。L=∏i=1n(∫∞−∞f(yi|N,a,b,ri)g(ri|s)dri)L=∏i=1n(∫−∞∞f(yi|N,a,b,ri)g(ri|s)dri)\begin{equation} L=\prod_{i=1}^{n} \left(\int_{-\infty}^{\infty}f(y_i|N,a,b,r_{i})g(r_{i}|s)dr_{i}\right) \end{equation}fffgggaaabbbsss p <- function(x,a,b) exp(a+b*x)/(1+exp(a+b*x)) a <- -4 # fixed effect (intercept) b <- 1 # fixed effect (slope) s <- 1.5 # random effect (intercept) N <- 8 x <- rep(2:6, each=20) n <- length(x) id …

3
比较SVM和Logistic回归
有人可以给我一些何时选择SVM或LR的直觉吗?我想了解两者的超平面的优化标准之间有何区别的直觉,其各自的目标如下: SVM:尝试使最接近的支持向量之间的裕度最大化 LR:最大化后类可能性 让我们考虑SVM和LR的线性特征空间。 我已经知道一些差异: SVM是确定性的(但我​​们可以使用Platts模型进行概率评分),而LR是概率性的。 对于内核空间,SVM更快(仅存储支持向量)

6
使用许多分类变量改善分类
我正在使用一个包含200,000多个样本和每个样本约50个特征的数据集:10个连续变量,另外约40个是类别变量(国家,语言,科学领域等)。对于这些分类变量,您有150个不同的国家/地区,50种语言,50个科学领域等。 到目前为止,我的方法是: 对于具有许多可能值的每个类别变量,仅采用具有超过10000个样本的值作为该变量。这将减少到5-10个类别,而不是150个类别。 为每个类别建立虚拟变量(如果有10个国家,则为每个样本添加大小为10的二元向量)。 用此数据输入随机森林分类器(交叉验证参数等)。 目前,使用这种方法,我只能获得65%的准确度,并且我认为可以做得更多。尤其是我对1)感到不满意,因为我觉得我不应该根据他们拥有的样本数量随意删除“最不相关的值”,因为这些表示较少的值可能更具区分性。另一方面,我的RAM无法通过保留所有可能的值向数据添加500列* 200000行。 您有什么建议要应对这么多的分类变量吗?

2
当PCA解释方差时,因子分析如何解释协方差?
这是Bishop的“模式识别和机器学习”书第12.2.4节“因素分析”中的一句话: 根据突出显示的部分,因子分析捕获矩阵变量之间的协方差WWW。我想知道如何? 这就是我的理解。假设是观察到的维变量,是因子加载矩阵,是因子得分向量。然后我们有即 ,中的每一列都是一个因子加载向量 正如我所写,有xxxpppWWWzzzx=μ+Wz+ϵ,x=μ+Wz+ϵ,x=\mu+Wz+\epsilon,⎛⎝⎜⎜x1⋮xp⎞⎠⎟⎟=⎛⎝⎜⎜μ1⋮μp⎞⎠⎟⎟+⎛⎝⎜|w1|…|wm|⎞⎠⎟⎛⎝⎜⎜z1⋮zm⎞⎠⎟⎟+ϵ,(x1⋮xp)=(μ1⋮μp)+(||w1…wm||)(z1⋮zm)+ϵ,\begin{align*} \begin{pmatrix} x_1\\ \vdots\\ x_p \end{pmatrix} = \begin{pmatrix} \mu_1\\ \vdots\\ \mu_p \end{pmatrix} + \begin{pmatrix} \vert & & \vert\\ w_1 & \ldots & w_m\\ \vert & & \vert \end{pmatrix} \begin{pmatrix} z_1\\ \vdots\\ z_m \end{pmatrix} +\epsilon, \end{align*}WWWwi=⎛⎝⎜⎜wi1⋮wip⎞⎠⎟⎟.wi=(wi1⋮wip).w_i=\begin{pmatrix}w_{i1}\\ \vdots\\ w_{ip}\end{pmatrix}.WWW米mmm列表示正在考虑因素。mmm 现在,重点在于,根据突出显示的部分,我认为每列的负载都说明了观测数据中的协方差,对吗?wiwiw_i 例如,让我们看一下第一个加载向量,对于,如果,和,则我想说和高度相关,而似乎与它们不相关,对吗? 1 ≤ 我,Ĵ ,ķ ≤ p 瓦特1 …

8
帮我计算​​有多少人参加我的婚礼!我可以为每个人分配一个百分比并将其添加吗?
我正在计划我的婚礼。我想估计会有多少人参加我的婚礼。我创建了一个人名单以及他们参加会议的机会(以百分比表示)。例如 Dad 100% Mom 100% Bob 50% Marc 10% Jacob 25% Joseph 30% 我有大约230个人的清单。我如何估计有多少人参加我的婚礼?我可以简单地将百分比相加并除以100吗?例如,如果我邀请10个人,每人有10%的几率来,我可以期待1个人吗?如果我邀请20个人有50%的机会来,我可以期望10个人吗? 更新:140人参加了我的婚礼:)。使用下面描述的技术,我预测约为150。不要太破旧!

10
有没有关于统计或机器学习的好的科普书籍?
周围有一堆非常不错的通俗科学书籍,涉及真正的科学,以及历史和背后的理论背后的原因,同时仍然非常有趣。例如,詹姆斯·格里克(James Gleick)的“混沌”(混沌,分形,非线性),斯蒂芬·霍金(Stephen Hawking)的“时间简史”(物理学,宇宙起源,时间,黑洞)或理查德·道金斯(Richard Dawkins)的“自私基因”(进化和自然选择)。这些书中有些提出论据(道金斯),有些则没有论据(格里克)。但是,它们都使我们这些人无需进行深入的科学教育就可以轻松理解原本困难的概念。 是否有任何此类书籍主要关注统计学或机器学习? 请附上每本书的摘要。

2
如何在R中找到一个适合半正弦模型的模型?
我想假设波罗的海的海面温度年复一年,然后用函数/线性模型对其进行描述。我的想法是只将年输入为十进制数字(或num_months / 12),然后得出当时的温度。将其扔到R中的lm()函数中,它无法识别正弦数据,因此只能产生一条直线。因此,我将sin()函数放在I()括号内,并尝试了一些值以手动适合该函数,这接近我想要的值。但是海洋在夏天变暖得更快,而在秋天变慢了……所以第一年的模型是错误的,几年后变得更正确,然后在将来我猜想它会变得更多再犯错。 如何获得R来为我估算模型,所以我不必自己猜测数字?这里的关键是我希望它年复一年地产生相同的值,而不仅仅是一年正确。如果我对数学了解更多,也许我可以将其估计为类似于Poisson或Gaussian之类的东西,而不是sin(),但我也不知道该怎么做。任何帮助您接近一个好的答案将不胜感激。 这是我使用的数据,以及到目前为止显示结果的代码: # SST from Bradtke et al 2010 ToY <- c(1/12,2/12,3/12,4/12,5/12,6/12,7/12,8/12,9/12,10/12,11/12,12/12,13/12,14/12,15/12,16/12,17/12,18/12,19/12,20/12,21/12,22/12,23/12,24/12,25/12,26/12,27/12,28/12,29/12,30/12,31/12,32/12,33/12,34/12,35/12,36/12,37/12,38/12,39/12,40/12,41/12,42/12,43/12,44/12,45/12,46/12,47/12,48/12) Degrees <- c(3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5,3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5,3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5,3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5) SST <- data.frame(ToY, Degrees) SSTlm <- lm(SST$Degrees ~ I(sin(pi*2.07*SST$ToY))) summary(SSTlm) plot(SST,xlim=c(0,4),ylim=c(0,17)) par(new=T) plot(data.frame(ToY=SST$ToY,Degrees=8.4418-6.9431*sin(2.07*pi*SST$ToY)),type="l",xlim=c(0,4),ylim=c(0,17))
37 r  regression  time-series  lm 

4
扎实的数学知识是掌握ML的必备条件吗?
我开始想提升自己的技能,而我一直对机器学习着迷。但是,六年前,我决定继续攻读计算机科学,而没有追求这一目标,而不是追求这一目标。 我从事软件和应用程序的开发已有大约8至10年的时间,因此我拥有良好的处理能力,但似乎无法理解机器学习/概率/统计的数学方面。 我开始看学习材料,在第一页上可能包含使我困惑并立即在学习中设置障碍的内容。 扎实的数学知识是掌握ML的必备条件吗?在继续学习ML之前,我应该尝试填补数学的空白吗?在没有任何计算机科学背景的情况下,自我学习真的可以只对开发人员有效吗? 相关问题: 在《统计学习要素》之前预定阅读吗?

3
SVM,过度拟合,尺寸诅咒
我的数据集很小(120个样本),但是特征的数量却很大(从1000-200,000)不等。尽管我正在进行特征选择以选择特征子集,但它可能仍然过拟合。 我的第一个问题是,SVM如何处理过度拟合(如果有的话)。 其次,随着我对分类情况下的过度拟合的更多研究,我得出的结论是,即使具有少量特征的数据集也可能过度拟合。如果我们没有与类标签相关的特征,则无论如何都会发生过度拟合。因此,我现在想知道如果无法为类标签找到正确的功能,那么自动分类的意义何在?在文档分类的情况下,这将意味着手动制作与标签有关的单词词库,这非常耗时。我想我想说的是,如果不亲自挑选正确的功能,就很难建立通用模型? 同样,如果实验结果没有表明结果偏低/没有过拟合,则变得毫无意义。有办法测量吗?


6
贝叶斯与惯常论者对概率的解释
有人能很好地概括一下贝叶斯方法和频率论方法之间的差异吗? 据我了解: 经常性的观点认为,数据是具有特定频率/概率(定义为事件的次数相对于试验次数接近无穷大)的可重复的随机样本(随机变量)。基本参数和概率在此可重复过程中保持恒定,并且变化是由于的变化而不是概率分布(对于某些事件/过程固定的)所致。XnXnX_n 贝叶斯观点认为,数据是固定的,而某个事件的频率/概率可能会发生变化,这意味着分布的参数会发生变化。实际上,您获得的数据会更改参数的先前分布,该参数会针对每组数据进行更新。 在我看来,频率论者的方法似乎更实用/合乎逻辑,因为事件具有特定概率且变异在我们的采样中似乎是合理的。 此外,大多数研究数据分析通常是采用常识性方法进行的(即置信区间,具有p值的假设检验等),因为它很容易理解。 我只是想知道是否有人可以简要介绍一下对贝叶斯方法与频率论方法的解释,包括贝叶斯统计量的频率因子p值和置信区间。另外,可以理解其中一种方法优于另一种方法的具体示例。

6
效应大小作为重要性检验的假设
今天,在交叉验证期刊俱乐部(为什么不在那里?),@ mbq问: 您认为我们(现代数据科学家)知道重要性意味着什么吗?以及它如何关系到我们对结果的信心? @Michelle回答说(包括我在内)通常会这样做: 随着我继续职业生涯,发现重要性概念(基于p值)的帮助越来越少。例如,我可以使用非常大的数据集,因此所有数据在统计上都是有意义的(p&lt;.01p&lt;.01p<.01) 这可能是一个愚蠢的问题,但这不是检验假设的问题吗?如果您检验零假设“ A等于B”,那么您知道答案是“否”。更大的数据集只会使您更接近这个不可避免的真实结论。我相信正是戴明(Deming)曾经举过一个假设的例子:“羔羊右侧的头发数量等于其左侧的头发数量”。好吧,当然不是。 更好的假设是“ A与B的相差不大。” 或者,在羔羊示例中,“羔羊侧面的毛发数量相差不超过X%”。 这有意义吗?

10
经济学数据最有用的来源是什么?
在进行经济学研究时,经常需要验证有关真实数据的理论结论。使用和引用哪些可靠的数据源?我主要对提供各种统计数据的来源感兴趣,例如GDP,人口,CPI,PPI等。 编辑: 这是该线程中出现的链接的集合,还有我记得的其他一些链接。 通用: - 汤森路透Datastream的(不是免费的,很全面) - 世界银行的数据 - 联合国数据 - IMF数据 - 亚洲开发银行的数据 - WTO统计 - InfoChimps这类 -各种各样的公共和私营(商业)数据源的海量资源-加上他们的API - 游离碱(现在由谷歌收购) -开放数据资源 - DBpedia中 -一种方法来使用维基百科的API - 维基百科API-或者直接联系和访问维基百科直接 - 中央情报局世界概况 - OECD统计 - Wolfram Alpha的 -知识搜索引擎 - Zanran -数字和统计搜索引擎 - 校际联盟政治和社会研究 国家: - 英国政府数据项目 - 美国政府数据项目 - 美国FRED:美联储经济数据 - 美国劳工统计局 - …
37 references 

3
转换变量密度的直观解释?
假设是pdf的随机变量。然后,随机变量具有pdfXXXfX(x)fX(x)f_X(x)Y=X2Y=X2Y=X^2 fY(y)={12y√(fX(y√)+fX(−y√))0y≥0y&lt;0fY(y)={12y(fX(y)+fX(−y))y≥00y&lt;0f_Y(y)=\begin{cases}\frac{1}{2\sqrt{y}}\left(f_X(\sqrt{y})+f_X(-\sqrt{y})\right) & y \ge 0 \\ 0 & y \lt 0\end{cases} 我了解背后的原因。但我正在尝试寻找一种方法来向不了解微积分的人进行解释。特别是,我试图解释为什么出现在前面。我会刺一下它:1y√1y\frac{1}{\sqrt{y}} 假设具有高斯分布。pdf的几乎所有权重都在值之间,例如和但是对于,它映射到0到9 。因此,在将转换为的pdf中,权重已扩展到更大范围的值。因此,为真正的pdf,必须通过乘数来降低额外的权重XXX−3−3-33.3.3.YYYXXXYYYfY(y)fY(y)f_Y(y)1y√1y\frac{1}{\sqrt{y}} 听上去怎么样? 如果有人能提供更好的解释或链接到文档或教科书中的内容,我将不胜感激。我在几本数学概论/统计入门书籍中找到了这个变量转换示例。但是我从来没有找到一个直观的解释:(

2
概率不等式
我正在寻找无限随机变量之和的一些概率不等式。如果有人可以给我一些想法,我将不胜感激。 我的问题是找到无界iid随机变量之和(实际上是两个iid高斯的乘积)超过某个值的概率的指数上限,即,其中,和是根据。Pr[X≥ϵσ2N]≤exp(?)Pr[X≥ϵσ2N]≤exp⁡(?)\mathrm{Pr}[ X \geq \epsilon\sigma^2 N] \leq \exp(?)X=∑Ni=1wiviX=∑i=1NwiviX = \sum_{i=1}^{N} w_iv_iwiwiw_iviviv_iN(0,σ)N(0,σ)\mathcal{N}(0, \sigma) 我尝试通过矩生成函数(MGF)使用切尔诺夫界,派生界由下式给出: Pr[X≥ϵσ2N]≤=minsexp(−sϵσ2N)gX(s)exp(−N2(1+4ϵ2−−−−−−√−1+log(1+4ϵ2−−−−−−√−1)−log(2ϵ2)))Pr[X≥ϵσ2N]≤minsexp⁡(−sϵσ2N)gX(s)=exp⁡(−N2(1+4ϵ2−1+log⁡(1+4ϵ2−1)−log⁡(2ϵ2)))\begin{eqnarray} \mathrm{Pr}[ X \geq \epsilon\sigma^2 N] &\leq& \min\limits_s \exp(-s\epsilon\sigma^2 N)g_X(s) \\ &=& \exp\left(-\frac{N}{2}\left(\sqrt{1+4\epsilon^2} -1 + \log(\sqrt{1+4\epsilon^2}-1) - \log(2\epsilon^2)\right)\right) \end{eqnarray} 其中gX(s)=(11−σ4s2)N2gX(s)=(11−σ4s2)N2g_X(s) = \left(\frac{1}{1-\sigma^4 s^2}\right)^{\frac{N}{2}}是X的MGF XXX。但是界限并不是那么紧密。我的问题的主要问题是随机变量是无界的,不幸的是我无法使用霍夫丁不等式的界。 如果您能帮助我找到一些严格的指数界限,我将很高兴。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.