统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

1
将指数模型拟合到数据
该问题是从Stack Overflow 迁移而来的,因为可以通过交叉验证来回答。 迁移 8年前。 我有2个变量,都来自“数字”类: > head(y) [1] 0.4651804 0.6185849 0.3766175 0.5489810 0.3695258 0.4002567 > head(x) [1] 59.32820 68.46436 80.76974 132.90824 216.75995 153.25551 我绘制了它们,现在我想对数据拟合指数模型(并将其添加到绘图中),但是我找不到关于拟合模型以在R中使用多元数据的任何信息!仅单变量数据,有人可以帮忙吗?我什至不知道从哪里开始...谢谢!
21 r 

4
相关性和因果关系在何种程度上与Google相关?
语境 这个站点上一个普遍的问题是“ 什么是常见的统计罪过? ”。提到的罪过之一是假设“相关暗示因果关系...” 链接 然后,在带有5个投票的评论中,建议:“ Google每年可赚取$ 65B,而无需关心差异。” 冒着过度分析轻巧内容的风险,我认为这可能是有益的讨论点,可以充实相关性和因果关系之间的区别以及该区别的实际相关性。也许可以突显有关机器学习之间的关系以及相关性与因果关系之间的区别的一些信息。 我假设此评论所针对的技术是生成搜索引擎结果和与广告展示相关的技术的基础。 题 相关性和因果关系在多大程度上与Google的创收相关,也许特别关注通过广告展示相关技术和高质量搜索结果来创收?

3
具有每日数据的自动ARIMA:如何捕获季节性/周期性?
我正在每天时间序列上拟合ARIMA模型。从2010年2月1日到2011年7月30日每天收集数据,这些数据与报纸的销售有关。由于可以发现每周的销售模式(星期一至星期五的每日平均销售份数通常相同,然后在星期六和星期日增加),因此我试图捕捉这种“季节性”。给定销售数据“数据”,我按如下方式创建时间序列: salests<-ts(data,start=c(2010,1),frequency=365) 然后使用auto.arima(。)函数通过AIC准则选择最佳的ARIMA模型。结果始终是非季节性的ARIMA模型,但是如果我尝试使用以下语法作为示例的SARIMA模型,例如: sarima1<-arima(salests, order = c(2,1,2), seasonal = list(order = c(1, 0, 1), period = 7)) 我可以获得更好的结果。ts命令/ arima规范中是否有任何错误?每周模式非常强大,因此我不希望在捕获它时遇到太多困难。任何帮助将非常有用。谢谢朱莉娅·德皮里(Giulia Deppieri) 更新: 我已经改变了一些论点。更准确地说,当我设置时,该过程选择ARIMA(4,1,3)作为最佳模型D=7,但AIC和其他拟合指数和预测良好的方法根本没有改善。我猜是由于季节性和周期性之间的混淆导致一些错误。 使用Auto.arima调用并获得输出: modArima<-auto.arima(salests,D=7,max.P = 5, max.Q = 5) ARIMA(2,1,2) with drift : 1e+20 ARIMA(0,1,0) with drift : 5265.543 ARIMA(1,1,0) with drift : 5182.772 ARIMA(0,1,1) with drift : 1e+20 ARIMA(2,1,0) …

5
高p值的强相关系数示例
我想知道,是否可能有一个非常强的相关系数(例如0.9或更高)和高p值(例如0.25或更高)? 这是一个相关系数较低,p值较高的示例: set.seed(10) y <- rnorm(100) x <- rnorm(100)+.1*y cor.test(x,y) cor = 0.03908927,p = 0.6994 高相关系数,低p值: y <- rnorm(100) x <- rnorm(100)+2*y cor.test(x,y) cor = 0.8807809,p = 2.2e-16 低相关系数,低p值: y <- rnorm(100000) x <- rnorm(100000)+.1*y cor.test(x,y) cor = 0.1035018,p = 2.2e-16 高相关系数,高p值:???

4
决策树几乎总是二叉树吗?
我遇到的几乎每个决策树示例都恰好是一棵二叉树。这是普遍的吗?大多数标准算法(C4.5,CART等)仅支持二进制树吗?据我所知,CHAID不限于二叉树,但这似乎是一个例外。 在其中一个孩子上进行双向拆分然后再进行双向拆分与一次三元拆分是不同的事情。这可能是一个学术观点,但是我试图确保我了解最常见的用例。

5
如何开始使用项目响应理论以及使用什么软件?
语境 我一直在阅读有关项目响应理论的文章,​​并且觉得很有趣。我相信我了解基本知识,但是我想知道如何应用与该领域相关的统计技术。以下是与我要在其上应用ITR的领域相似的两篇文章: http://www.jstor.org/stable/4640738?seq=7 http://www.ncbi.nlm.nih.gov/pubmed/21744971 第二个是我实际上想在此时扩展的那个。 我已经下载了一个名为jMetrik的免费程序,它似乎运行良好。我认为就IRT而言,这可能太基本了,但我不确定。 我知道“最佳”方式可能涉及学习R;但是,我不知道我是否可以抽出时间来解决这一学习难题。请注意,我们有一些资金来购买软件,但是据我看来,似乎没有任何出色的IRT程序。 问题 您对jMetrik的有效性有何看法? 您如何建议我继续申请IRT? 应用IRT的最佳方案是什么? 你们中的任何人都定期使用IRT吗?如果是这样,怎么办?

1
逆Wishart分布矩阵的对角线的边际分布
假设。我对对角元素的边际分布感兴趣。关于的子矩阵的分布有一些简单的结果(至少有一些列在Wikipedia上)。由此我可以看出,对角线上任何单个元素的边际分布都是反伽玛。但是我一直无法推断出联合分布。DIAG (X )= (X 11,... ,X p p)XX∼InvWishart(ν,Σ0)X∼InvWishart⁡(ν,Σ0)X\sim \operatorname{InvWishart}(\nu, \Sigma_0)诊断(X)= (x11,… ,xp p)诊断⁡(X)=(X11,…,Xpp)\operatorname{diag}(X) = (x_{11}, \dots, x_{pp})XXX 我认为也许可以通过合成来得出,例如: p (X11| X我我,i > 1 )p (x22| X我我,i > 2 )… p (x(p − 1 )(p − 1 )| Xp p)p (xp p),p(X11|X一世一世,一世>1个)p(X22|X一世一世,一世>2)…p(X(p-1个)(p-1个)|Xpp)p(Xpp),p(x_{11} | x_{ii}, i\gt 1)p(x_{22}|x_{ii}, i>2)\dots p(x_{(p-1)(p-1)}|x_{pp})p(x_{pp}), 但是我从没有得到任何帮助,并且进一步怀疑我缺少简单的东西;似乎已经知道这个“应该”,但是我一直无法找到/显示它。

2
如何在R中的函数lm中使用权重?
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 谁能提供一些有关如何weights在R lm函数中使用参数的指针?举例来说,假设您要针对交通数据拟合模型,并且有数百行,每个行代表一个城市(人口不同)。如果您希望模型根据人口规模来调整每个观测值的相对影响,您是否可以简单指定weights=[the column containing the city's population]?那是可以进入的向量weights吗?还是您需要完全使用其他R函数/包/方法? 好奇地听到人们如何解决这个问题-在我在那里看到的任何线性建模教程中都没有看到它。谢谢!
21 r  regression 



3
MaxEnt,ML,Bayes和其他统计推断方法之间的比较
我绝不是统计学家(我上过数学统计学课程,但仅此而已),最近,在学习信息论和统计力学时,我遇到了一个叫做“不确定性度量” /“熵”的东西。我读过Khinchin推导它的方法来衡量不确定性,这对我来说很有意义。有意义的另一件事是,当您知道样本上一个或多个函数的算术平均值时(假设您接受作为当然的不确定性度量),Jaynes对MaxEnt的描述将获得统计量。 − ∑ p一世lnp一世-∑p一世ln⁡p一世-\sum p_i\ln p_i 因此,我在网上搜索了与其他统计推断方法之间的关系,上帝让我感到困惑。例如该论文表明,假设我得到它的权利,你只得到下一个问题的适当再形成一个ML估计; MacKey在他的书中说,MaxEnt可以给您带来怪异的东西,即使在贝叶斯推断中作初步估计,也不应使用它。等等。我在寻找良好的比较时遇到了麻烦。 我的问题是,作为统计推断方法,可以将MaxEnt的优缺点作为一个解释和/或一个很好的参考,并与其他方法进行定量比较(例如,应用于玩具模型时)?

2
如何在学习算法之间进行选择
我需要实现一个程序,根据一些训练数据将记录分为两类(对/错),我想知道应该查看哪种算法/方法。似乎有很多可供选择的选择-人工神经网络,遗传算法,机器学习,贝叶斯优化等,而我不确定从哪里开始。因此,我的问题是: 我应该如何选择应该用于问题的学习算法? 如果有帮助,这是我需要解决的问题。 训练数据: 训练数据由许多行组成,如下所示: Precursor1, Precursor2, Boolean (true/false) 运行 我会给出一堆的前体。 然后, 我从不同的算法中选择一种算法A(或动态生成一种算法),并将其应用于这些前体的每种可能组合,并收集发出的“记录”。“记录”由几个键值对*组成。 我应用了一些很棒的算法,并将这些记录分为2类(对/错)。 我将生成一个与火车数据具有相同格式的表: Precursor1, Precursor2, Boolean 整个程序的评分是基于我正确判断对错的几率。 *:“记录”看起来像这样(希望这样有意义) Record [1...*] Score -Precursor1 -Key -Precursor2 -Value 只有有限数量的可能的键。记录包含这些键的不同子集(某些记录具有key1,key2,key3 ...,其他记录具有key3,key4 ...等)。 我实际上需要2学习。一个是针对第1步的。我需要一个模块来查看Precursor对等,并确定要应用哪种算法才能发出比较记录。另一个是针对步骤2的。我需要一个模块来分析记录的收集并将它们分类为2个类别(对/错)。 先感谢您!

2
回归中测试线性的难度
在统计建模中:两种文化 Leo Breiman写道 当前应用的实践是使用拟合优度测试和残差分析来检查数据模型的拟合度。几年前的某个时候,我在七个维度上建立了模拟回归问题,并控制了一定数量的非线性。拟合优度的标准测试直到非线性极端时才拒绝线性。 Breiman没有提供他的模拟的细节。他引用了一篇论文,他说该论文为他的观察提供了理论依据,但该论文尚未发表。 有没有人看到发表的模拟结果或理论论文来支持布里曼的主张?

2
选择模型后进行交叉验证(错误归纳)
注意:大小写为n >> p 我正在阅读《统计学习的元素》,关于交叉验证的“正确”方法有很多提及(例如,第60页,第245页)。具体来说,我的问题是在进行模型搜索时,如何使用k倍CV或自举法评估最终模型(没有单独的测试集)?似乎在大多数情况下(没有嵌入式功能选择的ML算法) 功能选择步骤 元参数选择步骤(例如,SVM中的成本参数)。 我的问题: 我已经看到,可以在整个训练集上进行特征选择并放在一边的情况下,进行特征选择步骤。然后,使用k折CV,在每折中使用特征选择算法(获得每次可能选择的不同特征)并平均误差。然后,您将使用通过所有数据(预留的数据)选择的特征来训练最终模式,但是将交叉验证中的错误用作模型未来性能的估计。它是否正确? 当您使用交叉验证选择模型参数时,随后如何估算模型性能?您是使用第54页(pdf)所示的嵌套简历还是其他方法,还是上面#1的相同过程? 当您同时执行两个步骤(功能和参数设置)时.....然后您会做什么?复杂的嵌套循环? 如果您有单独的保留样本,那么担心会消失吗,您可以使用交叉验证来选择功能和参数(不必担心,因为您的性能估算将来自保留集)?

5
测量理论导论
我有兴趣了解有关非参数贝叶斯(及相关)技术的更多信息。我的背景是计算机科学,尽管我从未参加过度量理论或概率论的课程,但是我对概率和统计学的正规培训数量有限。谁能推荐这些概念的可读介绍来帮助我入门?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.