统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

7
动态监控分位数的算法
我想估计一些数据的分位数。数据是如此之大,以致无法容纳在内存中。而且数据不是静态的,新数据不断涌现。有人知道有什么算法可以用非常有限的内存和计算来监视到目前为止观察到的数据的分位数吗?我发现P2算法很有用,但是对于我的数据(尾部分布非常繁重)来说,效果并不理想。

3
新闻中的方程式:将多层次模型转换为普通受众
纽约时报对用于向纽约市教育工作者提供反馈的“增值”教师评估系统有很长的评论。lede是用于计算分数的等式-无需上下文即可呈现。修辞策略似乎是通过数学恐吓: 该文章的全文可在以下网站获得:http : //www.nytimes.com/2011/03/07/education/07winerip.html 作者迈克尔·怀恩里普(Michael Winerip)认为,该方程式的意义超出了马特·达蒙(Matt Damon)以外的任何人的理解能力,更不用说普通教师了: “艾萨克森女士的3.69预测分数的计算更加令人生畏。它基于32个变量-包括学生是否“在考试前一年保持了年级”,以及学生是否是“在考试前或考试后新来的城市”年。” 这32个变量被插入到一个统计模型中,该模型看起来像是在“善意狩猎”中只有Matt Damon能够解决的方程式之一。 这个过程看起来是透明的,但显然是泥泞的,即使对于像教师,校长和记者(我对此也犹豫不决)这样​​的聪明人来说也是如此。 艾萨克森女士可能有两个常春藤联盟学位,但她迷路了。她说:“我发现这是无法理解的。” 用简单的英语来说,艾萨克森女士对教育部试图告诉她的最好的猜测是:即使她的66名学生中有65名在州考试中获得了熟练的成绩,但她的3分中的3分应该是4分。 但这只是一个猜测。” 您将如何向外行解释该模型?仅供参考,完整的技术报告位于: http://schools.nyc.gov/NR/rdonlyres/A62750A4-B5F5-43C7-B9A3-F2B55CDF8949/87046/TDINYCTechnicalReportFinal072010.pdf 更新:Andrew Gelman在这里提供了他的想法:http : //www.stat.columbia.edu/~cook/movabletype/archives/2011/03/its_no_fun_bein.html

5
当临床试验在早期终止时,为什么偏见会受到影响?
的中期分析是在一个或多个时间点的数据的分析之前研究的与意图的官方接近,例如,可能早终止研究。 根据Piantadosi,S.(临床试验-方法论的观点):“ 当试验在早期阶段终止时,治疗效果的估计将有偏差。决定越早,偏差越大。 ” 你能解释一下这个说法吗?我很容易理解精度会受到影响,但是关于偏差的说法对我来说并不明显。

4
校正与测试相关的多个测试的p值(遗传)
我从很多测试中获得了p值,并且想知道在对多个测试进行校正后是否确实存在一些重要的东西。并发症:我的测试不是独立的。我正在考虑的方法(Fisher's Product Method的一个变体,Zaykin等,Genet Epidemiol,2002)需要p值之间的相关性。 为了估计这种相关性,我目前正在考虑引导情况,运行分析并使p值的结果向量相关联。有谁有更好的主意吗?甚至对我的原始问题有一个更好的主意(更正相关测试中的多个测试)? 背景:我正在逻辑上回归我的受试者是否因其基因型(AA,Aa或aa)与协变量之间的相互作用而患有某种疾病。但是,该基因型实际上是很多(30-250)单核苷酸多态性(SNP),它们肯定不是独立的,而是连锁不平衡。


3
一天中的时间是分类变量吗?
值可以为0、1、2,...,23的“一天中的小时”是分类变量吗?我很想说不,因为例如5比4或3更接近4或6。 另一方面,在23和0之间存在不连续性。 那么,它通常被认为是绝对的吗?请注意,“小时”是自变量之一,而不是我要预测的变量。



2
如何理解“非线性降维”中的“非线性”?
我试图了解线性降维方法(例如PCA)和非线性降维方法(例如Isomap)之间的差异。 在这种情况下,我不太了解(非线性)含义。我从维基百科上得知 相比之下,如果使用PCA(线性降维算法)将同一数据集缩小为二维,则结果值的组织就不太好。这表明采样此歧管的高维向量(每个代表字母“ A”)以非线性方式变化。 是什么 采样此歧管的高维向量(每个代表字母“ A”)以非线性方式变化。 意思?或更广泛地说,在这种情况下,我如何理解(非线性)?

2
克里热夫斯基的'12 CNN如何在第一层获得253,440个神经元?
在Alex Krizhevsky等人中。利用深层卷积神经网络对图像网络进行分类,它们会枚举每层神经元的数量(请参见下图)。 网络的输入为150,528维,网络其余层的神经元数量为253,440–186,624–64,896–64,896–43,264– 4096–4096–1000。 3D视图 第一层之后所有层的神经元数量是清楚的。一种简单的计算神经元的方法是简单地乘以该层的三个维度(planes X width X height): 第2层: 27x27x128 * 2 = 186,624 第3层: 13x13x192 * 2 = 64,896 等等 但是,看一下第一层: 第1层: 55x55x48 * 2 = 290400 请注意,这与论文中所指定的不 253,440一样! 计算输出大小 计算卷积输出张量的另一种方法是: 如果输入图像是3D张量nInputPlane x height x width,输出图像尺寸将是nOutputPlane x owidth x oheight,其中 owidth = (width - kW) / dW …

3
每日时间序列分析
我正在尝试进行时间序列分析,并且是该领域的新手。我每天都在统计2006-2009年的某个事件,因此我想为其拟合时间序列模型。这是我取得的进步: timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) plot.ts(timeSeriesObj) 我得到的结果图是: 为了验证是否存在季节性和趋势数据,或者不是,我按照此提到的步骤后: ets(x) fit <- tbats(x) seasonal <- !is.null(fit$seasonal) seasonal 在Rob J Hyndman的博客中: library(fma) fit1 <- ets(x) fit2 <- ets(x,model="ANN") deviance <- 2*c(logLik(fit1) - logLik(fit2)) df <- attributes(logLik(fit1))$df - attributes(logLik(fit2))$df #P value 1-pchisq(deviance,df) 两种情况都表明没有季节性。 当我绘制该系列的ACF和PACF时,得到的是: 我的问题是: 这是处理每日时间序列数据的方式吗?该页面建议我应该同时查看每周和年度模式,但是这种方法对我来说并不明确。 一旦有了ACF和PACF图,我将不知道如何进行。 我可以简单地使用auto.arima函数吗? 适合<-arima(myts,order = c(p,d,q) *****更新了Auto.Arima结果****** 当我根据罗布海德门的评论的数据的频率改变为7 这里,auto.arima选择一个季节性ARIMA模型和输出: …

7
如何在机器学习模型或推荐系统中表示地理或邮政编码?
我正在建立模型,我认为地理位置可能非常擅长预测目标变量。我有每个用户的邮政编码。不过,我并不完全确定将邮政编码作为模型中的预测器功能的最佳方式。尽管邮政编码是一个数字,但是无论数字升或降,它都没有任何意义。我可以对所有30,000个邮政编码进行二值化处理,然后将其包含为功能或新列(例如{user_1:{61822:1,62118:0,62444:0等}}}。但是,这似乎会增加很多模型的功能 对解决这种情况的最佳方法有何想法?

4
模拟光盘上的均匀分布
我试图模拟在圆中随机点的注入,以使圆的任何部分都具有相同的出现缺陷的可能性。如果我将圆分成相等面积的矩形,我期望结果分布的每面积计数遵循泊松分布。 由于只需要在圆形区域内放置点,因此我在极坐标中注入了两个均匀的随机分布:(半径)和(极角)。θ[R[RRθθ\theta 但是在完成注入之后,与边缘相比,我显然在圆心得到了更多的点。 在圆上进行这种注入以使点随机分布在整个圆上的正确方法是什么?

3
稀疏PCA到底比PCA好多少?
我之前在课堂上的一些讲座中了解了PCA,并且通过深入了解这个引人入胜的概念,我了解了稀疏的PCA。 我想问一下,如果我没记错的话,这就是稀疏的PCA:在PCA中,如果您有个带有变量的数据点,则可以在应用PCA之前表示维空间中的每个数据点。应用PCA之后,您可以再次在同一维空间中表示它,但是,这一次,第一个主成分将包含最大的方差,第二个主要成分将包含第二个最大方差方向,依此类推。因此,您可以消除最后几个主要组件,因为它们不会导致大量数据丢失,并且可以压缩数据。对?ññnpppppp 稀疏PCA正在选择主成分,以使这些成分的矢量系数中包含较少的非零值。 应该如何帮助您更好地解释数据?谁能举一个例子?

3
如何解释Sklearn混淆矩阵
我正在使用混淆矩阵来检查分类器的性能。 我正在使用Scikit-Learn,我有点困惑。我如何解释结果 from sklearn.metrics import confusion_matrix >>> y_true = [2, 0, 2, 2, 0, 1] >>> y_pred = [0, 0, 2, 2, 0, 2] >>> confusion_matrix(y_true, y_pred) array([[2, 0, 0], [0, 0, 1], [1, 0, 2]]) 我该如何判断这个预测值是好还是不好。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.