统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答


7
为什么将正则化项“加”到成本函数上(而不是相乘等)?
每当使用正则化时,通常会将其添加到成本函数中,例如以下成本函数中。 这对我来说很直观,因为将代价函数意味着同时最小化误差(左项)和最小化系数的大小(右项)(或至少平衡两个最小化)。J(θ)=12(y−θXT)(y−θXT)T+α∥θ∥22J(θ)=12(y−θXT)(y−θXT)T+α‖θ‖22 J(\theta)=\frac 1 2(y-\theta X^T)(y-\theta X^T)^T+\alpha\|\theta\|_2^2 我的问题是,为什么将这个正则化项α∥θ∥22α‖θ‖22\alpha\|\theta\|_2^2加到原始成本函数上而不是相乘,还是将正则化思想背后的动机精神保留下来?是因为如果我们仅在其上添加一个术语就足够简单并且可以使我们解析地解决这个问题,还是有更深层次的原因?

8
表格设计有什么好的资源?
我看过图形的各种理论方法,例如图形语法。但是我没有看到关于表的等效表。一段时间以来,我开发了一个非正式的表格设计良好实践模型。但是,我希望能够为学生提供很好的参考。在APA格式手册对表的设计的一些技巧,但它只是一个起点。 问题:什么是很好的资源,可以为表中的数值结果提供理论和实践建议? 更新:拥有良好的免费在线资源特别有用。 注意:我不确定这是否应该是社区Wiki。我觉得好像有一个正确的答案。
51 tables 


6
如何使用R中的ROC曲线确定最佳截止点及其置信区间?
我有一项测试数据,可用于区分正常细胞和肿瘤细胞。根据ROC曲线,此目的看起来不错(曲线下的面积为0.9): 我的问题是: 如何确定该测试的临界点及其置信区间,在该区间应该将读数判断为不明确? 可视化此最佳方法(使用ggplot2)是什么? 图是使用ROCR和ggplot2包呈现的: #install.packages("ggplot2","ROCR","verification") #if not installed yet library("ggplot2") library("ROCR") library("verification") d <-read.csv2("data.csv", sep=";") pred <- with(d,prediction(x,test)) perf <- performance(pred,"tpr", "fpr") auc <-performance(pred, measure = "auc")@y.values[[1]] rd <- data.frame(x=perf@x.values[[1]],y=perf@y.values[[1]]) p <- ggplot(rd,aes(x=x,y=y)) + geom_path(size=1) p <- p + geom_segment(aes(x=0,y=0,xend=1,yend=1),colour="black",linetype= 2) p <- p + geom_text(aes(x=1, y= 0, hjust=1, …


3
统计和因果推论?
保罗·霍兰德(Paul Holland)在1984年发表的论文《统计与因果推论》中提出了统计学中最基本的问题之一: 统计模型可以说明因果关系吗? 这导致了他的座右铭: 没有操纵就没有因果关系 强调了对考虑因果关系的实验进行限制的重要性。安德鲁·盖尔曼(Andrew Gelman)提出了类似的观点: “要发现当您更改某些内容时会发生什么,必须对其进行更改。” ...您从扰动系统中学到的东西是您从任何数量的被动观察中都无法发现的。 本文总结了他的想法。 从统计模型进行因果推断时应考虑哪些因素?
51 causality 


3
我们有“可怜的投票”问题吗?
我知道,这听起来像是题外话,但请听我说。 在Stack Overflow上,我们在这里对文章进行投票,所有信息都以表格形式存储。 例如: 帖子ID投票者ID投票类型日期时间 ------- -------- --------- -------- 10 1 2 2000-1-1 10:00:01 11 3 3 2000-1-1 10:00:01 10 5 2 2000-1-1 10:00:01 ... 等等。投票类型2是反对,投票类型3是反对。您可以在http://data.stackexchange.com上查询此数据的匿名版本。 有一种看法认为,如果帖子的得分达到-1或更低,则更有可能被推荐。这可能仅仅是确认偏差,也可能是根源。 我们将如何分析这些数据以确认或否认这一假设?我们将如何衡量这种偏见的影响?

5
随机森林是增强算法吗?
提升的简短定义: 一组弱学习者可以创建一个强学习者吗?弱学习者被定义为仅与真实分类略相关的分类器(与随机猜测相比,它可以更好地标记示例)。 随机森林的简称: 随机森林种植许多分类树。要根据输入向量对新对象进行分类,请将输入向量放在森林中的每棵树上。每棵树都有一个分类,我们称该树对该类“投票”。森林选择投票最多的类别(在森林中的所有树木上)。 随机森林的另一个简短定义: 随机森林是一种元估计量,它适合数据集各个子样本上的许多决策树分类器,并使用求平均值来提高预测准确性和控制过度拟合。 据我了解,随机森林是一种使用树作为其弱分类器的增强算法。我知道它也使用其他技术并对它们进行了改进。有人纠正我说随机森林不是增强算法吗? 有人可以详细说明一下,为什么随机森林不是增强算法?




4
快速线性回归对异常值具有鲁棒性
我正在处理具有离群值的线性数据,其中一些离估计回归线的距离至少是5个标准差。我正在寻找一种线性回归技术,以减少这些点的影响。 到目前为止,我所做的是估计所有数据的回归线,然后丢弃残差非常大的平方(例如前10%)的数据点,并在没有这些点的情况下重复进行回归。 在文献中,有很多可能的方法:最小限度的平方,分位数回归,m估计量等。我真的不知道我应该尝试哪种方法,因此我正在寻找建议。对我来说重要的是,选择的方法应该快速,因为会在优化例程的每个步骤中计算出稳健的回归。非常感谢!

9
有谁知道有什么好的开源软件可以可视化数据库中的数据?
最近,我遇到了Tableau,试图将数据库和csv文件中的数据可视化。用户界面使用户能够可视化时间和空间数据并即时创建绘图。这样的工具非常有用,因为它可以以图形方式观察数据而无需编写代码。 由于必须从许多数据源中检索和可视化数据,因此拥有一个能够通过简单地在轴上拖动列来生成图表并通过拖动列名来修改可视化效果的工具将非常有用。 有人知道这种免费或开源软件吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.