统计的分支是什么?


30

在数学中,存在诸如代数,分析,拓扑等分支。在机器学习中,有监督,无监督和强化学习。在每个分支中,都有更精细的分支,这些分支进一步划分了方法。

我在绘制统计数据方面遇到麻烦。统计学的主要分支(和分支)是什么?不可能有一个完美的分区,但是有什么比大空白图更好的了。

视觉示例: 在此处输入图片说明 在此处输入图片说明


6
还要提供另一个原因,说明这个问题无法回答(以及为什么前提可能放错了位置):鲜为人知的是,硬性理论科学(如数学)的目标是概括而不是专门化。因此,如果我们要想像一次成功调查该领域的轨迹,就不会看到它似乎分支到更小,更精致的分支,而是一个镜头,不断扩大到更抽象的概念和思想。
AdamO

@Rob Hyndman的答案在我看来仍然很厉害。我对这里的任何分类都表示怀疑。此外,在任何地方都可以标记某人发生的主题列表远远少于基于树的分类。尽管树状图或毛球图略显吸引人,但除了证明该领域的多种性质外,它们还具有什么实际用途或兴趣?
尼克·考克斯

Answers:


52

我发现这些分类系统极其无助且自相矛盾。例如:

  • 神经网络是监督学习的一种形式
  • 微积分用于微分几何
  • 概率论可以形式化为集合论的一部分

等等。没有明确的数学“分支”,也没有统计学。


11
“神经网络是监督学习的一种形式”。这也不是完全正确的,不是吗?我的意思是,一个人可以在监督学习,无监督学习甚至强化学习中使用(并且确实使用)NN!至少是神经网络的概念(它只是一个巨大的非线性函数,可以通过各种优化方法(包括SL,UL和RL)进行优化)。但是,也许只是在您使用术语时使用了该术语,在这种情况下,任何人都可能是对的。
BlueRine S

7
当然,没有真理,但这并不是真正有用。是否有满足OP需求的模型?
Jay Schyler Raadt

3
罗伯是对的。决策树用于回归分析,而AdaBoost是一种分类方法,但该图未显示这一点。

4
我承认我不太了解这种观点。统计教科书还必须以某种方式组织各章的顺序,并且其内容页面反映该组织。内容页面的结构至少传达了一些有关领域概念的组织方式的信息,并且它的实现方式远远超出了可视化的范围。如果没有人对教科书内容页面的存在有任何疑问,即使它们没有抓住该领域的复杂性,我也看不出为什么有人会反对像OP所希望的那样的可视化。
mkt-恢复莫妮卡

4
教科书不是层次结构,而是线性结构。在本书的后面,经常会发展出前几章之间的链接,这表明前面单独介绍的主题实际上是链接在一起的。举个例子,我自己的关于预测的教科书,我们在下一章介绍动态回归模型,将回归和ARIMA模型联系起来。
Rob Hyndman

29

这与Rob Hyndman的回答是次要的对立。它以评论开始,然后变得过于复杂。如果这还不能解决主要问题,我深表歉意并将其删除。


早在达尔文Darwin)第一次涂鸦之前,生物学就一直在描述等级关系(请参阅Nick Cox的评论以获取链接)。大多数进化关系仍显示为这种类型的,清晰的,分支的“系统进化树”:

在此处输入图片说明 但是,我们最终意识到生物学比这更混乱。有时,存在于树的一部分“跳跃”到树的另一部分中的不同物种和基因之间(通过杂交和其他过程)发生了遗传交换。水平基因转移以使上面的简单树形图不准确的方式来移动基因。但是,我们没有放弃树木,而只是对这种类型的可视化进行了修改:

与上图相同,但显示了跨分支的基因转移

这很难遵循,但是它传达了更准确的现实情况。

另一个例子:

在此处输入图片说明

但是,我们从不介绍这些更复杂的数字,因为如果不了解基本概念就很难掌握它们。取而代之的是,我们以简单的图形来教授基本概念,然后以更复杂的图形和较新的故事形式为他们呈现。

同样,任何统计“地图”都是不准确且有价值的教学工具。OP建议形式的可视化对学生非常有用,不应仅仅因为它们无法完全捕捉现实而被忽略。一旦有了基本框架,我们就可以增加图片的复杂性。


4
FWIW,生物之间关系的树表示早于达尔文。我稍后会添加参考。
Nick Cox

2
jhupbooks.press.jhu.edu/title/trees-life具有学术性,但很吸引人。
尼克·考克斯

3
与其说是支持论点,不如说是一个对立面:质疑树的有效性。至少在系统发育上,我们使用数据来创建这样的结构,无论是化石记录,基因表达还是其他任何东西。如果没有数据,我们会认真询问谁有权选择散布错误信息的图块和箭头。,
AdamO

2
@AdamO我不希望有一个通用统计信息“地图”。两个人使用不同的结构和不同的链接集是完全合理的,尽管一个人希望宽泛的结构具有相当强的鲁棒性(从同一数据集构建的系统发育树之间也会发生低级差异,尽管此时我们将隐喻延伸得太远)。我要说的是,专门知识(暂时搁置权威概念)存在于编写一般统计学教科书甚至教授一般统计学的许多人中。
mkt-恢复莫妮卡

2
我喜欢这里的图表足以支持它,但是它并不能真正回答问题。
尼克·考克斯

24

您可以查看“交叉验证”网站的关键字/ 标签


作为网络分支

一种实现方法是根据关键字之间的关系(它们在同一帖子中重合的频率)将其绘制为网络。

当您使用此sql脚本从(data.stackexchange.com/stats/query/edit/1122036)获取网站的数据时

select Tags from Posts where PostTypeId = 1 and Score >2

然后,您将获得所有得分为2或更高的问题的关键字列表。

您可以通过绘制以下内容来探索该列表:

标签之间的关系

更新:颜色相同(基于关系矩阵的特征向量),并且没有自学习标签

标签之间的关系

您可以进一步清理该图(例如,删除与统计概念无关的标签,例如软件标签,在上图中,这已经针对“ r”标签完成了),并改善了视觉效果,但我想上面的图像已经显示了一个不错的起点。

R代码:

#the sql-script saved like an sql file
network <- read.csv("~/../Desktop/network.csv", stringsAsFactors = 0)
#it looks like this:
> network[1][1:5,]
 [1] "<r><biostatistics><bioinformatics>"                                 
 [2] "<hypothesis-testing><nonlinear-regression><regression-coefficients>"
 [3] "<aic>"                                                              
 [4] "<regression><nonparametric><kernel-smoothing>"                      
 [5] "<r><regression><experiment-design><simulation><random-generation>"  

l <- length(network[,1])
nk <- 1
keywords <- c("<r>")
M <- matrix(0,1)

for (j in 1:l) {                              # loop all lines in the text file
  s <- stringr::str_match_all(network[j,],"<.*?>")           # extract keywords
  m <- c(0)                                             
  for (is in s[[1]]) {
    if (sum(keywords == is) == 0) {           # check if there is a new keyword
      keywords <- c(keywords,is)              # add to the keywords table
      nk<-nk+1
      M <- cbind(M,rep(0,nk-1))               # expand the relation matrix with zero's
      M <- rbind(M,rep(0,nk))
    }
    m <- c(m, which(keywords == is))
    lm <- length(m)
    if (lm>2) {                               # for keywords >2 add +1 to the relations
      for (mi in m[-c(1,lm)]) {
        M[mi,m[lm]] <- M[mi,m[lm]]+1
        M[m[lm],mi] <- M[m[lm],mi]+1
      }
    }
  }
}


#getting rid of <  >
skeywords <- sub(c("<"),"",keywords)
skeywords <- sub(c(">"),"",skeywords) 


# plotting connections 

library(igraph)
library("visNetwork")

# reduces nodes and edges
Ms<-M[-1,-1]             # -1,-1 elliminates the 'r' tag which offsets the graph
Ms[which(Ms<50)] <- 0
ww <- colSums(Ms)
el <- which(ww==0)

# convert to data object for VisNetwork function
g <- graph.adjacency(Ms[-el,-el], weighted=TRUE, mode = "undirected")
data <- toVisNetworkData(g)

# adjust some plotting parameters some 
data$nodes['label'] <- skeywords[-1][-el]
data$nodes['title'] <- skeywords[-1][-el]
data$nodes['value'] <- colSums(Ms)[-el]
data$edges['width'] <- sqrt(data$edges['weight'])*1
data$nodes['font.size'] <- 20+log(ww[-el])*6
data$edges['color'] <- "#eeeeff"

#plot
visNetwork(nodes = data$nodes, edges = data$edges) %>%
visPhysics(solver = "forceAtlas2Based", stabilization = TRUE,
           forceAtlas2Based = list(nodeDistance=70, springConstant = 0.04,
                                   springLength = 50,
                                   avoidOverlap =1)
           )

层次分支

我认为,上述类型的网络图与对纯分支层次结构的一些批评有关。如果您愿意,我想您可以执行分层群集以将其强制为分层结构。

以下是这种分层模型的示例。仍然需要为各个集群找到合适的组名(但是,我认为这种分层集群并不是一个好的方向,因此我将其保留为开放状态)。

层次聚类

通过反复试验发现了聚类的距离度量(进行调整,直到聚类看起来不错为止。

#####
#####  cluster

library(cluster)

Ms<-M[-1,-1]
Ms[which(Ms<50)] <- 0
ww <- colSums(Ms)
el <- which(ww==0)

Ms<-M[-1,-1]
R <- (keycount[-1]^-1) %*% t(keycount[-1]^-1)
Ms <- log(Ms*R+0.00000001)

Mc <- Ms[-el,-el]
colnames(Mc) <- skeywords[-1][-el]

cmod <- agnes(-Mc, diss = TRUE)

plot(as.hclust(cmod), cex = 0.65, hang=-1, xlab = "", ylab ="")

StackExchangeStrike撰写


2
也许我会做一些工作来使图表更整洁。有一些清晰的图表可以映射此网站上的主题,可能会很好。
Sextus Empiricus

1
这是一个很棒的方法!做得很好。
安德鲁·布雷扎(AndrewBrēza)

从您的彩色图表中,三个主要方面是概率,回归和机器学习。
Matt F.

@MattF。该图实际上有点问题,并且更符合使用频率。我尝试按频率对矩阵进行缩放(例如从协方差矩阵切换为相关矩阵),但变化不大。2D图形无法很好地显示结构,而将路径视为字符串的物理模型将节点放置为六边形/三角形形状(效率最高)。
Sextus Empiricus

1
我想说的是stackoverflow上的五个主要类别:概率,回归,机器学习以及假设检验和时间序列。
Sextus Empiricus

9

回答问题的一种简单方法是查找通用分类表。例如,一些出版物使用2010年数学学科分类对论文进行分类。这些是相关的,因为这就是许多作者对自己的论文进行分类的方式。 在此处输入图片说明

类似分类的例子很多,例如arxiv的分类或俄罗斯教育部的UDK(通用十进制分类),已广泛用于所有出版物和研究中。

在此处输入图片说明

另一个例子是美国经济协会的JEL认证制度。Rob Hyndman的论文“ 自动时间序列预测:R的预测包 ”。根据JEL的分类为C53,C22,C52。Hyndman在批评树的分类上有一点。更好的方法是标记,例如他的论文中的关键词是:“ ARIMA模型,自动预测,指数平滑,预测间隔,状态空间模型,时间序列,R。” 有人可能会说,这是对论文进行分类的更好方法,因为它们不是层次结构,可以建立多个层次结构。

@whuber提出了一个很好的观点,即机器学习等一些最新进展将不在当前分类的统计范围之内。例如,看看Catherine F. Higham,Desmond J. Higham撰写的论文“ 深度学习:应用数学家入门 ”。他们根据上述MSC将论文分类为97R40、68T01、65K10、62M45。除统计资料外,还包括计算机科学,数学教育和数值分析


3
我认为这是更准确的说法,这就是要求许多作者对论文进行分类的方式。我知道当我被要求在我的工作中采用这样的先验类别时,我永远不会感到非常满意。
Alexis

6
这是确定数学统计分支的良好基础 知道这一点有助于我们识别遗漏的内容,其中包括机器学习的许多部分。确实,将2010年数学学科分类描述为描述“截至1950年的统计数据”,然后将后来出现的所有内容(例如地统计学,基因组学,自举等)(其中有些可能落入旧版本中)描述为公平的做法可能是公平的。类别)。
惨案

4

解决该问题的一种方法是查看统计期刊(例如,统计年鉴,Biometrika,JASA和JRSS-B)中的引文和共同作者网络。这是通过以下方式完成的:

Ji,P.,&Jin,J.(2016年)。统计人员的共同作者和引文网络。应用统计年报,10(4),1779-1812。

他们确定了统计学家社区,并利用他们的领域理解将社区标记为:

  • 高维数据分析(HDDA-Coau-A)
  • 理论机器学习
  • 降维
  • 约翰·霍普金斯
  • 公爵
  • 斯坦福大学
  • 分位数回归
  • 实验设计
  • 客观贝叶斯
  • 生物统计学
  • 高维数据分析(HDDA-Coau-B)
  • 大型多重测试
  • 变量选择
  • 空间和半参数/非参数统计

本文包括对社区的详细讨论,以及将更大的社区分解为更多的子社区。

这可能无法完全回答问题,因为它涉及的是统计学家研究领域,而不是所有领域,包括不再活跃的领域。希望它还是有帮助的。当然,还有其他警告(例如仅考虑这四种期刊),本文将对此进行进一步讨论。


2
我正在考虑为此网站进行此操作。将“共同作者”定义为回答/回答相同问题的人。
Sextus Empiricus

@MartijnWeterings是的,您的回答似乎与此方法非常相似!
user257566

2

我看到了许多惊人的答案,而且我不知道如何收到一个卑微的自制分类,但是我不知道任何包含所有统计数据的综合性书籍来显示摘要,我确实认为,@ mkt大胆地评论说,研究领域的分类可能会有用。所以,这是我的镜头:

  • 描述性统计
    • 简单推论
      • 简单假设检验
    • 绘图/数据可视化
  • 抽样设计
    • 实验设计
    • 调查设计
  • 多元统计资料(未经监督)
    • 聚类
    • 成分分析
    • 潜在变量模型
  • 线性模型(实际上也是多元模型)
    • 普通最小二乘
    • 广义线性模型
      • Logit模型
    • 其他线性模型
      • 考克斯模型
      • 分位数回归
    • 多元推理
      • 多重假设检验
      • 调整假设检验
    • 结构化数据模型
      • 混合效果模型
      • 空间模型
      • 时间序列模型
    • 非线性扩展
      • 广义加性模型
  • 贝叶斯统计(实际上贝叶斯方法存在于我已经列出的许多事物中)
  • 非参数回归和分类
    • 许多机器学习方法都适合这里

当然,这过于简单化,仅是为了向几乎不了解该领域的人直接提出一些想法,我们这里的每个人当然都知道在这里的类别之间有很多方法,我没有其他很多方法。列出原因是因为它们的知名度较低,或者因为我只是忘记了。希望你喜欢。


1

组织此信息的一种方法是找到一本好书并查看目录。这是一个悖论,因为您专门询问了统计问题,而与此主题相关的大多数研究生入门级教科书则同时涉及统计学和概率论。我正在阅读的有关回归的书现在具有以下目录:

  • 惯常推论
  • 贝叶斯推理
  • 假设检验和变量选择
  • 线性模型
  • 一般回归模型
  • 二进制数据模型

  • 一般回归模型

  • 非参数回归的预备知识[...的前身]
  • 样条和核方法
  • 具有多个预测变量的非参数回归

(其余部分支持数学和概率论)

  • 矩阵表达式的微分
  • 矩阵结果
  • 一些线性代数
  • 概率分布和生成函数
  • 正态随机变量的功能
  • 古典统计的一些结果
  • 基本大样本理论

2
有人可能会认为这样一本书传达的一部分一个分支学科的。但是,除非它声称是对所有统计信息的百科全书式调查,否则其章标题几乎不会被视为该领域的主要分支!

3
@whuber同意。我很小心地提到这本书是关于回归的,并且我认为关于“统计”主题的任何书都没有足够的通用性,也不认为统计学家认为合适的水平足以说明这些主题。这个特定的例子来自Wakefield的文章,是一个非常普遍的处理方法(例如,在具有二进制协变量和鲁棒误差估计的线性回归的背景下讨论了具有不等方差估计的T检验)。
AdamO
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.