今天,我翻阅了詹姆斯·斯通(James Stone)的《信息理论:教程简介》一书,并思考了一两个片刻,以探讨信息理论在应用 数据科学中的应用程度(如果您不满意这个仍然有些模糊的术语,想想数据分析,这是恕我直言数据科学的荣耀版)。我很清楚的显著使用的信息理论为基础的途径,方法和措施,特别是熵,引擎盖下的各种统计技术和数据分析方法。
但是,我对应用社会科学家成功选择和应用这些概念,方法和工具所需要的知识的程度/水平感到好奇,而不必深入理论的数学渊源。我期待您的回答,这些回答可能会在上述书籍(或其他类似书籍-随时推荐)或总体上解决我的关注。
我还要感谢一些针对印刷或在线资源的建议,这些建议在(与之相比)其他(更多)传统统计方法(常客和贝叶斯方法)的背景下讨论信息理论及其概念,方法,方法和措施。
2
建造一棵树时,可能发生了最著名和最“应用”的熵使用案例之一。算法拆分时,可能性之一就是采用信息增益度量,即上层和下层之间的熵之差。您在这里有更多信息en.wikipedia.org/wiki/Information_gain_in_decision_trees
—
D.Castro 2015年
@ D.Castro:谢谢您的评论-我知道这种情况(甚至在Cross Validated或Data Science SE网站上就此确切主题发布了答案)。我希望对该主题进行更全面的报道/讨论。
—
Aleksandr Blekh
对我而言,很大程度上,这取决于培训人员所在的学科或领域以及地理区域。我认为,与统计学家,经济学家或定量金融分析师相比,纯机器学习的物理学家,数学家和实践者更有可能深入了解信息理论。另外,对于在欧洲受过培训的人员,我会加倍考虑这一点,即欧洲人更可能熟悉IT。但是,用于统计学习的模型的出现正在改变美国数据科学家的模型。
—
麦克·亨特
@DJohnson Minutest是分钟的要点,但在英国以及其他地方可能是IT ==信息技术。否则,您的印象与我的相似。
—
尼克·考克斯
@NickCox谢谢,您的观点对美国也适用。这是一个冗长的评论,并且在空间允许的情况下,我会把这些单词拼写清楚,或者更好的是,在更早的时候介绍了首字母缩写词的含义。
—
麦克·亨特