统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

8
在《统计学习要素》之前预定阅读吗?
根据这篇文章,我想了解统计学习的要素。幸运的是,它是免费提供的,我开始阅读它。 我没有足够的知识来理解它。您能推荐一本对本书主题有更好介绍的书吗?希望有什么能给我理解的知识? 有关: 扎实的数学知识是掌握ML的必备条件吗?

6
推荐哪本书开始同时使用R学习统计信息?
使用R学习统计书籍 我要寻找的书到底是什么。 我正在寻找的是一本书,该书在使用R的同时教给您一些统计知识,从而为您提供动手实践的经验,从而最终帮助您一起学习R。我在亚马逊上看到了很多尝试这样做的书,但是没有R的书。Minitab和SAS是例子。 R书和统计计算可以选择吗?- 仍然没有回答。 《 R书与统计计算:使用S-Plus进行数据分析入门》似乎是可行的,但此处的读者意见将对您有所帮助并受到欢迎。 这本书与统计课程有何关系? 为了更精确地寻找我要寻找的东西,请考虑这两门课程是从大学的数学系学习统计学的成果,我目前是一名学生: 中级统计和概率统计,也就是说,我在书中看的是一门中级水平的普通统计课程,而不仅仅是学习和使用R的纸和纸。这也意味着我正在寻找一本假定我想从一开始就学习统计学的书。 这本书也适合研究人员。 我也是一名软件工程师研究员,但我想目前的情况是发现大量的数据,并且想要学习统计数据以继续编写代码以实现自动化,这几乎适用于许多其他领域。 这意味着我对学习每条曲线的每个属性的每个细节都没有兴趣,但是更关心在研究领域中了解数据的意义,尽管我不介意这本书是否想深入探讨该问题。 。 作为最后的动力,我发现自己在不同种类的社区中阅读科学论文,这些论文根据统计推断来宣称结果,而没有可读的证据证明是否违反了统计假设/约束。 与统计资料无关的AR书籍不会确保我不会遵循这种做法,这也是为什么我决定寻找一本类似于R的统计学课程的书籍,而不是浏览概述书籍的原因。 交叉验证中的相关问题。 哪些书概述了适用于计算机科学的计算统计信息?-不同之处在于,在使用R学习统计信息时,问题会寻找概述。 开源统计书籍提供了在线可用的开源(开放书籍)列表。 有关此问题的答案和反馈。 @朱丽叶 建议的书很少见,但是很不幸,它不适合我: 初级统计有R,使用R代表介绍统计,统计:使用为r的介绍是少数的,我已经看了关于亚马逊的书籍,但都是关于统计概述或作出这样的要求之前的统计知识假设。概述书的问题主要是关于不引起对假设,约束的关注,并提供足够的解释以使信息有意义。 如果您认为没有一本书也可以满足此需求,或者您认为R书或《统计计算:使用S-Plus进行数据分析入门》也适合,我也希望得到这种答案。 @克里斯托弗·亚丁 概率统计概论使用R似乎是我所寻找的最接近的方法,但仍是广义的方法。 我期望的是像David S. Moore这样的书,《统计基础》,因为: 它涵盖了所有统计主题。 它使用miniTab等两个工具对上述方法进行动手学习。 它非常突出了假设和约束。对于尚未参加深度统计学课程并想使用统计学的研究人员而言,这非常重要。几乎没有概述书籍可以涵盖这些内容,这对研究人员来说是危险的。 您可以在此处查看本书的目录。请注意,重点是统计,工具的使用是为了增进理解,并使学生在学习后以更简单的方式知道如何使用工具进行统计。它与工具无关,与统计有关! 我想要完全一样的东西,但是使用R。 @格雷戈里·德明 它使用R作为教学法示例,假设您想学习统计学,最重要的是,它是开源的。不幸的是,它不包括ANOVA,ANCOVA或其他更高级的主题。 彼得·埃利斯 对于涵盖该问题需要内容的教科书,提出了很好的建议。 提问者认为可以回答问题的书籍。 @Peter Ellis和@Gregory Demin。 亚马逊上R书的集合 可以在这里找到有关针对不同学生背景的R书的亚马逊讨论。 视频讲座教学,使用R进行统计 从2007年也促使这个问题,涵盖了更多关于数据挖掘,而不是统计数据,但同时,使用R谷歌技术讲座在这里。
50 r  references 

5
N和N-1在计算总体方差方面有什么区别?
在计算总体方差时,我没有得到为什么N和为什么N-1。什么时候使用N以及何时使用N-1? 点击这里查看大图 它说,当人口很大时,N和N-1之间没有区别,但是并不能说明为什么一开始就有N-1。 编辑:请不要与n和n-1用于估计的混淆。 Edit2:我不是在谈论人口估计。

3
我们如何定义“可重复的研究”?
现在已经提出了几个问题,我一直在想一些事情。整个领域是否朝着着眼于原始数据和相关代码可用性的“可重复性”发展? 总是告诉我,可重复性的核心不一定像我所说的那样具有单击“运行”并获得相同结果的能力。数据和代码方法似乎假定数据是正确的-数据本身没有缺陷(在科学欺诈的情况下,通常证明是错误的)。它还关注目标人群的单个样本,而不是发现在多个独立样本上的可重复性。 那么为什么要强调能够重新运行分析,而不是从头开始重复研究呢? 在下面的评论中提到的文章可在此处获得。

6
在高维度(
考虑一个具有预测变量和样本大小旧回归问题。通常的看法是,OLS估计量将过拟合,并且通常会比岭回归估计量好:通常使用交叉验证来找到最佳正则化参数。在这里,我使用10倍CV。澄清更新:当,通过“ OLS估计器”,我理解给出的“最小范数OLS估计器”pppβ = (X ⊤ X + λ 我)- 1 X ⊤ ÿ 。λ Ñ &lt; p β OLS = (X ⊤ X )+ X ⊤ Ŷ = X + ý 。nnnβ^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = (X^\top X + \lambda I)^{-1}X^\top y.λλ\lambdan&lt;pn&lt;pn1000yyyp=50&lt;np=50&lt;np=50npppp=1000p=1000p=1000λ→0λ→0\lambda\to 0与最佳岭回归效果一样好。λλ\lambda 这怎么可能?它对我的数据集有何影响?我是否遗漏了一些明显的东西,或者确实违反直觉?假设和都大于,则在质上有什么区别?p = 1000 np=100p=100p=100p=1000p=1000p=1000nnn 在什么条件下最小范数OLS解决方案不会过拟合?n&lt;pn&lt;pn<p 更新:注释中有些令人难以置信,因此这是使用的可复制示例glmnet。我使用Python,但是R用户可以轻松修改代码。 %matplotlib notebook import numpy …


5
“ p值”的正确拼写(大写,斜体,连字符)吗?
我意识到这是古怪而陈腐的,但是作为统计学之外的领域的研究人员,由于统计学方面的正规教育有限,我总是想知道我是否正确地编写了“ p值”。特别: “ p”应该大写吗? “ p”是否应该斜体显示?(或以数学字体显示在TeX中?) 在“ p”和“值”之间应该有连字符吗? 或者,根本没有“ p”值的“正确”写法,如果我只是在这些选项的某些排列中将“ p”放在“ value”旁边,那么任何理解都会理解我的意思吗?

1
Scikit学习中的一键式与虚拟编码
编码分类变量有两种不同的方法。假设一个分类变量具有n个值。一键编码将其转换为n个变量,而伪编码将其转换为n-1个变量。如果我们有k个分类变量,每个分类变量都有n个值。一种热编码以kn个变量结束,而伪编码以kn-k个变量结束。 我听说对于一键编码,拦截会导致共线性问题,这会使模型不可靠。有人称其为“ 虚拟变量陷阱 ”。 我的问题: Scikit-learn的线性回归模型允许用户禁用拦截。因此,对于一键编码,我应该始终设置fit_intercept = False吗?对于虚拟编码,fit_intercept应该始终设置为True吗?我在网站上没有看到任何“警告”。 由于一键编码会生成更多变量,因此它是否比伪编码具有更大的自由度?


3
用K-Means和EM进行聚类:它们之间有何关系?
我研究了用于对数据进行聚类(无监督学习)的算法:EM和k-means。我继续阅读以下内容: k-means是EM的一种变体,假设簇是球形的。 有人可以解释以上句子吗?我不了解球形的含义,以及kmeans和EM之间的关系,因为一个以概率方式进行分配,而另一个以确定性方式进行。 另外,在哪种情况下使用k均值聚类更好?或使用EM群集?

3
SVD背后的直觉是什么?
我已经读过关于奇异值分解(SVD)的文章。在几乎所有的教科书中都提到将矩阵分解为具有给定规格的三个矩阵。 但是,以这种形式拆分矩阵背后的直觉是什么?PCA和其他用于降维的算法在算法具有良好的可视化特性的意义上是直观的,但使用SVD并非如此。

1
从逻辑回归模型拟合中获得预测值(Y = 1或0)
假设我有一个类的对象glm(对应于逻辑回归模型),并且我想将predict.glm使用参数提供的预测概率type="response"转换为二进制响应,即或。在R中最快,最规范的方法是什么?Y=1Y=1Y=1Y=0Y=0Y=0 再次,虽然我知道了predict.glm,但我不知道截止值确切 -我想这是我这里的主要绊脚石。P(Yi=1|X^i)P(Yi=1|X^i)P(Y_i=1|\hat X_{i})

4
在安装SVM时为什么要麻烦双重问题?
给定数据点和标签,硬边距SVM基本问题是x1,…,xn∈Rdx1,…,xn∈Rdx_1, \ldots, x_n \in \mathbb{R}^dy1,…,yn∈{−1,1}y1,…,yn∈{−1,1}y_1, \ldots, y_n \in \left \{-1, 1 \right\} minimizew,w012wTwminimizew,w012wTw \text{minimize}_{w, w_0} \quad \frac{1}{2} w^T w s.t.∀i:yi(wTxi+w0)≥1s.t.∀i:yi(wTxi+w0)≥1 \text{s.t.} \quad \forall i: y_i (w^T x_i + w_0) \ge 1 这是一个针对和约束进行优化的变量的二次程序。双重d+1d+1d+1iii maximizeα∑i=1nαi−12∑i=1n∑j=1nyiyjαiαjxTixjmaximizeα∑i=1nαi−12∑i=1n∑j=1nyiyjαiαjxiTxj \text{maximize}_{\alpha} \quad \sum_{i=1}^{n}{\alpha_i} - \frac{1}{2}\sum_{i=1}^{n}{\sum_{j=1}^{n}{y_i y_j \alpha_i \alpha_j x_i^T x_j}} s.t.∀i:αi≥0∧∑i=1nyiαi=0s.t.∀i:αi≥0∧∑i=1nyiαi=0 \text{s.t.} \quad \forall i: \alpha_i \ge …
50 svm 

16
推荐的实验设计书籍?
小组对实验设计书有何建议? 理想情况下,书籍可能仍应印刷或以电子方式提供,尽管可能并不总是可行的。如果您想在这本书的优点上加些话,那也很好。 另外,针对每个答案准备一本书,以便投票可以帮助对建议进行分类。 (社区Wiki,如果可以做得更好,请编辑问题!)

4
为什么方差分析等同于线性回归?
我读到方差分析和线性回归是一回事。考虑到方差分析的输出是一些值和一些值,您将基于该结论得出结论,即样本在不同样本中的均值是相同还是不同。pFFFppp 但是,假设均值不相等(拒绝零假设),则ANOVA不会告诉您有关线性模型系数的任何信息。那么线性回归与ANOVA有何相同?
50 regression  anova 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.