统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

28
理解主成分分析,特征向量和特征值
在今天的模式识别课程中,我的教授谈到了PCA,特征向量和特征值。 我了解它的数学原理。如果要求我查找特征值等,则可以像机器一样正确地进行操作。但是我不明白。我没有达到目的。我没有感觉到它。 我坚信以下报价: 除非您可以向祖母解释,否则您并不会真正理解。 - 艾尔伯特爱因斯坦 好吧,我无法向外行或奶奶解释这些概念。 为什么要使用PCA,特征向量和特征值?什么是需要对这些概念? 您将如何向外行解释?


10
“可能性”和“概率”之间有什么区别?
的维基百科页面声称可能性和概率是不同的概念。 在非技术术语中,“可能性”通常是“概率”的代名词,但在统计使用中,在角度上存在明显的区别:在给定一组参数值的情况下,某些观察到的结果的概率的数字被视为给定观测结果的参数值集的可能性。 有人可以更深入地描述这意味着什么吗?另外,一些关于“概率”和“可能性”如何不同的示例将是很好的。

11
Beta发行背后的直觉是什么?
免责声明:我不是统计学家,而是软件工程师。我在统计学方面的大部分知识都来自自我教育,因此我在理解概念上仍然有很多空白,这些概念对于这里的其他人而言似乎微不足道。因此,如果答案包含较少的具体术语和更多的解释,我将非常感激。想象一下,你在跟奶奶说话:) 我试图把握性质的beta分布 -它应该用于和如何解释它在各种情况下。如果我们说的是正态分布,则可以将其描述为火车的到站时间:最经常到达的时间是准时到达的,更不常见的是早到1分钟或晚到1分钟的时间,很少有差异到达的距离平均值20分钟 均匀分配尤其描述了彩票中每张彩票的机会。二项分布可以用硬币翻转等来描述。但是,对beta分布有这样直观的解释吗? 假设和。Beta分布在这种情况下看起来像这样(在R中生成):α = 0.99α=.99\alpha=.99β= .5β=.5\beta=.5B (α ,β)B(α,β)B(\alpha, \beta) 但这实际上是什么意思?Y轴显然是概率密度,但是X轴上是什么? 我非常感谢您对本示例或任何其他示例所做的任何解释。

11
测试集和验证集有什么区别?
当我在Matlab中使用神经网络工具箱时,我感到困惑。 它将原始数据集分为三个部分: 训练集 验证集 测试集 我注意到在许多训练或学习算法中,数据通常分为训练集和测试集两部分。 我的问题是: 验证集和测试集有什么区别? 验证集是否真的特定于神经网络?或者它是可选的。 更进一步,在机器学习的上下文中,验证和测试之间有区别吗?

20
两种文化:统计与机器学习?
去年,我读了布伦丹·奥康纳(Brendan O'Connor)的博客文章,标题为“统计与机器学习,战斗!”。讨论了两个领域之间的一些差异。 安德鲁·盖尔曼对此表示赞同: 西蒙·布隆伯格: 从R的命运包中得出:挑衅地说,“机器学习是统计减去对模型和假设的任何检查”。-Brian D. Ripley(关于机器学习和统计之间的区别)useR!2004,维也纳(2004年5月):-)节日的问候! 安德鲁·盖尔曼: 在这种情况下,也许我们应该更频繁地摆脱模型和假设的检验。然后,也许我们能够解决机器学习人员可以解决但我们不能解决的一些问题! Leo Breiman于2001年发表的“统计建模:两种文化”论文指出,统计学家过于依赖数据建模,而机器学习技术正在取得进步,而仅依靠模型的预测准确性。 在过去的十年中,统计领域是否因这些批评而发生了变化?不要将两种文化依然存在或已发展统计拥抱机器学习技术如神经网络和支持向量机?

22
为什么要对差值求平方而不是取标准偏差的绝对值?
在标准差的定义中,为什么我们必须对均值之差取平方才能得到均值(E),并在最后取平方根?我们难道不能只是简单地获取差的绝对值,而获得这些差的期望值(均值),这也不能显示数据的变化吗?该数字将与平方方法不同(绝对值方法将更小),但仍应显示数据的传播。有人知道为什么我们将这种方形方法作为标准吗? 标准偏差的定义: σ=E[(X−μ)2]−−−−−−−−−−−√.σ=E[(X−μ)2].\sigma = \sqrt{E\left[\left(X - \mu\right)^2\right]}. 我们不能只是取绝对值而仍然是一个好的度量吗? σ=E[|X−μ|]σ=E[|X−μ|]\sigma = E\left[|X - \mu|\right]

5
如何理解K均值的弊端
K均值是聚类分析中广泛使用的方法。以我的理解,该方法不需要任何假设,即给我一个数据集和一个预先指定的聚类数k,而我只是应用了这种算法,该算法将平方误差之和(SSE)最小化,聚类内平方错误。 因此,k-means本质上是一个优化问题。 我阅读了一些有关k均值缺点的材料。他们大多数说: k-均值假设每个属性(变量)的分布方差是球形的; 所有变量具有相同的方差; 所有k个聚类的先验概率是相同的,即每个聚类具有大约相等数量的观察值; 如果违反了这三个假设中的任何一个,则k均值将失败。 我不明白这句话背后的逻辑。我认为k-means方法基本上不做任何假设,只是将SSE最小化,因此我看不到将SSE最小化与这3个“假设”之间的联系。

25
Python作为统计工作台
许多人使用主要工具(例如Excel或其他电子表格,SPSS,Stata或R)来满足其统计需求。他们可能会针对非常特殊的需求转向某些特定的程序包,但是可以使用简单的电子表格或常规统计信息包或统计信息编程环境来完成很多事情。 我一直很喜欢Python作为一种编程语言,对于简单的需求,编写一个简短的程序来计算我的需求很容易。Matplotlib让我可以绘制它。 有没有人完全从R切换到Python?R(或任何其他统计信息包)具有许多特定于统计信息的功能,并且它具有的数据结构使您可以考虑要执行的统计信息,而不必考虑数据的内部表示形式。Python(或其他一些动态语言)的好处是允许我使用熟悉的高级语言进行编程,并且它使我能够与驻留数据或可以进行测量的真实系统进行编程交互。但是我还没有找到任何可以让我用“统计术语”表达事物的Python软件包-从简单的描述统计到更复杂的多元方法。 如果我想将Python用作“统计工作台”来代替R,SPSS等,您能推荐什么? 根据您的经验,我会有什么得失?
355 r  spss  stata  python 




11
向外行人解释引导程序为何起作用
我最近使用引导程序来估计项目的置信区间。人谁不知道很多有关统计最近问我解释为什么引导工作,即,那为什么在重新取样相同的样本,并在提供了良好的效果。我意识到,尽管我花了很多时间来了解如何使用它,但我并不真正理解引导程序为何起作用。 具体来说:如果我们从样本中进行重采样,那我们是如何在了解有关总体而不是仅关于样本的信息?似乎有一个飞跃,这有点违反直觉。 在这里,我已经找到了一些答案,而我对此有一半的了解。特别是这个。我是统计学的“消费者”,而不是统计学家,并且我与对统计学了解不多的人一起工作。因此,有人可以在最少参考定理等情况的情况下解释引导程序的基本原理吗?也就是说,如果您不得不向邻居解释,您会说什么?

18
如果解释变量和响应变量在回归之前被独立排序会怎样?
假设我们有数据集与点。我们想要执行线性回归,但是首先我们将值和值彼此独立地排序,从而形成数据集。对新数据集的回归是否有有意义的解释?这有名字吗?n X i Y i(X i,Y j)(X一世,Y一世)(Xi,Yi)(X_i,Y_i)ñnnX一世XiX_iÿ一世YiY_i(X一世,YĴ)(Xi,Yj)(X_i,Y_j) 我想这是一个愚蠢的问题,所以我很抱歉,我没有接受过统计学方面的正式培训。在我看来,这完全破坏了我们的数据,而回归毫无意义。但是我的经理说,这样做的时候,他“大多数时候会得到更好的回归”(这里“更好”意味着更具预测性)。我觉得他在欺骗自己。 编辑:感谢您所有的好和耐心的例子。我向他展示了@ RUser4512和@gung的示例,他仍然坚定不移。他变得烦躁,我变得精疲力尽。我感到垂头丧气。我可能很快就会开始寻找其他工作。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.