统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

5
如何可视化/理解神经网络在做什么?
神经网络由于其复杂的结构而经常被视为“黑匣子”。这不是理想的,因为直观了解模型在内部的工作方式通常是有益的。可视化受过训练的神经网络如何工作的方法有哪些?或者,我们如何提取容易消化的网络描述(例如,该隐藏节点主要用于这些输入)? 我主要对两层前馈网络感兴趣,但也想听听针对更深层网络的解决方案。输入数据本质上可以是可视的或非可视的。

3
机器学习方法在StackExchange网站中的应用
这个学期我有一个机器学习课程,教授要求我们找到一个现实世界的问题,并通过课堂上介绍的一种机器学习方法来解决它,例如: 决策树 人工神经网络 支持向量机 基于实例的学习(kNN,LWL) 贝叶斯网络 强化学习 我是stackoverflow和stackexchange的忠实拥护者之一,并且知道这些网站的数据库转储是向公众提供的,因为它们很棒!我希望我能找到一个很好的关于这些数据库的机器学习挑战并解决它。 我的想法 我想到的一个主意是根据问题正文中输入的单词预测问题的标签。我认为贝叶斯网络是学习问题标签的正确工具,但需要更多研究。无论如何,在学习阶段之后,当用户完成输入问题时,应该向他建议一些标签。 请告诉我: 我想向经验丰富的stats社区询问ML两个问题: 您是否认为标签建议至少是一个有机会解决的问题?您对此有何建议?我有点担心,因为stackexchange尚未实现此类功能。 您是否对基于stackexchange数据库的ML项目有其他/更好的主意?我发现很难从stackexchange数据库中学习一些东西。 关于数据库错误的考虑: 我想指出的是,尽管数据库很大并且有很多实例,但它们并不是完美的,并且容易出错。显而易见的是,用户年龄不可靠。甚至选择的问题标签也不是100%正确。无论如何,我们在选择问题时应考虑数据正确性的百分比。 关于问题本身的考虑:我的项目不应与之有关data-mining。它仅应是ML方法在现实世界中的应用。


5
特征功能的目的是什么?
我希望有人可以用通俗易懂的方式解释什么是特征函数,以及如何在实践中使用它。我已经读过它是pdf的傅里叶变换,所以我想我知道它是什么,但我仍然不了解它的目的。如果有人可以提供其目的的直观描述,以及可能如何使用它的示例,那真是太棒了! 最后一点:我已经看过Wikipedia页面,但是显然太密集了,无法理解正在发生的事情。我正在寻找的一种解释是,计算机科学家认为,如果某个人没有沉迷于概率论的奇迹中,便可以理解。




7
交叉验证可以用于因果推理吗?
在所有情况下,我都熟悉交叉验证,它仅用于提高预测准确性的目的。可以在估计变量之间的无偏关系时扩展交叉验证的逻辑吗? 尽管理查德·伯克(Richard Berk)的这篇论文演示了在“最终”回归模型中使用保留样本进行参数选择的情况(并演示了为什么逐步选择参数不是一个好主意),但我仍然看不到如何完全确保与基于逻辑和对象的先验知识选择模型相比,X对Y产生的影响的无偏估计不再是。 我要求人们举出一些例子,其中有人使用保留样本来帮助进行因果推论,或者使用一些一般性的文章来帮助我理解。我也毫不怀疑我的交叉验证概念是幼稚的,因此可以这么说。使用暂留样本似乎可以进行因果推断,但是我不知道有任何工作可以做到这一点,或者他们将如何做到这一点。 伯克论文的引文: 模型选择后的统计推断 ,作者:理查德·伯克(Richard Berk),劳伦斯·布朗(Lawrence Brown),琳达·赵(Linda Zhao)。26,No. 2(2010年6月1日),第217-236页。 此处为 PDF版本 这对由CHL小样本研究探索性数据分析问题促使这个问题。

11
开源统计教科书?
有关统计教科书的几个问题,如“ 免费统计教科书 ”问题。但是,我正在寻找开放源代码的教科书,例如,拥有知识共享许可。原因是在其他领域的课程材料中,您仍然希望包括一些有关基本统计信息的文字。在这种情况下,重用现有材料而不是重写该材料将很有趣。 因此,有哪些关于统计(也许还有机器学习)的开源教科书可供选择?

7
为什么不进行正则化解决深度神经网络对数据的渴望?
我通常在神经网络(尤其是深度神经网络)的环境中经常遇到的一个问题是,它们“渴望数据”-也就是说,除非我们拥有大量数据集,否则它们的性能将不佳用来训练网络。 我的理解是,这是由于NNet(尤其是Deep NNet)具有许多自由度的事实。因此,作为一个模型,NNet具有大量参数,并且如果模型的参数数量相对于训练数据点的数量很大,则存在过拟合的趋势。 但是,为什么不能通过正则化解决此问题?据我所知,NNets可以使用L1和L2正则化,也有自己的正则化方法(例如dropout),可以减少网络中的参数数量。 我们是否可以选择我们的正则化方法以使它们强制简约并限制网络的大小? 为了阐明我的想法:假设我们使用大型Deep NNet来尝试对数据建模,但是数据集很小,实际上可以通过线性模型建模。那么为什么网络权重不会以一种神经元模拟线性回归而所有其他神经元收敛为零的方式收敛呢?为什么正则化对此没有帮助?

1
为什么我的p值在逻辑回归输出,卡方检验和OR的置信区间之间有所不同?
我建立了Logistic回归,其中在接受治疗后(Curevs. No Cure)治愈了结果变量。本研究中所有患者均接受治疗。我有兴趣查看是否患有糖尿病与该结局有关。 在R中,我的逻辑回归输出如下所示: Call: glm(formula = Cure ~ Diabetes, family = binomial(link = "logit"), data = All_patients) ... Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.2735 0.1306 9.749 <2e-16 *** Diabetes -0.5597 0.2813 -1.990 0.0466 * ... Null deviance: 456.55 on 415 degrees of freedom Residual deviance: 452.75 …

2
t-SNE何时会引起误解?
引用其中一位作者的话: t分布随机邻居嵌入(t-SNE)是一项降维技术(获奖),特别适合于高维数据集的可视化。 听起来不错,但这是作者的话题。 作者的另一句话(关于上述比赛): 您从这场比赛中收获了什么? 在开始对数据进行预测之前,请始终先对数据进行可视化处理!通常,可视化(例如我制作的可视化)可以洞悉数据分布,从而可以帮助您确定尝试哪种类型的预测模型。 信息必须1 被丢失-这是一个降维技术毕竟。但是,由于这是可视化时使用的一种很好的技术,因此丢失的信息的价值不及突出显示的信息(通过缩小为2或3维,使其可见/可理解)。 所以我的问题是: tSNE什么时候是适合该工作的工具? 什么样的数据集导致它不起作用, 它看起来可以回答什么样的问题,但实际上却不能回答? 在上面的第二个引用中,建议始终可视化您的数据集,是否应该始终使用tSNE进行可视化? 我希望可以反过来最好地回答这个问题,即回答:什么时候tSNE是适合该工作的工具? 提醒我不要依赖tSNE告诉我将如何轻松地对数据进行分类(分为几类-一个判别模型)令人误解的例子是,对于下面的两个图像,生成模型2更糟第一个/左边的可视化数据的准确性为53.6%,第二个/右边的可视化数据的准确性为67.2%。 1 我对此可能是错的,我可能会坐下来,稍后再尝试一个证明/计数器示例 2 请注意,生成模型与判别模型并不相同,但这是我给出的示例。

3
“ epoch”,“ batch”和“ minibatch”之间有什么区别?
据我所知,当采用随机梯度下降作为学习算法时,有人将“ epoch”用于完整数据集,将“ batch”用于单个更新步骤中使用的数据,而另一人则分别使用“ batch”和“ minibatch”,并且其他人使用“时代”和“小批量”。这在讨论时带来了很多混乱。 那么正确的说法是什么?还是它们只是可以接受的方言?

3
PCA或FA中的分数或负荷符号是否有意义?我可以反转标志吗?
我使用两个不同的函数(prcomp和)对R进行了主成分分析(PCA),princomp并观察到PCA分数的符号不同。怎么会这样? 考虑一下: set.seed(999) prcomp(data.frame(1:10,rnorm(10)))$x PC1 PC2 [1,] -4.508620 -0.2567655 [2,] -3.373772 -1.1369417 [3,] -2.679669 1.0903445 [4,] -1.615837 0.7108631 [5,] -0.548879 0.3093389 [6,] 0.481756 0.1639112 [7,] 1.656178 -0.9952875 [8,] 2.560345 -0.2490548 [9,] 3.508442 0.1874520 [10,] 4.520055 0.1761397 set.seed(999) princomp(data.frame(1:10,rnorm(10)))$scores Comp.1 Comp.2 [1,] 4.508620 0.2567655 [2,] 3.373772 1.1369417 [3,] 2.679669 -1.0903445 [4,] …
37 r  pca  factor-analysis 

3
R中的随机数-Set.seed(N)[重复]
这个问题已经在这里有了答案: 随机数生成器中的种子究竟是什么? 3个答案 我意识到有人set.seed()在R中使用伪随机数生成。我也意识到使用相同的数字,例如set.seed(123)可以确保您可以重现结果。 但是我不明白的是价值观本身意味着什么。我正在玩几个功能,有些使用set.seed(1)or set.seed(300)或set.seed(12345)。这个数字是什么意思(如果有的话),以及我什么时候应该使用其他数字。 例如,在我正在研究的书中,它们set.seed(12345)在为决策树创建训练集时使用。然后在另一章中,他们将set.seed(300)用于创建随机森林。 只是不知道电话号码。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.