数据科学

数据科学专业人员,机器学习专家以及有兴趣了解该领域的人员的问答

2
LSTM在哪一层上辍学?
使用LSTM带缺失的多层,是否建议在所有隐藏层以及输出密集层上放置缺失?在欣顿的论文(提出了Dropout)中,他只将Dropout放在了Dense层上,但这是因为隐藏的内部层是卷积的。 显然,我可以测试我的特定模型,但是我想知道是否对此达成共识?

1
如何在图形结构化数据上使用Scikit-Learn标签传播?
作为研究的一部分,我对在图形上执行标签传播感兴趣。我对这两种方法特别感兴趣: 朱小金和邹斌·格哈拉玛尼。通过标签传播从标记和未标记的数据中学习。卡内基梅隆大学技术报告CMU-CALD-02-107,2002年http://pages.cs.wisc.edu/~jerryzhu/pub/CMU-CALD-02-107.pdf Dengyong Zhou,Olivier Bousquet,Thomas Navin Lal,Jason Weston,Bernhard Schoelkopf。在本地和全球范围内进行学习(2004)http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.115.3219 我看到scikit-learn提供了一个做到这一点的模型。但是,该模型应该应用于矢量结构化数据(即数据点)。 该模型使用内核从数据点构建亲和度矩阵,然后在所构建的矩阵上运行算法。我希望能够直接输入图的邻接矩阵来代替相似矩阵。 关于如何实现这一点的任何想法?还是您知道任何Python库都可以直接针对上述两种方法在图结构化数据上运行标签传播? 在此先感谢您的帮助!

1
使Keras在多机多核cpu系统上运行
我正在使用Keras的 LSTM(使用Theano背景)来开发Seq2Seq模型,并且我想并行化这些过程,因为即使很少的MB数据也需要数小时的训练。 显然,GPU在并行化方面要比CPU好得多。目前,我只能使用CPU。我可以访问16个CPU(每个内核2个线程X每个插槽4个内核X 2个插槽) 从Theano 的多核支持文档中,我设法使用了单个套接字的所有四个核。因此,基本上,CPU使用率为400%,使用了4个CPU,其余12个CPU仍未使用。我也如何利用它们。如果可行,也可以使用Tensorflow代替Theano背景。

3
哈希向量化器和tfidf向量化器有什么区别
我正在将文本文档的语料库转换为每个文档的单词向量。我已经尝试过使用TfidfVectorizer和HashingVectorizer 我了解a 不像a 那样HashingVectorizer考虑IDF分数TfidfVectorizer。我仍然使用a的原因HashingVectorizer是它在处理庞大数据集时具有的灵活性,如此处和此处所述。(我的原始数据集有3000万个文档) 目前,我正在处理45339个文档的样本,因此,我TfidfVectorizer也可以使用。当我在相同的45339文档上使用这两个矢量化器时,得到的矩阵是不同的。 hashing = HashingVectorizer() with LSM('corpus.db')) as corpus: hashing_matrix = hashing.fit_transform(corpus) print(hashing_matrix.shape) 哈希矩阵形状(45339,1048576) tfidf = TfidfVectorizer() with LSM('corpus.db')) as corpus: tfidf_matrix = tfidf.fit_transform(corpus) print(tfidf_matrix.shape) tfidf矩阵形状(45339,663307) 我想更好地理解a HashingVectorizer和a 之间的区别TfidfVectorizer,以及这些矩阵大小不同的原因-尤其是单词/术语的数量。

3
神经网络-损耗和精度相关
我对神经网络中的“损失”和“准确性”指标并存感到困惑。双方都应该呈现的比较“精确” ÿyy和Ÿ,不是吗?那么这两个冗余在训练时期中的应用不是吗?而且,为什么它们不相关?ÿ^y^\hat{y}

3
TensorFlow是一个完整的机器学习库吗?
我是TensorFlow的新手,在使用它之前,我需要了解TensorFlow的功能和缺点。我知道这是一个深度学习框架,但除了我们可以在张量流中使用的其他机器学习算法之外。例如我们可以使用TensorFlow使用SVM还是随机森林?(我知道这听起来很疯狂) 简而言之,我想知道TensorFlow支持哪些机器学习算法。仅仅是深度学习还是更多?

2
关于卷积网络偏差的问题
我试图找出CNN需要多少权重和偏见。 假设我有一个(3,32,32)图像,并想应用(32,5,5)滤镜。对于每个功能图,我有5x5的权重,所以我应该有3 x(5x5)x 32的参数。现在,我需要添加偏见。我相信我只有(3 x(5x5)+ 1)x 32个参数,因此所有颜色(RGB)的偏差都一样吗? 它是否正确?当我使用不同的权重时,是否在每个图像的深度(在本例中为3)上保持相同的偏差?这是为什么?

4
哪个第一:算法基准测试,特征选择,参数调整?
当尝试进行分类时,我目前的方法是 首先尝试各种算法并对它们进行基准测试 根据上述1中的最佳算法执行特征选择 使用所选功能和算法调整参数 但是,如果其他算法已使用最佳参数/最适合的功能进行了优化,则我通常无法使自己相信,可能有比所选算法更好的算法。同时,对所有算法*参数*功能进行搜索非常耗时。 关于正确的方法/顺序有什么建议吗?

3
回归树可以连续预测吗?
假设我有一个平滑函数,如。我有一个训练集d ⊊ { ((X ,Y ^ ),˚F (X ,Y ^ ))| (X ,Y ^ )∈ [R 2 },当然,我不知道˚F虽然我可以评估˚F地方我想要的。F(x ,y)= x2+ y2f(x,y)=x2+y2f(x, y) = x^2+y^2D⊊{((x,y),f(x,y))|(x,y)∈R2}D⊊{((x,y),f(x,y))|(x,y)∈R2}D \subsetneq \{((x, y), f(x,y)) | (x,y) \in \mathbb{R}^2\}ffffff 回归树是否能够找到函数的平滑模型(因此,输入中的微小变化只应该导致输出中的微小变化)? 根据我在第10课:回归树中所读的内容,在我看来,回归树基本上将函数值放入了bin中: 对于经典回归树,每个像元中的模型只是Y的恒定估计值。 当他们写“经典”时,我猜有一个变体,其中的细胞做一些更有趣的事情?

2
如何在Pyspark中将分类数据转换为数值数据
我正在使用Ipython Notebook与pyspark应用程序一起使用。我有一个包含大量分类列的CSV文件,以确定收入是否低于或超过50k。我想使用所有输入来执行分类算法,以确定收入范围。我需要建立一个将变量映射到变量的字典,并使用map函数将变量映射到数字以进行处理。本质上,我会将数据集设置为数字格式,以便我可以实施模型。 在数据集中,有分类列,例如教育,婚姻状况,工人阶级等。有人可以告诉我如何将它们转换为pyspark中的数字列吗? workclass = {'?':0,'Federal-gov':1,'Local-gov':2,'Never- worked':3,'Private':4,'Self-emp-inc':5,'Self-emp-not-inc':6,'State-gov':7,'Without-pay':8} 我创建了一个示例字典,其中包含工作类的键值对。但是,我不知道如何在地图功能中使用此功能,并将CSV文件中的分类数据替换为相应的值。 wc = pd.read_csv('PATH', usecols = ['Workclass']) df = pd.DataFrame(wc) wcdict = {' ?':0,' Federal-gov':1,' Local-gov':2,' Never-worked':3,' Private':4,' Self-emp-inc':5,' Self-emp-n-inc':6,' State-gov':7,' Without-pay':8} df_new = df.applymap(lambda s: wcdict.get(s) if s in wcdict else s) print(df_new) 这是我用普通的python编写的代码,用于将分类数据转换为数值数据。它工作正常。我想在Spark上下文中进行转换。并且,数据源中有9个类别列。有没有一种方法可以自动执行字典更新过程,以使所有9列都有一个KV对?

2
特征缩放的后果
我目前正在使用SVM,并将训练功能扩展到[0,1]的范围。我首先调整/变换训练集,然后将相同的变换应用于测试集。例如: ### Configure transformation and apply to training set min_max_scaler = MinMaxScaler(feature_range=(0, 1)) X_train = min_max_scaler.fit_transform(X_train) ### Perform transformation on testing set X_test = min_max_scaler.transform(X_test) 假设训练集中的给定特征的范围为[0,100],而测试集中的相同特征的范围为[-10,120]。在训练集中,该特征将被适当地缩放为[0,1],而在测试集中,该特征将被缩放到最初指定的范围之外的范围,例如[-0.1,1.2]。 我想知道测试集功能超出用于训练模型的功能范围会带来什么后果?这有问题吗?

3
KS,AUROC和Gini之间的关系
诸如Kolmogorov–Smirnov检验(KS),AUROC和Gini系数之类的通用模型验证统计信息在功能上均相关。但是,我的问题与证明它们之间的关系有关。我很好奇是否有人可以帮助我证明这些关系。我无法在网上找到任何东西,但是我真的很感兴趣证明如何工作。例如,我知道Gini = 2AUROC-1,但是我最好的证明是指向图形。我对正式证明很感兴趣。任何帮助将不胜感激!

3
在多党系统中使用什么回归来计算选举结果?
我想对议会选举的结果作出预测。我的输出将是每一方收到的百分比。有超过2个参与方,因此逻辑回归不是可行的选择。我可以为每个参与方进行单独的回归,但在那种情况下,结果将在某种程度上彼此独立。它不能确保结果的总和为100%。 我应该使用哪种回归(或其他方法)?是否可以通过特定的库在R或Python中使用此方法?

4
在文本处理中使用群集
嗨,这是我在数据科学堆栈中的第一个问题。我想创建一种文本分类算法。假设我有大量的文字和文章。可以说大约5000篇纯文本。我首先使用一个简单的函数来确定所有四个及以上字符词的频率。然后,我将其用作每个训练样本的功能。现在,我希望我的算法能够根据训练集的特征对训练集进行聚类,这是文章中每个单词的出现频率。(请注意,在此示例中,每篇文章将具有其自己的独特功能,因为每篇文章具有不同的功能,例如,一篇文章有​​10个“水”和23个“纯”,另一个则有8个“政治”和14个“杠杆”)。您能否为该示例建议最佳的聚类算法?

2
记下实验运行和结果
我是一名研究人员,我喜欢测试可行的解决方案,因此我倾向于进行大量实验。例如,如果我要计算文档之间的相似度得分,则可能要尝试许多措施。实际上,对于每种度量,我可能需要运行几次以测试某些参数的效果。 到目前为止,我一直在跟踪运行输入及其结果,方法是将结果写到文件中,其中包含有关输入的尽可能多的信息。问题是,即使我尝试将输入信息添加到文件名中,检索特定结果有时也成为挑战。我尝试使用包含结果链接的电子表格,但这并没有太大的不同。 您使用什么工具/过程来记录实验?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.