数据科学

数据科学专业人员,机器学习专家以及有兴趣了解该领域的人员的问答

3
基于单词和基于字符的文本生成RNN有什么区别?
在阅读有关使用递归神经网络生成文本的信息时,我注意到一些示例被实现为逐个单词地生成文本,而另一些字符则逐个字符地生成,而没有实际说明原因。 那么,是什么,预测文本RNN模型之间的区别每个字的基础,并且预测文本的那些每个字符的基础?基于单词的RNN是否需要更大的语料库大小?基于char的RNN泛化效果更好吗?也许唯一的区别是输入表示形式(单热编码,单词嵌入)?选择哪种文本生成方式?

3
受限玻尔兹曼机(RBM)背后的直觉
我在Coursera上完成了Geoff Hinton的神经网络课程,并通过介绍受限的Botzmann机器进行了学习,但我仍然不理解RBM背后的直觉。 为什么我们需要在这台机器上计算能量?在这台机器中,概率有什么用?我也看了这段视频。在视频中,他只是在计算步骤之前就写了概率和能量方程,而且似乎没有在任何地方使用它。 除此之外,我不确定似然函数的作用是什么?

4
R:GPU上的机器学习
是否有用于R的任何机器学习包都可以利用GPU来提高训练速度(类似于python世界中的theano)? 我看到有一个名为gputools的程序包,它允许在gpu上执行代码,但我正在寻找一个更完整的库用于机器学习。


4
使用Scala的数据科学工具
我知道Spark已与Scala完全集成。它的用例专门用于大型数据集。其他哪些工具具有良好的Scala支持?Scala是否最适合大型数据集?还是也适合较小的数据集?

4
如何指定重要属性?
假设一组由许多数据源组成的结构松散的数据(例如Web表/链接的打开数据)。数据后面没有通用的模式,每个数据源都可以使用同义词属性来描述值(例如“国籍”与“ bornIn”)。 我的目标是找到一些“重要”属性,以某种方式“定义”它们描述的实体。因此,当我为这样的属性找到相同的值时,我将知道这两个描述很可能是关于同一实体(例如同一个人)的。 例如,属性“ lastName”比属性“国籍”更具区分性。 我怎样才能(统计地)找到比其他更重要的属性? 一个简单的解决方案是获取每个属性值的平均IDF,并将其作为属性的“重要性”因素。一种类似的方法是计算每个属性出现多少个不同的值。 我已经在机器学习中看到了术语“特征”或“属性选择”,但是我不想丢弃其余的属性,我只是想给最重要的属性赋予更高的权重。


2
滑动窗是否导致LSTM过度装配?
如果我通过滑动窗口方法训练LSTM,我会过拟合吗?为什么人们似乎并没有使用它LSTMs? 为了简化示例,假设我们必须预测字符序列: A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 如果我继续用以下迷你批次训练LSTM是不好的(还是更好的?): A B C D E F G H I J K L M N, backprop, erase the cell B C D …

3
为什么我们将偏斜的数据转换为正态分布
我正在针对Kaggle(人类模拟的房价内核:高级回归技术)上的房价竞争解决方案,遇到了以下部分: # Transform the skewed numeric features by taking log(feature + 1). # This will make the features more normal. from scipy.stats import skew skewed = train_df_munged[numeric_features].apply(lambda x: skew(x.dropna().astype(float))) skewed = skewed[skewed > 0.75] skewed = skewed.index train_df_munged[skewed] = np.log1p(train_df_munged[skewed]) test_df_munged[skewed] = np.log1p(test_df_munged[skewed]) 我不确定将偏斜的分布转换为正态分布的需求。请有人可以详细解释一下: 为什么在这里这样做?或这有什么帮助? 这与功能扩展有何不同? 这是功能设计的必要步骤吗?如果我跳过此步骤,可能会发生什么?

4
两个词之间的相似性
我正在寻找一个Python库,该库可以帮助我识别两个单词或句子之间的相似性。 我将进行音频到文本的转换,这将导致英语词典或非词典单词(这可能是个人或公司名称)。此后,我需要将其与已知单词进行比较。 例: 1)文本到音频结果:感谢您致电America Expansion, 将其与American Express进行比较。 两个句子在某种程度上相似但不相同。 看来我可能需要研究他们共享多少个字符。任何想法都会很棒。看起来像Google搜索的“您是不是要”功能。
15 nlp  nltk 

1
删除给定文本中某个字符后的字符串
我有一个像下面这样的数据集。我想删除字符©之后的所有字符。如何在R中做到这一点? data_clean_phrase <- c("Copyright © The Society of Geomagnetism and Earth", "© 2013 Chinese National Committee ") data_clean_df <- as.data.frame(data_clean_phrase)
15 r  data-cleaning 

2
为什么激活函数必须是单调的?
我目前正在准备有关神经网络的考试。在以前考试的一些协议中,我读到(多层感知器中)神经元的激活功能必须是单调的。 我知道激活函数应该是可微的,在大多数点上具有不为0的导数,并且是非线性的。我不明白为什么单调很重要/有帮助。 我知道以下激活函数,它们是单调的: ReLU 乙状结肠 h Softmax:我不确定单调性的定义是否适用于函数F:Rñ→ R米F:[Rñ→[R米f: \mathbb{R}^n \rightarrow \mathbb{R}^m,Ñ ,米> 1ñ,米>1个n, m > 1 软加 (身份) 但是,我仍然看不到为什么φ (x )= x2φ(X)=X2\varphi(x) = x^2任何原因。 为什么激活函数必须是单调的? (相关的侧面问题:对数/指数函数不用作激活函数有任何原因吗?)

5
开源数据科学项目做出贡献
对开源项目的贡献通常是一种很好的方式,可以让新手有所实践,并为经验丰富的数据科学家和分析人员尝试一个新领域。 您贡献哪些项目?请在Github上提供一些介绍+链接。

2
Mahout中基于项目和基于用户的推荐差异
我想知道mahout基于用户的推荐与基于项目的推荐之间到底有何不同。 它定义了 基于用户:通过查找相似用户来推荐项目。由于用户的动态特性,这通常很难扩展。 基于项目:计算项目之间的相似度并提出建议。项目通常不会有太大变化,因此通常可以离线进行计算。 但是,尽管有两种建议可用,但据我了解,这两种建议都将采用某种数据模型(例如1,2或1,2,.5作为item1,item2,value或user1,user2,value,其中value不是必选),并将所有计算作为我们选择的相似性度量和推荐器内置函数,并且我们可以在同一数据上运行基于用户/项目的推荐(这是正确的假设??)。 因此,我想知道这两种算法在各个方面到底有何不同。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.