数据科学

数据科学专业人员,机器学习专家以及有兴趣了解该领域的人员的问答


7
整理数据的流程
通过对R的数据科学的有限了解,我意识到清除不良数据是准备数据进行分析的非常重要的一部分。 在处理数据之前,是否有任何最佳做法或流程来清理数据?如果是这样,是否有任何实现这些最佳实践的自动化或半自动化工具?
34 r  data-cleaning 

5
打开一个20GB的文件用于熊猫分析
我当前正在尝试使用pandas和python打开文件以进行机器学习,这对我来说将它们全部放在DataFrame中是理想的选择。现在,该文件的大小为18GB,RAM为32GB,但是我一直遇到内存错误。 根据您的经验,可能吗?如果不是,您是否知道解决此问题的更好方法?(蜂巢表?将我的RAM的大小增加到64?创建数据库并从python访问它)

3
keras中的多GPU
如何在keras库(或tensorflow)中进行编程,以在多个GPU上划分训练?假设您位于具有8个GPU的Amazon ec2实例中,并且希望使用它们全部进行训练,但是您的代码仅适用于单个CPU或GPU。

4
噪声对比估计(NCE)损失的直观解释?
我从以下两个来源了解到NCE(一种候选抽样形式): Tensorflow写 原始纸 有人可以为我提供以下帮助: NCE的工作原理的简单说明(我发现上面的内容很难解析和理解,因此直观的方法可以很好地介绍此处的数学知识) 在上面的第1点之后,自然而然地描述了它与负采样有何不同。我可以看到公式略有变化,但无法理解数学。在以下情况下,我确实对否定采样有一个直观的了解word2vec-我们从词汇表中随机选择一些样本,V并仅对那些样本进行更新,因为它们|V|很大,因此可以加快速度。如果有误,请更正。 何时使用哪一个,如何决定?如果您可以包括示例(可能易于理解的应用程序),那就太好了。 NCE比负采样好吗?哪种方式更好? 谢谢。

5
Apache Spark和Hadoop的用例是什么
借助Hadoop 2.0和YARN,据说Hadoop不再仅局限于map-reduce解决方案。有了这一进步,考虑到两者都位于HDFS之上,Apache Spark与Hadoop有哪些用例?我已经阅读了Spark的介绍文档,但很好奇是否有人遇到了比Hadoop更高效,更容易解决的问题。

1
论文:层归一化,循环批归一化(2016)和批归一化RNN(2015)有什么区别?
因此,最近有一层“ 图层归一化”文章。Keras 上也有一个实现。 但我记得有几篇论文标题为Recurrent Batch Normalization(Cooijmans,2016)和Batch Normalized Recurrent Neural Networks(Laurent,2015)。这三个之间有什么区别? 我不了解此“相关工作”部分: 批处理规范化先前已扩展到递归神经网络[Laurent等,2015,Amodei等,2015,Cooijmans等,2016]。先前的工作[Cooijmans等,2016]提出,通过为每个时间步保留独立的标准化统计数据,可以获得最佳的循环批标准化性能。作者表明,将循环批归一化层中的增益参数初始化为0.1,会对模型的最终性能产生重大影响。我们的工作还与体重归一化有关[Salimans和Kingma,2016]。在权重归一化中,使用输入权重的L2范数代替方差来归一化对神经元的求和输入。使用预期统计量应用权重归一化或批次归一化等效于对原始前馈神经网络进行不同的参数化。在路径归一化的SGD中研究了ReLU网络中的重新参数化[Neyshabur et al。,2015]。但是,我们提出的层归一化方法不是对原始神经网络进行重新参数化。因此,层归一化模型具有与其他方法不同的不变性,我们将在下一节中研究

1
什么是用于多类分类的最佳Keras模型?
我正在研究,如果需求三个赛事冠军的分类一个=( ,win,)drawlose WINNER LEAGUE HOME AWAY MATCH_HOME MATCH_DRAW MATCH_AWAY MATCH_U2_50 MATCH_O2_50 3 13 550 571 1.86 3.34 4.23 1.66 2.11 3 7 322 334 7.55 4.1 1.4 2.17 1.61 我当前的模型是: def build_model(input_dim, output_classes): model = Sequential() model.add(Dense(input_dim=input_dim, output_dim=12, activation=relu)) model.add(Dropout(0.5)) model.add(Dense(output_dim=output_classes, activation='softmax')) model.compile(loss='categorical_crossentropy', optimizer='adadelta') return model 我不确定这是否适用于多类别分类 二进制分类的最佳设置是什么? 编辑:#2-那样吗? model.add(Dense(input_dim=input_dim, …

5
深度学习与梯度提升:什么时候使用?
我有一个大数据集的大数据问题(例如,有5000万行和200列)。该数据集由大约100个数字列和100个分类列以及代表二进制类问题的响应列组成。每个分类列的基数小于50。 我想先验地知道我应该选择深度学习方法还是基于集成树的方法(例如,梯度增强,adaboost或随机森林)。是否有一些探索性的数据分析或其他一些技术可以帮助我确定一种方法而不是另一种方法?

5
强化学习中的Q函数和V函数是什么?
在我看来,函数可以轻松地由函数表示,因此函数对我来说似乎是多余的。但是,我是强化学习的新手,所以我想我做错了。VVVQQQVVV 定义 Q学习和V学习是在马尔可夫决策过程的背景下进行的。甲MDP是一个5元组与(S,A,P,R,γ)(S,A,P,R,γ)(S, A, P, R, \gamma) SSS是一组状态(通常是有限的) AAA是一组动作(通常是有限的) P(s,s′,a)=P(st+1=s′|st=s,at=a)P(s,s′,a)=P(st+1=s′|st=s,at=a)P(s, s', a) = P(s_{t+1} = s' | s_t = s, a_t = a)是通过动作从状态到状态的概率。ssss′s′s'aaa R(s,s′,a)∈RR(s,s′,a)∈RR(s, s', a) \in \mathbb{R}中的是通过动作从状态到状态后的立即奖励。(在我看来,通常只有重要)。ssss′s′s'aaas′s′s' γ∈[0,1]γ∈[0,1]\gamma \in [0, 1]被称为折扣因子,它确定是关注即时奖励(),总奖励()还是某种权衡。γ=0γ=0\gamma = 0γ=1γ=1\gamma = 1 一个政策ππ\pi,根据强化学习:简介由萨顿和巴托是一个功能(这可能是概率)。π:S→Aπ:S→A\pi: S \rightarrow A 根据Mario Martins的幻灯片,函数为 ,并且Q函数为 VVVVπ(s)=Eπ{Rt|st=s}=Eπ{∑k=0∞γkrt+k+1|st=s}Vπ(s)=Eπ{Rt|st=s}=Eπ{∑k=0∞γkrt+k+1|st=s}V^\pi(s) = E_\pi \{R_t | s_t = …

3
在softmax分类器中,为什么要使用exp函数进行归一化?
为什么使用softmax而不是标准归一化?在此问题的最高答案的评论区域中,@ Kilian Batzner提出了2个问题,这也使我非常困惑。除数值上的好处外,似乎没有人给出任何解释。 我有使用交叉熵损失的原因,但这与softmax有什么关系?您说过“ softmax函数可以看作是试图最小化预测和真实之间的交叉熵”。假设我将使用标准/线性归一化,但仍将使用交叉熵损失。然后,我还将尝试最小化交叉熵。那么,除了数值收益外,softmax如何与交叉熵联系起来? 至于概率观点:查看对数概率的动机是什么?推理似乎有点像“我们在softmax中使用e ^ x,因为我们将x解释为对数概率”。出于同样的理由,我们可以在softmax中使用e ^ e ^ e ^ x,因为我们将x解释为log-log-log-概率(当然,这里夸大了)。我得到了softmax的数值好处,但是使用它的理论动机是什么?

7
为什么应重新整理数据以进行机器学习任务
在机器学习任务中,通常将数据混洗并规范化。标准化的目的很明确(具有相同范围的特征值)。但是,经过很多努力之后,我没有发现任何改组数据的有价值的原因。 我在这里阅读了这篇文章,讨论了何时需要重新整理数据,但是不清楚为什么我们应该重新整理数据。此外,我经常在诸如Adam或SGD之类的算法中看到我们需要批量梯度下降(应将数据分离为小批量,并且必须指定批量大小)。根据这篇文章,至关重要的是将每个时期的数据混排以使每个批次具有不同的数据。因此,也许数据被改组并且更重要地被更改。 我们为什么要做这个?

5
将列表列表转换为Pandas Dataframe
我正在尝试将如下所示的列表列表转换为Pandas Dataframe [['New York Yankees ', '"Acevedo Juan" ', 900000, ' Pitcher\n'], ['New York Yankees ', '"Anderson Jason"', 300000, ' Pitcher\n'], ['New York Yankees ', '"Clemens Roger" ', 10100000, ' Pitcher\n'], ['New York Yankees ', '"Contreras Jose"', 5500000, ' Pitcher\n']] 我基本上是试图将数组中的每个项目转换为具有四列的pandas数据框。最好的方法是pd.Dataframe并不能完全满足我的需求。
30 pandas 

1
为什么xgboost比sklearn GradientBoostingClassifier快得多?
我正在尝试通过50个具有100个数字特征的示例训练一个梯度提升模型。XGBClassifier我的机器43秒内把手500棵树,而GradientBoostingClassifier只处理10棵(!)以1分2秒:(我没有理会试图种植500棵树,因为它会需要几个小时。我使用的是相同的learning_rate,并max_depth设置, 见下文。 是什么使XGBoost如此之快?它是否使用了sklearn家伙不知道的用于梯度增强的新颖实现方式?还是“偷工减料”并种植浅树? ps我知道这个讨论:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-survey,但是那里找不到答案... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.