数据科学

7

我想用大量的训练数据来训练一个深度模型，但是我的台式机没有能力用这些丰富的数据来训练这样的深度模型。我想知道是否有任何免费的云服务可用于训练机器学习和深度学习模型？我还想知道是否有云服务，在哪里可以跟踪培训结果，即使我没有连接到云，培训也将继续。

27 machine-learning neural-network deep-learning cloud-computing

3

如何在线性回归中强制权重为非负数

我在python中使用scikit-learn使用标准线性回归。但是，我想强制每个功能的权重全部为正（而不是负），有什么办法可以实现？我正在查看文档，但找不到实现此目的的方法。我知道我可能无法获得最佳解决方案，但我需要权衡不可为负。

27 python scikit-learn linear-regression

3

从句子中提取关键文本的一般方法（nlp）

给定一个像这样的句子： Complimentary gym access for two for the length of stay ($12 value per person per day) 我可以采用什么一般方法来识别“健身房”或“健身房通道”一词？

27 machine-learning nlp text-mining data-cleaning

1

PyTorch vs.Tensorflow折叠

既PyTorch和Tensorflow折是指处理，其中输入数据具有非均匀的长度或尺寸的情况下（即，在动态图都是有用的或需要的情况下）深学习框架。我想知道它们之间的比较，从它们所依赖的范式（例如动态批处理）及其含义的角度来看，它们之间不能/不能实现的事情，弱点/优点等。我打算使用此信息选择其中一个以开始探索动态计算图，但是我没有特定的任务在想。注1：像其他的动态计算图形框架DyNet或Chainer也欢迎比较，但我想专注于PyTorch和Tensorflow折，因为我认为他们是/将是最常用的。注意2：我在PyTorch上发现了这个hackernews线程，其中包含一些稀疏信息，但数量不多。注意3：另一个与Tensorflow Fold 有关的hackernews线程，包含一些有关它们如何比较的信息。注意4：相关的Reddit线程。注5：Tensorflow Fold的github中的相关bug指出了一个重要限制：评估期间无法进行条件分支。注释6：在pytorch论坛上讨论有关所使用算法（例如动态批处理）的可变长度输入。

26 python deep-learning tensorflow pytorch

1

Keras如何计算准确性？

Keras如何从类别概率计算准确性？假设，例如，测试集中有100个样本，它们可以属于两个类别之一。我们也有一个类概率列表。Keras使用什么阈值将样本分配给两个类别中的任何一个？

26 neural-network deep-learning keras

4

有关数据科学中“科学”的书籍？[关闭]

已关闭。这个问题需要更加集中。它当前不接受答案。想改善这个问题吗？更新问题，使其仅通过编辑此帖子来关注一个问题。 5年前关闭。关于数据科学背后的科学和数学的书籍是什么？感觉像是很多“数据科学”书籍都是编程教程，没有涉及数据生成过程和统计推断之类的事情。我已经可以编写代码了，我的弱项是我正在做的事情背后的数学/统计/理论。如果我准备在书本上烧掉1000美元（那么大约10本书...叹气），那我可以买什么？示例：Agresti的分类数据分析，纵向数据的线性混合模型等...等等...

26 statistics reference-request

7

公开可用的社交网络数据集/ API

作为我们的大量公共可用数据集的扩展，我想知道是否有任何公共可用社交网络数据集/爬网API列表。如果在链接到数据集/ API的同时添加可用数据的特征，那将非常好。此类信息应为但不限于：社交网络的名称；它提供什么样的用户信息（帖子，个人资料，友谊网络等）；是否允许通过API对其内容进行爬网（速率：10 / min，1k / month，...）；是否仅提供整个数据集的快照。非常欢迎您提出任何建议和其他特征。

26 open-source dataset crawling

7

机器学习能否学习诸如从列表中查找最大值之类的功能？

我有一个输入，它是一个列表，输出是输入列表中元素的最大值。机器学习是否可以学习始终选择输入中存在的最大输入元素的功能？这似乎是一个非常基本的问题，但它可能使我对机器学习通常可以做什么有所了解。谢谢！

26 machine-learning deep-learning

7

如何在另一台机器上克隆Python工作环境？

我在工作站上使用Python（Anaconda + Flask）开发了机器学习模型，一切顺利。后来，我尝试将该程序发送到另一台计算机上，当然我尝试在该计算机上设置相同的环境，但是该程序无法运行。我将该程序复制到了其他计算机上，该计算机也可以平稳运行。我无法弄清楚失败情况下的问题是什么（程序代码和错误消息都很丰富，所以我无法在此处显示它们），但是我几乎可以肯定这是依赖版本不同的问题。因此，我的问题是，在某个程序可以正常运行的环境中，如何将其克隆到另一个程序也应该可以正常运行的环境？当然，无需克隆整个系统;）

26 python anaconda

5

如何设置神经网络中神经元和层的数量

我是神经网络的初学者，在掌握两个概念时遇到了麻烦：如何确定给定神经网络具有的中间层数？1比10或其他。如何确定每个中间层的神经元数量？是否建议每个中间层具有相等数量的神经元，或者它随应用程序而变化？

26 machine-learning neural-network deep-learning hyperparameter hyperparameter-tuning

2

如何设置batch_size，steps_per epoch和验证步骤

我开始使用Keras学习CNN。我正在使用theano后端。我不明白如何将值设置为： batch_size，每个时代的步骤，验证步骤。 batch_size如果我在训练集中有240,000个样本，在测试集中有80,000个，应将设置为，每个时期的步长和验证步骤的值是多少？

26 machine-learning keras cnn

6

机器学习技术，可根据用户喜欢的Facebook网站估算用户的年龄

我有一个来自Facebook应用程序的数据库，我正在尝试使用机器学习根据用户喜欢的Facebook网站估算其年龄。我的数据库具有三个关键特征：我的训练集中的年龄分布（总共12,000个用户）偏向年轻用户（即，我有1157个27岁的用户和23个65岁的用户）；许多站点的点赞者不超过5个（我过滤掉了少于5个点赞的FB站点）。功能比示例更多。因此，我的问题是：您建议采取什么策略准备数据以进行进一步分析？我应该执行某种降维吗？在这种情况下，哪种ML方法最合适？我主要使用Python，因此非常感谢Python特定的提示。

25 machine-learning dimensionality-reduction python

2

在Keras中合并两种不同的模型

我正在尝试将两个Keras模型合并为一个模型，但是我无法实现这一点。例如在附图中，我想获取尺寸为8 的中间层，并将其用作模型（再次为尺寸8的）层输入，然后将模型和模型合并为一个模型。B 1 B A BA2A2A2B1B1B1BBBAAABBB 我正在使用功能模块独立创建模型和模型如何完成这项任务？乙AAABBB 注意：是模型的输入层，而是模型的输入层。A B 1 BA1A1A1AAAB1B1B1B乙B

25 machine-learning python deep-learning keras tensorflow

2

LightGBM和XGBoost

我试图了解哪种更好（更准确，尤其是在分类问题中）我一直在搜索比较LightGBM和XGBoost的文章，但发现只有两个： https://medium.com/implodinggradients/benchmarking-lightgbm-how-fast-is-lightgbm-vs-xgboost-15d224568031这仅与速度有关，而与准确性无关。 https://github.com/Microsoft/LightGBM/wiki/Experiments来自LightGBM的作者，LightGBM在那里赢得胜利并不奇怪。在我的测试中，两种算法的AUC都差不多，但是LightGBM的运行速度快了2至5倍。如果LGBM太酷了，为什么在这里和Kaggle上我听不到这么多信息：)

25 xgboost

4

是否有直接运行pandas.DataFrame.isin的直接方法？

我有一个建模和评分程序，该程序大量使用了DataFrame.isin熊猫的功能，在数千个特定页面的每个页面中搜索单个用户的Facebook“喜欢”记录列表。这是程序中最耗时的部分，而不是建模或评分部分，这仅仅是因为它仅在一个内核上运行，而其余部分同时在几十个内核上运行。尽管我知道我可以手动将数据帧分解为多个块并并行运行该操作，但是有没有直接的自动方法？换句话说，是否有任何一种程序包可以识别我正在执行的一项容易委派的操作并自动分发它？也许这要求太多，但是过去我对Python中已有的功能感到惊讶，因此我认为值得提出。任何其他有关如何完成此操作的建议（即使不是通过某些神奇的独角兽程序包也是如此！）也将不胜感激。主要是，只是试图找到一种方法，以在每次运行中节省15至20分钟的时间，而无需花费等量的时间来编码解决方案。

25 performance python pandas parallel