数据科学

3

这更像是一般的NLP问题。训练单词嵌入即Word2Vec的适当输入是什么？属于文章的所有句子是否应该是语料库中的单独文档？还是每个文章都应该是所述语料库中的文档？这只是使用python和gensim的示例。语料库按句子拆分： SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."], ["second", "sentence", "of", "the", "first", "article."], ["first", "sentence", "of", "the", "second", "article."], ["second", "sentence", "of", "the", "second", "article."]] 语料库按文章划分： ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.", "second", "sentence", "of", "the", "first", "article."], ["first", "sentence", "of", "the", "second", "article.", "second", …

22 nlp word-embeddings

6

卷积神经网络为什么起作用？

我经常听到人们说，为什么对卷积神经网络仍然知之甚少。是否知道为什么卷积神经网络总是随着层级的增加而不断学习越来越复杂的功能？是什么导致它们创建了如此多的功能，这对于其他类型的深度神经网络也适用吗？

22 machine-learning neural-network deep-learning convnet cnn

6

深度学习基础

我正在寻找详细介绍深度学习基础知识的论文。理想情况下，像是吴恩达的深度学习课程。你知道我在哪里可以找到吗？

22 machine-learning deep-learning

3

您如何在工作中管理期望？

围绕数据科学，机器学习以及所有成功案例的喧嚣声中，数据科学家及其预测模型的期望既合理又夸张。我对实践统计学家，机器学习专家和数据科学家的问题是-您如何管理公司内商人的期望，尤其是在模型的预测准确性方面？简单地说，如果您的最佳模型只能达到90％的准确度，而高层管理人员期望的准确率不低于99％，那么您将如何处理此类情况？

22 performance accuracy

2

如何应对季节性或其他模式变化的时间序列？

背景我正在研究电度表读数的时间序列数据集。系列的长度因米而异-有的我有几年，有的则只有几个月，等等。许多都表现出明显的季节性，并且通常是多层的-在一天，一周或一年之内。我一直在努力的事情之一就是这些时间序列的聚类。目前，我的工作是学术性的，在我也对数据进行其他分析时，我有一个特定的目标来进行一些聚类。我做了一些初步工作，计算了各种功能（周末与工作日使用的百分比，不同时间段使用的百分比，等等）。然后，我继续着眼于使用动态时间规整（DTW）获得不同序列之间的距离，以及基于差值进行聚类，并且发现了与此相关的几篇论文。题特定系列的季节性变化会导致我的聚类不正确吗？如果是这样，我该如何处理？我担心的是，在时间序列中的模式已更改的情况下，DTW获得的距离可能会产生误导。这可能导致不正确的群集。如果以上不清楚，请考虑以下示例：例子1 仪表从午夜到晚上8点具有较低的读数，然后读数在接下来的一个小时内急剧增加，从上午9点直到5PM保持较高的读数，然后在接下来的一个小时内急剧下降，然后从6PM直到午夜保持较低的读数。仪表连续数月每天都保持这种模式，但随后变为一天中读数始终保持在恒定水平的模式。例子2 仪表显示每个月消耗的能量大致相同。几年后，它变成一种模式，在夏季，能源使用量较高，然后恢复到正常水平。可能的方向我想知道是否可以继续比较整个时间序列，但是如果模式发生很大变化，可以将它们分开并考虑为一个单独的序列。但是，为此，我需要能够检测到此类更改。另外，我只是不知道这是合适的方法还是处理数据。我还考虑过拆分数据并将其视为许多单独的时间序列。例如，我可以将每天/米的组合视为一个单独的系列。但是，如果我想考虑每周/每月/每年的模式，则需要做类似的事情。我认为这行得通，但可能会很繁重，如果我找不到更好的方法，我不愿意走这条路。进一步说明这些是评论中出现的事情，或者由于评论而我想到的事情，这可能是相关的。我把它们放在这里，这样人们就不必阅读所有内容来获取相关信息。我正在使用Python工作，但是在R更适合的地方使用了rpy。不过，我不一定要寻找Python答案-如果有人对应该做什么有实际的答案，我很乐意自己找出实现细节。我有很多工作的“草稿”代码-我已经完成了一些DTW运行，已经完成了几种不同类型的集群，等等。我想我在很大程度上理解了我的发展方向以及我的目标。我真正寻找的是与我在查找距离，运行聚类等之前处理数据的方式有关。鉴于此，我怀疑答案是相同的，无论是通过DTW还是通过更简单的欧氏距离（ED）计算序列之间的距离。我发现这些论文特别有助于您了解时间序列和DTW，如果需要主题领域的某些背景知识，它们可能会有所帮助：http : //www.cs.ucr.edu/~eamonn/selected_publications.htm

22 data-mining clustering time-series beginner

3

xgboost：更加重视最近的样本

在使用xgboost分析数据时，是否可以增加对较新点的重视程度？

22 xgboost weighted-data

2

如何为PASCAL VOC挑战计算检测任务的mAP？

如何为Pascal VOC排行榜的检测任务计算mAP（平均平均精度）？http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challengeid=11&compid=4 那里说-在第11页：http : //homepages.inf.ed.ac.uk/ckiw/postscript/ijcv_voc09.pdf 平均精度（AP）。对于VOC2007挑战，使用插值平均精度（Salton和Mcgill 1986）来评估分类和检测。对于给定的任务和类别，从方法的排序输出中计算出精度/召回曲线。召回率定义为排名高于给定等级的所有阳性示例的比例。精确度是高于该等级的所有示例中来自肯定类别的比例。AP汇总了精度/召回曲线的形状，并定义为一组11个等距召回级别[0,0.1，...，1]的平均精度： AP = 1/11 ∑ r∈{0,0.1,...,1} pinterp(r) 通过采用针对相应召回率超过r：的方法测得的最大精度来内插每个召回级别r的精度pinterp(r) = max p(r˜)，其中p（r〜）是在召回〜r时测得的精度有关地图：http://0agr.ru/wiki/index.php/Precision_and_Recall#Average_Precision 这是否意味着：我们计算精度和召回率： A）对于许多不同的值，IoU > {0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1}我们计算真/假正/负值其中True positive = Number_of_detection with IoU > {0, 0.1,..., 1}，这里说：/datascience//a/16813/37736然后我们计算： Precision = True positive / (True positive …

22 machine-learning neural-network svm computer-vision object-recognition

2

如何对熊猫中按两列分组的值求和

我有一个这样的Pandas DataFrame： df = pd.DataFrame({ 'Date': ['2017-1-1', '2017-1-1', '2017-1-2', '2017-1-2', '2017-1-3'], 'Groups': ['one', 'one', 'one', 'two', 'two'], 'data': range(1, 6)}) Date Groups data 0 2017-1-1 one 1 1 2017-1-1 one 2 2 2017-1-2 one 3 3 2017-1-2 two 4 4 2017-1-3 two 5 我如何生成这样的新DataFrame： Date one two 0 2017-1-1 3 …

21 python pandas dataframe

3

在PySpark中逐行合并多个数据帧

我有10个数据帧pyspark.sql.dataframe.DataFrame，从获得randomSplit如(td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)现在我想参加9 td的到一个单一的数据帧，我应该怎么办呢？我已经尝试过使用unionAll，但是此函数仅接受两个参数。 td1_2 = td1.unionAll(td2) # this is working fine td1_2_3 = td1.unionAll(td2, td3) # error TypeError: unionAll() takes exactly 2 arguments (3 given) 有什么办法可以按行组合两个以上的数据帧？这样做的目的是在不使用PySpark …

21 python apache-spark cross-validation pyspark

3

转换循环序数属性的好方法是什么？

我将“小时”字段作为属性，但是它具有循环值。我如何转换功能以保留诸如“ 23”和“ 0”小时之类的信息，距离不远。我认为的一种方法是进行转换： min(h, 23-h) Input: [0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23] Output: [0 1 2 3 4 5 6 7 8 9 10 11 11 10 9 8 7 6 …

21 feature-extraction feature-scaling featurization

1

有没有选择小批量大小的规则？

训练神经网络时，一个超参数是一个小批量的大小。常见的选择是每个小批量有32、64和128个元素。是否有任何规则/准则，小批量应该多大？是否有任何出版物调查了培训的影响？

21 neural-network deep-learning convnet optimization

3

如何使用Gensim加载FastText预训练模型？

我试图从这里的Fasttext模型加载fastText预训练模型。我正在使用wiki.simple.en from gensim.models.keyedvectors import KeyedVectors word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) 但是，它显示以下错误 Traceback (most recent call last): File "nltk_check.py", line 28, in <module> word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) File "P:\major_project\venv\lib\sitepackages\gensim\models\keyedvectors.py",line 206, in load_word2vec_format header = utils.to_unicode(fin.readline(), encoding=encoding) File "P:\major_project\venv\lib\site-packages\gensim\utils.py", line 235, in any2unicode return unicode(text, encoding, errors=errors) UnicodeDecodeError: 'utf-8' codec can't decode byte …

21 nlp gensim

3

多重输出回归的神经网络

我有一个包含34个输入列和8个输出列的数据集。解决问题的一种方法是采用34个输入并为每个输出列建立单独的回归模型。我想知道是否可以仅使用一种模型（特别是使用神经网络）解决该问题。我使用了多层感知器，但是它需要多个模型，就像线性回归一样。序列到序列可以可行吗？我正在使用TensorFlow。我有代码，但我认为了解多层感知器理论所缺少的内容更为重要。我了解在MLP中，如果您有一个输出节点，它将提供一个输出。如果您有10个输出节点，那么这是一个多类问题。您从10个输出中选择概率最高的类。但是在我的情况下，可以肯定的是，相同的输入将有8个输出。可以说，对于一组输入，您将获得某物（X，Y，Z）的3D坐标。就像，输入= {1,10,5,7}输出= {1,2,1}。因此，对于相同的输入{1,10,5,7}，我需要为X值Y值和Z建立模型。一种解决方案是使用MLP具有3个不同的模型。但是我想看看我是否可以有一个模型。所以我考虑使用seq2seq。因为编码器接受一系列输入，而解码器提供一系列输出。但是似乎张量流中的seq2seq无法处理浮点值。我对此可能是错的。

21 neural-network regression tensorflow

5

决策树算法是线性的还是非线性的

最近，我的一个朋友在采访中被问及决策树算法是线性算法还是非线性算法。我试图寻找该问题的答案，但找不到任何令人满意的解释。谁能回答并解释这个问题的解决方案？另外，非线性机器学习算法还有哪些其他示例？

21 machine-learning classification decision-trees algorithms pac-learning

2

train_test_split（）错误：发现输入变量的样本数不一致

对Python来说是相当新的东西，但是基于一些分类数据建立了我的第一个RF模型。我已经将所有标签转换为int64数字数据，并以numpy数组的形式加载到X和Y中，但是在尝试训练模型时遇到错误。这是我的数组的样子： >>> X = np.array([[df.tran_cityname, df.tran_signupos, df.tran_signupchannel, df.tran_vmake, df.tran_vmodel, df.tran_vyear]]) >>> Y = np.array(df['completed_trip_status'].values.tolist()) >>> X array([[[ 1, 1, 2, 3, 1, 1, 1, 1, 1, 3, 1, 3, 1, 1, 1, 1, 2, 1, 3, 1, 3, 3, 2, 3, 3, 1, 1, 1, 1], [ 0, 5, …

21 python scikit-learn sampling