数据科学

数据科学专业人员,机器学习专家以及有兴趣了解该领域的人员的问答

3
对Word2Vec更好的输入是什么?
这更像是一般的NLP问题。训练单词嵌入即Word2Vec的适当输入是什么?属于文章的所有句子是否应该是语料库中的单独文档?还是每个文章都应该是所述语料库中的文档?这只是使用python和gensim的示例。 语料库按句子拆分: SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."], ["second", "sentence", "of", "the", "first", "article."], ["first", "sentence", "of", "the", "second", "article."], ["second", "sentence", "of", "the", "second", "article."]] 语料库按文章划分: ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.", "second", "sentence", "of", "the", "first", "article."], ["first", "sentence", "of", "the", "second", "article.", "second", …



3
您如何在工作中管理期望?
围绕数据科学,机器学习以及所有成功案例的喧嚣声中,数据科学家及其预测模型的期望既合理又夸张。 我对实践统计学家,机器学习专家和数据科学家的问题是-您如何管理公司内商人的期望,尤其是在模型的预测准确性方面?简单地说,如果您的最佳模型只能达到90%的准确度,而高层管理人员期望的准确率不低于99%,那么您将如何处理此类情况?

2
如何应对季节性或其他模式变化的时间序列?
背景 我正在研究电度表读数的时间序列数据集。系列的长度因米而异-有的我有几年,有的则只有几个月,等等。许多都表现出明显的季节性,并且通常是多层的-在一天,一周或一年之内。 我一直在努力的事情之一就是这些时间序列的聚类。目前,我的工作是学术性的,在我也对数据进行其他分析时,我有一个特定的目标来进行一些聚类。 我做了一些初步工作,计算了各种功能(周末与工作日使用的百分比,不同时间段使用的百分比,等等)。然后,我继续着眼于使用动态时间规整(DTW)获得不同序列之间的距离,以及基于差值进行聚类,并且发现了与此相关的几篇论文。 题 特定系列的季节性变化会导致我的聚类不正确吗?如果是这样,我该如何处理? 我担心的是,在时间序列中的模式已更改的情况下,DTW获得的距离可能会产生误导。这可能导致不正确的群集。 如果以上不清楚,请考虑以下示例: 例子1 仪表从午夜到晚上8点具有较低的读数,然后读数在接下来的一个小时内急剧增加,从上午9点直到5PM保持较高的读数,然后在接下来的一个小时内急剧下降,然后从6PM直到午夜保持较低的读数。仪表连续数月每天都保持这种模式,但随后变为一天中读数始终保持在恒定水平的模式。 例子2 仪表显示每个月消耗的能量大致相同。几年后,它变成一种模式,在夏季,能源使用量较高,然后恢复到正常水平。 可能的方向 我想知道是否可以继续比较整个时间序列,但是如果模式发生很大变化,可以将它们分开并考虑为一个单独的序列。但是,为此,我需要能够检测到此类更改。另外,我只是不知道这是合适的方法还是处理数据。 我还考虑过拆分数据并将其视为许多单独的时间序列。例如,我可以将每天/米的组合视为一个单独的系列。但是,如果我想考虑每周/每月/每年的模式,则需要做类似的事情。我认为这行得通,但可能会很繁重,如果我找不到更好的方法,我不愿意走这条路。 进一步说明 这些是评论中出现的事情,或者由于评论而我想到的事情,这可能是相关的。我把它们放在这里,这样人们就不必阅读所有内容来获取相关信息。 我正在使用Python工作,但是在R更适合的地方使用了rpy。不过,我不一定要寻找Python答案-如果有人对应该做什么有实际的答案,我很乐意自己找出实现细节。 我有很多工作的“草稿”代码-我已经完成了一些DTW运行,已经完成了几种不同类型的集群,等等。我想我在很大程度上理解了我的发展方向以及我的目标。我真正寻找的是与我在查找距离,运行聚类等之前处理数据的方式有关。鉴于此,我怀疑答案是相同的,无论是通过DTW还是通过更简单的欧氏距离(ED)计算序列之间的距离。 我发现这些论文特别有助于您了解时间序列和DTW,如果需要主题领域的某些背景知识,它们可能会有所帮助:http : //www.cs.ucr.edu/~eamonn/selected_publications.htm


2
如何为PASCAL VOC挑战计算检测任务的mAP?
如何为Pascal VOC排行榜的检测任务计算mAP(平均平均精度)?http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challengeid=11&compid=4 那里说-在第11页:http : //homepages.inf.ed.ac.uk/ckiw/postscript/ijcv_voc09.pdf 平均精度(AP)。对于VOC2007挑战,使用插值平均精度(Salton和Mcgill 1986)来评估分类和检测。对于给定的任务和类别,从方法的排序输出中计算出精度/召回曲线。召回率定义为排名高于给定等级的所有阳性示例的比例。精确度是高于该等级的所有示例中来自肯定类别的比例。AP汇总了精度/召回曲线的形状,并定义为一组11个等距召回级别[0,0.1,...,1]的平均精度: AP = 1/11 ∑ r∈{0,0.1,...,1} pinterp(r) 通过采用针对相应召回率超过r:的方法测得的最大精度来内插每个召回级别r的精度pinterp(r) = max p(r˜),其中p(r〜)是在召回〜r时测得的精度 有关地图:http://0agr.ru/wiki/index.php/Precision_and_Recall#Average_Precision 这是否意味着: 我们计算精度和召回率: A)对于许多不同的值,IoU > {0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1}我们计算真/假正/负值 其中True positive = Number_of_detection with IoU > {0, 0.1,..., 1},这里说:/datascience//a/16813/37736然后我们计算: Precision = True positive / (True positive …

2
如何对熊猫中按两列分组的值求和
我有一个这样的Pandas DataFrame: df = pd.DataFrame({ 'Date': ['2017-1-1', '2017-1-1', '2017-1-2', '2017-1-2', '2017-1-3'], 'Groups': ['one', 'one', 'one', 'two', 'two'], 'data': range(1, 6)}) Date Groups data 0 2017-1-1 one 1 1 2017-1-1 one 2 2 2017-1-2 one 3 3 2017-1-2 two 4 4 2017-1-3 two 5 我如何生成这样的新DataFrame: Date one two 0 2017-1-1 3 …

3
在PySpark中逐行合并多个数据帧
我有10个数据帧pyspark.sql.dataframe.DataFrame,从获得randomSplit如(td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)现在我想参加9 td的到一个单一的数据帧,我应该怎么办呢? 我已经尝试过使用unionAll,但是此函数仅接受两个参数。 td1_2 = td1.unionAll(td2) # this is working fine td1_2_3 = td1.unionAll(td2, td3) # error TypeError: unionAll() takes exactly 2 arguments (3 given) 有什么办法可以按行组合两个以上的数据帧? 这样做的目的是在不使用PySpark …



3
如何使用Gensim加载FastText预训练模型?
我试图从这里的Fasttext模型加载fastText预训练模型。我正在使用wiki.simple.en from gensim.models.keyedvectors import KeyedVectors word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) 但是,它显示以下错误 Traceback (most recent call last): File "nltk_check.py", line 28, in <module> word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) File "P:\major_project\venv\lib\sitepackages\gensim\models\keyedvectors.py",line 206, in load_word2vec_format header = utils.to_unicode(fin.readline(), encoding=encoding) File "P:\major_project\venv\lib\site-packages\gensim\utils.py", line 235, in any2unicode return unicode(text, encoding, errors=errors) UnicodeDecodeError: 'utf-8' codec can't decode byte …
21 nlp  gensim 

3
多重输出回归的神经网络
我有一个包含34个输入列和8个输出列的数据集。 解决问题的一种方法是采用34个输入并为每个输出列建立单独的回归模型。 我想知道是否可以仅使用一种模型(特别是使用神经网络)解决该问题。 我使用了多层感知器,但是它需要多个模型,就像线性回归一样。序列到序列可以可行吗? 我正在使用TensorFlow。我有代码,但我认为了解多层感知器理论所缺少的内容更为重要。 我了解在MLP中,如果您有一个输出节点,它将提供一个输出。如果您有10个输出节点,那么这是一个多类问题。您从10个输出中选择概率最高的类。但是在我的情况下,可以肯定的是,相同的输入将有8个输出。 可以说,对于一组输入,您将获得某物(X,Y,Z)的3D坐标。就像,输入= {1,10,5,7}输出= {1,2,1}。因此,对于相同的输入{1,10,5,7},我需要为X值Y值和Z建立模型。一种解决方案是使用MLP具有3个不同的模型。但是我想看看我是否可以有一个模型。所以我考虑使用seq2seq。因为编码器接受一系列输入,而解码器提供一系列输出。但是似乎张量流中的seq2seq无法处理浮点值。我对此可能是错的。


2
train_test_split()错误:发现输入变量的样本数不一致
对Python来说是相当新的东西,但是基于一些分类数据建立了我的第一个RF模型。我已经将所有标签转换为int64数字数据,并以numpy数组的形式加载到X和Y中,但是在尝试训练模型时遇到错误。 这是我的数组的样子: >>> X = np.array([[df.tran_cityname, df.tran_signupos, df.tran_signupchannel, df.tran_vmake, df.tran_vmodel, df.tran_vyear]]) >>> Y = np.array(df['completed_trip_status'].values.tolist()) >>> X array([[[ 1, 1, 2, 3, 1, 1, 1, 1, 1, 3, 1, 3, 1, 1, 1, 1, 2, 1, 3, 1, 3, 3, 2, 3, 3, 1, 1, 1, 1], [ 0, 5, …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.