数据科学

数据科学专业人员,机器学习专家以及有兴趣了解该领域的人员的问答



3
数据不平衡的Tensorflow调整成本函数
我有一个高度不平衡的数据分类问题。我已经读到,过高,过低的采样率以及更改代表性不足的分类输出的成本将导致更好的拟合度。在此之前,tensorflow会将每个输入归类为多数组(并获得超过90%的准确度,这是毫无意义的)。 我注意到,每个组的倒数百分比的对数已经成为我尝试过的最佳乘数。成本函数是否有更标准的操纵方式?是否正确实施? from collections import Counter counts = Counter(category_train) weightsArray =[] for i in range(n_classes): weightsArray.append(math.log(category_train.shape[0]/max(counts[i],1))+1) class_weight = tf.constant(weightsArray) weighted_logits = tf.mul(pred, class_weight) cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(weighted_logits, y)) optimizer = tf.train.AdamOptimizer(learning_rate=learning_rate).minimize(cost)

2
借助频谱图进行深度学习以进行声音识别
我正在研究使用频谱图对声音(例如动物的声音)进行分类的可能性。这个想法是使用深层卷积神经网络识别光谱图中的片段并输出一个(或多个)类标签。这不是一个新主意(例如,参见鲸鱼声音分类或音乐风格识别)。 我面临的问题是我有不同长度的声音文件,因此有不同大小的声谱图。到目前为止,我所见过的每种方法都使用固定大小的声音样本,但我不能这样做,因为我的声音文件可能长达10秒或2分钟。 例如,在开头有鸟声,在结尾有青蛙声(输出应为“ Bird,Frog”)。我当前的解决方案是向神经网络添加一个时间成分(创建更多的递归神经网络),但是我想暂时保持简单。有任何想法,链接,教程...吗?

3
如何动态区分类别数据和数字数据?
我知道有人正在从事一个项目,该项目涉及摄取数据文件而与列或数据类型无关。任务是获取具有任意数量的列和各种数据类型的文件,并输出有关数字数据的摘要统计信息。 但是,他不确定如何为某些基于数字的数据动态分配数据类型。例如: CITY Albuquerque Boston Chicago 这显然不是数字数据,将存储为文本。然而, ZIP 80221 60653 25525 没有明确标记为分类。他的软件会将邮政编码分配为数字,并为其输出摘要统计信息,这对于此类数据没有意义。 我们有几个想法是: 如果一列都是整数,则将其标记为分类。这显然行不通,但这是一个主意。 如果一列的唯一值少于n个且为数字,则将其分类。这可能更接近,但是仍然可能存在数值数据丢失的问题。 维护一个实际上应该是分类的公用数字数据列表,并将列标题与此列表进行比较以进行匹配。例如,任何带有“ ZIP”的内容都是分类的。 我的直觉告诉我,无法准确地将数字数据分配为分类数据或数字数据,但我希望提出建议。非常感谢您提供的任何见解。

3
需要帮助来了解xgboost的近似拆分点建议
背景: 在xgboost中,迭代尝试将树到所有示例上,这将最小化以下目标:˚F 吨 Ñtttftftf_tnnn ∑i=1n[gift(xi)+12hif2t(xi)]∑i=1n[gift(xi)+12hift2(xi)]\sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)] 其中gi,higi,hig_i, h_i是我们先前最佳估计\ hat {y}的一阶和二阶导数y^y^\hat{y}(来自迭代t−1t−1t-1): gi=dy^l(yi,y^)gi=dy^l(yi,y^)g_i=d_{\hat{y}}l(y_i, \hat{y}) hi=d2y^l(yi,y^)hi=dy^2l(yi,y^)h_i=d^2_{\hat{y}}l(y_i, \hat{y}) 和lll是我们的损失函数。 问题(最终): 在构建ftftf_t并考虑特定拆分中的特定特征kkk时,他们使用以下启发式方法仅评估某些拆分候选者:他们按其x_k对所有示例进行排序xkxkx_k,通过排序后的列表并将其二阶导数hihih_i。他们仅在总和变化超过\ epsilon时才考虑拆分候选ϵϵ\epsilon。这是为什么??? 他们给的解释使我难以理解: 他们声称我们可以像这样重写以前的公式: ∑i=1n12hi[ft(xi)−gi/hi]2+constant∑i=1n12hi[ft(xi)−gi/hi]2+constant\sum_{i=1}^n\frac{1}{2}h_i[f_t(x_i) - g_i/h_i]^2 + constant 而且我没有遵循代数-您能证明为什么相等吗? 然后他们声称“这恰好是带有标签和权重加权平方损失”-我同意这一说法,但我不知道它与他们使用的拆分候选算法有什么关系...ħ 我gi/higi/higi/hihihih_i 感谢和抱歉,如果这个论坛时间太长。
12 xgboost  gbm 

1
使用scikit-learn在随机森林中使用特征重要性进行特征选择
我已经使用scikit-learn绘制了随机森林中的特征重要性。为了改善使用随机森林的预测,如何使用图信息删除特征?即,如何根据绘图信息发现某个特征是无用的还是随机森林性能的下降甚至更差?该图基于属性feature_importances_,我使用分类器sklearn.ensemble.RandomForestClassifier。 我知道还有其他用于特征选择的技术,但是在这个问题中,我想重点介绍如何使用特征feature_importances_。 此类功能重要性图的示例:

4
将网络上的大型数据集直接下载到AWS S3
有谁知道是否可以从URL将大型数据集导入Amazon S3? 基本上,我想避免下载大文件,然后通过Web门户将其重新上传到S3。我只想将下载URL提供给S3,然后等待他们将其下载到他们的文件系统中。这似乎很容易做到,但是我只是找不到有关它的文档。
12 dataset  aws 

3
有关NLTK中的NER的帮助
我使用NLTK已有一段时间了。我面临的问题是,使用我的自定义数据对NLTK中的NER进行培训没有帮助。他们使用了MaxEnt并在ACE语料库上对其进行了培训。我在网上进行了很多搜索,但是找不到用于训练NLTK NER的任何方法。 如果有人可以向我提供任何链接/文章/博客等信息,这些链接/文章/博客等都可以将我定向到用于培训NLTK NER的培训数据集格式,那么我可以按照该特定格式准备数据集。并且,如果我被定向到可以帮助我训练自己的数据的NLNL的NER的任何链接/文章/博客等。 这是一个被广泛搜索且回答最少的问题。对于将来与NER合作的人可能会有所帮助。

2
建模不均匀间隔的时间序列
我有一个连续变量,在一年中以不定期的间隔进行采样。有些日子每小时的观测不只一次,而另一些日子则没有几天。这使得检测时间序列中的模式特别困难,因为某些月份(例如10月)的采样很高,而另一些则没有。 我的问题是对这个时间序列建模的最佳方法是什么? 我相信大多数时间序列分析技术(例如ARMA)都需要固定频率。我可以汇总数据,以获取恒定的样本或选择非常详细的数据子集。使用这两个选项时,我将丢失原始数据集中的某些信息,这些信息可能会揭示不同的模式。 除了可以按周期分解系列之外,我还可以将整个数据集提供给模型,并期望它能够拾取模式。例如,我将分类变量中的小时,工作日和月份进行了转换,并尝试了具有良好结果的多元回归(R2 = 0.71) 我的想法是,诸如ANN之类的机器学习技术也可以从不均匀的时间序列中选择这些模式,但是我想知道是否有人尝试过这种方法,并且可以为我提供一些有关在神经网络中表示时间模式的最佳方法的建议。

3
如何为社交网络的成长提供动画效果?
我正在寻找一个库/工具来可视化添加新节点/边缘后社交网络的变化。 现有解决方案之一是SoNIA:Social Network Image Animator。它使您可以制作像这样的电影。 SoNIA的文档说,它现在已经坏了,除此之外,我更喜欢基于JavaScript的解决方案。所以,我的问题是:您是否熟悉任何工具,或者是否可以指出一些使该任务尽可能简单的库? 发布此问题后,我将深入探讨sigma.js,因此请考虑涵盖此库。 通常,我的输入数据如下所示: time_elapsed; node1; node2 1; A; B 2; A; C 3; B; C 因此,这里我们有三个时间点(1、2、3),三个节点(A,B,C)和三个边,它们表示三个所考虑的节点之间的三元闭合。 而且,每个节点都有两个属性(年龄和性别),因此我希望能够更改节点的形状/颜色。 同样,在添加新节点之后,最好具有一些ForceAtlas2或类似的算法来调整图形的布局。

2
开源工具,可帮助挖掘排行榜得分流
考虑一个包含表示在线游戏中用户分数的元组 的流(user, new_score)。该流每秒可能有100-1,000个新元素。该游戏有200K至300K独特的玩家。 我想提出一些长期的要求,例如: 哪些玩家在一小时的滑动窗口中发布了超过x的分数 哪些玩家在一小时的滑动窗口中获得了x%分数 我的问题是我可以使用哪些开源工具来启动该项目?我目前正在考虑Esper。 注意:我刚刚阅读完“挖掘数据流”(挖掘大量数据集的第4章),并且对挖掘数据流还很陌生。

3
对大型数据库的查询如何以可忽略的延迟返回?
例如,当在Google中搜索内容时,结果会立即返回。 我了解Google使用算法等对页面进行排序和索引,但是我想为每个可能的查询结果建立索引是不可行的(而且结果是个性化的,这使得这种情况更加不可行)? 此外,Google硬件中的硬件延迟会不会很大?即使Google中的数据全部存储在TB / s SSD中,但由于要处理的数据量巨大,我认为硬件延迟会很大。 MapReduce是否有助于解决此问题? 编辑:好的,所以我知道流行的搜索可以缓存在内存中。但是不受欢迎的搜索呢?即使对于我进行的最模糊的搜索,我也认为从未有过搜索结果大于5秒的报道。这怎么可能?
12 bigdata  google  search 

1
我应该使用多少个LSTM细胞?
是否有关于我应使用的LSTM电池的最小,最大和“合理”数量的经验法则(或实际规则)?具体来说,我与TensorFlow和property 有关的BasicLSTMCell有关num_units。 请假设我有以下定义的分类问题: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples 例如,训练示例的数量应该大于: 4*((n+1)*m + m*m)*c c单元数在哪里?我基于此:如何计算LSTM网络的参数数量?据我了解,这应该给出参数的总数,该总数应少于训练示例的数量。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
非图像非NLP任务的深度学习?
到目前为止,在计算机视觉或自然语言处理中有许多有趣的深度学习应用。 在其他更传统的领域中情况如何?例如,我有传统的社会人口统计学变量以及可能的大量实验室测量结果,并且希望预测某种疾病。如果我有很多观察,这将是深度学习应用程序吗?我认为如何在这里构建网络,我认为所有花哨的层(卷积层等)都没有必要?只是使它更深? 在我的特定数据集上,我尝试了一些常见的机器学习算法,例如随机森林,gbm等,但在准确性方面存在混合结果。我在图像识别方面的深度学习经验有限。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.