Questions tagged «python»

用于与编程语言Python相关的数据科学问题。不适用于一般编码问题(-> stackoverflow)。


8
scikit_learn模型中的fit和fit_transform之间的区别?
我是数据科学的新手,我不了解scikit-learn fit和fit_transform方法之间的区别。谁能简单解释为什么我们可能需要转换数据? 对训练数据拟合模型并转换为测试数据意味着什么?这是否意味着例如在训练中将分类变量转换为数字并转换新功能集以测试数据?

15
适用于机器学习的Python vs R
我刚刚开始出于学术目的开发机器学习应用程序。我目前正在使用R并对其进行训练。但是,在很多地方,我都看到人们在使用Python。 人们在学术界和工业界使用什么,建议是什么?

11
使用scikit Learn的SVM无限运行,永远无法完成执行
我正在尝试在具有595605行和5列(功能)的训练数据集和具有397070行的测试数据集上使用scikit Learn(python)运行SVR。数据已经过预处理和规范化。 我能够成功运行测试示例,但是使用我的数据集执行并使其运行了一个多小时后,我仍然看不到任何输出或程序终止。我尝试使用不同的IDE甚至从终端执行,但这似乎不是问题。我也尝试将'C'参数值从1更改为1e3。 使用scikit的所有svm实现都面临类似的问题。 我还没有等到它完成?此执行需要多少时间? 根据我的经验,它不需要几分钟。 这是我的系统配置:Ubuntu 14.04、8GB RAM,大量可用内存,第四代i7处理器

1
熊猫中isna()和isull()之间的区别
我已经使用熊猫已有一段时间了。但是,我不了解熊猫isna()和isnull()熊猫之间有什么区别。而且,更重要的是,可使用哪一个来识别数据框中的缺失值。 如何将值检测为na或的基本根本区别是null什么?

6
字符串作为决策树/随机森林中的特征
我在决策树/随机森林的应用程序上遇到了一些问题。我正在尝试解决一个以数字和字符串(例如国家/地区名称)为特征的问题。现在的库scikit-learn仅将数字作为参数,但是我想注入字符串,因为它们具有大量的知识。 如何处理这种情况? 我可以通过某种机制将字符串转换为数字,例如Python中的哈希。但是我想知道有关如何在决策树问题中处理字符串的最佳实践。

8
Python中的开源异常检测
问题背景: 我正在从事一个项目,该项目涉及类似于IT监视空间中的日志文件(以我对IT空间的最佳理解)。这些日志文件是时间序列数据,组织成成百上千的各种参数的行。每个参数都是数字(浮点),并且每个时间点都有一个非平凡/非错误的值。我的任务是监视所述日志文件以进行异常检测(峰值,跌落,某些参数不同步的异常模式,奇怪的1st / 2nd / etc。派生行为等)。 在类似的任务中,我曾在Prelert尝试过Splunk,但此刻我正在探索开源选项。 限制: 我限制自己使用Python,因为我很了解Python,并希望延迟切换到R和相关的学习过程。除非似乎对R(或其他语言/软件)提供了压倒性的支持,否则我将坚持使用Python来完成此任务。 另外,我目前正在Windows环境中工作。我想继续在Windows上的小型日志文件上进行沙箱测试,但是如果需要的话可以移至Linux环境。 资源: 我已经检查了以下带有死角的结果: 的Python或R用于实现机器学习算法用于欺诈检测。这里的一些信息是有帮助的,但是不幸的是,我正在努力寻找合适的包装,因为: Twitter的“ AnomalyDetection”在R中,我想坚持使用Python。此外,Python端口特性对我来说似乎在Windows环境中实现时会引起问题。 我下一次尝试的天际线似乎已经停产了(来自github issue)。鉴于似乎很少有在线支持,所以我没有深入研究这一点。 scikit-learn我仍在探索中,但这似乎更加手动。杂草丛生的方法对我来说是可以的,但是我在学习工具方面的背景很薄弱,因此对于像Splunk + Prelert这样的技术方面来说,就像黑盒子一样。 问题定义和问题: 我正在寻找开源软件,该软件可以帮助我自动通过包或库从Python中的时间序列日志文件进行异常检测过程。 是否存在这样的事情来辅助我的紧迫任务,或者它们在我心中是虚构的? 任何人都可以协助具体步骤来帮助我实现我的目标,包括背景基础知识或概念吗? 这是最好的StackExchange社区,还是Stats,Math甚至Security或Stackoverflow是更好的选择? 编辑[2015-07-23] 请注意,对于pyculiarity的最新更新似乎已在Windows环境中修复!我尚未确认,但是应该成为社区的另一个有用工具。 编辑[2016-01-19] 较小更新。我没有时间进行此工作和研究,但是在继续进行具体细节研究之前,我已退后一步来了解此问题的基本原理。例如,我正在采取的两个具体步骤是: 从用于异常检测的Wikipedia文章开始[ https://en.wikipedia.org/wiki/Anomaly_detection ],全面理解,然后在其他链接的Wikipedia文章的概念层次结构中上移或下移,例如[ https:// en.wikipedia.org/wiki/K-nearest_neighbors_algorithm ],然后转到[ https://en.wikipedia.org/wiki/Machine_learning ]。 在Chandola等人2009年“异常检测:调查” [ http://www-users.cs.umn.edu/~banerjee/papers/09/anomaly.pdf ]和Hodge等人2004年所做的大型调查中探索技术。“异常值检测方法概述” [ http://eprints.whiterose.ac.uk/767/1/hodgevj4.pdf ]。 一旦更好地理解了这些概念(我希望在开发实际方面时也能玩一些玩具示例),我希望了解哪种开源Python工具更适合我的问题。

2
在Keras中使用不同长度的示例训练RNN
我正在尝试开始学习RNN,并且正在使用Keras。我了解香草RNN和LSTM层的基本前提,但是我无法理解培训的某些技术要点。 在keras文档中,它说到RNN层的输入必须具有形状(batch_size, timesteps, input_dim)。这表明所有训练示例都具有固定的序列长度,即timesteps。 但这不是特别典型,是吗?我可能想让RNN对不同长度的句子进行运算。当我在某种语料库上对其进行训练时,我将为它提供成批的句子,这些句子的长度各不相同。 我想要做的显而易见的事情是找到训练集中任何序列的最大长度并将其零填充。但这是否意味着我无法在测试时进行输入长度大于该长度的预测? 我想这是一个关于Keras特定实现的问题,但是我也想问人们通常在遇到这种问题时通常会做什么。
59 python  keras  rnn  training 

8
聚类地理位置坐标(纬线,长线对)
什么是正确的地理位置聚类方法和聚类算法? 我正在使用以下代码对地理位置坐标进行聚类: import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x, y = kmeans2(whiten(coordinates), 3, iter = 20) plt.scatter(coordinates[:,0], coordinates[:,1], c=y); plt.show() 使用K均值进行地理位置聚类是否正确,因为它使用的是欧几里得距离,而不是Haversine公式作为距离函数?

9
使用Python进行可重复数据科学的工具和协议
我正在使用Python进行数据科学项目。该项目分为几个阶段。每个阶段包括使用Python脚本获取数据集,辅助数据,配置和参数,以及创建另一个数据集。我将代码存储在git中,以便覆盖该部分。我想听听: 数据版本控制工具。 能够重现阶段和实验的工具。 此类项目的协议和建议的目录结构。 自动化的构建/运行工具。

4
神经网络:使用哪个成本函数?
我正在使用TensorFlow主要用于神经网络的实验。尽管现在我已经做了大量的实验(XOR问题,MNIST,一些回归的东西……),但是我为特定的问题选择“正确的”成本函数很困难,因为总的来说我可以被认为是一个初学者。 在上TensorFlow之前,我自己使用Python和NumPy编写了一些完全连接的MLP和一些递归网络,但大多数情况下,我遇到了一个简单的平方误差和简单的梯度设计就足够了的问题。 但是,由于TensorFlow本身提供了很多成本函数以及构建自定义成本函数的功能,所以我想知道是否存在某种专门针对神经网络上的成本函数的教程?(我已经完成了一半的TensorFlow官方教程,但它们并没有真正解释为什么特定成本函数或学习者用于特定问题-至少对于初学者而言) 举一些例子: cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(y_output, y_train)) 我猜想它在两个输入上都应用了softmax函数,以便一个向量的总和等于1。但是对数与logits的交叉熵到底是什么呢?我以为它会汇总值并计算交叉熵...那么一些度量标准度量值呢?如果我对输出进行归一化,求和并求平方误差,这是否会完全相同?此外,为什么将其用于MNIST(甚至更困难的问题)?当我想分类为10个甚至1000个类时,汇总这些值是否会完全破坏有关输出实际上是哪个类的任何信息? cost = tf.nn.l2_loss(vector) 这个是来做什么的?我以为l2损失几乎是平方误差,但TensorFlow的API告诉它输入只是一个张量。根本不知道这个主意吗? 此外,我经常看到这种用于交叉熵的方法: cross_entropy = -tf.reduce_sum(y_train * tf.log(y_output)) ...但是为什么要使用它?数学上的交叉熵损失不是: -1/n * sum(y_train * log(y_output) + (1 - y_train) * log(1 - y_output)) 哪里是(1 - y_train) * log(1 - y_output)在最TensorFlow例子的一部分?它不丢失吗? 答:我知道这个问题是很开放的,但是我不希望得到详细列出每个问题/成本函数的10页。我只需要简短总结一下何时使用哪个成本函数(一般而言还是在TensorFlow中,对我来说并不重要),以及有关此主题的一些解释。和/或一些初学者的资源;)

7
ValueError:输入包含NaN,无穷大或dtype('float32')太大的值
使用RandomForest模型预测测试数据时出现ValueError。 我的代码: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) 错误: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). 如何在测试数据集中找到不良值?另外,我不想删除这些记录,我可以将它们替换为均值或中位数吗? 谢谢。

3
大熊猫相关矩阵的计算与可视化
我有一个带有多个条目的熊猫数据框,并且我想计算某种类型商店的收入之间的相关性。许多商店都有收入数据,活动区域分类(剧院,布料商店,食品...)和其他数据。 我尝试创建一个新的数据框,并插入一列,其中包含属于同一类别的所有种类的商店的收入,返回的数据框仅填充了第一列,其余填充了NaN。我累的代码: corr = pd.DataFrame() for at in activity: stores.loc[stores['Activity']==at]['income'] 我想这样做,所以我可以.corr()用来给出商店类别之间的相关矩阵。 之后,我想知道如何使用matplolib绘制矩阵值(-1到1,因为我想使用Pearson的相关性)。

5
打开一个20GB的文件用于熊猫分析
我当前正在尝试使用pandas和python打开文件以进行机器学习,这对我来说将它们全部放在DataFrame中是理想的选择。现在,该文件的大小为18GB,RAM为32GB,但是我一直遇到内存错误。 根据您的经验,可能吗?如果不是,您是否知道解决此问题的更好方法?(蜂巢表?将我的RAM的大小增加到64?创建数据库并从python访问它)

3
keras中的多GPU
如何在keras库(或tensorflow)中进行编程,以在多个GPU上划分训练?假设您位于具有8个GPU的Amazon ec2实例中,并且希望使用它们全部进行训练,但是您的代码仅适用于单个CPU或GPU。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.