Questions tagged «python»

用于与编程语言Python相关的数据科学问题。不适用于一般编码问题(-> stackoverflow)。

1
什么是用于多类分类的最佳Keras模型?
我正在研究,如果需求三个赛事冠军的分类一个=( ,win,)drawlose WINNER LEAGUE HOME AWAY MATCH_HOME MATCH_DRAW MATCH_AWAY MATCH_U2_50 MATCH_O2_50 3 13 550 571 1.86 3.34 4.23 1.66 2.11 3 7 322 334 7.55 4.1 1.4 2.17 1.61 我当前的模型是: def build_model(input_dim, output_classes): model = Sequential() model.add(Dense(input_dim=input_dim, output_dim=12, activation=relu)) model.add(Dropout(0.5)) model.add(Dense(output_dim=output_classes, activation='softmax')) model.compile(loss='categorical_crossentropy', optimizer='adadelta') return model 我不确定这是否适用于多类别分类 二进制分类的最佳设置是什么? 编辑:#2-那样吗? model.add(Dense(input_dim=input_dim, …

1
为什么xgboost比sklearn GradientBoostingClassifier快得多?
我正在尝试通过50个具有100个数字特征的示例训练一个梯度提升模型。XGBClassifier我的机器43秒内把手500棵树,而GradientBoostingClassifier只处理10棵(!)以1分2秒:(我没有理会试图种植500棵树,因为它会需要几个小时。我使用的是相同的learning_rate,并max_depth设置, 见下文。 是什么使XGBoost如此之快?它是否使用了sklearn家伙不知道的用于梯度增强的新颖实现方式?还是“偷工减料”并种植浅树? ps我知道这个讨论:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-survey,但是那里找不到答案... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

3
超调XGBoost参数
在处理分类因变量和连续因变量方面,XGBoost一直表现出色。但是,如何为XGBoost问题选择优化的参数? 这是我为最近的Kaggle问题应用参数的方式: param <- list( objective = "reg:linear", booster = "gbtree", eta = 0.02, # 0.06, #0.01, max_depth = 10, #changed from default of 8 subsample = 0.5, # 0.7 colsample_bytree = 0.7, # 0.7 num_parallel_tree = 5 # alpha = 0.0001, # lambda = 1 ) clf <- xgb.train( …
27 r  python  xgboost 


1
PyTorch vs.Tensorflow折叠
既PyTorch和Tensorflow折是指处理,其中输入数据具有非均匀的长度或尺寸的情况下(即,在动态图都是有用的或需要的情况下)深学习框架。 我想知道它们之间的比较,从它们所依赖的范式(例如动态批处理)及其含义的角度来看,它们之间不能/不能实现的事情,弱点/优点等。 我打算使用此信息选择其中一个以开始探索动态计算图,但是我没有特定的任务在想。 注1:像其他的动态计算图形框架DyNet或Chainer也欢迎比较,但我想专注于PyTorch和Tensorflow折,因为我认为他们是/将是最常用的。 注意2:我在PyTorch上发现了这个hackernews线程,其中包含一些稀疏信息,但数量不多。 注意3:另一个与Tensorflow Fold 有关的hackernews线程,包含一些有关它们如何比较的信息。 注意4:相关的Reddit线程。 注5:Tensorflow Fold的github中的相关bug指出了一个重要限制:评估期间无法进行条件分支。 注释6:在pytorch论坛上讨论有关所使用算法(例如动态批处理)的可变长度输入。

7
如何在另一台机器上克隆Python工作环境?
我在工作站上使用Python(Anaconda + Flask)开发了机器学习模型,一切顺利。后来,我尝试将该程序发送到另一台计算机上,当然我尝试在该计算机上设置相同的环境,但是该程序无法运行。我将该程序复制到了其他计算机上,该计算机也可以平稳运行。 我无法弄清楚失败情况下的问题是什么(程序代码和错误消息都很丰富,所以我无法在此处显示它们),但是我几乎可以肯定这是依赖版本不同的问题。 因此,我的问题是,在某个程序可以正常运行的环境中,如何将其克隆到另一个程序也应该可以正常运行的环境?当然,无需克隆整个系统;)
26 python  anaconda 

6
机器学习技术,可根据用户喜欢的Facebook网站估算用户的年龄
我有一个来自Facebook应用程序的数据库,我正在尝试使用机器学习根据用户喜欢的Facebook网站估算其年龄。 我的数据库具有三个关键特征: 我的训练集中的年龄分布(总共12,000个用户)偏向年轻用户(即,我有1157个27岁的用户和23个65岁的用户); 许多站点的点赞者不超过5个(我过滤掉了少于5个点赞的FB站点)。 功能比示例更多。 因此,我的问题是:您建议采取什么策略准备数据以进行进一步分析?我应该执行某种降维吗?在这种情况下,哪种ML方法最合适? 我主要使用Python,因此非常感谢Python特定的提示。

2
在Keras中合并两种不同的模型
我正在尝试将两个Keras模型合并为一个模型,但是我无法实现这一点。 例如在附图中,我想获取尺寸为8 的中间层,并将其用作模型(再次为尺寸8的)层输入,然后将模型和模型合并为一个模型。B 1 B A BA2A2A2B1B1B1BBBAAABBB 我正在使用功能模块独立创建模型和模型如何完成这项任务?乙AAABBB 注意:是模型的输入层,而是模型的输入层。A B 1 BA1A1A1AAAB1B1B1B乙B

4
是否有直接运行pandas.DataFrame.isin的直接方法?
我有一个建模和评分程序,该程序大量使用了DataFrame.isin熊猫的功能,在数千个特定页面的每个页面中搜索单个用户的Facebook“喜欢”记录列表。这是程序中最耗时的部分,而不是建模或评分部分,这仅仅是因为它仅在一个内核上运行,而其余部分同时在几十个内核上运行。 尽管我知道我可以手动将数据帧分解为多个块并并行运行该操作,但是有没有直接的自动方法?换句话说,是否有任何一种程序包可以识别我正在执行的一项容易委派的操作并自动分发它?也许这要求太多,但是过去我对Python中已有的功能感到惊讶,因此我认为值得提出。 任何其他有关如何完成此操作的建议(即使不是通过某些神奇的独角兽程序包也是如此!)也将不胜感激。主要是,只是试图找到一种方法,以在每次运行中节省15至20分钟的时间,而无需花费等量的时间来编码解决方案。

4
Word2Vec用于命名实体识别
我正在寻找使用Google的word2vec实现来构建命名实体识别系统。我听说具有通过结构的反向传播的递归神经网络非常适合命名实体识别任务,但是我无法为该类型的模型找到像样的实现或像样的教程。因为我使用的是非典型语料库,所以NLTK和类似工具中的标准NER工具的效果非常差,看起来我必须训练自己的系统。 简而言之,有哪些资源可用于解决此类问题?是否有可用的标准递归神经网络实现?

4
Scikit学习:让SGDClassifier进行预测以及Logistic回归
训练Logistic回归的一种方法是使用随机梯度下降,scikit-learn提供了接口。 我想做的是使用scikit-learn的SGDClassifier,并使其得分与此处的Logistic回归相同。但是,我必须错过一些机器学习增强功能,因为我的分数并不相同。 这是我当前的代码。我在SGDClassifier上缺少什么,它会产生与Logistic回归相同的结果? from sklearn import datasets from sklearn.linear_model import LogisticRegression from sklearn.linear_model import SGDClassifier import numpy as np import pandas as pd from sklearn.cross_validation import KFold from sklearn.metrics import accuracy_score # Note that the iris dataset is available in sklearn by default. # This data is also conveniently preprocessed. …

5
数据科学项目的VM映像
由于有许多工具可用于数据科学任务,因此安装所有组件并构建完善的系统非常麻烦。 是否有安装了Python,R和其他开源数据科学工具的Linux / Mac OS映像,可供人们立即使用?安装了最新版本的Python,R(包括IDE)和其他开源数据可视化工具的Ubuntu或轻量级操作系统将是理想的选择。我在Google上进行的快速搜索还没有找到。 请让我知道是否有任何东西或者您是否有人为自己创建了一个?我认为某些大学可能拥有自己的VM映像。请分享这样的链接。
24 python  r  tools 

3
存储Python机器学习模型的最佳实践
保存,存储和共享机器学习模型的最佳实践是什么? 在Python中,我们通常使用pickle或joblib存储模型的二进制表示形式。在我的情况下,模型可以大到100Mo。此外,除非您设置compress=1(/programming/33497314/sklearn-dumping-model-using-joblib-dumps-multiple-files-which-one-is-the- corre)。 但是,然后,如果您想控制对模型的访问权限,并能够使用来自不同计算机的模型,最好的存储方法是什么? 我有几种选择: 将它们存储为文件,然后使用Git LFS将它们放入存储库中 将它们作为二进制文件存储在SQL数据库中: 例如在Postgresql https://wiki.postgresql.org/wiki/BinaryFilesInDB中 这也是SQL Server团队推荐的方法: https://docs.microsoft.com/zh-cn/sql/advanced-analytics/tutorials/walkthrough-build-and-save-the-model https://microsoft.github.io/sql-ml-tutorials/python/rentalprediction/step/3.html https://blogs.technet.microsoft.com/dataplatforminsider/2016/10/17/sql-server-as-a-machine-learning-model-management-system HDFS

4
聚类之前是否有必要对数据进行标准化?
在集群之前是否有必要对数据进行标准化?在从例如scikit learn约DBSCAN,在这里他们这样做的线: X = StandardScaler().fit_transform(X) 但我不明白为什么有必要。归根结底,聚类不假定任何特定的数据分布-它是一种无监督的学习方法,因此其目的是探索数据。 为什么需要转换数据?

5
用Python计算KL发散
我对此很陌生,不能说我对背后的理论概念有完整的了解。我正在尝试计算Python中几个点列表之间的KL散度。我正在使用http://scikit-learn.org/stable/modules/generation/sklearn.metrics.mutual_info_score.html尝试执行此操作。我遇到的问题是,任何两个数字列表(其1.3862943611611198906)返回的值都是相同的。我有一种感觉,我在这里犯了某种理论上的错误,但无法发现。 values1 = [1.346112,1.337432,1.246655] values2 = [1.033836,1.082015,1.117323] metrics.mutual_info_score(values1,values2) 这是我正在运行的示例-只是我对任何2个输入都得到相同的输出。任何建议/帮助将不胜感激!

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.