Questions tagged «scraping»

1
为什么xgboost比sklearn GradientBoostingClassifier快得多?
我正在尝试通过50个具有100个数字特征的示例训练一个梯度提升模型。XGBClassifier我的机器43秒内把手500棵树,而GradientBoostingClassifier只处理10棵(!)以1分2秒:(我没有理会试图种植500棵树,因为它会需要几个小时。我使用的是相同的learning_rate,并max_depth设置, 见下文。 是什么使XGBoost如此之快?它是否使用了sklearn家伙不知道的用于梯度增强的新颖实现方式?还是“偷工减料”并种植浅树? ps我知道这个讨论:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-survey,但是那里找不到答案... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

2
符合道德且经济高效地扩展数据报废
生活中很少有什么能让我高兴的,例如从Internet上抓取结构化和非结构化数据,并在我的模型中使用它们。 例如,数据科学工具包(或RDSTKR程序员)允许我使用IP或地址提取大量基于位置的良好数据,tm.webmining.plugin而R的tm软件包使抓取金融和新闻数据变得直截了当。当超越此类(半)结构化数据时,我倾向于使用XPath。 但是,我一直在不断受到您允许进行的查询数量限制的限制。我认为Google将我限制为每24小时大约50,000个请求,这对于大数据是个问题。 从技术角度来看,解决这些限制很容易-只需切换IP地址并清除环境中的其他标识符即可。但是,这同时引起了道德和财务方面的关注(我认为?)。 有没有我忽略的解决方案?

7
LinkedIn网络抓取
我最近发现了一个新的R包,用于连接到LinkedIn API。不幸的是,LinkedIn API似乎很受限制。例如,您只能获取有关公司的基本数据,而这与有关个人的数据是分离的。我想获取有关给定公司的所有员工的数据,您可以在网站上手动进行操作,但无法通过API进行操作。 如果import.io能够识别LinkedIn分页,则将是完美的选择(请参阅页面末尾)。 有谁知道适用于LinkedIn网站当前格式的任何Web抓取工具或技术,或者如何弯曲API进行更灵活的分析?最好是在R或基于Web的环境中,但当然可以接受其他方法。

4
如何抓取imdb网页?
我正在尝试自己使用Python学习网络抓取,作为学习数据分析的一部分。我正在尝试抓取网址为以下内容的imdb网页:http : //www.imdb.com/search/title? sort=num_votes,desc&start=1&title_type=feature&year=1950,2012 我正在使用BeautifulSoup模块。以下是我正在使用的代码: r = requests.get(url) # where url is the above url bs = BeautifulSoup(r.text) for movie in bs.findAll('td','title'): title = movie.find('a').contents[0] genres = movie.find('span','genre').findAll('a') genres = [g.contents[0] for g in genres] runtime = movie.find('span','runtime').contents[0] year = movie.find('span','year_type').contents[0] print title, genres,runtime, rating, year 我得到以下输出: The Shawshank Redemption …
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.