Questions tagged «efficiency»

在算法处理中,效率通常与资源使用相关。评估流程效率的指标通常考虑执行时间,内存/磁盘或存储要求,网络使用情况和功耗。

12
大数据有多大?
许多人以相当商业化的方式使用“ 大数据 ”一词,以表示计算中涉及大数据集,因此潜在的解决方案必须具有良好的性能。当然,大数据总是带有诸如可扩展性和效率之类的相关术语,但是究竟是什么将问题定义为大数据问题呢? 计算是否必须与某些特定目的相关,例如数据挖掘/信息检索,或者如果数据集足够大,可以将用于一般图形问题的算法标记为大数据吗?此外,如何大是够大(如果这是可能的定义)?

5
什么时候模型不足?
逻辑经常指出,通过对模型进行拟合,可以增强其概括能力。就是说,显然,在某个时候,模型的拟合不足会导致模型变得更糟,无论数据的复杂性如何。 您怎么知道您的模型何时达到了适当的平衡,并且不符合其要建模的数据? 注意:这是我的问题“ 为什么过度拟合不好? ” 的后续措施。

5
扩大seaborn热图
我corr()用原始df 创建了df。该corr()DF出来70×70,这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr(),则表格不适合屏幕,并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

4
寻找例如基础架构堆栈/工作流程/管道
我试图了解现实世界中所有“大数据”组件如何一起发挥作用,例如hadoop,monogodb / nosql,storm,kafka等……我知道这是用于不同的类型,但我想了解更多有关它们在应用程序中的交互的信息,例如,为应用程序,网络应用程序,在线商店思考机器学习。 我有访问者/会话,交易数据等并存储;但是,如果我想即时提出建议,则无法在我拥有的一些大型日志数据库上运行慢的地图/归约工作。在哪里可以了解有关基础架构方面的更多信息?我认为我可以自己使用大多数工具,但是将它们相互插入似乎是一种艺术。 有公开的例子/用例等吗?我知道各个管道在很大程度上取决于用例和用户,但是仅示例对我来说可能非常有用。

1
XGBRegressor与xgboost.train的巨大速度差异?
如果我使用以下代码训练模型: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) 它会在大约1分钟内完成。 如果我使用Sci-Kit学习方法训练模型: import xgboost as xg max_depth = 3 min_child_weight = 10 subsample = 0.5 colsample_bytree = 0.6 objective = …

2
Storm和Hadoop之间的权衡(MapReduce)
有人可以在Hadoop集群中的Storm和MapReduce之间进行数据处理时进行权衡取舍吗?当然,除了显而易见的一个之外,Hadoop(在Hadoop集群中通过MapReduce进行处理)是一个批处理系统,而Storm是一个实时处理系统。 我曾经在Hadoop Eco System上工作过一些,但没有与Storm一起工作过。浏览了许多演示文稿和文章后,我仍然找不到满意且全面的答案。 注意:此处的权衡一词并不旨在与类似的事物进行比较。它旨在表示批处理系统中缺少实时获得结果的后果。

2
在频繁模式挖掘中,FPGrowth是否仍被视为“最新技术”?
据我所知,用于解决频繁模式挖掘(FPM)问题的算法的开发,改进之路有一些主要检查点。首先,Apriori算法是由Agrawal等人于1993年提出的。,以及问题的形式化。该算法能够通过使用网格来维护数据,从而从集合(功率集)中剥离一些集合2^n - 1。该方法的缺点是需要重新读取数据库以计算每个扩展集的频率。 后来,在1997年,Zaki等人。提出了Eclat算法,该算法将每个集合的结果频率插入晶格中。这是通过在网格的每个节点处添加具有从根到所引用节点的项的事务ID集合来完成的。主要贡献在于,不必重新读取整个数据集即可知道每个集合的频率,但是保持这种数据结构建立所需的内存可能会超过数据集本身的大小。 2000年,Han等。提出了一种名为FPGrowth的算法,以及一个名为FPTree的前缀树数据结构。该算法能够提供显着的数据压缩,同时还可以仅产生频繁的项目集(不生成候选项目集)。这主要是通过按降序对每个事务的项目进行排序来完成的,以便最频繁的项目是树数据结构中重复次数最少的项目。由于频率仅在深度遍历树时下降,因此该算法能够剥离非频繁项集。 编辑: 据我所知,这可能被认为是最先进的算法,但是我想了解其他建议的解决方案。FPM还有哪些其他算法被认为是“最新技术”?这种算法的直觉 / 主要贡献是什么? 在频繁模式挖掘中,FPGrowth算法是否仍被视为“最新技术”?如果不是,哪种算法可以更有效地从大型数据集中提取频繁项集?

3
最佳科学计算语言[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 5年前关闭。 似乎大多数语言都具有一定数量的科学计算库。 Python有 Scipy Rust 有 SciRust C++有几个包括ViennaCL和Armadillo Java具有Java Numerics和Colt其他几个 且不说像语言R和Julia明确的科学计算而设计。 有这么多种选择,您如何选择适合任务的最佳语言?另外,哪种语言的性能最高?Python并且R似乎在该领域具有最大的吸引力,但从逻辑上讲,编译语言似乎是一个更好的选择。会有什么表现胜过Fortran?此外编译语言往往有GPU加速,而解释性语言如R并Python没有。选择一种语言时应该考虑什么?哪些语言可以在效用和性能之间取得最佳平衡?还有我错过的具有重要科学计算资源的语言吗?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
各种统计技术(回归,PCA等)如何根据样本大小和维度进行缩放?
是否有已知的统计技术通用表来解释它们如何随样本大小和维度进行缩放?例如,有一天我的一个朋友告诉我,简单地快速排序大小为n的一维数据的计算时间为n * log(n)。 因此,例如,如果我们对X进行y回归(其中X是d维变量),它是否会变成O(n ^ 2 * d)?如果我想通过精确的Gauss-Markov解与牛顿法的数值最小二乘法来找到解,它将如何缩放?还是只是获得解决方案与使用重要性测试? 我想我比这里的一个好答案更想要一个好的答案来源(例如总结各种统计技术的标度的论文)。举例来说,清单包含多重回归,logistic回归,PCA,cox比例风险回归,K均值聚类等的缩放比例。

1
什么是最有效的数据索引技术
众所周知,有一些数据索引技术,被著名的索引应用程序使用,例如Lucene(对于Java)或Lucene.NET(对于.NET),MurMurHash,B + Tree等。对于No-Sql / Object面向数据库(我尝试使用C#编写/试用),您建议使用哪种技术? 我读到有关MurMurhash-2的信息,特别是v3的评论说Murmur非常快。Lucene.Net对此也有很好的评论。但是,它们的内存占用量一般如何?是否有任何有效的解决方案比Lucene或Murmur占用更少的空间(当然,如果更快的话更可取)?还是应该编写特殊的索引结构以获得最佳结果? 如果我尝试编写自己的索引,那么是否存在可接受的良好索引编制规模,例如数据节点的1%或数据节点的5%?任何有用的提示将不胜感激。

4
为什么在使用库时很难授予效率?
任何小型数据库处理都可以通过Python / Perl / ...脚本轻松解决,该脚本使用该语言本身的库和/或实用程序。但是,在性能方面,人们倾向于使用C / C ++ /低级语言。根据需求量身定制代码的可能性似乎就是这些语言吸引BigData的原因-涉及内存管理,并行性,磁盘访问甚至低级优化(通过C / C ++级别的汇编构造)。 当然,这样的好处是没有代价的:编写代码,有时甚至是重新发明轮子,可能是非常昂贵/累赘的。尽管有很多可用的库,但是人们倾向于在需要授予性能时自行编写代码。是什么使性能断言在处理大型数据库时无法使用库? 例如,考虑一个企业,该企业会不断爬网网页并解析收集到的数据。对于每个滑动窗口,对提取的数据运行不同的数据挖掘算法。为什么开发人员会放弃使用可用的库/框架(用于爬网,文本处理和数据挖掘)?使用已经实现的东西不仅可以减轻对整个过程进行编码的负担,还可以节省大量时间。 一次拍摄: 是什么使自己编写代码成为性能的保证? 为什么在必须确保高性能的情况下依赖框架/库会有风险吗?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.