Questions tagged «bigdata»

大数据是指庞大而复杂的数据集的集合,以至于难以使用现有的数据库管理工具或传统的数据处理应用程序进行处理。挑战包括捕获,管理,存储,搜索,共享,传输,分析和可视化。

8
Python是否适合大数据
我在这篇文章中读到的是,R语言适用于大数据构成的大数据5TB,尽管它很好地提供了有关使用这种类型的数据的可行性的信息,R但提供的信息却很少Python。我想知道是否Python也可以处理这么多数据。
14 bigdata  python 


4
大数据案例研究或用例示例
我已经阅读了很多关于大数据分析如何使用不同类型行业的博客\文章。但是这些文章大部分都没有提及 这些公司使用了什么样的数据。数据大小是多少 他们使用了什么样的工具技术来处理数据 他们面临的问题是什么,以及他们如何获得数据的洞察力如何帮助他们解决了问题。 他们如何选择适合自己需要的工具/技术。 他们从数据中识别出什么样的模式,以及他们从数据中寻找什么样的模式。 我想知道是否有人可以为我提供所有这些问题的答案,或者至少提供一些问题答案的链接。我正在寻找现实世界的例子。 如果有人分享金融业如何利用大数据分析,那就太好了。

4
我们可以在训练word2vec模型时利用迁​​移学习的优势吗?
我正在寻找已经训练有素的模型(如Google新闻数据等)的预训练权重。我发现很难为自己训练出具有足够数量(10 GB等)数据的新模型。因此,我想从转移学习中受益,在转移学习中,我将能够获得预训练的层权重并在我的领域特定单词上对那些权重进行重新训练。因此,肯定会减少培训时间。任何帮助将不胜感激。提前致谢 :)

7
数据科学家的“旧名”是什么?
如今,越来越多地使用“数据科学”和“数据科学家”之类的术语。许多公司正在招聘“数据科学家”。但我认为这不是一项全新的工作。过去已经存在数据,必须有人来处理数据。我猜“数据科学家”一词变得越来越流行是因为它听起来更加花哨和“性感”。过去,数据科学家是如何称呼的?
12 bigdata 

2
偏好匹配算法
我正在研究这个副项目,我需要在其中构造以下问题的解决方案。 我有两组人(客户)。集团A打算购买,集团B打算出售确定的产品X。该产品具有一系列的属性x_i,我的目标是促进之间的交易A,并B通过匹配他们的喜好。主要思想是指出A对应B产品的每个成员,其产品更适合其需求,反之亦然。 问题的一些复杂方面: 属性列表不是有限的。买方可能会对非常特殊的特性或某种设计感兴趣,这在人群中很少见,我无法预测。先前无法列出所有属性; 属性可以是连续的,二进制的或不可量化的(例如:价格,功能,设计); 关于如何解决此问题并以自动化方式解决它的任何建议? 如果可能的话,我也希望参考一些其他类似的问题。 很棒的建议!与我思考问题的方式有很多相似之处。 映射属性的主要问题是产品描述的详细程度取决于每个购买者。让我们以汽车为例。产品“汽车”具有很多属性,包括性能,机械结构,价格等。 假设我只想要便宜的汽车或电动汽车。好的,这很容易映射,因为它们代表了该产品的主要功能。但是,例如,假设我要一辆配备双离合变速器或氙气大灯的汽车。嗯,数据库中可能有许多具有此属性的汽车,但我不会要求卖方在有人发现它们之前先将其详细信息填写到他们的产品中。这样的程序将要求每个卖方填写一个复杂,非常详细的表格,仅尝试在平台上出售其汽车。就是行不通。 但是,我仍然面临的挑战是在搜索中尽可能详细地进行匹配。因此,我的思维方式是映射产品的主要方面(可能与每个人都相关的方面),以缩小潜在卖方的类别。 下一步将是“优化搜索”。为了避免创建过于详细的表格,我可以要求买卖双方写明其规格的自由文本。然后使用一些单词匹配算法来查找可能的匹配项。尽管我知道这不是解决问题的适当方法,因为卖方无法“猜测”买方的需求。但是可能会让我靠近。 建议的加权标准很好。它使我能够量化卖方满足买方需求的水平。但是,缩放部分可能是个问题,因为每个属性的重要性因客户端而异。我正在考虑使用某种模式识别,或者只是要求购买者输入每个属性的重要性级别。

2
Storm和Hadoop之间的权衡(MapReduce)
有人可以在Hadoop集群中的Storm和MapReduce之间进行数据处理时进行权衡取舍吗?当然,除了显而易见的一个之外,Hadoop(在Hadoop集群中通过MapReduce进行处理)是一个批处理系统,而Storm是一个实时处理系统。 我曾经在Hadoop Eco System上工作过一些,但没有与Storm一起工作过。浏览了许多演示文稿和文章后,我仍然找不到满意且全面的答案。 注意:此处的权衡一词并不旨在与类似的事物进行比较。它旨在表示批处理系统中缺少实时获得结果的后果。

3
对大型数据库的查询如何以可忽略的延迟返回?
例如,当在Google中搜索内容时,结果会立即返回。 我了解Google使用算法等对页面进行排序和索引,但是我想为每个可能的查询结果建立索引是不可行的(而且结果是个性化的,这使得这种情况更加不可行)? 此外,Google硬件中的硬件延迟会不会很大?即使Google中的数据全部存储在TB / s SSD中,但由于要处理的数据量巨大,我认为硬件延迟会很大。 MapReduce是否有助于解决此问题? 编辑:好的,所以我知道流行的搜索可以缓存在内存中。但是不受欢迎的搜索呢?即使对于我进行的最模糊的搜索,我也认为从未有过搜索结果大于5秒的报道。这怎么可能?
12 bigdata  google  search 

1
我应该使用多少个LSTM细胞?
是否有关于我应使用的LSTM电池的最小,最大和“合理”数量的经验法则(或实际规则)?具体来说,我与TensorFlow和property 有关的BasicLSTMCell有关num_units。 请假设我有以下定义的分类问题: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples 例如,训练示例的数量应该大于: 4*((n+1)*m + m*m)*c c单元数在哪里?我基于此:如何计算LSTM网络的参数数量?据我了解,这应该给出参数的总数,该总数应少于训练示例的数量。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
在频繁模式挖掘中,FPGrowth是否仍被视为“最新技术”?
据我所知,用于解决频繁模式挖掘(FPM)问题的算法的开发,改进之路有一些主要检查点。首先,Apriori算法是由Agrawal等人于1993年提出的。,以及问题的形式化。该算法能够通过使用网格来维护数据,从而从集合(功率集)中剥离一些集合2^n - 1。该方法的缺点是需要重新读取数据库以计算每个扩展集的频率。 后来,在1997年,Zaki等人。提出了Eclat算法,该算法将每个集合的结果频率插入晶格中。这是通过在网格的每个节点处添加具有从根到所引用节点的项的事务ID集合来完成的。主要贡献在于,不必重新读取整个数据集即可知道每个集合的频率,但是保持这种数据结构建立所需的内存可能会超过数据集本身的大小。 2000年,Han等。提出了一种名为FPGrowth的算法,以及一个名为FPTree的前缀树数据结构。该算法能够提供显着的数据压缩,同时还可以仅产生频繁的项目集(不生成候选项目集)。这主要是通过按降序对每个事务的项目进行排序来完成的,以便最频繁的项目是树数据结构中重复次数最少的项目。由于频率仅在深度遍历树时下降,因此该算法能够剥离非频繁项集。 编辑: 据我所知,这可能被认为是最先进的算法,但是我想了解其他建议的解决方案。FPM还有哪些其他算法被认为是“最新技术”?这种算法的直觉 / 主要贡献是什么? 在频繁模式挖掘中,FPGrowth算法是否仍被视为“最新技术”?如果不是,哪种算法可以更有效地从大型数据集中提取频繁项集?

4
使用HPC群集
在我的大学里,我们有一个HPC计算集群。我使用集群来训练分类器,依此类推。因此,通常,要将作业发送到集群(例如python scikit-learn脚本),我需要编写一个Bash脚本,其中包含(其中包括)一个命令qsub script.py。 但是,我发现此过程非常令人沮丧。通常会发生的事情是,我在笔记本电脑上编写了python脚本,然后登录到服务器并更新了SVN信息库,因此我在此处获得了相同的python脚本。然后,我编写该Bash脚本或对其进行编辑,以便可以运行bash脚本。 如您所见,这确实令人沮丧,因为对于python脚本的每个小小的更新,我都需要执行许多步骤才能在计算集群中执行它。当然,当我不得不将数据放在服务器上并在服务器上使用数据集的路径时,任务会变得更加复杂。 我敢肯定,这里有很多人正在将计算集群用于其数据科学任务。我只想知道你们是如何管理将作业发送到集群的?

3
最佳科学计算语言[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 5年前关闭。 似乎大多数语言都具有一定数量的科学计算库。 Python有 Scipy Rust 有 SciRust C++有几个包括ViennaCL和Armadillo Java具有Java Numerics和Colt其他几个 且不说像语言R和Julia明确的科学计算而设计。 有这么多种选择,您如何选择适合任务的最佳语言?另外,哪种语言的性能最高?Python并且R似乎在该领域具有最大的吸引力,但从逻辑上讲,编译语言似乎是一个更好的选择。会有什么表现胜过Fortran?此外编译语言往往有GPU加速,而解释性语言如R并Python没有。选择一种语言时应该考虑什么?哪些语言可以在效用和性能之间取得最佳平衡?还有我错过的具有重要科学计算资源的语言吗?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
哪个更快:大型JSON数据集上的PostgreSQL vs MongoDB?
我有一个大型数据集,其中有9m个JSON对象,每个对象约300个字节。它们是来自链接聚合器的帖子:基本上是链接(URL,标题和作者ID)和评论(文本和作者ID)+元数据。 它们很可能是表中的关系记录,但事实是它们具有一个数组字段,其ID指向子记录。 什么样的实现看起来更可靠? PostgreSQL数据库上的JSON对象(只有一个大表且只有一列,即JSON对象) MongoDB上的JSON对象 将JSON对象分解为列,并在PostgreSQL上使用数组 我想最大程度地提高联接的性能,因此我可以对数据进行按摩和探索,直到找到有趣的分析为止,这时我认为将数据转换为特定于每种分析的形式会更好。

2
可扩展的异常值/异常检测
我正在尝试使用Hadoop,Hive,Elastic Search(以及其他)建立大数据基础架构,并且我想对某些数据集运行一些算法。我希望算法本身具有可伸缩性,因此不包括使用诸如Weka,R甚至RHadoop之类的工具。该阿帕奇亨利马乌库似乎是一个不错的选择,它的特点为回归和聚类算法的任务。 我正在努力寻找一种异常或异常检测的解决方案。 由于Mahout具有隐马尔可夫模型和多种聚类技术(包括K-Means),所以我想知道是否有可能使用任何一种方法构建一个模型来检测时间序列中的异常值。如果有经验的人能给我建议,我将不胜感激 如果有可能的话 怎么做,再加上 对所涉及工作的估计 这种方法的准确性/问题。

3
各种统计技术(回归,PCA等)如何根据样本大小和维度进行缩放?
是否有已知的统计技术通用表来解释它们如何随样本大小和维度进行缩放?例如,有一天我的一个朋友告诉我,简单地快速排序大小为n的一维数据的计算时间为n * log(n)。 因此,例如,如果我们对X进行y回归(其中X是d维变量),它是否会变成O(n ^ 2 * d)?如果我想通过精确的Gauss-Markov解与牛顿法的数值最小二乘法来找到解,它将如何缩放?还是只是获得解决方案与使用重要性测试? 我想我比这里的一个好答案更想要一个好的答案来源(例如总结各种统计技术的标度的论文)。举例来说,清单包含多重回归,logistic回归,PCA,cox比例风险回归,K均值聚类等的缩放比例。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.