软件工程 big-data

4

有一个吗？我能找到的所有定义都描述了数据的大小，复杂性/多样性或速度。维基百科的定义是我找到的唯一具有实际数字的定义大数据量是一个不断变化的目标，从2012年开始，单个数据集中的数据量从几十TB到许多PB。但是，这似乎与下一段引用的MIKE2.0定义相矛盾，该定义表示“大”数据可能很小，并且仅飞机上创建10GB传感器的3GB数据就可以认为是大数据。 IBM尽管说过：大数据不仅仅是规模问题。在定义中强调大小。奥莱利也强调了 "volume, velocity and variety"这一点。尽管解释得很好，而且更深入，但该定义似乎是对其他定义的重新混编-当然，反之亦然。我认为《计算机周刊》的文章标题很好地总结了许多文章“什么是大数据以及如何利用它来获得竞争优势”。但是ZDNet 从2012年开始赢得以下大奖： “大数据”是从IT市场的高性能计算领域中冒出来的一个流行语...如果一个人坐在十个技术供应商的演讲中，可能会提出十五个左右的不同定义。当然，每个定义都倾向于支持该供应商的产品和服务的需求。想象一下。基本上，“大数据”在某种程度上是“大”形状或形式。什么是“大”？目前可量化吗？如果“大”是无法量化的，那么是否存在不仅仅依赖于一般性的定义？

23 data-structures definition big-data

4

如何在家学习云计算和大数据？[关闭]

很难说出这里的要求。这个问题是模棱两可，含糊，不完整，过于宽泛或夸张的，不能以当前的形式合理地回答。如需帮助澄清此问题以便可以重新打开，请访问帮助中心。 7年前关闭。我想在家学习云计算和大数据。是否可以在家用PC上学习这些技术？在云计算中要学习哪些技术？哪些技术可以学习大数据（Hadoop）？

15 learning cloud-computing big-data

3

对于需要大量RAM的应用程序选择C ++还是Java？[关闭]

已关闭。这个问题是基于观点的。它当前不接受答案。想改善这个问题吗？更新问题，以便通过编辑此帖子以事实和引用的形式回答。 6年前关闭。我正在考虑的科学应用程序大多受处理器限制，并且堆使用量很大（至少几个GB）。在一年中的任何其他时间，我都会很高兴地使用C ++，但是在这种情况下，我想知道，与Java压缩收集器的优势相比，C ++内存管理器的自然碎片是否会成为一个严重的问题。有人可以指出与此相关的真实示例吗？

11 java c++ memory big-data

1

匹配数百万条记录的部分名称

我们已经开发了一个基于Web的名称匹配应用程序。它通过将名称分成多个部分进行操作，每个部分的Soundex值存储在数据库中。在莱文斯坦距离度量用于应用声音的百分比匹配以及拼写对一个给定的名称。在运行时，我们将所有记录加载到内存中，并将Levenshtein距离应用于所有Soundex值以及所有名称的所有部分的拼写。最初这样做很好，因为最多有2万个名称，但是现在我们的一位客户拥有3000万个名称。对于每个请求将巨大的列表加载到内存中并应用这种类型的匹配是一种可悲的方法，它占用了大量内存和执行时间。我们正在寻找有关在不久的将来搜索声音和拼写百分比匹配的3000万条或更多记录的数据库的建议。核心功能最终用户输入要匹配的名称和最小百分比。我们应该在数据库中显示所有名称，其中名称的任何部分与给定名称的任何部分匹配到给定百分比。全名不需要匹配，只要匹配百分比最高就可以成功。例如。 Given Name: Helen Hunt Name in DB: Holly Hunter 两个名称的两个部分都不完全匹配，但在某种程度上不匹配，让我们假设80％，因此，如果用户输入80％，则DB中的名称必须显示为匹配名称。

10 asp.net sql-server search oracle big-data

3

如何存储大量的_structured_数据？

该应用程序将连续（大约每秒）收集用户的位置并将其存储。该数据是结构化的。在关系数据库中，它将存储为： | user | timestamp | latitude | longitude | 但是，数据太多。每个用户每天将有60×60×24 = 86,400条记录。即使有1000个用户，这也意味着每天86,400,000条记录。每天不仅有86,400,000条记录。因为这些记录将被处理，并且它们的处理后的版本也将被存储。因此，将该数字乘以大约2。我打算如何使用数据本质上，我计划对位置数据进行更粗粒度的处理，以便于使用。那是：对接收到的带有时间戳的数据进行排序。依次浏览此列表，确定位置是否发生了重大变化（通过查看经度和纬度发生了多少变化）将不重要的位置更改表示为输出中的单个条目（因此，输出是位置数据的粗粒度版本）。通过要求更大的纬度和经度更改以进行重大更改，对输出进行迭代处理。因此，从先前输出产生的输出将更加粗糙。根据需要重复整个过程。汇总一系列分辨率并将其发送给用户。另外，存储数据的所有分辨率以供以后使用。我应该用什么来存储这些数据？我应该使用关系数据库还是NoSQL解决方案？设计此应用程序时，我还应考虑哪些其他事项？

9 database big-data

4

为什么大数据需要发挥作用？

我开始从事与大数据相关的新项目的实习。我的经理们建议开始学习函数式编程（他们强烈推荐Scala）。我使用F＃的经验很卑鄙，但是我看不到使用这种编程范例的重要性，因为在某些情况下它很昂贵。迪恩（Dean）在这个话题上做了有趣的演讲，并在这里分享了他对“大数据”为何的想法：http : //www.youtube.com/watch?v=DFAdLCqDbLQ 但这并不十分方便，因为大数据并不意味着只有Hadoop。由于BigData是非常模糊的概念。我暂时忘记了。我尝试提出一个简单的示例，以便在处理数据时比较不同方面，以查看功能方式是昂贵的还是没有。如果小数据的功能编程昂贵且占用大量内存，那么为什么大数据需要它？我远没有花哨的工具，而是尝试使用三种方法针对一个特定且普遍存在的问题构建解决方案：命令式和功能性方法（递归，使用集合）。我比较了时间和复杂性，以比较这三种方法。我使用Scala编写这些函数，因为它是使用三种范式编写算法的最佳工具 def main(args: Array[String]) { val start = System.currentTimeMillis() // Fibonacci_P val s = Fibonacci_P(400000000) val end = System.currentTimeMillis() println("Functional way: \n the Fibonacci sequence whose values do not exceed four million : %d \n Time : %d ".format(s, end - start)) val …

9 algorithms scala big-data

Questions tagged «big-data»