Questions tagged «cassandra»

Apache Cassandra是一个开源的分布式数据库管理系统。它旨在处理分布在许多商用服务器上的大量数据,同时提供高可用性的服务而不会出现单点故障。这是一个NoSQL解决方案。

5
哪个数据库可以处理数十亿/万亿记录的存储?
我们正在研究开发一种捕获和分析Netflow数据的工具,我们从中收集了大量的数据。每天我们都会捕获大约14亿条流记录,这些记录以json格式显示如下: { "tcp_flags": "0", "src_as": "54321", "nexthop": "1.2.3.4", "unix_secs": "1352234521", "src_mask": "23", "tos": "0", "prot": "6", "input": "105", "doctets": "186", "engine_type": "0", "exaddr": "2.3.4.5", "engine_id": "2", "srcaddr": "9.8.7.6", "dst_as": "12345", "unix_nsecs": "752265174", "sysuptime": "2943529544", "dst_mask": "24", "dstport": "80", "last": "2943523241", "srcport": "52672", "dpkts": "4", "output": "111", "dstaddr": "6.5.4.3", "first": "2943517993" …

5
高并发,高写入DB的基础结构
我的要求是: 3000个连接 70-85%写入与读取 目前,我们正在通过700个连接最大化高CPU超大型实例。所有8个内核均已最大化。我们认为这是并发连接数,因为内存很好。写入本身非常简单(验证很慢)。要扩展到3000,我们需要转到多台服务器,当前选项为: MySQL分片 MongoDB集群 卡桑德拉 Hadoop和MySQL(Hadoop缓存,一次转储到MySQL) MongoDB和MySQL(代替Hadoop,我们使用mongo进行缓存) 要处理此数量的连接,有几个问题: MySQL分片可以处理并发连接吗? 任何一个主服务器都可以处理这些并发连接,还是像Mongo这样的多头设备是更好的选择? 如果不能很好地描述我的问题,我深表歉意。请问问题。


1
具有1个外部IP的Cassandra多数据中心配置
我正在尝试设置一个多数据中心Cassandra集群。问题是我的数据中心只有1个外部IP(WAN IP),我可以在数据中心交换机上设置端口转发,以使用不同的端口从外部世界访问每个节点,但是我不知道如何设置cassandra .yaml文件正确。 在这种情况下,是否有办法设置多数据中心cassandra集群? 提前致谢!
13 cassandra 


2
什么是将数据从一个Cassandra ColumnFamily复制到同一键空间上的另一个好方法(例如SQL的INSERT INTO)?
试图找到一种将所有行从Cassandra ColumnFamily / Table轻松转移到另一行的方法。 据COPY我了解,该命令是一个不错的选择。但是,由于它将所有数据转储到.csv磁盘上然后再加载回去,我不禁想知道是否有更好的方法可以在引擎内完成。 我的意思的一个具体示例将INSERT * FROM my_table INTO my_other_table在许多SQL数据库中可用。当然,我意识到Cassandra是NoSQL,因此不能以相同的方式工作-但似乎可以使用。 有什么好的方法可以做到这一点? 非常感谢!

2
在Cassandra中使用成千上万的列族或键空间会受到哪些惩罚?
我正在评估Cassandra安装的最佳设计。 Internet上关于使用Cassandra提供的前两个访问级别(键空间和列族)的信息并不多。 我想知道如果您选择创建大量的键空间或列族(大于10.000),将受到什么惩罚? 某处的旧博客文章建议Cassandra为每个列族保留内存。本文是关于0.6版本的,当前版本是1.0。还是这样,还是一个真正的问题? 在Cassandra中使用成千上万的列族或键空间会受到哪些惩罚?

1
Cassandra中色谱柱系列的实际限制是什么?
在卡桑德拉(Cassandra)中,建议不要有数千个以上的列族,为便于讨论,假设有2,000个。在需要保留2,000种以上数据类型的情况下,一种方法是将多个不相关类型的数据分片到每个列族中。 例如,单个CF可以包含订单,发票和客户,条件是它们的行键是不同的(例如,以对象类型为前缀,即单个CF的键可以同时包含Order|1234和Customer|1234)。第二个CF可以包含说地址,LineItems和OrderTypes。考虑到这种方法的基本可行性,实际的限制是什么?例如,将所有10,000种类型的对象放入一个CF中会出现什么问题?据我从Cassandra Wiki所知道的,CF的大小没有严格限制。

2
为什么Cassandra建议不要在高基数列上创建索引?
Cassandra文档指出, 在以下情况下不要使用索引: 在高基数列上,因为您随后查询了大量记录以获取少量结果。请参阅下面的使用高基数列索引的问题。 继续 如果在高基数列上创建索引,该索引具有许多不同的值,则字段之间的查询将导致许多查找,结果很少。在拥有十亿首歌曲的表中,按作者(通常是每首歌曲唯一的值)而不是按艺术家查找歌曲的效率很低。手动将表维护为索引形式而不是使用Cassandra内置索引可能会更有效。对于包含唯一数据的列,有时为了方便起见,最好使用索引,只要对具有索引列的表的查询量适中且不在恒定负载下即可。 但是从来没有真正回答这个问题:为什么效率低下?我不知道“手动将表作为索引的一种形式”是什么意思。但是,这却与“………有时为了方便起见,只要查询量适中,使用索引有时是很好的性能……”。 这是否只是在告诉我在何时何地可以使用PK?什么是效率低下?我的理解是,要查询索引的查询将需要查询集群中的每个¹节点,然后每个节点都将在其本地索引中进行查找,然后将结果汇总。除了我们要付出网络等待时间之外,这并不一定是昂贵的(每个索引查找都应该相当便宜),因为我们必须等待最慢的节点。我在这里想念什么吗? 但是,如果我有一个包含不计其数的项目的收藏集,那么在极少数情况下,需要通过一个不同但几乎独特的属性来查找……这是一种适当的用法,对吗? ¹每个?IDK,如果复制意味着复制因子为3时,它可以达到群集的1/3?
10 index  cassandra 

2
NoSQL:什么是非结构化数据?
目前,我们基于mssql服务器的解决方案正在资源边缘运行。 现在,关于下一步解决负载的问题,我们有许多传统的选择: 购买更快的CPU和IO 拆分一些客户以分离服务器 将数据库移到群集 就许可和硬件或时间而言,所有这些都是昂贵的。因此,我想通过将整个系统移至nosql引擎cassandra承诺的可伸缩解决方案中来添加另一种选择。 但是,我不确定noSQL数据库也没有使用过SQL数据库,因此我需要了解“非结构化”数据的结构。 在我们的应用程序中,我们基本上将用户以各种方式输入的数据存储为“键值”列表。有一个父表,它包含head元素(如Order),还有一个子表,其键值对包括该订单的内容(如Order_Lines)。 在业务方面,Order和OrderLines是一个单位。但是由于RDBMS,它们存储在表中,并且必须一直连接。 在操作过程中,有时我们选择只加载顶部,但是在大多数情况下,我们加载头行+一些KVP以显示一些有用的信息。 例如,在概述列表中,我们在每行的列中显示头标识符+一些值。 更新:我们存储任何形式的表格。因此,基本上我们存储“文档”。但是,我们必须按任何值,排序等来准备和搜索这些形式。数据访问控制在数据库上增加了另一层兼容性。 您可能会猜到,某些KVP的数量和可用性因对象而异。没有有效的可能性为每种对象创建单个表,因为我们必须为不同的数据组合创建数千个表。 这种“字典”之类的数据集会更好地存储在noSQL数据库中吗?并从中获得性能收益吗?卡桑德拉会将这些head + KVP建模为一个数据集吗?看看cassandra网页和一些教程,我的印象是,在数据组织方面,我们的RDBMS和cassandra之间并没有太大的区别-如果您要选择5个KVP,我们将拥有大量的连接为每一行的列表。 欢迎启蒙,也可以使用指向这些问题的论文的指针。

2
Cassandra:维护
我对Cassandra缺乏经验,但是我对基于SQL的关系数据库有一些经验。 部署后,我一直无法找到有关如何维护Cassandra的最佳实践信息。是否需要VACUUM数据库?我应该认为读/写负载会导致存储碎片化。 或更笼统地说:维护Cassandra生产部署的最佳实践是什么?必须定期执行哪些操作才能维护系统的运行状况?操作手册实际上没有讨论这方面。 谢谢。

3
Cassandra的“ phpMyAdmin”
是否有类似phpMyAdmin的工具用于Cassandra DB的RDBMS-MySQL? 我知道“运行时”配置可能更少(无法在运行时等编辑列族)。但是,使用GUI检查不同的列族,浏览数据等将非常有帮助。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.