在数据科学中,许多人似乎正在使用pandas数据框作为数据存储。与普通的关系数据库(如MySQL)相比,大熊猫有什么特征使其成为高级数据存储,而MySQL通常用于存储其他编程领域的数据?
虽然熊猫确实提供了一些有用的数据探索功能,但是您不能使用SQL,并且会丢失查询优化或访问限制等功能。
在数据科学中,许多人似乎正在使用pandas数据框作为数据存储。与普通的关系数据库(如MySQL)相比,大熊猫有什么特征使其成为高级数据存储,而MySQL通常用于存储其他编程领域的数据?
虽然熊猫确实提供了一些有用的数据探索功能,但是您不能使用SQL,并且会丢失查询优化或访问限制等功能。
Answers:
SQL允许您持久化并执行许多不同的关系事务,并且始终可以随时将其用于多种不同的用途。本质上是真理或去处的一个来源。肯定有头顶。但是,某些分析可能非常复杂,并且需要大量基于集合的操作,这些操作甚至可以很快地将很小的数据集变成很大的数据集。我有超过2000个查询的数据处理,它们在不到5分钟的时间内处理了TB,并且可以为预测模型最后记录数十亿条记录,而python和numpy在10倍时间内作为关系数据存储为数据集的分数很小,并且将其提供给表示层。
另外一点,如果在云中执行此操作,请确保您有一个可以扩展其内存的动态实例。使用SQL,就可以拥有足够的磁盘和足够的计算能力来及时完成它。
我看到他们可以协同工作的许多方式。Pandas旨在完成许多数据科学工作。RDB旨在完成某些数据科学工作。平衡使用两者。
这是完成正确工作的正确工具。