Questions tagged «data-processing»

7
如何以正确的方式平滑曲线?
假设我们有一个数据集,大约可以由 import numpy as np x = np.linspace(0,2*np.pi,100) y = np.sin(x) + np.random.random(100) * 0.2 因此,我们有20%的数据集变异。我的第一个想法是使用scipy的UnivariateSpline函数,但是问题是这没有很好地考虑小噪声。如果考虑频率,则背景比信号小得多,因此仅花键作为截止点可能是个主意,但这会涉及来回傅立叶变换,这可能会导致不良行为。另一种方法是移动平均线,但这也需要正确选择延迟。 任何提示/书籍或链接如何解决此问题?

3
Hbase与Cassandra的大规模数据处理
从目前的情况来看,这个问题不适合我们的问答形式。我们希望答案能得到事实,参考或专业知识的支持,但是这个问题可能会引起辩论,争论,民意调查或扩展讨论。如果您认为此问题可以解决并且可以重新提出,请访问帮助中心以获取指导。 8年前关闭。 在对大规模数据存储解决方案进行研究之后,我差点就进入了Cassandra。但其普遍认为,Hbase是大规模数据处理和分析的更好解决方案。 尽管两者都是相同的键/值存储并且都可以运行(最近才是Cassandra),但是Hadoop层却使Hadoop在需要对大数据进行处理/分析时成为更好的选择。 我还在 http://ria101.wordpress.com/2010/02/24/hbase-vs-cassandra-why-we-moved/ 但我仍在寻找Hbase的具体优势。 虽然我对Cassandra更为确信,因为它具有添加节点和无缝复制的简便性,并且没有故障点功能。而且它还保留了二级索引功能,因此是一个不错的选择。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.