Questions tagged «data-analysis»

2
多对多广义分配问题的算法
我似乎找不到关于可用于解决多对多广义分配问题(GAP)的算法的文献,即不仅可以将更多任务分配给一个代理,而且可以将多个代理分配给多个代理的模型。分配给一项任务(Pentico在一篇论文中讨论了一对一和一对多AP)。我几乎不了解分配问题,但是在研究过程中遇到了这样的问题,并且想了解更多有关如何解决它们的知识。这样的多对多GAP是否有可能被冠以另一个名称,或者是否有其他原因可以找到很少的文献? Pentico,D. 作业问题:黄金周年调查。欧洲运筹学杂志(2007); 176(2):774-793。

3
存储分层模拟数据的最佳实践
TL,DR 科学计算界中用于存储大量分层结构数据的最佳实践是什么?例如,SQL在大型稀疏矩阵上不能很好地发挥作用。是否有用于构建,仓储和分析此类数据的好工具?大型强子对撞机的人使用什么? 用例详细信息 我想根据以下层次结构存储蛋白质模拟中的数据: protein |__simulation conditions |____|__residues |____|____|__conformers |____|____|____|__atoms 每个蛋白质都应该知道其每个残基,每个原子都应该知道用于其模拟的条件,等等,反之亦然。 最初,我认为关系数据库将非常适合该应用程序,因此我使用python和sqlalchemey编写了一个程序,该程序将数据存储在SQL数据库中。但是实际上,该程序不能很好地运行。 最大的问题与以下事实有关:由于每个可能的构象体对之间的成对相互作用,在构象体数据级别存在一个N x N矩阵,该矩阵存储势能。矩阵中的大多数条目都是零,因此我以一种稀疏格式将矩阵存储在数据库中的另一个表中,每个条目一行。不幸的是,对于涉及数千个conformer的模拟,成对表仍然以数十万行结尾,并且: a)构建和查询非常缓慢(几小时) b)与作为非稀疏矩阵的等效数据纯文本表示相比,我的硬盘驱动器占用了更多的数量级空间 c)在以下情况下占用了超过10 GB的内存:该表被读入内存 我的最终目标是在数据库中存储成千上万次运行(在几十种模拟条件下源自数千种蛋白质),以便可以一起分析所有运行。这意味着代表成对矩阵的表可能会增长到大约十亿行。目前看来,我需要一个Cray或其他共享内存的怪物,以便甚至对该数据库运行单个查询。 我在这里有更好的选择吗?大型强子对撞机的人使用什么?

4
用于高维数据的最快PCA算法
我想对大约40000个样本组成的数据集执行PCA,每个样本显示大约10000个特征。 始终使用Matlab princomp函数要花费半小时以上的时间,此时我终止了该过程。我想找到一个运行时间少于10分钟的实现/算法。最快的算法是什么?i7双核/ 4GB Ram需要多长时间?

2
熊猫的局限性及其在Python中的替代方案
我在某处读到Pandas最初是为金融世界开发的,至少不是特别针对自然科学(物理学,生物学等)开发的,所以有没有类似的数据分析Python程序包更加“面向自然科学”? 我刚开始使用Pandas,已经遇到了两个问题,如果不使用其他软件包或自制解决方案便无法解决: 如何处理不确定性? 如何轻松定义我的数据单位? 也许还有其他问题,但我缺乏更准确的经验。目前,我考虑了不确定性软件包来解决第一点,但是我不确定它是否可以在Pandas上正常工作,并且不会降低计算速度。实际上,我并不是在寻找一种具有不确定性的计算方式,而只是一种将不确定性与导入的数据一起存储的简单方法。第二点,我没有找到比创建除DataFrame之外的字典来管理与每个数据关联的单元更好的解决方案。 如果您遇到过同样的问题,您是如何解决的?或者您在自然科学中使用了哪些其他软件包进行Python中的数据处理/存储/分析?

2
匹配集合中的相似项目
我正在尝试搭配物品。给定一组项目,我可以按从0到100的等级对它们之间的相似程度进行排名。例如,如果项目n 1是牛奶,项目n 2也是牛奶,那么n 1和n 2之间的相似度将是100%。如果n 3是苏打水,则n 1和n 3之间的相似度可能是80%,依此类推。ññnñ1个ñ1个n_1ñ2ñ2n_2ñ1个ñ1个n_1ñ2ñ2n_2ñ3ñ3n_3ñ1个ñ1个n_1ñ3ñ3n_3 我试图弄清楚如何将项目分组为相似项目的组,但这是一个具有挑战性的问题。我遇到了以下问题:马类似于牛,类似于山羊,部分类似于山羊奶酪,后者类似于与薄脆饼干相关的奶酪。但是,我不希望一匹马与饼干一样。每个项目可能是成对相关的,但开始和结束可能不是。ññn 有任何想法吗?

1
计算科学与数据科学有什么区别?[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 3年前关闭。 背景:我的博士学位是“计算科学”。我的论文是关于X射线衍射数据的分析和对固态物理学中分子电子密度的整体动力学分析中的热扰动核的分析。外卖?这是非常科学的。 在我看来,计算科学是对科学的追求,“……一种系统的企业,通过计算手段,以可检验的有关宇宙的解释和预测的形式来建立和组织知识”(维基)。 但是,“数据科学”的大多数职位看起来更像是“数据分析”类型的工作。也就是说,繁重的SQL查询使用预先构建的R和Python模型(线性回归等)从结构化和非结构化数据中得出结论。 计算科学是数据科学的超集吗?它们可以互换吗?数据科学真的是一门“科学”吗?计算科学是一门实际的“科学”吗?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.