Questions tagged «databases»

为方便访问而组织的相关数据的全面收集,通常与用于更新和查询数据的软件相关联。

9
如何处理大量(二进制)数据的版本控制
我是地球物理学的博士学位学生,并且处理大量的图像数据(数百GB,成千上万个文件)。我非常了解svn并git开始重视项目历史,并具有轻松协作并防止磁盘损坏的能力。我发现git对于进行一致的备份也非常有帮助,但是我知道git无法有效处理大量二进制数据。 在我的硕士研究中,我研究了大小相似(也包括图像)的数据集,并且在跟踪不同服务器/设备上的不同版本时遇到很多问题。通过网络分配100GB的确不是一件好事,这花了我很多时间和精力。 我知道科学界的其他人似乎也有类似的问题,但我找不到很好的解决方案。 我想使用我研究所的存储设备,所以我需要可以使用“哑”服务器的东西。我还希望在便携式硬盘上有一个额外的备份,因为我想避免在任何可能的情况下通过网络传输数百GB。因此,我需要一种可以处理多个远程位置的工具。 最后,我确实需要其他研究人员可以使用的东西,因此它不需要超级简单,但应该可以在几个小时内学习。 我已经评估了许多不同的解决方案,但似乎都不适合: svn效率低下,需要一台智能服务器 HG bigfile / largefile只能使用一个遥控器 git bigfile / media也只能使用一个远程,但是效率也不高 阁楼似乎没有对数或差异功能 bup看起来确实不错,但是需要“智能”服务器才能工作 我已经尝试过了git-annex,它可以完成我需要做的所有事情(还有更多),但是使用起来非常困难,并且没有很好的文档记录。我已经使用了几天,无法理解,所以我怀疑其他任何同事都会对此感兴趣。 研究人员如何处理大型数据集,其他研究小组正在使用什么? 需要明确的是,我主要对其他研究人员如何处理这种情况感兴趣,而不仅仅是这个特定的数据集。在我看来,几乎每个人都应该有这个问题,但我不知道有谁解决了这个问题。我应该只保留原始数据的备份,而忘记所有这些版本控制内容吗?那是其他人在做什么吗?

3
存储Python机器学习模型的最佳实践
保存,存储和共享机器学习模型的最佳实践是什么? 在Python中,我们通常使用pickle或joblib存储模型的二进制表示形式。在我的情况下,模型可以大到100Mo。此外,除非您设置compress=1(/programming/33497314/sklearn-dumping-model-using-joblib-dumps-multiple-files-which-one-is-the- corre)。 但是,然后,如果您想控制对模型的访问权限,并能够使用来自不同计算机的模型,最好的存储方法是什么? 我有几种选择: 将它们存储为文件,然后使用Git LFS将它们放入存储库中 将它们作为二进制文件存储在SQL数据库中: 例如在Postgresql https://wiki.postgresql.org/wiki/BinaryFilesInDB中 这也是SQL Server团队推荐的方法: https://docs.microsoft.com/zh-cn/sql/advanced-analytics/tutorials/walkthrough-build-and-save-the-model https://microsoft.github.io/sql-ml-tutorials/python/rentalprediction/step/3.html https://blogs.technet.microsoft.com/dataplatforminsider/2016/10/17/sql-server-as-a-machine-learning-model-management-system HDFS


5
扩大seaborn热图
我corr()用原始df 创建了df。该corr()DF出来70×70,这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr(),则表格不适合屏幕,并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

1
Neo4j vs OrientDB vs泰坦
我正在从事与社会关系挖掘有关的数据科学项目,需要将数据存储在某些图形数据库中。最初,我选择Neo4j作为数据库。但是它接缝了Neo4j的伸缩性不好。我发现的替代方法是Titan和oriebtDB。我走过了这这三个数据库的比较,但我想获得这些数据库的更多细节。所以有人可以帮助我选择最好的人吗?我主要想比较这些数据库的性能,可扩展性,可用的在线文档/教程,Python库支持,查询语言复杂性和图算法支持。还有其他好的数据库选项吗?


5
熊猫数据框相对于常规关系数据库的优势
在数据科学中,许多人似乎正在使用pandas数据框作为数据存储。与普通的关系数据库(如MySQL)相比,大熊猫有什么特征使其成为高级数据存储,而MySQL通常用于存储其他编程领域的数据? 虽然熊猫确实提供了一些有用的数据探索功能,但是您不能使用SQL,并且会丢失查询优化或访问限制等功能。
13 pandas  databases 

3
高效的数据库模型,用于存储由n-gram索引的数据
我正在开发一个应用程序,该应用程序需要创建一个存在于大型文本语料库中的非常大的n-gram数据库。 我需要三种有效的操作类型:由n-gram本身索引的查找和插入,以及查询包含子n-gram的所有n-gram。 在我看来,数据库应该是一个巨大的文档树,而文档数据库(例如Mongo)应该能够很好地完成工作,但是我从来没有大规模使用过。 了解Stack Exchange问​​题格式后,我想澄清的是,我并不是在寻求有关特定技术的建议,而是要寻求大规模实施此类数据库的一种类型的数据库。
12 nlp  databases 

3
最佳科学计算语言[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 5年前关闭。 似乎大多数语言都具有一定数量的科学计算库。 Python有 Scipy Rust 有 SciRust C++有几个包括ViennaCL和Armadillo Java具有Java Numerics和Colt其他几个 且不说像语言R和Julia明确的科学计算而设计。 有这么多种选择,您如何选择适合任务的最佳语言?另外,哪种语言的性能最高?Python并且R似乎在该领域具有最大的吸引力,但从逻辑上讲,编译语言似乎是一个更好的选择。会有什么表现胜过Fortran?此外编译语言往往有GPU加速,而解释性语言如R并Python没有。选择一种语言时应该考虑什么?哪些语言可以在效用和性能之间取得最佳平衡?还有我错过的具有重要科学计算资源的语言吗?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
哪个更快:大型JSON数据集上的PostgreSQL vs MongoDB?
我有一个大型数据集,其中有9m个JSON对象,每个对象约300个字节。它们是来自链接聚合器的帖子:基本上是链接(URL,标题和作者ID)和评论(文本和作者ID)+元数据。 它们很可能是表中的关系记录,但事实是它们具有一个数组字段,其ID指向子记录。 什么样的实现看起来更可靠? PostgreSQL数据库上的JSON对象(只有一个大表且只有一列,即JSON对象) MongoDB上的JSON对象 将JSON对象分解为列,并在PostgreSQL上使用数组 我想最大程度地提高联接的性能,因此我可以对数据进行按摩和探索,直到找到有趣的分析为止,这时我认为将数据转换为特定于每种分析的形式会更好。

2
Neo4j与RDBMS执行时间的比较是否正确?
背景:以下是《图形数据库》一书,其中涵盖了《Neo4j in Action》一书中提到的性能测试: 图中的关系自然形成路径。查询或遍历图涉及以下路径。由于数据模型的本质是面向路径的,因此大多数基于路径的图数据库操作与数据的布局方式高度一致,从而使其极为高效。Partner和Vukotic在他们的《行动中的Neo4j》一书中使用关系存储和Neo4j进行了实验。 比较结果表明,图数据库比关联存储要快得多。Partner和Vukotic的实验试图在社交网络中查找朋友的朋友,最大深度为5。给定随机选择的任何两个人,是否存在连接他们的路径(最多五个关系)?对于包含1,000,000人(每个人约有50个朋友)的社交网络,结果强烈表明,图数据库是连接数据的最佳选择,如表2-1所示。 表2-1。在关系数据库中查找扩展的朋友与Neo4j中的有效查找 Depth RDBMS Execution time (s) Neo4j Execution time (s) Records returned 2 0.016 0.01 ~2500 3 30.267 0.168 ~110,000 4 1543.505 1.359 ~600,000 5 Unfinished 2.132 ~800,000 关系数据库和图形数据库在两个方面(朋友的朋友)都表现良好,足以让我们考虑在在线系统中使用它们。虽然Neo4j查询的运行时间是关系查询的三分之二,但最终用户几乎不会注意到两者之间的毫秒差。但是,到了深度三(朋友的朋友)时,很明显关系数据库不再能够在合理的时间范围内处理查询:完成这三十秒将是完全不可接受的用于在线系统。相比之下,Neo4j的响应时间却相对平稳:执行查询只需几分之一秒,对于在线系统而言绝对足够快。 在深度四处,关系数据库表现出严重的延迟,这使其几乎对在线系统毫无用处。Neo4j的时间安排也略有恶化,但此处的延迟处于响应型在线系统可接受的范围之内。最后,在深度五处,关系数据库仅花费很长时间才能完成查询。相反,Neo4j在大约两秒钟内返回结果。在深度5处,它几乎渗入整个网络,这是我们的朋友:对于许多实际的用例,我们可能会调整结果和时间安排。 问题是: 这是一种合理的测试,可以模拟在社交网络中除了可以找到的东西以外的其他东西吗?(例如,实际的社交网络通常具有大约50个朋友的节点;对于社交网络,“ 富人致富 ”模型似乎更自然,尽管可能是错误的。) 不管模拟的自然性如何,是否有任何理由相信结果不正确或无法再现?
10 databases  nosql  neo4j 

2
使用智能手机数据集问题的人类活动识别
我是这个社区的新手,希望我的问题很适合这里。作为我的本科数据分析课程的一部分,我选择使用智能手机数据集进行有关人类活动识别的项目。就我而言,这个主题与机器学习和支持向量机有关。我对这种技术还不太熟悉,因此我需要一些帮助。 我已决定遵循此项目构想http://www.inf.ed.ac.uk/teaching/courses/dme/2014/datasets.html(顶部的第一个项目)该项目的目标是确定一个人的活动根据智能手机(三星Galaxy S II)在对象腰部记录的数据进行(例如,行走,行走,向上,行走,下坐,坐着,站立,躺着)。使用其嵌入式加速度计和陀螺仪,数据包括以50Hz恒定速率的3轴线性加速度和3轴角速度。 所有数据集在一个文件夹中给出,带有一些描述和功能标签。数据分为“测试”和“训练”文件,其中数据以这种格式表示: 2.5717778e-001 -2.3285230e-002 -1.4653762e-002 -9.3840400e-001 -9.2009078e-001 -6.6768331e-001 -9.5250112e-001 -9.2524867e-001 -6.7430222e-001 -8.9408755e-001 -5.5457721e-001 -4.6622295e-001 7.1720847e-001 6.3550240e-001 7.8949666e-001 -8.7776423e-001 -9.9776606e-001 -9.9841381e-001 -9.3434525e-001 -9.7566897e-001 -9.4982365e-001 -8.3047780e-001 -1.6808416e-001 -3.7899553e-001 2.4621698e-001 5.2120364e-001 -4.8779311e-001 4.8228047e-001 -4.5462113e-002 2.1195505e-001 -1.3489443e-001 1.3085848e-001 -1.4176313e-002 -1.0597085e-001 7.3544013e-002 -1.7151642e-001 4.0062978e-002 7.6988933e-002 -4.9054573e-001 -7.0900265e-001 这只是文件包含内容的很小一部分。 我真的不知道这些数据代表什么以及如何解释。另外,对于数据的分析,分类和聚类,我需要使用哪些工具?有什么办法可以将包含标签的数据放入excel,例如使用R或python提取示例数据并进行处理? 任何提示/技巧将不胜感激。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.