Questions tagged «binary»

9
如何处理大量(二进制)数据的版本控制
我是地球物理学的博士学位学生,并且处理大量的图像数据(数百GB,成千上万个文件)。我非常了解svn并git开始重视项目历史,并具有轻松协作并防止磁盘损坏的能力。我发现git对于进行一致的备份也非常有帮助,但是我知道git无法有效处理大量二进制数据。 在我的硕士研究中,我研究了大小相似(也包括图像)的数据集,并且在跟踪不同服务器/设备上的不同版本时遇到很多问题。通过网络分配100GB的确不是一件好事,这花了我很多时间和精力。 我知道科学界的其他人似乎也有类似的问题,但我找不到很好的解决方案。 我想使用我研究所的存储设备,所以我需要可以使用“哑”服务器的东西。我还希望在便携式硬盘上有一个额外的备份,因为我想避免在任何可能的情况下通过网络传输数百GB。因此,我需要一种可以处理多个远程位置的工具。 最后,我确实需要其他研究人员可以使用的东西,因此它不需要超级简单,但应该可以在几个小时内学习。 我已经评估了许多不同的解决方案,但似乎都不适合: svn效率低下,需要一台智能服务器 HG bigfile / largefile只能使用一个遥控器 git bigfile / media也只能使用一个远程,但是效率也不高 阁楼似乎没有对数或差异功能 bup看起来确实不错,但是需要“智能”服务器才能工作 我已经尝试过了git-annex,它可以完成我需要做的所有事情(还有更多),但是使用起来非常困难,并且没有很好的文档记录。我已经使用了几天,无法理解,所以我怀疑其他任何同事都会对此感兴趣。 研究人员如何处理大型数据集,其他研究小组正在使用什么? 需要明确的是,我主要对其他研究人员如何处理这种情况感兴趣,而不仅仅是这个特定的数据集。在我看来,几乎每个人都应该有这个问题,但我不知道有谁解决了这个问题。我应该只保留原始数据的备份,而忘记所有这些版本控制内容吗?那是其他人在做什么吗?

3
存储Python机器学习模型的最佳实践
保存,存储和共享机器学习模型的最佳实践是什么? 在Python中,我们通常使用pickle或joblib存储模型的二进制表示形式。在我的情况下,模型可以大到100Mo。此外,除非您设置compress=1(/programming/33497314/sklearn-dumping-model-using-joblib-dumps-multiple-files-which-one-is-the- corre)。 但是,然后,如果您想控制对模型的访问权限,并能够使用来自不同计算机的模型,最好的存储方法是什么? 我有几种选择: 将它们存储为文件,然后使用Git LFS将它们放入存储库中 将它们作为二进制文件存储在SQL数据库中: 例如在Postgresql https://wiki.postgresql.org/wiki/BinaryFilesInDB中 这也是SQL Server团队推荐的方法: https://docs.microsoft.com/zh-cn/sql/advanced-analytics/tutorials/walkthrough-build-and-save-the-model https://microsoft.github.io/sql-ml-tutorials/python/rentalprediction/step/3.html https://blogs.technet.microsoft.com/dataplatforminsider/2016/10/17/sql-server-as-a-machine-learning-model-management-system HDFS

5
选择二进制分类算法
我有一个二进制分类问题: 训练集中约有1000个样本 10个属性,包括二进制,数字和分类 哪种算法是解决此类问题的最佳选择? 默认情况下,我将从SVM(将标称属性值转换为二进制特征的初步方法)开始,因为它被认为是相对干净和无噪声数据的最佳选择。

3
是否有适用于python的好的即用型语言模型?
我正在为一个应用程序制作原型,我需要一个语言模型来计算一些生成的句子的困惑度。 我可以随时使用经过训练的python语言模型吗?简单的东西 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 我看过一些框架,但找不到我想要的。我知道我可以使用类似: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) 这在Brown Corpus上使用了很好的图林概率分布,但是我正在一些大型数据集(例如1b单词数据集)上寻找精心设计的模型。我可以真正相信一般领域的结果(不仅是新闻)
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

3
最佳科学计算语言[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 5年前关闭。 似乎大多数语言都具有一定数量的科学计算库。 Python有 Scipy Rust 有 SciRust C++有几个包括ViennaCL和Armadillo Java具有Java Numerics和Colt其他几个 且不说像语言R和Julia明确的科学计算而设计。 有这么多种选择,您如何选择适合任务的最佳语言?另外,哪种语言的性能最高?Python并且R似乎在该领域具有最大的吸引力,但从逻辑上讲,编译语言似乎是一个更好的选择。会有什么表现胜过Fortran?此外编译语言往往有GPU加速,而解释性语言如R并Python没有。选择一种语言时应该考虑什么?哪些语言可以在效用和性能之间取得最佳平衡?还有我错过的具有重要科学计算资源的语言吗?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

4
为什么几种类型的模型会给出几乎相同的结果?
我一直在分析约40万条记录和9个变量的数据集。因变量是二进制。我已经安装了逻辑回归,回归树,随机森林和梯度增强树。当我在另一个数据集上验证拟合值时,它们全都具有拟合值的虚拟相同优势。 为什么会这样呢?我猜这是因为我对可变比率的观察如此之高。如果这是正确的,那么在不同的观察变量比率下,不同的模型将开始产生不同的结果?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.