Questions tagged «sql»

11
为什么人们喜欢熊猫而不是SQL?
自1996年以来我一直在使用SQL,因此我可能会有所偏见。我已经广泛使用MySQL和SQLite 3,但也使用了Microsoft SQL Server和Oracle。 我见过的使用Pandas进行的绝大多数操作都可以通过SQL轻松完成。这包括过滤数据集,选择要显示的特定列,将函数应用于值等等。 SQL具有优化器和数据持久性的优点。SQL还具有清晰易懂的错误消息。Pandas的API有点晦涩难懂,在某些情况下,有时需要使用单个[ stuff ],[[ stuff ]]有时需要使用.loc。熊猫的复杂性部分是由于存在如此多的超载而造成的。 所以我试图了解为什么熊猫如此受欢迎。
69 pandas  sql 

5
扩大seaborn热图
我corr()用原始df 创建了df。该corr()DF出来70×70,这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr(),则表格不适合屏幕,并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

5
现代R和/或Python库会使SQL过时吗?
我在办公室工作,其中SQL Server是我们所做的一切工作的骨干,从数据处理到清理再到处理。我的同事擅长编写复杂的功能和存储过程,以系统地处理传入的数据,以便可以对其进行标准化并将其用于报告,可视化和分析项目中。在这里开始之前,除了编写最基本的查询之外,我对SQL的了解很少。我的大部分分析准备工作都是在R中完成的。我的老板坚持说我提高了我的SQL技能,尽管似乎很少有分配工作无法更有效地完成,并且使用R编写的代码行少得多软件包,例如dplyr,data.table和tidyr(仅举几例)。我的问题是-这有意义吗? 几周前,我发现自己面临的任务是获取满足特定条件的表中每一行的列名列表,然后将它们连接成字符串向量。截止日期很紧,当时我遇到了一些障碍,无法完全解决这个问题。我问我的老板,后者又请我的同事编写脚本TSQL来解决问题。当他在研究它时,我想出了一种方法来用R编写一个相当简单的函数并将其应用于数据框。大约两个小时后,我的同事带着他的剧本回来了。至少有75行包含两个嵌套的for循环。我要求他告诉它何时完成运行,他说这需要几个小时。同时,我的R脚本能够在约30秒内循环遍历约45,000条记录。 我是否应该认为R是用于清理和处理数据的更好选择?也许我办公室里的SQL开发人员只是无能为力?我很好奇,是否同时使用R和SQL(或Python和SQL)的人对此有任何想法。
14 python  r  data-cleaning  data  sql 

3
SQL的自然语言查询
我一直在开发系统“将自然语言转换为SQL查询”。 我已经阅读了类似问题的答案,但无法获得我正在寻找的信息。 以下是我从Garima Singh,Arun Solanki的《将自然语言转换为关系数据库的SQL查询的算法》中获得的此类系统的流程图。 直到语音标记步骤的一部分,我才明白。但是我该如何处理其余步骤。 我是否需要训练所有可能的SQL查询? 或者,一旦完成语音标记的一部分,我就必须使用这些单词并形成一个SQL查询? 编辑:我已经成功实现了从步骤“用户查询”到“语音标记”。 谢谢。

3
最佳科学计算语言[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 5年前关闭。 似乎大多数语言都具有一定数量的科学计算库。 Python有 Scipy Rust 有 SciRust C++有几个包括ViennaCL和Armadillo Java具有Java Numerics和Colt其他几个 且不说像语言R和Julia明确的科学计算而设计。 有这么多种选择,您如何选择适合任务的最佳语言?另外,哪种语言的性能最高?Python并且R似乎在该领域具有最大的吸引力,但从逻辑上讲,编译语言似乎是一个更好的选择。会有什么表现胜过Fortran?此外编译语言往往有GPU加速,而解释性语言如R并Python没有。选择一种语言时应该考虑什么?哪些语言可以在效用和性能之间取得最佳平衡?还有我错过的具有重要科学计算资源的语言吗?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

2
用于在SQL表上进行自动异常检测的工具?
我有一个基本上是日志的大型SQL表。数据非常复杂,我试图在不了解所有数据的情况下找到某种方法来识别异常。我发现了很多用于异常检测的工具,但其中大多数都需要某种“中间人”,例如Elastic Search,Splunk等。 是否有人知道可以针对可建立基线并自动发出异常警报的SQL表运行的工具? 这听起来有些懒惰,但是当我了解每种事件类型的含义以及每种事件所涉及的其他字段时,我已经花了数十个小时编写个人的报告脚本,而且我不觉得自己能够更进一步地警告实际事件有意义的方式。该表有41列,仅触及5亿行(3年数据)。

3
哪个更快:大型JSON数据集上的PostgreSQL vs MongoDB?
我有一个大型数据集,其中有9m个JSON对象,每个对象约300个字节。它们是来自链接聚合器的帖子:基本上是链接(URL,标题和作者ID)和评论(文本和作者ID)+元数据。 它们很可能是表中的关系记录,但事实是它们具有一个数组字段,其ID指向子记录。 什么样的实现看起来更可靠? PostgreSQL数据库上的JSON对象(只有一个大表且只有一列,即JSON对象) MongoDB上的JSON对象 将JSON对象分解为列,并在PostgreSQL上使用数组 我想最大程度地提高联接的性能,因此我可以对数据进行按摩和探索,直到找到有趣的分析为止,这时我认为将数据转换为特定于每种分析的形式会更好。

4
如何调试数据分析?
我遇到了以下问题,我很典型地进行侦察。 我有一些大数据,例如几百万行。我对它进行了一些非平凡的分析,例如,由几个子查询组成的SQL查询。我得到一些结果,例如,说明属性X随时间增加。 现在,有两种可能的结果可能导致这种情况: X确实随着时间增加 我的分析中有错误 如何测试第一次发生而不是第二次发生?逐步调试器(即使存在)也无济于事,因为中间结果仍然可以包含数百万行。 我唯一能想到的就是以某种方式生成一个小的合成数据集,该数据集具有我要测试的属性,并将其作为单元测试进行分析。有工具可以做到这一点吗?特别是但不限于SQL。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.