Questions tagged «group-by»

GROUP BY是SQL关系数据库标准中的命令,用于将共享公共字段值的一组行折叠为单个行。可以对组中的其他字段(例如SUM()或AVG())执行聚合函数,以将相关数据整理为单个值。

7
dplyr的相对频率/比例
假设我要计算每个组中不同值的比例。例如,使用mtcars数据,我如何一目了然地通过am(自动/手动)计算齿轮数的相对频率?dplyr library(dplyr) data(mtcars) mtcars <- tbl_df(mtcars) # count frequency mtcars %>% group_by(am, gear) %>% summarise(n = n()) # am gear n # 0 3 15 # 0 4 4 # 1 4 8 # 1 5 5 我想实现的目标: am gear n rel.freq 0 3 15 0.7894737 0 4 4 0.2105263 …
153 r  group-by  dplyr  frequency 

8
具有NaN(缺失)值的pandas GroupBy列
我有一个DataFrame,在我希望分组的列中有许多缺失的值: import pandas as pd import numpy as np df = pd.DataFrame({'a': ['1', '2', '3'], 'b': ['4', np.NaN, '6']}) In [4]: df.groupby('b').groups Out[4]: {'4': [0], '6': [2]} 看到Pandas删除了具有NaN目标值的行。(我想包括这些行!) 由于我需要许多这样的操作(许多col具有缺失的值),并且使用的函数比中位数(通常是随机森林)更复杂,因此我想避免编写过于复杂的代码。 有什么建议?我应该为此编写一个函数还是有一个简单的解决方案?

9
SQL-在分组依据中使用别名
只是对SQL语法感到好奇。所以如果我有 SELECT itemName as ItemName, substring(itemName, 1,1) as FirstLetter, Count(itemName) FROM table1 GROUP BY itemName, FirstLetter 这将是不正确的,因为 GROUP BY itemName, FirstLetter 真的应该是 GROUP BY itemName, substring(itemName, 1,1) 但是为什么我们不能简单地使用前者来方便呢?
143 sql  group-by  alias 




6
Python分组依据
假设我有一组数据对,其中索引0是值,索引1是类型: input = [ ('11013331', 'KAT'), ('9085267', 'NOT'), ('5238761', 'ETH'), ('5349618', 'ETH'), ('11788544', 'NOT'), ('962142', 'ETH'), ('7795297', 'ETH'), ('7341464', 'ETH'), ('9843236', 'KAT'), ('5594916', 'ETH'), ('1550003', 'ETH') ] 我想按它们的类型(按第一个索引字符串)将它们分组,如下所示: result = [ { type:'KAT', items: ['11013331', '9843236'] }, { type:'NOT', items: ['9085267', '11788544'] }, { type:'ETH', items: ['5238761', '962142', '7795297', '7341464', …
125 python  group-by 

17
SELECT列表不在GROUP BY子句中,并且包含未聚合的列…与sql_mode = only_full_group_by不兼容
我在装有WAMP Server的Windows PC上使用MySQL 5.7.13 这是我的问题是执行此查询时 SELECT * FROM `tbl_customer_pod_uploads` WHERE `load_id` = '78' AND `status` = 'Active' GROUP BY `proof_type` 总是会出现这样的错误 SELECT列表的表达式#1不在GROUP BY子句中,并且包含未聚合的列'returntr_prod.tbl_customer_pod_uploads.id',该列在功能上不依赖于GROUP BY子句中的列;这与sql_mode = only_full_group_by不兼容 能否请您告诉我最好的解决方案... 我需要像这样的结果 +----+---------+---------+---------+----------+-----------+------------+---------------+--------------+------------+--------+---------------------+---------------------+ | id | user_id | load_id | bill_id | latitude | langitude | proof_type | document_type | file_name | is_private | …



10
通过熊猫DataFrame分组并选择最常用的值
我有一个包含三个字符串列的数据框。我知道第三列中的唯一一个值对于前两个的每种组合都有效。要清理数据,我必须按前两列按数据帧分组,并为每种组合选择第三列的最常用值。 我的代码: import pandas as pd from scipy import stats source = pd.DataFrame({'Country' : ['USA', 'USA', 'Russia','USA'], 'City' : ['New-York', 'New-York', 'Sankt-Petersburg', 'New-York'], 'Short name' : ['NY','New','Spb','NY']}) print source.groupby(['Country','City']).agg(lambda x: stats.mode(x['Short name'])[0]) 最后一行代码不起作用,它显示“键错误'Short name'”,如果我尝试仅按城市分组,则会收到AssertionError。我该如何解决?

6
MySQL的“分组依据”和“排序依据”
我希望能够从电子邮件表中选择一堆行并将其按发件人分组。我的查询如下所示: SELECT `timestamp`, `fromEmail`, `subject` FROM `incomingEmails` GROUP BY LOWER(`fromEmail`) ORDER BY `timestamp` DESC 该查询几乎可以按我需要的方式工作-它选择按电子邮件分组的记录。问题在于主题和时间戳与特定电子邮件地址的最新记录不符。 例如,它可能返回: fromEmail: john@example.com, subject: hello fromEmail: mark@example.com, subject: welcome 当数据库中的记录是: fromEmail: john@example.com, subject: hello fromEmail: john@example.com, subject: programming question fromEmail: mark@example.com, subject: welcome 如果“编程问题”主题是最新的,则如何在对电子邮件进行分组时让MySQL选择该记录?

12
在MySQL中按月和年分组
给定一个在每行上都有时间戳的表,您将如何格式化查询以适合此特定的json对象格式。 我正在尝试将json对象组织成年/月。 json以查询为基础: { "2009":["August","July","September"], "2010":["January", "February", "October"] } 这是我到目前为止的查询- SELECT MONTHNAME(t.summaryDateTime) as month, YEAR(t.summaryDateTime) as year FROM trading_summary t GROUP BY MONTH(t.summaryDateTime) DESC"; 该查询正在分解,因为它(可预测地)将不同年份组合在一起。
95 sql  mysql  group-by  date 

10
在一个时间范围内分为5分钟间隔
我要执行的mySQL命令有一些困难。 SELECT a.timestamp, name, count(b.name) FROM time a, id b WHERE a.user = b.user AND a.id = b.id AND b.name = 'John' AND a.timestamp BETWEEN '2010-11-16 10:30:00' AND '2010-11-16 11:00:00' GROUP BY a.timestamp 这是我当前的输出语句。 timestamp name count(b.name) ------------------- ---- ------------- 2010-11-16 10:32:22 John 2 2010-11-16 10:35:12 John 7 2010-11-16 10:36:34 …
93 mysql  sql  group-by 

2
Python Pandas:按分组分组,平均?
我有一个这样的数据框: cluster org time 1 a 8 1 a 6 2 h 34 1 c 23 2 d 74 3 w 6 我想计算每个集群每个组织的平均时间。 预期结果: cluster mean(time) 1 15 ((8+6)/2+23)/2 2 54 (74+34)/2 3 6 我不知道如何在熊猫中做到这一点,有人可以帮忙吗?
92 python  pandas  group-by  mean 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.