我有一个大的(约1200万行)数据帧df,说:
df.columns = ['word','documents','frequency']
因此,以下及时运行:
word_grouping = df[['word','frequency']].groupby('word')
MaxFrequency_perWord = word_grouping[['frequency']].max().reset_index()
MaxFrequency_perWord.columns = ['word','MaxFrequency']
但是,这要花费很长的时间才能运行:
Occurrences_of_Words = word_grouping[['word']].count().reset_index()
我在这里做错了什么?有没有更好的方法来计算大型数据框中的出现次数?
df.word.describe()
运行良好,所以我真的没想到这个Occurrences_of_Words数据框会花费很长时间。
ps:如果答案很明显,并且您觉得有必要因提出这个问题而对我不利,请同时提供答案。谢谢。
df.word.value_counts()['myword']
大约是速度的两倍len(df[df.word == 'myword'])
。