4
是否有直接运行pandas.DataFrame.isin的直接方法?
我有一个建模和评分程序,该程序大量使用了DataFrame.isin熊猫的功能,在数千个特定页面的每个页面中搜索单个用户的Facebook“喜欢”记录列表。这是程序中最耗时的部分,而不是建模或评分部分,这仅仅是因为它仅在一个内核上运行,而其余部分同时在几十个内核上运行。 尽管我知道我可以手动将数据帧分解为多个块并并行运行该操作,但是有没有直接的自动方法?换句话说,是否有任何一种程序包可以识别我正在执行的一项容易委派的操作并自动分发它?也许这要求太多,但是过去我对Python中已有的功能感到惊讶,因此我认为值得提出。 任何其他有关如何完成此操作的建议(即使不是通过某些神奇的独角兽程序包也是如此!)也将不胜感激。主要是,只是试图找到一种方法,以在每次运行中节省15至20分钟的时间,而无需花费等量的时间来编码解决方案。