使用SQLAlchemy ORM批量插入

130

有什么方法可以让SQLAlchemy进行批量插入，而不是插入每个对象。即

在做：

INSERT INTO `foo` (`bar`) VALUES (1), (2), (3)

而不是：

INSERT INTO `foo` (`bar`) VALUES (1)
INSERT INTO `foo` (`bar`) VALUES (2)
INSERT INTO `foo` (`bar`) VALUES (3)

我刚刚将一些代码转换为使用sqlalchemy而不是原始sql，尽管现在使用它起来要好得多，但现在似乎要慢一些（最多10倍），我想知道这是否是原因。

也许我可以更有效地使用会话来改善这种情况。目前，我已经添加了一些东西，autoCommit=False并做了一个session.commit()。尽管如果在其他地方更改了数据库，这似乎会使数据过时，例如，即使我执行新查询，我仍然可以返回旧结果？

谢谢你的帮助！

— 尼克·霍尔顿
source

1

这可能会有所帮助：stackoverflow.com/questions/270879/…–

— 肖恩·维埃拉

1

尼克，我知道这是很老的帖子。是否可以将标题更新为正确的名称，例如“使用SQLAlchemy ORM进行多次记录插入”。像您提供的那样，多记录插入语句与数据库级别的批量装入操作有很大不同。批量插入通常用于从大型数据集中上传1k +数据，并由应用程序管理器完成，而不是REST操作或应用程序级代码...。让我们正确地使用术语。

— W4t3randWind

对于那些在sqlalchemy Core（不是ORM）中查找有关批量操作的信息时偶然发现此问题的人，请参阅我对另一个问题的回答。

— Nickolay

173

SQLAlchemy在版本中引入了该功能1.0.0：

批量操作-SQLAlchemy文档

通过这些操作，您现在可以批量插入或更新！

例如，您可以执行以下操作：

s = Session()
objects = [
    User(name="u1"),
    User(name="u2"),
    User(name="u3")
]
s.bulk_save_objects(objects)
s.commit()

在这里，将制成大量插入物。

— 皮埃尔
source

30

您还需要s.commit（）来真正保存记录（花了我一点时间才能弄清楚）。

— horcle_buzz 2015年

3

我用sqlachemy 1.0.11尝试了此操作，但它仍然产生3条插入语句。但这比正常的orm操作快很多。

— zidarsk8'8-10-7

3

尽管与OP的问题无关，但值得一提的是，这确实破坏了ORM的某些功能。docs.sqlalchemy.org/en/rel_1_0/orm/…–

— dangel

@dangel是，谢谢您发布此内容。尽管OP的标题涉及“批量加载”，但有关多记录插入语句的问题与sqlalchemy的批量加载功能无关。

— W4t3randWind

与\copy使用psql 从CSV插入相同数据（从同一客户端到同一服务器）相比，我发现服务器端的性能存在巨大差异，导致每秒插入次数增加10倍左右。显然，在从客户端到服务器的LOT与服务器之间进行通信时，使用打包方式\copy（或COPY在服务器上）使用打包方式比通过SQLAlchemy使用SQL更好。更多信息：PostgreSQL与...的大容量插入性能差异。

— gertvdijk

42

sqlalchemy文档对可用于批量插入的各种技术的性能进行了总结：

ORM基本上不是用于高性能批量插入的-这是SQLAlchemy除了将ORM作为一流组件之外还提供Core的全部原因。

对于快速批量插入的用例，ORM所基于的SQL生成和执行系统是Core的一部分。直接使用该系统，我们可以产生与直接使用原始数据库API相比具有竞争力的INSERT。

另外，SQLAlchemy ORM提供了Bulk Operations方法套件，该套件提供了到工作单元过程各部分的挂钩，以便发出基于ORM的自动化程度较低的Core级INSERT和UPDATE构造。

下面的示例说明了基于时间的测试，该测试针对从自动程度最高到最少的几种不同的行插入方法。使用cPython 2.7，可以观察到运行时：

classics-MacBook-Pro:sqlalchemy classic$ python test.py
SQLAlchemy ORM: Total time for 100000 records 12.0471920967 secs
SQLAlchemy ORM pk given: Total time for 100000 records 7.06283402443 secs
SQLAlchemy ORM bulk_save_objects(): Total time for 100000 records 0.856323003769 secs
SQLAlchemy Core: Total time for 100000 records 0.485800027847 secs
sqlite3: Total time for 100000 records 0.487842082977 sec

脚本：

import time
import sqlite3

from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy import Column, Integer, String,  create_engine
from sqlalchemy.orm import scoped_session, sessionmaker

Base = declarative_base()
DBSession = scoped_session(sessionmaker())
engine = None


class Customer(Base):
    __tablename__ = "customer"
    id = Column(Integer, primary_key=True)
    name = Column(String(255))


def init_sqlalchemy(dbname='sqlite:///sqlalchemy.db'):
    global engine
    engine = create_engine(dbname, echo=False)
    DBSession.remove()
    DBSession.configure(bind=engine, autoflush=False, expire_on_commit=False)
    Base.metadata.drop_all(engine)
    Base.metadata.create_all(engine)


def test_sqlalchemy_orm(n=100000):
    init_sqlalchemy()
    t0 = time.time()
    for i in xrange(n):
        customer = Customer()
        customer.name = 'NAME ' + str(i)
        DBSession.add(customer)
        if i % 1000 == 0:
            DBSession.flush()
    DBSession.commit()
    print(
        "SQLAlchemy ORM: Total time for " + str(n) +
        " records " + str(time.time() - t0) + " secs")


def test_sqlalchemy_orm_pk_given(n=100000):
    init_sqlalchemy()
    t0 = time.time()
    for i in xrange(n):
        customer = Customer(id=i+1, name="NAME " + str(i))
        DBSession.add(customer)
        if i % 1000 == 0:
            DBSession.flush()
    DBSession.commit()
    print(
        "SQLAlchemy ORM pk given: Total time for " + str(n) +
        " records " + str(time.time() - t0) + " secs")


def test_sqlalchemy_orm_bulk_insert(n=100000):
    init_sqlalchemy()
    t0 = time.time()
    n1 = n
    while n1 > 0:
        n1 = n1 - 10000
        DBSession.bulk_insert_mappings(
            Customer,
            [
                dict(name="NAME " + str(i))
                for i in xrange(min(10000, n1))
            ]
        )
    DBSession.commit()
    print(
        "SQLAlchemy ORM bulk_save_objects(): Total time for " + str(n) +
        " records " + str(time.time() - t0) + " secs")


def test_sqlalchemy_core(n=100000):
    init_sqlalchemy()
    t0 = time.time()
    engine.execute(
        Customer.__table__.insert(),
        [{"name": 'NAME ' + str(i)} for i in xrange(n)]
    )
    print(
        "SQLAlchemy Core: Total time for " + str(n) +
        " records " + str(time.time() - t0) + " secs")


def init_sqlite3(dbname):
    conn = sqlite3.connect(dbname)
    c = conn.cursor()
    c.execute("DROP TABLE IF EXISTS customer")
    c.execute(
        "CREATE TABLE customer (id INTEGER NOT NULL, "
        "name VARCHAR(255), PRIMARY KEY(id))")
    conn.commit()
    return conn


def test_sqlite3(n=100000, dbname='sqlite3.db'):
    conn = init_sqlite3(dbname)
    c = conn.cursor()
    t0 = time.time()
    for i in xrange(n):
        row = ('NAME ' + str(i),)
        c.execute("INSERT INTO customer (name) VALUES (?)", row)
    conn.commit()
    print(
        "sqlite3: Total time for " + str(n) +
        " records " + str(time.time() - t0) + " sec")

if __name__ == '__main__':
    test_sqlalchemy_orm(100000)
    test_sqlalchemy_orm_pk_given(100000)
    test_sqlalchemy_orm_bulk_insert(100000)
    test_sqlalchemy_core(100000)
    test_sqlite3(100000)

— 格兰特·汉弗莱斯
source

1

谢谢。真正有帮助和彻底。

— 史蒂夫·B。

我看到了另一个使用bindparams的示例。语法看起来很简洁，这有好处吗？

— 周杰伦

35

据我所知，没有办法让ORM发出批量插入。我认为根本原因是SQLAlchemy需要跟踪每个对象的身份（即新的主键），而大容量插入会对此产生干扰。例如，假设您的foo表包含一id列并映射到一个Foo类：

x = Foo(bar=1)
print x.id
# None
session.add(x)
session.flush()
# BEGIN
# INSERT INTO foo (bar) VALUES(1)
# COMMIT
print x.id
# 1

由于SQLAlchemy在x.id不发出另一个查询的情况下获取了该值，因此我们可以推断出它直接从该INSERT语句中获取了该值。如果不需要随后通过相同实例访问创建的对象，则可以跳过ORM层进行插入：

Foo.__table__.insert().execute([{'bar': 1}, {'bar': 2}, {'bar': 3}])
# INSERT INTO foo (bar) VALUES ((1,), (2,), (3,))

SQLAlchemy无法将这些新行与任何现有对象匹配，因此您必须重新查询它们以进行任何后续操作。

至于过时的数据，记住该会话没有内置的方式来了解何时在会话外更改数据库是很有帮助的。为了通过现有实例访问外部修改的数据，必须将这些实例标记为expired。默认情况下会发生这种情况session.commit()，但可以通过调用session.expire_all()或手动完成session.expire(instance)。一个例子（省略SQL）：

x = Foo(bar=1)
session.add(x)
session.commit()
print x.bar
# 1
foo.update().execute(bar=42)
print x.bar
# 1
session.expire(x)
print x.bar
# 42

session.commit()expires x，因此第一个打印语句隐式打开一个新事务并重新查询x属性。如果注释掉第一个打印语句，您会注意到第二个打印语句现在会选择正确的值，因为直到更新后才会发出新查询。

从事务隔离的角度来看，这是有道理的-您只应在事务之间进行外部修改。如果这给您带来麻烦，建议您弄清或重新考虑应用程序的事务边界，而不要立即进行操作session.expire_all()。

— 达菲
source

多谢您的回覆，我将尝试一下。WRT即将到期的问题，我所看到的并不完全相同。我在turbogears中使用了作用域会话。执行getSession（）。query（Foo）.filter .... all（）会根据请求返回不同的内容，也不会返回数据库中的更新记录，直到我重新启动它为止。我通过执行autocommit = True并在请求完成后添加.remove（）d会话来解决此问题（我想无论如何都应该这样做）。

— 尼克·霍尔顿

我猜它根据请求返回了不同的内容，因为它在池中每个线程都有一个作用域化的会话，并且这些会话处于不同的状态？尽管在新请求之后sa无法获得新数据，这似乎有些奇怪。我希望我误会了autocommit = False在做什么

— Nick Holden 2010年

使用autocommit=False，我相信您应该session.commit()在请求完成时致电（我对TurboGears不熟悉，因此如果在框架级别为您解决了此问题，请忽略此操作）。除了确保您所做的更改已对数据库进行之外，这还将使会话中的所有内容都失效。下一次事务要等到下一次使用该会话后才能开始，因此将来在同一线程上的请求将看不到过时的数据。

— dhaffey

10

另一种样式：session.execute(Foo.__table__.insert(), values)

— Joril

6

需要注意的是SQLAlchemy的较新版本的批量插入功能：docs.sqlalchemy.org/en/latest/orm/...

— 韦恩沃纳

18

我通常使用add_all。

from app import session
from models import User

objects = [User(name="u1"), User(name="u2"), User(name="u3")]
session.add_all(objects)
session.commit()

— 鲁巴诺
source

2

您确定这可行吗？这不仅相当于一次将.add它们加入到会话中吗？

— Alec

给定方法名称，这将是违反直觉的，而文档未做详细介绍：Add the given collection of instances to this Session.您是否有理由相信它不会进行批量插入？

— reubano '18

3

我认为这不太违反直觉-实际上，它确实添加了您要求的所有内容。在会话中添加所有内容似乎并不意味着发出底层SQL语句。查看源代码：github.com/zzzeek/sqlalchemy/blob/…实际上，它似乎只是将.add每个项目单独存在。

— 亚历克

与相比bulk_save_objects()，使用flush()，它可以很好地工作，我们可以获取对象的ID，但bulk_save_objects()不能（带有flush()被调用事件）。

— coanor

14

从0.8版开始，直接支持已添加到SQLAlchemy

根据docs，connection.execute(table.insert().values(data))应该可以解决问题。（请注意，这是不一样的connection.execute(table.insert(), data)通过将呼叫这导致许多个别行插入executemany）。除了本地连接之外，其他任何方面的性能差异都可能很大。

— 用户名
source

10

SQLAlchemy在版本中引入了该功能1.0.0：

批量操作-SQLAlchemy文档

通过这些操作，您现在可以批量插入或更新！

例如（如果您希望简单表INSERT的开销最小），可以使用Session.bulk_insert_mappings()：

loadme = [(1, 'a'),
          (2, 'b'),
          (3, 'c')]
dicts = [dict(bar=t[0], fly=t[1]) for t in loadme]

s = Session()
s.bulk_insert_mappings(Foo, dicts)
s.commit()

或者，如果需要，可以跳过loadme元组，直接将字典写进去dicts（但是我发现将所有的单词遗漏在数据之外并循环加载字典列表会更容易）。

— 华尼托根
source

7

Piere的回答是正确的，但是一个问题是bulk_save_objects，如果您担心的话，默认情况下不会返回对象的主键。设置return_defaults为True可得到此行为。

文档在这里。

foos = [Foo(bar='a',), Foo(bar='b'), Foo(bar='c')]
session.bulk_save_objects(foos, return_defaults=True)
for foo in foos:
    assert foo.id is not None
session.commit()

— 马修·莫森（Matthew Moisen）
source

2

必须注意标志。它将一次顺序插入一个对象，并且可能不会显着提高性能[1]。就我而言，由于开销，我怀疑性能下降了。[1]：docs.sqlalchemy.org/en/13/orm/…–

— dhfromkorea

6

条条大路通罗马，但其中一些横穿山脉，需要渡轮，但是如果您想快速到达那儿，只需上高速公路。

在这种情况下，高速公路将使用psycopg2的execute_batch（）功能。该文档说的最好：

当前的实现executemany()（使用非常慈善的轻描淡写）不是特别有效。这些功能可用于加快针对一组参数的语句的重复执行。通过减少服务器往返次数，性能可以比使用服务器好几个数量级。executemany()。

在我自己的测试execute_batch()是快2倍左右为executemany()，并给出配置进行进一步的调整所以page_size的选项（如果你想挤进业绩的最后2-3％的驾驶者）。

如果使用SQLAlchemy，则可以通过use_batch_mode=True在实例化引擎时将其设置为参数来轻松启用相同功能。create_engine()

— Chjortlund
source

注：psycopg2的execute_values是快比psycopg2的execute_batch做批量插入的时候！

— 凌晨

5

这是一种方法：

values = [1, 2, 3]
Foo.__table__.insert().execute([{'bar': x} for x in values])

这样插入：

INSERT INTO `foo` (`bar`) VALUES (1), (2), (3)

参考：SQLAlchemy FAQ包含各种提交方法的基准。

— Eefret
source

3

到目前为止，我发现的最佳答案是在sqlalchemy文档中：

http://docs.sqlalchemy.org/en/latest/faq/performance.html#im-inserting-400-000-rows-with-the-orm-and-it-s-really-slow

有一个完整示例说明了可能的解决方案基准。

如文档所示：

bulk_save_objects不是最佳解决方案，但其性能是正确的。

就可读性而言，第二好的实现是我认为使用SQLAlchemy Core：

def test_sqlalchemy_core(n=100000):
    init_sqlalchemy()
    t0 = time.time()
    engine.execute(
        Customer.__table__.insert(),
            [{"name": 'NAME ' + str(i)} for i in xrange(n)]
    )

文档文章中提供了此功能的上下文。

— lelabo_m
source