python-pandas和类似mysql的数据库


97

Pandas的文档提供了许多使用各种格式存储的最佳实践示例。

但是,我找不到用于处理像MySQL这样的数据库的任何好的示例。

谁能指向我链接或提供一些代码片段,说明如何使用mysql-python将查询结果有效地转换为Pandas中的数据帧?




还可以看看Blaze
osa 2014年

如果您愿意花钱,我相信Wes McKinney的书(“ Python for Data Analysis”)提供了一些有用的示例。
MTrenfield 2014年

Answers:


102

正如Wes所说,一旦使用DBI兼容库建立了数据库连接,io / sql的read_sql就可以完成。我们可以看两个使用MySQLdbcx_Oracle库连接到Oracle和MySQL并查询其数据字典的简短示例。这是以下示例cx_Oracle

import pandas as pd
import cx_Oracle

ora_conn = cx_Oracle.connect('your_connection_string')
df_ora = pd.read_sql('select * from user_objects', con=ora_conn)    
print 'loaded dataframe from Oracle. # Records: ', len(df_ora)
ora_conn.close()

这是等效的示例MySQLdb

import MySQLdb
mysql_cn= MySQLdb.connect(host='myhost', 
                port=3306,user='myusername', passwd='mypassword', 
                db='information_schema')
df_mysql = pd.read_sql('select * from VIEWS;', con=mysql_cn)    
print 'loaded dataframe from MySQL. records:', len(df_mysql)
mysql_cn.close()

57

对于这个问题的新读者:熊猫在其版本14.0文档中具有以下警告:

警告:一些现有功能或功能别名已被弃用,并将在以后的版本中删除。这包括:tquery,uquery,read_frame,frame_query,write_frame。

和:

警告:不建议使用DBAPI连接对象时支持'mysql'风格。SQLAlchemy引擎(GH6900)将进一步支持MySQL。

这使得这里的许多答案已经过时了。您应该使用sqlalchemy

from sqlalchemy import create_engine
import pandas as pd
engine = create_engine('dialect://user:pass@host:port/schema', echo=False)
f = pd.read_sql_query('SELECT * FROM mytable', engine, index_col = 'ID')

加载具有133行7列的表大约需要30秒。.您能提供一些有关为什么的见解吗?
idoda 2014年

@idoda [通常,这不是问题的主题,最好提一个新问题,这样您会得到更多的意见]。您确定这不是请求延迟的问题吗?是否只是简单地发送查询和检索结果就更快?
Korem 2014年

@Korem我曾考虑过要开设一个新的书,但我想确保它不是一个简单的书。当我使用mySql客户端(Sequel pro)并查询数据库时,重用的速度更快。当您说“先发送然后检索”时,这是您的意思吗?(使用客户端)
idoda

@idoda我的意思是比较需要执行的时间engine.execute("select * FROM mytable")与花费的执行时间pd.read_sql_query('SELECT * FROM mytable', engine)
Korem

可以将sqlalchemy查询(session.query如下面我的答案所示)直接传递给pandas方法吗?那将是一个开膛手!
dmvianna 2015年

23

作为记录,这是一个使用sqlite数据库的示例:

import pandas as pd
import sqlite3

with sqlite3.connect("whatever.sqlite") as con:
    sql = "SELECT * FROM table_name"
    df = pd.read_sql_query(sql, con)
    print df.shape

1
您可以通过index_col='timestamp'在中指定来指定要用作索引的列frame_query
机械蜗牛

19

我更喜欢使用SQLAlchemy创建查询,然后从中创建一个DataFrame。如果您打算一遍又一遍地混合和匹配内容,SQLAlchemy可以更轻松地通过Python 组合SQL条件。

from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy import Table
from sqlalchemy import create_engine
from sqlalchemy.orm import sessionmaker
from pandas import DataFrame
import datetime

# We are connecting to an existing service
engine = create_engine('dialect://user:pwd@host:port/db', echo=False)
Session = sessionmaker(bind=engine)
session = Session()
Base = declarative_base()

# And we want to query an existing table
tablename = Table('tablename', 
    Base.metadata, 
    autoload=True, 
    autoload_with=engine, 
    schema='ownername')

# These are the "Where" parameters, but I could as easily 
# create joins and limit results
us = tablename.c.country_code.in_(['US','MX'])
dc = tablename.c.locn_name.like('%DC%')
dt = tablename.c.arr_date >= datetime.date.today() # Give me convenience or...

q = session.query(tablename).\
            filter(us & dc & dt) # That's where the magic happens!!!

def querydb(query):
    """
    Function to execute query and return DataFrame.
    """
    df = DataFrame(query.all());
    df.columns = [x['name'] for x in query.column_descriptions]
    return df

querydb(q)

另外,如果驱动程序与SQLAlchemy的默认驱动程序不同,则还必须指定驱动程序:dialect+driver://user:pwd@host:port/db
NunoAndré19年

11

MySQL示例:

import MySQLdb as db
from pandas import DataFrame
from pandas.io.sql import frame_query

database = db.connect('localhost','username','password','database')
data     = frame_query("SELECT * FROM data", database)

7
frame_query现在已弃用。现在pd.read_sql(query, db)改为使用。
罗伯·史密斯

8

相同的语法也适用于使用podbc的Ms SQL服务器。

import pyodbc
import pandas.io.sql as psql

cnxn = pyodbc.connect('DRIVER={SQL Server};SERVER=servername;DATABASE=mydb;UID=username;PWD=password') 
cursor = cnxn.cursor()
sql = ("""select * from mytable""")

df = psql.frame_query(sql, cnxn)
cnxn.close()

5

这就是您使用psycopg2驱动程序连接到PostgreSQL的方式(如果您在Debian Linux派生OS上,则使用“ apt-get install python-psycopg2”安装)。

import pandas.io.sql as psql
import psycopg2

conn = psycopg2.connect("dbname='datawarehouse' user='user1' host='localhost' password='uberdba'")

q = """select month_idx, sum(payment) from bi_some_table"""

df3 = psql.frame_query(q, conn)


4

pandas.io.sql.frame_query不推荐使用。使用pandas.read_sql代替。


1

导入模块

import pandas as pd
import oursql

连接

conn=oursql.connect(host="localhost",user="me",passwd="mypassword",db="classicmodels")
sql="Select customerName, city,country from customers order by customerName,country,city"
df_mysql = pd.read_sql(sql,conn)
print df_mysql

可以正常工作,并使用pandas.io.sql frame_works(带有弃用警告)。使用的数据库是mysql教程中的示例数据库。


0

这应该很好。

import MySQLdb as mdb
import pandas as pd
con = mdb.connect(‘127.0.0.1’, root’, password’, database_name’);
with con:
 cur = con.cursor()
 cur.execute(“select random_number_one, random_number_two, random_number_three from randomness.a_random_table”)
 rows = cur.fetchall()
 df = pd.DataFrame( [[ij for ij in i] for i in rows] )
 df.rename(columns={0: Random Number One’, 1: Random Number Two’, 2: Random Number Three’}, inplace=True);
 print(df.head(20))

0

这对我帮助从基于python 3.xlambda函数连接到AWS MYSQL(RDS)并加载到pandas DataFrame中

import json
import boto3
import pymysql
import pandas as pd
user = 'username'
password = 'XXXXXXX'
client = boto3.client('rds')
def lambda_handler(event, context):
    conn = pymysql.connect(host='xxx.xxxxus-west-2.rds.amazonaws.com', port=3306, user=user, passwd=password, db='database name', connect_timeout=5)
    df= pd.read_sql('select * from TableName limit 10',con=conn)
    print(df)
    # TODO implement
    #return {
    #    'statusCode': 200,
    #    'df': df
    #}

0

对于Postgres用户

import psycopg2
import pandas as pd

conn = psycopg2.connect("database='datawarehouse' user='user1' host='localhost' password='uberdba'")

customers = 'select * from customers'

customers_df = pd.read_sql(customers,conn)

customers_df

1
您能否指出与@Will 答案的区别,以及为什么应选择您的解决方案?
塞巴斯蒂安
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.