基于python3.7利用Motor來異步讀寫Mongodb提高效率
如果使用Python做大型海量數(shù)據(jù)批量任務(wù)時(shí),并且backend用mongodb做數(shù)據(jù)儲(chǔ)存時(shí),常常面臨大量讀寫數(shù)據(jù)庫(kù)的情況。尤其是大量更新任務(wù),由于不能批量操作,我們知道pymongo是同步任務(wù)機(jī)制,相當(dāng)耗時(shí)。
如果采用多線程、多進(jìn)程的方案確實(shí)有效,但編寫麻煩、消耗系統(tǒng)資源大(pymongo還不允許fork線程中共用連接)。這里主要瓶頸在于IO,使用單線程異步操作就會(huì)效果很好。
Motor是一個(gè)異步mongodb driver,支持異步讀寫mongodb。它通常用在基于Tornado的異步web服務(wù)器中。
Motor同時(shí)支持使用asyncio(Python3.4以上標(biāo)準(zhǔn)庫(kù))作為異步模型,使用起來十分方便。
我們來測(cè)試一下效率,使用傳統(tǒng)pymongo來進(jìn)行批量讀寫 mongo_test.py:
host = '127.0.0.1' port = 27017 database = 'LiePin' import time start = time.clock() from pymongo import MongoClient connection = MongoClient( host, port ) db = connection[database] for doc in db.LiePin_Analysis1.find({}, ['_id', 'JobTitle', 'is_end']): db.LiePin_Analysis1.update_one({'_id': doc.get('_id')}, { '$set': { 'is_end': 1 } }) elapsed = (time.clock() - start) print("Time used:",elapsed)
運(yùn)行一下,發(fā)現(xiàn)用了4秒左右
再使用motor以異步的形式來編寫腳本 motor_test.py
host = '127.0.0.1' port = 27017 database = 'LiePin' import time start = time.clock() import asyncio from motor.motor_asyncio import AsyncIOMotorClient connection = AsyncIOMotorClient( host, port ) db = connection[database] async def run(): async for doc in db.LiePin_Analysis1.find({}, ['_id', 'JobTitle', 'is_end']): db.LiePin_Analysis1.update_one({'_id': doc.get('_id')}, {'$set': {'is_end':0}}) asyncio.get_event_loop().run_until_complete(run()) elapsed = (time.clock() - start) print("Time used:",elapsed)
僅僅1秒左右就完成了任務(wù)

浙公網(wǎng)安備 33010602011771號(hào)