Python使用ch-orm对ClickHouse简单查询及写入

2023年11月2日下午4:23 • Python • 阅读 52

前不久新项目中需要用到ClickHouse，作为一个合格的Python程序员，首先当然是找找有没有合适的轮子。

翻了一圈，infi.clickhouse_orm在功能和易用性上没有明显的短板，其ORM API对后端程序员格外亲切。可惜主分支已经八个月没有更新了，据闻核心开发者已离职，而infi.clickhouse_orm尚不支持一些我需要的新功能如Geo类型和函数，基于这些原因，这篇文章的主角ch-orm也就诞生了。

ch-orm库fork自infi.clickhouse_orm(v2.1.1)。

与infi相比，ch-orm支持同步和异步两种方式与ClickHouse服务器交互，它添加了一些新功能：

异步支持(AioDatabase)
为所有同步API提供async接口
类型注解
大部分对外API实现了类型注解
新的类型支持
Tuple
Geo类型；Point、Ring等
新的函数支持
Geo函数等
支持创建临时表(TemporaryModel)
session会话

快速开始

通过pip安装ch-orm

pip install ch-orm

虽然pypi的库名为 ch-orm，但在代码中需要导入的是 clickhouse_orm。

from clickhouse_orm import Database, Model, MergeTree
from clickhouse_orm.fields import (
    StringField, Int32Field, UUIDField, Int8Field
)
from clickhouse_orm.contrib.geo.fields import PointField

class Residence(Model):
    uuid = UUIDField()
    residence_type = Int8Field()
    geo = PointField(db_column='geo_wgs84')
    geohash_wgs84 = StringField()
    province = StringField()
    city = StringField()
    district = StringField()
    poi_id = Int32Field(default=1000)
    poi_name = StringField()
    p_geo_bd09 = PointField()

    engine = MergeTree(partition_key=('uuid', ), order_by=('uuid', ))

    @classmethod
    def table_name(cls):
        return 'residence'

上面定义了一个 Residence模型，它将会映射到ClickHouse上的 residence表，而 Residence中众多Field属性则被映射为表中的列，可以在Python中对Residence实例进行操作进而处理ClickHouse（没错，就像Django ORM所做的那样）

接下来，先假定此时 residence尚不存在，借助 Residence来创建它。

想要对数据库执行操作，首先必须实例化一个Database对象(或AioDatabase)，可以粗浅的理解为它和数据库连接属于一类抽象，内部实现对后端数据库的交互。

from clickhouse_orm.database import Database
from clickhouse_orm.aio.database import AioDatabase

以同步方式创建数据库
sync_db = Database('db-test', db_url='http://localhost:8123/')
sync_db.create_table(Residence)

以异步方式创建数据库
async def main():
    async_db = AioDatabase('db-test', db_url='http://localhost:8123/')
    # 异步模型下需要主动执行init方法初始化
    await async_db.init()
    await async_db.create_table(Residence)

此时，db-test库内应当出现了一个名为 residence的表。

ClickHouse在数据写入性能表现十分优异，ch-orm能轻易处理写入数据需求

以写入100万条数据为例，使用生成器创建100万个Residence随机实例

import uuid

from clickhouse_orm.contrib.geo.fields import Point

同步写入100万条residence
sync_db.insert(
    (Residence(uuid=str(uuid.uuid4()), geo=Point(120, 20)) for _ in range(1000000)),
    batch_size=10000
)

异步写入100万条residence
async def insert():
    ...

    await async_db.insert(
        (Residence(uuid=str(uuid.uuid4()), geo=Point(120, 20)) for _ in range(1000000)),
        batch_size=10000
    )

示例中仅对 uuid和 geo列进行赋值，其他字段会被设置为默认值（而非None值）

可以看看 residence表中有多少条数据

同步方式查询Residence行数
Residence.objects_in(sync_db).count()

异步方式查询Residence行数
async def read_count():
    ...

    await Residence.objects_in(async_db).count()

ch-orm实现了QuerySet，暴露API基本参照Django设计的，如前述的获取表行数的 count()方法就来自 QuerySet。

与Django不同的是，ch-orm仅将QuerySet作为查询实例，不具备查询结果缓存功能，这代表如果对一个QuerySet对象执行两次迭代，与后端数据库的交互将变成两次而非一次。

可以通过Model的类方法 objects_in获得一个 QuerySet实例，接着来查询 uuid="48d75e4d-8e6f-4acd-a2e9-f4c3059b5b30"的数据

同步API
queryset = Residence.objects_in(sync_db)
queryset = queryset.filter(Residence.uuid == "48d75e4d-8e6f-4acd-a2e9-f4c3059b5b30")
result = list(queryset)

对于异步API
queryset = Residence.objects_in(async_db)
queryset = queryset.filter(Residence.uuid == "48d75e4d-8e6f-4acd-a2e9-f4c3059b5b30")
result = [_ async for _ in queryset]

真正的查询请求是在对queryset迭代时处理的，因此下列两行代码不会与数据库后端进行交互

queryset = Residence.objects_in(sync_db)
queryset = queryset.filter(Residence.uuid == "48d75e4d-8e6f-4acd-a2e9-f4c3059b5b30")

最终得到一个由Residence实例的组成的结果列表result。

ch-orm具备日常使用的大多数场景功能

这些内容Github仓库有相应的文档，限于本文篇幅这里就不再过多介绍。

Original: https://www.cnblogs.com/lazyfish007/p/16343124.html
Author: 秋叶红了
Title: Python使用ch-orm对ClickHouse简单查询及写入

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/810319/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度盘点Python11个主流框架：Pandas、Django、Matplotlib、Numpy、PyTorch……（建议收藏！）

六月份TIOBE编程语言排行榜，位居第二名的Python与第一名C语言之间的差距正在逐渐缩小。Python如此受欢迎一方面得益于它崇尚简洁的编程哲学，另一方面是因为强大的第三方库生…

Python 2023年8月29日
0063
matplotlib绘制各种图形，看这一篇就够了！

matplotlib绘制各种图形原创不易，你的点赞评价加关注就是我更新下去的最大动力！文章目录 matplotlib绘制各种图形 * 1. 导入相关包 2. 线图：plot()…

Python 2023年8月31日
0044
Pandas写入Excel文件如何避免覆盖已有Sheet

Pandas是Python处理数据最好用的工具包。处理好了的数据，也可以写回到原来的或新的Excel文件。但如果处理结果要写入到多张表，就要注意了。用Pandas把DataFra…

Python 2023年8月7日
00316
rest_framework认证源码分析

认证源码分析位置： APIVIew—-》dispatch方法—》self.initial(request, args, *kwargs)—-…

Python 2023年10月31日
0020
一文搞定异步爬虫框架Scrapy环境的安装

Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测…

Python 2023年10月1日
0058
[附源码]Node.js计算机毕业设计高校社团管理系统Express

项目运行环境配置： Node.js 最新版+ V s code + Mysql5.7 + HBuilderX+Navicat11+Vue。项目技术： Express 框架+ N…

Python 2023年9月29日
0052
Salesforce LWC学习(四十) datatable的dynamic action的小坑浅谈

本篇参考：https://developer.salesforce.com/docs/component-library/bundle/lightning-datatable/do…

Python 2023年10月11日
0050
爬虫日记(86)：Scrapy的Scheduler类（一）

前面学习过了引擎类，明白整个引擎的工作过程，在引擎里要调用调度管理类，这样才能够把请求下载进行去重，或者优先下载等功能实现。现在我们就来分析这个类的实现，以便完全理解调度管理类的相…

Python 2023年10月3日
0062
python for循环中对列表进行删除操作会出现列表元素删除不干净

python for循环中对列表进行删除操作会出现列表元素删除不干净原创 ch3nnn2022-07-18 17:45:35博主文章分类：Python ©著作权文章标签删…

Python 2023年5月25日
00101
OpenCV人脸识别，训练模型为cv2.face.LBPHFaceRecognizer_create()

OpenCV内部自带有三种人脸检测方式：LBPH人脸识和其他两种方法（Eigen人脸识别，FisherFace人脸识别）本次主要说明第一种方式LBPH检测。 1.素材创建图（1….

Python 2023年9月30日
0034
Anaconda已下载Pytorch但是无法在python环境中import torch

1.背景最近搭建Pytorch环境，但是安装好了以后反复出现如下问题无法在python环境下import torch,但是我使用pip list命令发现我是已经下载了的 ; 2….

Python 2023年8月2日
0041
数据分析（3）数据重构

task3——数据重构学习参考资料：datawhale动手学数据分析学习链接：https://github.com/datawhalechina/hands-on-data-a…

Python 2023年8月7日
0068
03_pytest_前后置

1、前后置之夹具（setup ——teardown） def setup_class(self): //在每一个类执行之前的初始化工作：比如创建日志，创建数据库对象def set…

Python 2023年9月15日
0049
基线提升至96.45%：2022 司法杯犯罪事实实体识别+数据蒸馏+主动学习

本项目给出本次法研杯详细的技术方案，从UIE-base开始到UIE数据蒸馏以及主动学习的建议，欢迎大家尝试，ps：主动学习标注需要自行实现，参考项目，楼主就不标注了。项目链接：h…

Python 2023年10月16日
0043
[保姆教程] [fun] 3分钟入门阿里云函数计算

目录简介什么产品适合使用函数计算入门阿里云函数计算在虚拟机中安装Funcraft 安装Funcraft 配置Funcraft 在虚拟机中安装Docker 使用Funcraf…

Python 2023年8月14日
0069
dataframe排序中sort_values方法的使用—（超级详细）

1.sort_values（）方法 sort_values(by, axis=0, ascending=True, inplace=False, kind=’quick…

Python 2023年8月7日
0059

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python使用ch-orm对ClickHouse简单查询及写入

快速开始

大家都在看