Python & Django 问题记录

2023年8月6日上午9:33 • Python • 阅读 54

文章目录

Python & Django 问题记录
*
Python MySQL gone away 问题排查
Python 多线程和多进程
–
Django 如何不使用命令行创建 superuser
Django OOMKilled 问题
Max retries exceeded with URL xxx
Django 405 Method Not Allowed

Python MySQL gone away 问题排查

背景：

Django 项目中涉及同步数据的操作，使用的是线程池和事件循环相结合的方式，服务经常在运行一天后出现 MySQL server has gone away

解决办法：

check max_allowed_packet
通常数据库设置 max_allowed_packet 为 16M(最大可设为 1G)，标识 the maximum size of a MySQL network protocol packet that the server can create or read

show variables like 'max_allowed_packet';

通常当服务器收到的数据包过大超过 max_allowed_packet 时会关闭连接出现 MySQL server has gone away 的错误
一般若遇到这种情况也可以 double check 日志中是否抛出如下错误：
(1153, “Got a packet bigger than ‘max_allowed_packet’ bytes”)

解决方法如下：

MySQL max_allowed_packet 设置为更高，比如 128M

set global max_allowed_packet=128*1024*1024

如果使用 Django bulk_create 请设置 batch_size，将大量的数据分多个 query 入库
check wait_timeout

使用第一种思路优化后未能解决问题，则需要考虑是否超过了 wait_timeout:
wait_timeout 默认值为 28800 seconds (8 hours)，标识 The number of seconds the server waits for activity on a noninteractive connection before closing it.

而我们这里的主要问题是 ThreadPoolExecutor 创建的线程池中的每个线程创建之后会不断被复用同时每个线程创建的数据库连接是一个 threading.local 实例，一个线程中如果之前有数据库连接就会复用此时如果连接过期了就会 gone away，如果没有就会创建新的数据库连接由于最后不主动释放如果不限制线程数最终会数据库连接超限。

解决方法如下：

设置 CONN_MAX_AGE，注意这个参数仅涉及 http 请求开始和结束，因此对于我们异步任务的处理不会起到作用，仅在这里做标注。（请看如下源码）

最终解决方式是在每个线程中执行数据库操作之前都直接调用 close_old_connections 清一遍过期的连接，这样既可以复用正常连接也不会导致超限。

主动关闭旧连接并不是新鲜事，在使用 Django-apscheduler 时也可以发现：

Python 多线程和多进程

一些概念

多任务：简单地说，就是操作系统可以同时运行多个任务。打个比方，你一边在用浏览器上网，一边在听 MP3，一边在用 Word 赶作业，这就是多任务，至少同时有 3 个任务正在运行。还有很多任务悄悄地在后台同时运行着，只是桌面上没有显示而已。

多进程

解决多任务的一种处理方式是：启动多个进程，每个进程中有一个线程，从而实现多任务。当然也可以多进程+多线程相结合的方式实现。

Python 多进程目前没有进行应用，暂时不赘述

多线程

启动一个进程，其中有多个线程，从而实现多任务。一个进程默认会启动一个线程，称为主线程，主线程可以启动更多的线程。

多进程中，同一个变量，各自有一份拷贝存在于每个进程中，互不影响，而多线程中，所有变量都由所有线程共享，所以，任何一个变量都可以被任何一个线程修改。

线程共享变量的解决方法：基于这个背景，我们在 Python 中通常用 threading.Lock() 来给线程中的任务中的某些内容按需加锁，这样某个线程获得了锁之后其他线程就只能等这个锁 release 了才能执行。因此包含锁的某段代码实际上只能以单线程模式执行。

threading.local 让每个线程可以拥有自己独立的数据，不必再理会加锁的麻烦。

应用： threading.local常用的地方就是为每个线程绑定一个数据库连接，HTTP请求，用户身份信息等，这样一个线程的所有调用到的处理函数都可以非常方便地访问这些资源。

Django 如何不使用命令行创建 superuser

当我们在不同的环境部署 Django 服务，尤其是多节点如果想使用 django-admin 每次使用 python manage.py createsuperuser 明显不方便，如何在代码中直接创建一个默认的呢

reference:

django 权限和认证

原理：

登录后端的时候会顺序通过下文所述的两个 backend 的认证，第一个是默认的，如果 db 没有 admin 的信息，它会失败，继续走第二个的 authenticate 会自动入库。
下次再进来走第一个 backend 认证会通过


AUTHENTICATION_BACKENDS = [
    'django.contrib.auth.backends.ModelBackend',
    'apps.xx.backends.InitUserBackend',
]

INIT_USERNAME = os.getenv('INIT_USERNAME') or 'admin'
INIT_IDENTITY = os.getenv('INIT_IDENTITY') or \
                'xxx'

import logging

from django.conf import settings
from django.contrib.auth.backends import BaseBackend
from django.contrib.auth.hashers import check_password

from .models import Account

logger = logging.getLogger(__name__)

class InitUserBackend(BaseBackend):
"""
    初始用户Backend
"""

    def authenticate(self, request, username=None, password=None, **kwargs):

        if Account.objects.filter(username=username).exists():
            return None

        username_valid = (username == settings.INIT_USERNAME)
        password_valid = check_password(password, settings.INIT_IDENTITY)

        if username_valid and password_valid:
            user = Account.objects.create(**{
                'username': settings.INIT_USERNAME,
                'password': settings.INIT_IDENTITY,
                'is_staff': True,
                'is_superuser': True,
            })
            logger.debug(f'初始用户 {user} 验证通过')
            return user

        return None

    def get_user(self, user_id):
        try:
            return Account.objects.get(pk=user_id)
        except Account.DoesNotExist:
            return None

    def has_perm(self, user_obj, perm, obj=None):
        return user_obj.username == settings.INIT_USERNAME

Django OOMKilled 问题

项目是用 k8s 部署的，运行一段时间后总能发现某个 pod 重启次数蛮多的，查看原因发现都是 OOMKilled，起初以为是由于 bulk_create 前用一个数组暂存了 queryset 导致内存占用越来越多。（实际并非如此，按这种思路应该这个数组最终使用完成会释放掉内存而不是逐渐累加）最终我们经过测试和验证发现是 queryset 缓存的原因。

reference:
数据库访问优化

三分钟理解django中使用orm时的缓存机制条件

背景知识：

queryset 是惰性的，queryset 被构造、过滤、切片或者复制赋值时不会访问数据库，Django 只会在 queryset 被计算时执行查询操作，比如迭代
一旦开始计算 queryset 的值即意味着执行数据查询，就会将结果缓存在内存中，这也是 oom 的原因，注意使用切片或者索引的这种限制查询结果集不会产生缓存。

解决方法：

在 queryset 上使用 iterator() 将直接读取结果，而不在 QuerySet 级别做任何缓存（在内部，默认的迭代器调用 iterator() 并缓存返回值）。对于一个只需要访问一次就能返回大量对象的 QuerySet 来说，这可以带来更好的性能，并显著减少内存。

items = []
for item in Test.objects.filter(account__id__exact=self.id).iterator():
    items.append(item)
Test2.objects.bulk_create(items)

另外在返回数据库对象的时候尽量使用 queryset.values() 取出真正需要的字段的值而非返回整个对象

Max retries exceeded with URL xxx

Fix “Max retries exceeded with URL” error in Python requests library

可能原因：

url 错误
网络连接不稳定
服务器过载：server 收到了太多的请求，处理不过来导致我们的 request 没有得到响应

解决办法：

增加 request timeout
增加重试策略，可以参考详解指数退避算法

Django 405 Method Not Allowed

这个很大原因是 APPEND_SLASH 这个导致的，它在 CommonMiddleware 中，默认为 True，在路由上加上 / 即可访问到设定好的内容。

Original: https://blog.csdn.net/lynnwonder6/article/details/127499195
Author: LynnWonderLu
Title: Python & Django 问题记录

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/737221/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

EFCore分表实现

当我们 new一个上下文 DbContext 后，每次执行CURD方式时，都会依次调用 OnConfiguring(), OnModelCreating()两个方法。 OnCo…

Python 2023年10月20日
0033
零售商店订单数据分析

目录一、项目背景二、数据来源三、提出问题四、理解数据五、数据清洗 1.导入数据 2.选择子集 3.删除重复值 4.缺失值处理 5.标准化处理 6.异常值处理六、分析内容…

Python 2023年8月8日
0048
python 条件查询_查找满足条件的特定值-python

对于像这样的匹配问题,一种可能是进行完全合并,然后使用布尔级数对满足条件的所有行(对于该行)进行子集合并,并找到 max min 在所有可能的匹配中。因为这需要稍微不同的列和不同的…

Python 2023年8月7日
0032
混检阳性概率的计算（贝叶斯定理的一个应用例）

目录 1. 混检阳性概率的计算 2. 混管阳性时你阳性的概率有多大？ 2.1 贝叶斯分析结果的解释混检阳性概率的计算目前核酸混检的基本做法是十混一，如果阳性人群分布完全随机，那…

Python 2023年9月15日
0094
Godot根据遮罩图移动粒子

前言目前UI粒子特效unity引擎比较多，也好找资料，但是一般都是利用模型，使用3D粒子伪装2D效果。 Godot中也可以做到这一点，并且Godot有专门的2D粒子系统，可以通过…

Python 2023年11月6日
0036
图像处理篇一：图像数据的读取、显示与存储（OpenCV、PIL、matplotlib）

一、OpenCV 实例代码： import cv2 filepath=’img.png’ outpath=’img_cv.png’ img_cv =cv2.imread(filep…

Python 2023年9月1日
0045
机器学习-数据科学库第五天—笔记

目录 * – 数据合并之join – 数据合并之merge – 分组和聚合 – 索引和复合索引 – + 简单的索引操作 …

Python 2023年8月20日
0033
新项目决定用 JDK 17了

大家好，我是风筝，公众号「古时的风筝」，专注于 Java技术及周边生态。文章会收录在JavaNewBee 中，更有 Java 后端知识图谱，从小白到大牛要走的路都在里面。最近…

Python 2023年10月11日
0056
pandas处理Excel基本方法

学习总结主要参考了视频内容 https://www.bilibili.com/video/BV1hk4y1C73S?p=2&vd_source=7771577bd8c0c6…

Python 2023年8月16日
00100
爬虫学习笔记（十一）—— Scrapy框架（六）：媒体管道

一、媒体管道 1.1、媒体管道的特性媒体管道实现了以下特性: 避免重新下载最近下载的媒体指定存储位置（文件系统目录，Amazon S3 bucket，谷歌云存储bucket） …

Python 2023年10月6日
0058
Web 自动化测试全面提升之 Pytest

在 Python 自动化测试中，Pytest 是非常流行且受大家喜爱的一个测试框架。拥有简单灵活、容易上手、功能强大、插件丰富、支持参数化等特点。是自动化测试中的一把利器。本系列…

Python 2023年6月3日
0066
使用 Spring Cloud Loadbalancer 实现客户端负载均衡

使用 Spring Cloud Loadbalancer 实现客户端负载均衡作者：Grey 原文地址：博客园：使用 Spring Cloud Loadbalancer 实现客户…

Python 2023年10月15日
0053
【Scrapy】选择器

解析页面时最常见的任务是使用选择器从HTML中提取数据，Scrapy使用CSS选择器和XPath两种方式从HTML中提取数据官方文档：https://docs.scrapy.or…

Python 2023年10月5日
0042
加班熬夜整理出来的100道Python基础题，学到就是赚到！超级详细

这不每天晚上下班了无聊，就给大家整理出来了一百道Python必刷题，基本上都做的出来的话，基础彻底没问题了~ 大致涉及到的知识点有：基础语法变量类型运算符条件判断循环字…

Python 2023年9月17日
0068
【JavaWeb篇】快速上手Tomcat|实战项目详解

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年11月7日
0040
Python导入Excel表格数据并以字典dict格式保存

本文介绍基于 Python语言，将一个 Excel表格文件中的数据导入到Python中，并将其通过字典格式来存储的方法。我们以如下所示的一个表格（ .xlsx格式）作为简单的…

Python 2023年10月29日
0032

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python & Django 问题记录

文章目录

Python MySQL gone away 问题排查

Python 多线程和多进程

一些概念

多进程

多线程

Django 如何不使用命令行创建 superuser

Django OOMKilled 问题

Max retries exceeded with URL xxx

Django 405 Method Not Allowed

大家都在看