pandas的apply函数常见用法总结

2023年7月17日上午7:33 • 人工智能 • 阅读 60

对DataFrame的每一行执行一些复杂的操作

举一个例子，计算DataFrame中每一条数据中两个人的轨迹相似度，因为和业务相关，里面的子函数不能透露，这里重点呈现apply的用法。

import numpy as np

def calculate_trajectory_similarity(df, trail_dict):
"""

    :param trail_dict:
    :param df:
    :return:
"""
    body_threshold = 2
    similarity_threshold = 0.6
    insert_columns = [
        'trajectory_similarity',
    ]
    for c in insert_columns:
        try:
            #
            df.insert(df.shape[1], c, 0)
        except ValueError as v:
            #
            print(str(v))

    def calc_trajectory_similarity(element):
        """&#x8BA1;&#x7B97;XXX"""
        trail01 = trail_dict.get(element['record_id1'])
        trail02 = trail_dict.get(element['record_id2'])
        trail_arr1 = np.array(trail01)
        trail_arr2 = np.array(trail02)
        face_trail01 = trail_arr1[trail_arr1[:, -1] == 'face']
        body_trail01 = trail_arr1[trail_arr1[:, -1] == 'body']
        face_trail02 = trail_arr2[trail_arr2[:, -1] == 'face']
        body_trail02 = trail_arr2[trail_arr2[:, -1] == 'body']
        sub_trail_list = [
            (face_trail01, face_trail02),
            (face_trail01, body_trail02),
            (body_trail01, face_trail02),
            (body_trail01, body_trail02)
        ]
        #
        avg_body_width = (element['body_width1'] + element['body_width2']) / 2
        tr_similarity_list = []
        for s in sub_trail_list:
            coordinate_arr1, coordinate_arr2, time_overlap = get_real_time_coordinates(s[0], s[1])
            if time_overlap > 0:
                sub_similarity = trajectory_similarity(coordinate_arr1, coordinate_arr2, avg_body_width, body_threshold,
                                                       similarity_threshold)
            else:
                sub_similarity = 0
            tr_similarity_list.append((min(len(coordinate_arr1), len(coordinate_arr2)), sub_similarity))
        if len(tr_similarity_list) > 0:
            weights = [i[0] for i in tr_similarity_list]
            if np.sum(weights) > 0:  #
                tr_similarity = np.sum([w * s for w, s in tr_similarity_list]) / np.sum(weights)
            else:
                tr_similarity = 0
        else:
            tr_similarity = 0
        element['trajectory_similarity'] = tr_similarity
        return element

    df = df.apply(calc_trajectory_similarity, axis=1)
    return df

里面最核心的操作是 df = df.apply(calc_trajectory_similarity, axis=1)，这行代码通过apply调用了calc_trajectory_similarity这个函数，并按照行遍历DataFrame，利用每一行（Series对象）的一些字段信息，计算出轨迹相似度，并存储到DataFrame中。 get_real_time_coordinates和 trajectory_similarity分别是统计实时点和计算轨迹相似度的自定义函数，在这里可以不用关注。

对Series的每一个元素执行一些复杂操作

举个例子，现有一些原始的轨迹数据，需要进行预处理，可以针对需要处理的DataFrame字段(Series格式)单独进行操作。

import re

def split_to_int(element):
    """XXX"""
    if element:
        return list(map(int, re.findall(r"[\d]+", element)))
    else:
        element = []
        return element

def split_to_list(element):
    """XXX"""
    if element:
        element = list(re.findall(r"[\d]+", element))
        element = list(map(convert_time, element))
        return element
    else:
        element = []
        return element

def trail_string_processing(df):
"""

    :param df:
    :return:
"""
    #
    pd.set_option('mode.chained_assignment', None)
    trail_name = [
        'trail_left_top_x',
        'trail_left_top_y',
        'trail_right_btm_x',
        'trail_right_btm_y',
    ]
    for t in trail_name:
        df.loc[:, t] = df[t].apply(split_to_int)
    return df

def time_string_processing(df):
"""
    XXX
    :param df:
    :return:
"""
    # XXX
    pd.set_option('mode.chained_assignment', None)
    df.loc[:, 'trail_point_time'] = df['trail_point_time'].apply(split_to_list)
    #
    df.loc[:, 'shot_time'] = df['shot_time'].apply(
        lambda x: x.tz_convert('Asia/Shanghai').tz_localize(None) if x.tz else x)
    return df

在上面的代码中，每一个apply都是针对series执行的操作，apply里面的函数可以是自定义函数，也可以是lambda匿名函数。

对GroupBy对象执行一些复杂操作

举个例子，现有一个DataFrame需要按照某些字段进行分组，然后对分组后的对象执行一些操作，然后重构为新的DataFrame，这时可以通过apply来实现。

import pandas as pd

def merge_key_person_info(df):
"""
    XXXX
    :param df:
    :return:
"""

    def group_by_key_person(element):
        element = element.drop_duplicates(subset=['pvid', 'rel_pvid'])
        #
        key_person_code = element['key_person_code'].iloc[0]
        if key_person_code == 'tag_is_family':
            max_members_num = 6
        else:
            max_members_num = 11
        key_person_num = len(element['pvid'].iloc[0].split(','))
        num_k = max_members_num - key_person_num
        num_k = num_k if num_k > 1 else 1
        element = element.sort_values(by=['relation_score'], ascending=False).iloc[:num_k, :]
        #
        key_person_score = list(set(element['key_person_score'].values))
        rel_pvid_list = list(element['rel_pvid'].values)
        relation_code_list = list(element['relation_code'].values)
        relation_score_list = list(element['relation_score'].values)
        start_time_list = list(element['relation_info_start_time'].values)
        end_time_list = list(element['relation_info_end_time'].values)
        series_dict = {
            'pvid': element['pvid'].iloc[0],
            'corp_id': element['corp_id'].iloc[0],
            'key_person_code': element['key_person_code'].iloc[0],
            'key_person_score': key_person_score,
            'rel_pvid': rel_pvid_list,
            'relation_code': relation_code_list,
            'relation_score': relation_score_list,
            'relation_info_start_time': start_time_list,
            'relation_info_end_time': end_time_list
        }
        result = pd.Series(series_dict)
        return result

    #
    group_by_obj = df.groupby(by=['pvid', 'corp_id', 'key_person_code'])
    group_df = group_by_obj.apply(group_by_key_person).reset_index(drop=True)
    return group_df

有时候为了提升效率，一些涉及到大量数值计算的apply可以使用numpy的.apply_along_axis替代。

def calculate_speed_and_angle_similarity(parameters_df):
"""

    :param parameters_df:
    :return:
"""
    try:
        #
        parameters_df.insert(parameters_df.shape[1], 'angle_similarity', 0)
        parameters_df.insert(parameters_df.shape[1], 'speed_similarity', 0)
    except ValueError as v:
        #
        logger = my_logger()
        logger.info(str(v))

    def calc_angle_speed_similarity(element):
        """XXXX"""
        angle1 = element[35]
        angle2 = element[83]

        moving_speed1 = element[43]
        moving_speed2 = element[91]

        #
        angle_difference = abs(angle1 - angle2)
        if angle_difference >= 90:  #
            angle_similarity = 0
        else:
            angle_similarity = np.cos(abs(angle1 - angle2) / 180 * np.pi)
        element[102] = angle_similarity

        #
        slower_speed = min(moving_speed1, moving_speed2)
        faster_speed = max(moving_speed1, moving_speed2)
        speed_similarity = slower_speed / faster_speed
        element[103] = speed_similarity
        return element

    arr = parameters_df.values
    new_arr = np.apply_along_axis(calc_angle_speed_similarity, axis=1, arr=arr)
    parameters_df = pd.DataFrame(new_arr, columns=parameters_df.columns)
    return parameters_df

按照上述写法，虽然可以在一定程度上提升运行速度，但由于ndarray不支持字符串索引，对字段的操作只能按照序号来进行，很容易出错，代码可读性也比较差，不太推荐在复杂函数中使用，简单的计算用np.apply_along_axis会比较适合。

上面的代码都是一些模块的片段，只是用来展示apply的用法，因此无法跑通，请多包涵。为了信息安全，所有注释和细节代码都删除了。

Original: https://blog.csdn.net/Ray_awakepure/article/details/121778153
Author: Ray_awakepure
Title: pandas的apply函数常见用法总结

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/698170/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

R语言数据科学分类预测（一）

数据科学与机器学习案例之客户的信用风险与预测数据科学与机器学习之信用卡欺诈识别（严重类失衡数据建模) 数据科学与机器学习案例之汽车目标客户销售策略研究数据科学与机器学习案例之W…

人工智能 2023年7月1日
0093
手把手带你Yolov5 (v6.x)添加注意力机制(一)（并附上30多种顶会Attention原理图）(新增8种)

🌟想了解YOLO系列算法更多进阶教程欢迎订阅我的专栏🌟 基础不好的同学可以试试看一下我的《目标检测蓝皮书》🚀 ，里面包含超多目标检测实用知识，想速通目标检测，看这本就对了！想了解…

人工智能 2023年6月15日
00268
关于git，你需要了解这些

Introduction 该文档用于汇总一些git的常用操作及开发规范，持续更新中… References 整理项目开发中git三种常用的操作方式 -zeeblog G…

人工智能 2023年7月31日
0085
MATLAB 剔除异常点

利用线性插值剔除离群点 A = [57 59 60 100 59 58 57 58 300 61 62 60 62 58 57]; B = filloutliers(A,’line…

人工智能 2023年6月17日
00108
【YOLO】目标检测第三步——用Pascal voc 2012 数据集训练YOLO网络

目录 0. 引言 1. 认识Pascal voc 2012 数据集 * 1.1. 数据集内容分析 2. 数据集标签格式的转换与创建 * 2.1. 标签格式的转换 2.2. 数据集的…

人工智能 2023年7月9日
00138
JAVA 实现《坦克大战联机版》游戏

前言如今的游戏已经成为世界上最大的娱乐休闲项目之一，游戏市场规模持续增长，潜力巨大，我国政府一向以来都特别鼓励游戏产业的发展，特别是我国当地的游戏产业，扶持力度连年加大，由此可见…

人工智能 2023年5月30日
0082
【烂活】斯坦福句法解析库使用小结+最新四月新番下载（以辉夜与阿尼亚为例）

序言前排提示本文是挂羊头卖狗肉，正文在第二部分，第一部分纯属为了过审凑字数。文章目录序言 * 1 斯坦福句法解析库（句法树、依存关系图）使用概述 2 烂活（可能对追番的朋友有…

人工智能 2023年5月30日
00102
python 读取pdf表格多页读取

[ Python_可以使用Py _PDF_2或 _pdf_miner.six库来 _读取 PDF_文件。 1.使用Py _PDF_2： Py _PDF_2是一个功能强大的 _Pyt…

人工智能 2023年7月8日
0067
第一讲语音识别综述学习笔记

目录 1.语音 2.语音识别 * 语音识别的评估语音识别系统的分类语音识别的应用 3. 语音交互：生成与感知 * 语音交互语音生成语音感知 4.语音识别具有挑战性 5.现代…

人工智能 2023年5月25日
0081
python产生fir滤波器_Python中使用FIR滤波器firwin后信号的相移

所以，在我最后两个问题之后，让我谈谈我的实际问题。也许有人在我的理论程序中发现了错误，或者我在编程中做错了什么。在……里面 [En] So, after my last two q…

人工智能 2023年5月27日
0074
【OpenCV（C++）快速入门】–上篇–计算机图像颜色基础理论

【专栏介绍】因为专业需要用到OpenCV来处理图像数据，所以需要学习，搜索了网上的相关资料，整体知识比较零散，花费了较多时间，所以才萌生了将学习过程整理成专栏的形式，希望能帮到后…

人工智能 2023年7月19日
0075
16种常用的数据分析方法-生存分析

探究变量之间的关系是数据挖掘中的一个基本分析内容，对于常规的离散型或者连续型变量，有很多的方法可以用于挖掘其中的关系，比如线性回归，逻辑回归等等。然而有一类数据非常的特殊，用回归…

人工智能 2023年6月17日
00117
使用realsense t265测试svo2.0视觉里程计

毕业三年了，现在是第二份工作，第一份工作已经结束一年半了，这意味着，我有一年半的时间没有搞视觉SLAM相关的东西了，虽然在第二份工作也是做视觉相关的，但是只是用到一些目标识别和跟踪…

人工智能 2023年5月28日
00159
知识图谱编辑器(KG-Editor)

仅供学习交流使用！基于 Vue 2.x + G6 3.8 + Vuetify 的可视化知识图谱编辑器(KG-Editor) 效果截图 ; 试用地址 KG-Editor 功能介绍 …

人工智能 2023年6月1日
00169
04 Transformer 中的位置编码的 Pytorch 实现

1：10 点赞 16：00 我爱你你爱我 1401 class PositionalEncoding(nn.Module): def __init__(self, dim, dr…

人工智能 2023年6月4日
0083
【动手学深度学习】02-softmax回归

1、softmax回归 1.1 从回归到分类输出i是预测为第i类的置信度。输出的个数等于类别的个数 ; 均方损失 n个类别，假设先用1,0表示是否类别正确。使用均方损失训练，最…

人工智能 2023年6月17日
0094

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pandas的apply函数常见用法总结

对DataFrame的每一行执行一些复杂的操作

对Series的每一个元素执行一些复杂操作

对GroupBy对象执行一些复杂操作

大家都在看