CMU SDK-mosi多模态数据使用笔记（一）

2023年5月30日下午8:21 • 人工智能 • 阅读 117

CMU多模态数据

1 下载数据
在数据及中包含了三个部分：highlevel，raw以及labels。highlevel是已经经过处理的特征（利用facet以及openSMILE等工具进行抽取），raw是原始特征。由于目前SDK并不能够自动检测是否已经下载过数据集，如果当你有下载了然后要再从晚上downloading的话，会报错，因此需要加入一个try…except。代码片段如下

// An highlighted block
from mmsdk import mmdatasdk as md
DATASET = md.cmu_mosi
// 下载
try:
    md.mmdataset(DATASET.highlevel,DATA_PATH)
except:
    print('have been downloaded')

2 看一下下载好的文件
我们可以看到在DATA_PATH的文件路径中，都是以.csd结尾的文件，这是SDK中的一种称之为计算序列(computational sequences)的数据结构。

3 载入多模态数据
构建一个字典，格式为 {modality_file_name, csd_path}然后再传到md包里面，构建一个数据集

visual_field = 'CMU_MOSI_Visual_Facet_41.csd'
acoustic_field = 'CMU_MOSI_COVAREP.csd'
text_field = 'CMU_MOSI_ModifiedTimestampedWords.csd'

features = [
    text_field,
    visual_field,
    acoustic_field
]
recipe = {feat: os.path.join(DATA_PATH, feat)  for feat in features}
dataset = md.mmdataset(recipe)

4 看一下这个数据集

每一个dataset由三个模态的计算序列组成，在每一个计算序列里面，包含了多个视频，且每一个计算序列包含的id个数一致。如下图所示
这个 dataset的key是上面三个modality_file_name。而在每个模态里面，也是一个字典，key是视频的id，而value是一个元组——(feature,intervals)，后者是表示每一个时间戳开始和结束的时间。

print(list(dataset.keys()))
print("=" * 50)

print(list(dataset[visual_field].keys())[:10])
print("=" * 50)

some_id = list(dataset[visual_field].keys())[15]
print(list(dataset[visual_field][some_id].keys()))
print("=" * 50)

print(list(dataset[visual_field][some_id]['intervals'].shape))

print("=" * 50)

print(list(dataset[visual_field][some_id]['features'].shape))
print(list(dataset[text_field][some_id]['features'].shape))
print(list(dataset[acoustic_field][some_id]['features'].shape))

print("Different modalities have different number of time steps!")

5 对齐不同的time step
主要思想就是：将其他的模态的对齐到文本模态上，使得所有模态的time step长度是一致的。首先将其他模态的特征放到一个”桶”中，然后对这个进行处理，这里用到的函数叫做 collapse function。主要是作了pooling的操作


def avg(intervals: np.array, features: np.array) -> np.array:

    try:
        return np.average(features, axis=0)
    except:
        return features

dataset.align(text_field, collapse_functions=[avg])

注意，对齐之后，视频的id发生了变化，原来的id变成了id[seg]

6 将标签给对齐中

我们这个时候的目标是要将labels加到数据集中，其中label也是一个计算序列。

label_field = 'CMU_MOSI_Opinion_Labels'

label_recipe = {label_field: os.path.join(DATA_PATH, label_field + '.csd')}
dataset.add_computational_sequences(label_recipe, destination=None)
dataset.align(label_field)

7 分割数据集
SDK会分配每一个视频的id给我们让我们分割train/test/dev set。但是我在对齐之后已经将id变成了id[seg]，因此我们需要利用训练来匹配出每一个id并且将数据放到相应的数据集中。并且，对于每一个特征都利用了z-normalization，并且将文本用唯一的id来替代


train_split = DATASET.standard_folds.standard_train_fold
dev_split = DATASET.standard_folds.standard_valid_fold
test_split = DATASET.standard_folds.standard_test_fold

from collections import defaultdict
word2id = defaultdict(lambda: len(word2id))
UNK = word2id['']
PAD = word2id['']

train = []
test = []
dev = []

pattern = re.compile('(.*)\[.*\]')
num_drop = 0
for segment in dataset[label_field].keys():
    vid = re.search(pattern, segment).group(1)
    label = dataset[label_field][segment]['features']
    _words = dataset[text_field][segment]['features']
    _visual = dataset[visual_field][segment]['features']
    _acoustic = dataset[acoustic_field][segment]['features']

    if not (_words.shape[0] == _visual.shape[0] == _acoustic.shape[0]):
        print('the length of these modalities is different,drop!')
        num_drop += 0
        continue

    label = np.nan_to_num(label)
    _visual = np.nan_to_num(_visual)
    _acoustic = np.nan_to_num(_acoustic)

    words = []
    visual = []
    acoustic = []
    for i, word in enumerate(_words):
        if(word[0] != b'sp'):

            words.append(word2id[word.decode('utf-8')])
            visual.append(_visual)
            _acoustic.append(acoustic)

    words = np.asarray(words)
    visual = np.asarray(visual)
    acoustic = np.asarray(acoustic)

    visual = np.nan_to_num((visual - visual.mean(0, keepdims=True)) / (EPS + np.std(visual, axis=0, keepdims=True)))
    acoustic = np.nan_to_num((acoustic - acoustic.mean(0, keepdims=True)) / (EPS + np.std(acoustic, axis=0, keepdims=True)))

    if vid in train_split:
        train.append(((words, visual, acoustic),label, segment))
    elif vid in dev_split:
        dev.append(((words, visual, acoustic), label, segment))
    elif vid in test_split:
        test.append(((words, visual, acoustic), label, segment))
    else:
        print(f"Found video that doesn't belong to any splits: {vid}")

print(f"Total number of {num_drop} datapoints have been dropped.")

def return_unk():
    return UNK
word2id.defalut_factory = return_unk

8 pytorch中的collate function以及构建DataLoader
我们已经得到了train/test/dev set，他们的格式是list。在pytorch中，可以使用collate_functions来从数据及中收集批量数据。

def multi_collate(batch):
    '''
    Collate functions assume batch = [Dataset[i] for i in index_set]
    '''

    batch = sorted(batch, key=lambda x: x[0][0].shape[0], reverse=True)

    labels = torch.cat([torch.from_numpy(sample[1]) for sample in batch], dim=0)

    sentences = pad_sequence([torch.LongTensor(sample[0][0]) for sample in batch], padding_value=PAD)
    visual = pad_sequence([torch.FloatTensor(sample[0][1]) for sample in batch])
    acoustic = pad_sequence([torch.FloatTensor(sample[0][2]) for sample in batch])

    lengths = torch.LongTensor([sample[0][0].shape[0] for sample in batch])
    return sentences, visual, acoustic, labels, lengths

batch_sz = 56
train_loader = DataLoader(train, shuffle=True, batch_size=batch_sz, collate_fn=multi_collate)
dev_loader = DataLoader(dev, shuffle=False, batch_size=batch_sz*3, collate_fn=multi_collate)
test_loader = DataLoader(test, shuffle=False, batch_size=batch_sz*3, collate_fn=multi_collate)

temp_loader = iter(DataLoader(test, shuffle=True, batch_size=8, collate_fn=multi_collate))
batch = next(temp_loader)

print(batch[0].shape)
print(batch[1].shape)
print(batch[2].shape)
print(batch[3])
print(batch[4])

Original: https://blog.csdn.net/Bourne1/article/details/114480999
Author: Bourne1
Title: CMU SDK-mosi多模态数据使用笔记（一）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/544894/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

单层感知器分类案例

单层感知器分类案例 1、题目及实现思路 2、代码实战 1、题目及实现思路题目：假设我们有 4 个 2 维的数据，数据的特征分别是(3,3),(4,3),(1,1),(2,1)。(…

人工智能 2023年7月1日
0097
C# 第九章『图形、图像』◆第3节：图像处理、Image类、Bitmap 类

一、概述位图由图形图像及其属性的像素数据组成。有许多标准格式用于将位图保存到文件。 GDI+支持以下文件格式：BMP、GIF、EXIF、JPG、PNG 和 TIFF。 GDI+…

人工智能 2023年6月18日
0094
SpringBoot 异步任务-Guava 中EventBus

目录 EventBus事件总线模式 pom 简单使用创建消息接受类测试类：输出结果: 结论：结合Spring使用注入Bean MyEventListener 消息基类创…

人工智能 2023年6月28日
00101
学习笔记5–高精地图解决方案

本系列博客包括6个专栏，分别为：《自动驾驶技术概览》、《自动驾驶汽车平台技术基础》、《自动驾驶汽车定位技术》、《自动驾驶汽车环境感知》、《自动驾驶汽车决策与控制》、《自动驾驶系统设…

人工智能 2023年6月10日
00131
Java学习路线图，看这一篇就够了！

主要分为三阶段 | 耗废1024根秀发，Java学习路线图来了，整合了自己所学的所有技术整理出来的2022最新版Java学习路线图，适合于初、中级别的Java程序员。可以按照这个序…

人工智能 2023年7月29日
0068
基于麻雀算法改进的随机森林分类算法 – 附代码

基于麻雀算法改进的随机森林分类算法文章目录基于麻雀算法改进的随机森林分类算法 * 1.数据集 2.RF模型 3.基于麻雀算法优化的RF 4.测试结果 5.Matlab代码摘要…

人工智能 2023年7月2日
0097
【5G NR】无线承载SRB和DRB

作者：柒号华仔个人主页：欢迎访问我的主页个人信条：星光不问赶路人,岁月不负有心人。个人方向：专注于5G领域，同时兼顾其他网络协议，编解码协议，C/C++，linux等，感兴趣的小伙…

人工智能 2023年6月26日
00169
数据科学必备用Python进行描述性统计数据分析详解

在大数据和人工智能时代，数据科学和机器学习在许多科技领域都变得必不可少。处理数据的一个必要方面是能够直观地描述、总结和表示数据。Python 统计库是全面、流行且广泛使用的工具，可…

人工智能 2023年7月17日
00167
Ubuntu opencv的安装

一、完全卸载opencv sudo make uninstall cd .. sudo rm -r build 2.上面最后一行命令有的文件夹不存在会有提示，但是不影响，只要把已安…

人工智能 2023年5月26日
00112
用skimage里的函数计算彩色图像SSIM时，明明设置multichannel=True却还是报错ValueError: win_size exceeds image extent.

问题描述在用skimage的函数计算两张图片的SSIM时： from skimage.metrics import structural_similarity as SSIM 我…

人工智能 2023年6月17日
0096
机器学习简述

目录 1. 多项式回归 2. 训练和测试 3. 多元回归多项式回归如果您的数据点显然不适合线性回归（穿过数据点之间的直线），那么多项式回归可能是理想的选择。像线性回归一样，多…

人工智能 2023年6月17日
00110
Datawhale-李宏毅深度学习/神经网络训练方法

批次与动量 Review: Optimization with batch Small Batch v.s. Large Batch Batch size =1 时只需要一笔资料，…

人工智能 2023年6月17日
0085
Python+大数据-数据分析与处理(六)-综合案例

Python+大数据-数据分析与处理(六)-综合案例案例一：Appstore数据分析学习目标掌握描述性数据分析流程能够使用pandas、seaborn进行数据分析和可视化 …

人工智能 2023年7月29日
0087
Obsidan之数学公式的输入

前言： 最近在学习专升&a…

人工智能 2023年7月5日
0079
分类，目标检测，语义分割，实例分割

Classification 简单地说，图像分类是一种用于对图像中特定对象的类别进行分类或预测的技术，该技术的主要目的是准确识别图像中的特征。就是说输入一张图片然后输出图片中含有的…

人工智能 2023年7月9日
00106
聚类算法之层次聚类

层次聚类 1. 基本介绍层次聚类有聚合（自下而上）和分裂（自上而下）两种方式。聚合聚类开始将每个样本各自分到个类:之后将相距最近的两类合井，建立一个新的类，重复此操作直到满足…

人工智能 2023年5月31日
00114

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

CMU SDK-mosi多模态数据使用笔记（一）

大家都在看