第 28 章:使用 Local dependency 轻量级 Transformer 模型 ConvBERT 架构内幕及完整源码实 现
1 ,BERT 依赖global self-attention 而带来的问题分析
2 ,BERT 不同Layer 的computation redundancy 分析
3 ,使用local dependency 的数学原理分析
4 ,local dependency 的工程实践
5 ,convolution head 数学原理剖析
6 ,构建mixed attention block 分析
7 ,ConvBertTokenizer 源码解析
8 ,把TF 模型的checkpoints 加载入pytorch 模型中
9 ,ConvBertEmbeddings 完整源码分析
10 ,ConvBertPreTrainedModel 完整源码分析
11 ,SeparableConv1D 完整源码分析
12 ,ConvBertAttention 完整源码分析
13 ,ConvBertSelfAttention 完整源码分析
14 ,ConvBertSelfOutput 完整源码分析
15 ,GroupedLinearLayer 完整源码分析
16 ,ConvBertIntermediate 完整源码实现分析
17 ,ConvBertLayer 完整源码实现分析
18 ,ConvBertOutput 完整源码实现分析
19 ,ConvBertEncoder 完整源码实现分析
20 ,ConvBertPredictionHeadTransform 完整源码实现分析
21 ,ConvBertModel 完整源码实现分析
22 ,ConvBertGeneratorPredictions 完整源码实现分析
23 ,ConvBertForMaskedLM 完整源码实现分析
24 ,ConvBertClassificationHead 完整源码实现分析
25 ,ConvBertForSequenceClassification 完整源码实现分析
26 ,ConvBertForMultipleChoice 完整源码实现分析
27 ,ConvBertForTokenClassification 完整源码实现分析
28 ,ConvBertForQuestionAnswering 完整源码实现分析
29 ,ConvBertConfig 代码分析
第 29 章:使用 Control code 的文本生成 Transformer 模型 CTRL 架构内幕及完整源码实 现
1 ,能够使用第一个Token 作为control code 的数学原理分析
2 ,控制生成内容的style 、content 及task-specific 行为的架构设计
3 ,control code 的来源:co-occure
4 ,生产coherent 内容的关键是什么?
5 ,基于CLM 的CTRL 设计实现
6 ,syntactically coherent text 与semantically coherent text
7 ,CTRLTokenizer 源码完整实现解析
8 ,CTRLTokenizer 源码完整实现解析
9 ,positional_encoding 源码完整实现解析
10 ,scaled_dot_product_attention 源码完整实现解析
11 ,MultiHeadAttention 源码完整实现解析
12 ,EncoderLayer 源码完整实现解析
13 ,CTRLPreTrainedModel 源码完整实现解析
14 ,CTRLLMHeadModel 源码完整实现解析
15 ,CTRLModel 源码完整实现解析
16 ,CTRLForSequenceClassification 源码完整实现解析
第 30 章:使用 disentangled attention 机制 Transformer 模型 DeBERTa 架构内幕及完整源码实 现
1 ,使用两个vector 来编码每个word 的content 和position
2 ,在pretraining 阶段使用output enhanced mask decoder 取代softmax layer 对masked words 预测的数学原理剖析
3 ,DebertaEmbeddings 完整源码实现解析
4 ,DebertaPreTrainedModel 完整源码实现解析
5 ,Disentangled Attention 算法剖析
6 ,DebertaTokenizer 完整源码实现解析
7 ,XDropout 完整源码实现解析
8 ,StableDropout 完整源码实现解析
9 ,XSoftmax 完整源码实现解析
10 ,ContextPooler 完整源码实现解析
11 ,DebertaLayerNorm 完整源码实现解析
12 ,DebertaSelfOutput 完整源码实现解析
13 ,build_relative_position 完整源码实现解析
14 ,DebertaAttention 完整源码实现解析
15 ,DebertaIntermediate 完整源码实现解析
16 ,DebertaOutput 完整源码实现解析
17 ,DebertaLayer 完整源码实现解析
18 ,DebertaEncoder 完整源码实现解析
19 ,DisentangledSelfAttention 完整源码实现解析
20 ,DebertaModel 完整源码实现解析
21 ,DebertaForMaskedLM 完整源码实现解析
22 ,DebertaPredictionHeadTransform 完整源码实现解析
23 ,DebertaLMPredictionHead 完整源码实现解析
24 ,DebertaOnlyMLMHead 完整源码实现解析
25 ,DebertaForSequenceClassification 完整源码实现解析
26 ,DebertaForTokenClassification 完整源码实现解析
27 ,DebertaForQuestionAnswering 完整源码实现解析
第 31 章:基于 dual-encoder 机制的开发 QA 问答 Transformer 模型 Dense Passage Retrieval (DPR) 架构内幕及完整源码实 现
1 ,基于open-domain Q&A 常见实现及问题分析
2 ,sparse vector space 问题及解决方案
3 ,Dense vector 及dual-encoder 架构设计
4 ,小规模数据训练任务有效性数学原理剖析
5 ,DPRQuestionEncoderTokenizer 完整源码实现详解
6 ,decode_best_spans 完整源码实现详解
7 , get_best_spans完整源码实现详解
8 ,CustomDPRReaderTokenizerMixin 完整源码实现详解
9 ,DPRReaderTokenizer 完整源码实现详解
10 ,DPRContextEncoderOutput 完整源码实现详解
11 ,DPRQuestionEncoderOutput 完整源码实现详解
12 ,DPRReaderOutput 完整源码实现详解
13 ,DPRPreTrainedModel 完整源码实现详解
14 ,DPREncoder 完整源码实现详解
15 ,DPRSpanPredictor 完整源码实现详解
16 ,DPRPretrainedContextEncoder 完整源码实现详解
17 ,DPRPretrainedQuestionEncoder 完整源码实现详解
18 ,DPRPretrainedReader 完整源码实现详解
19 ,DPRContextEncoder 完整源码实现详解
20 ,DPRQuestionEncoder 完整源码实现详解
21 ,DPRReader 完整源码实现详解
22 ,高效的Dense Vector Retrieval 技术解析
第 32 章:基于 Fourier Transform 的 Transformer 模型 FNet 架构内幕及完整源码实 现
1 ,BERT 中Attention 本质和功能再思考
2 ,fourier transform 数学原理剖析
3 ,使用fourier transform 取代self-attention layer
4 ,为什么采用fourier transform 会fewer parameters 及more memory efficient ?
5 ,fourier transform 有效性带来的”mix” input tokens 操作的思考
6 ,FNet 处理longer input lengths 的设计及实现
7 ,PreTrainedTokenizer 源码完整实现剖析
8 ,get_special_tokens_mask 源码完整实现剖析
9 ,tokenize 源码完整实现剖析
10 ,FNetTokenizer 源码完整实现剖析
11 ,FNetEmbeddings 源码完整实现剖析
12 ,fourier_transform 方法源码完整实现剖析
13 ,FNetBasicFourierTransform 源码完整实现剖析
14 ,FNetFourierTransform 源码完整实现剖析
15 ,FNetBasicOutput 源码完整实现剖析
16 ,FNetOutput 源码完整实现剖析
17 ,FNetIntermediate 源码完整实现剖析
18 ,FNetLayer 源码完整实现剖析
19 ,FNetEncoder 源码完整实现剖析
20 ,FNetPooler 源码完整实现剖析
21 ,FNetPredictionHeadTransform 源码完整实现剖析
22 ,FNetLMPredictionHead 源码完整实现剖析
23 ,FNetOnlyMLMHead 源码完整实现剖析
24 ,FNetOnlyNSPHead 源码完整实现剖析
25 ,FNetPreTrainingHeads 源码完整实现剖析
26 ,FNetPreTrainedModel 源码完整实现剖析
27 ,FNetForPreTrainingOutput 源码完整实现剖析
28 ,FNetModel 源码完整实现剖析
29 ,FNetForPreTraining 源码完整实现剖析
30 ,FNetForMaskedLM 源码完整实现剖析
31 ,FNetForNextSentencePrediction 源码完整实现剖析
32 ,FNetForSequenceClassification 源码完整实现剖析
33 ,FNetForMultipleChoice 源码完整实现剖析
34 ,FNetForTokenClassification 源码完整实现剖析
35 ,FNetForQuestionAnswering 源码完整实现剖析
Original: https://blog.csdn.net/chu227/article/details/121355999
Author: chu227
Title: 轻量级Transformer模型ConvBERT架构及完整源码实现
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/531514/
转载文章受原作者版权保护。转载请注明原作者出处!