轻量级Transformer模型ConvBERT架构及完整源码实现

第 28 章：使用 Local dependency 轻量级 Transformer 模型 ConvBERT 架构内幕及完整源码实 现

1 ，BERT 依赖global self-attention 而带来的问题分析

2 ，BERT 不同Layer 的computation redundancy 分析

3 ，使用local dependency 的数学原理分析

4 ，local dependency 的工程实践

5 ，convolution head 数学原理剖析

6 ，构建mixed attention block 分析

7 ，ConvBertTokenizer 源码解析

8 ，把TF 模型的checkpoints 加载入pytorch 模型中

9 ，ConvBertEmbeddings 完整源码分析

10 ，ConvBertPreTrainedModel 完整源码分析

11 ，SeparableConv1D 完整源码分析

12 ，ConvBertAttention 完整源码分析

13 ，ConvBertSelfAttention 完整源码分析

14 ，ConvBertSelfOutput 完整源码分析

15 ，GroupedLinearLayer 完整源码分析

16 ，ConvBertIntermediate 完整源码实现分析

17 ，ConvBertLayer 完整源码实现分析

18 ，ConvBertOutput 完整源码实现分析

19 ，ConvBertEncoder 完整源码实现分析

20 ，ConvBertPredictionHeadTransform 完整源码实现分析

21 ，ConvBertModel 完整源码实现分析

22 ，ConvBertGeneratorPredictions 完整源码实现分析

23 ，ConvBertForMaskedLM 完整源码实现分析

24 ，ConvBertClassificationHead 完整源码实现分析

25 ，ConvBertForSequenceClassification 完整源码实现分析

26 ，ConvBertForMultipleChoice 完整源码实现分析

27 ，ConvBertForTokenClassification 完整源码实现分析

28 ，ConvBertForQuestionAnswering 完整源码实现分析

29 ，ConvBertConfig 代码分析

第 29 章：使用 Control code 的文本生成 Transformer 模型 CTRL 架构内幕及完整源码实 现

1 ，能够使用第一个Token 作为control code 的数学原理分析

2 ，控制生成内容的style 、content 及task-specific 行为的架构设计

3 ，control code 的来源：co-occure

4 ，生产coherent 内容的关键是什么？

5 ，基于CLM 的CTRL 设计实现

6 ，syntactically coherent text 与semantically coherent text

7 ，CTRLTokenizer 源码完整实现解析

8 ，CTRLTokenizer 源码完整实现解析

9 ，positional_encoding 源码完整实现解析

10 ，scaled_dot_product_attention 源码完整实现解析

11 ，MultiHeadAttention 源码完整实现解析

12 ，EncoderLayer 源码完整实现解析

13 ，CTRLPreTrainedModel 源码完整实现解析

14 ，CTRLLMHeadModel 源码完整实现解析

15 ，CTRLModel 源码完整实现解析

16 ，CTRLForSequenceClassification 源码完整实现解析

第 30 章：使用 disentangled attention 机制 Transformer 模型 DeBERTa 架构内幕及完整源码实 现

1 ，使用两个vector 来编码每个word 的content 和position

2 ，在pretraining 阶段使用output enhanced mask decoder 取代softmax layer 对masked words 预测的数学原理剖析

3 ，DebertaEmbeddings 完整源码实现解析

4 ，DebertaPreTrainedModel 完整源码实现解析

5 ，Disentangled Attention 算法剖析

6 ，DebertaTokenizer 完整源码实现解析

7 ，XDropout 完整源码实现解析

8 ，StableDropout 完整源码实现解析

9 ，XSoftmax 完整源码实现解析

10 ，ContextPooler 完整源码实现解析

11 ，DebertaLayerNorm 完整源码实现解析

12 ，DebertaSelfOutput 完整源码实现解析

13 ，build_relative_position 完整源码实现解析

14 ，DebertaAttention 完整源码实现解析

15 ，DebertaIntermediate 完整源码实现解析

16 ，DebertaOutput 完整源码实现解析

17 ，DebertaLayer 完整源码实现解析

18 ，DebertaEncoder 完整源码实现解析

19 ，DisentangledSelfAttention 完整源码实现解析

20 ，DebertaModel 完整源码实现解析

21 ，DebertaForMaskedLM 完整源码实现解析

22 ，DebertaPredictionHeadTransform 完整源码实现解析

23 ，DebertaLMPredictionHead 完整源码实现解析

24 ，DebertaOnlyMLMHead 完整源码实现解析

25 ，DebertaForSequenceClassification 完整源码实现解析

26 ，DebertaForTokenClassification 完整源码实现解析

27 ，DebertaForQuestionAnswering 完整源码实现解析

第 31 章：基于 dual-encoder 机制的开发 QA 问答 Transformer 模型 Dense Passage Retrieval (DPR) 架构内幕及完整源码实 现

1 ，基于open-domain Q&A 常见实现及问题分析

2 ，sparse vector space 问题及解决方案

3 ，Dense vector 及dual-encoder 架构设计

4 ，小规模数据训练任务有效性数学原理剖析

5 ，DPRQuestionEncoderTokenizer 完整源码实现详解

6 ，decode_best_spans 完整源码实现详解

7 ， get_best_spans完整源码实现详解

8 ，CustomDPRReaderTokenizerMixin 完整源码实现详解

9 ，DPRReaderTokenizer 完整源码实现详解

10 ，DPRContextEncoderOutput 完整源码实现详解

11 ，DPRQuestionEncoderOutput 完整源码实现详解

12 ，DPRReaderOutput 完整源码实现详解

13 ，DPRPreTrainedModel 完整源码实现详解

14 ，DPREncoder 完整源码实现详解

15 ，DPRSpanPredictor 完整源码实现详解

16 ，DPRPretrainedContextEncoder 完整源码实现详解

17 ，DPRPretrainedQuestionEncoder 完整源码实现详解

18 ，DPRPretrainedReader 完整源码实现详解

19 ，DPRContextEncoder 完整源码实现详解

20 ，DPRQuestionEncoder 完整源码实现详解

21 ，DPRReader 完整源码实现详解

22 ，高效的Dense Vector Retrieval 技术解析

第 32 章：基于 Fourier Transform 的 Transformer 模型 FNet 架构内幕及完整源码实 现

1 ，BERT 中Attention 本质和功能再思考

2 ，fourier transform 数学原理剖析

3 ，使用fourier transform 取代self-attention layer

4 ，为什么采用fourier transform 会fewer parameters 及more memory efficient ？

5 ，fourier transform 有效性带来的”mix” input tokens 操作的思考

6 ，FNet 处理longer input lengths 的设计及实现

7 ，PreTrainedTokenizer 源码完整实现剖析

8 ，get_special_tokens_mask 源码完整实现剖析

9 ，tokenize 源码完整实现剖析

10 ，FNetTokenizer 源码完整实现剖析

11 ，FNetEmbeddings 源码完整实现剖析

12 ，fourier_transform 方法源码完整实现剖析

13 ，FNetBasicFourierTransform 源码完整实现剖析

14 ，FNetFourierTransform 源码完整实现剖析

15 ，FNetBasicOutput 源码完整实现剖析

16 ，FNetOutput 源码完整实现剖析

17 ，FNetIntermediate 源码完整实现剖析

18 ，FNetLayer 源码完整实现剖析

19 ，FNetEncoder 源码完整实现剖析

20 ，FNetPooler 源码完整实现剖析

21 ，FNetPredictionHeadTransform 源码完整实现剖析

22 ，FNetLMPredictionHead 源码完整实现剖析

23 ，FNetOnlyMLMHead 源码完整实现剖析

24 ，FNetOnlyNSPHead 源码完整实现剖析

25 ，FNetPreTrainingHeads 源码完整实现剖析

26 ，FNetPreTrainedModel 源码完整实现剖析

27 ，FNetForPreTrainingOutput 源码完整实现剖析

28 ，FNetModel 源码完整实现剖析

29 ，FNetForPreTraining 源码完整实现剖析

30 ，FNetForMaskedLM 源码完整实现剖析

31 ，FNetForNextSentencePrediction 源码完整实现剖析

32 ，FNetForSequenceClassification 源码完整实现剖析

33 ，FNetForMultipleChoice 源码完整实现剖析

34 ，FNetForTokenClassification 源码完整实现剖析

35 ，FNetForQuestionAnswering 源码完整实现剖析

Original: https://blog.csdn.net/chu227/article/details/121355999
Author: chu227
Title: 轻量级Transformer模型ConvBERT架构及完整源码实现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531514/

转载文章受原作者版权保护。转载请注明原作者出处！

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

轻量级Transformer模型ConvBERT架构及完整源码实现

大家都在看