ERNIE学习笔记
阅读原文时间:2023年07月17日阅读:1

https://ai.baidu.com/forum/topic/show/954092

学习ERNIE的输入部分

输入

一共有五个部分组成,每个部分之间用分号;隔开:

· token_ids:输入句子对的表示;

· sentence_type_ids:0或者1表示token属于哪一个句子;

· position_ids:绝对位置编码

· seg_labels:表示分词边界信息,0表示词首、1表示非词首、-1为占位符

· next_sentence_label:表示该句子对是否存在上下句的关系(0为无1为有)

mask有两种   word level   /  char level

在15%的基础上:

word level: 替换规则  80% mask  10% 替换  10%不替换

char level: 3% ~ 15% mask  1.5%~3% 随机字, 否则不替换

https://blog.csdn.net/Kaiyuan_sjtu/article/details/90265473

https://blog.csdn.net/Kaiyuan_sjtu/article/details/88709580

BERT源码分析 及实战

Cove,ELMo,GPT 等模型,构建了语句级的语义表示。

ERNIE 模型通过对词、实体等语义单元的掩码,使得模型学习完整概念的语义表示。相较于 BERT 学习原始语言信号,ERNIE 直接对先验语义知识单元进行建模,增强了模型语义表示能力。

https://www.jiqizhixin.com/articles/2019-03-16-3