https://ai.baidu.com/forum/topic/show/954092
学习ERNIE的输入部分
输入
一共有五个部分组成,每个部分之间用分号;隔开:
· token_ids:输入句子对的表示;
· sentence_type_ids:0或者1表示token属于哪一个句子;
· position_ids:绝对位置编码
· seg_labels:表示分词边界信息,0表示词首、1表示非词首、-1为占位符
· next_sentence_label:表示该句子对是否存在上下句的关系(0为无1为有)
mask有两种 word level / char level
在15%的基础上:
word level: 替换规则 80% mask 10% 替换 10%不替换
char level: 3% ~ 15% mask 1.5%~3% 随机字, 否则不替换
https://blog.csdn.net/Kaiyuan_sjtu/article/details/90265473
https://blog.csdn.net/Kaiyuan_sjtu/article/details/88709580
BERT源码分析 及实战
Cove,ELMo,GPT 等模型,构建了语句级的语义表示。
ERNIE 模型通过对词、实体等语义单元的掩码,使得模型学习完整概念的语义表示。相较于 BERT 学习原始语言信号,ERNIE 直接对先验语义知识单元进行建模,增强了模型语义表示能力。
手机扫一扫
移动阅读更方便
你可能感兴趣的文章