ShowMeAI为斯坦福CS224n《自然语言处理与深度学习(Natural Language Processing with Deep Learning)》课程的全部课件,做了中文翻译和注释,并制作成了GIF动图!视频和课件等资料的获取方式见文末。
语音学 (honetics) 是音流无争议的 物理学
语音体系 (Phonology) 假定了一组或多组独特的、分类的单元:音素 (phoneme) 或者是独特的特征
\[\left[\left[\text {un}\left[[\text { fortun }(\mathrm{e})]_{\text { Root }} \text { ate }\right]_{\text { STEM }}\right]_{\text { STEM }} \text {ly}\right]_{\text { WORD }}
\]
深度学习:形态学研究较少;递归神经网络的一种尝试是 (Luong, Socher, & Manning 2013)
声音本身在语言中没有意义
parts of words 是音素的下一级的形态学,是具有意义的最低级别
一个简单的替代方法是使用字符 n-grams
使用卷积层的相关想法
能更容易地发挥词素的许多优点吗?
书写系统在表达单词的方式上差异有大有小
没有分词 (没有在单词间放置空格)
大部分的单词都是分开的:由单词组成了句子
附着词
复合名词
需要处理数量很大的开放词汇:巨大的、无限的单词空间
① 词嵌入可以由字符嵌入组成
② 连续语言可以作为字符处理:即所有的语言处理均建立在字符序列上,不考虑 word-level
这两种方法都被证明是非常成功的!
上节课,我们看到了一个很好的用于句子分类的纯字符级模型的例子
强大的结果通过深度卷积堆叠
最初,效果令人不满意
只有decoder (初步成功)
然后,出现了还不错的结果
Luong 和 Manning 测试了一个纯字符级 seq2seq (LSTM) NMT 系统作为基线
它在单词级基线上运行得很好
字符级的 model 效果更好了,但是太慢了
2.5 #论文解读# Stronger character results with depth in LSTM seq2seq model
Revisiting Character-Based Neural Machine Translation with Capacity and Compression. 2018. Cherry, Foster, Bapna, Firat, Macherey, Google AI
在 LSTM-seq2seq 模型中,随着深度的增加,特征越强
在捷克语这样的复杂语言中,字符级模型的效果提升较为明显,但是在英语和法语等语言中则收效甚微。
与 word 级模型相同的架构
word pieces
混合架构
最初的压缩算法
用字符 ngram 替换字节(实际上,有些人已经用字节做了一些有趣的事情)
Rico Sennrich, Barry Haddow, and Alexandra Birch. Neural Machine Translation of Rare Words with SubwordUnits. ACL 2016.
分词 (word segmentation) 算法
将数据中的所有的 Unicode 字符组成一个 unigram 的词典
最常见的 ngram pairs 视为 一个新的 ngram
BPE 并未深度学习的有关算法,但已成为标准且成功表示 pieces of words 的方法,可以获得一个有限的词典与无限且有效的词汇表。
有一个目标词汇量,当你达到它的时候就停止
做确定性的最长分词分割
分割只在某些先前标记器 (通常MT使用的 Moses tokenizer) 标识的单词中进行
自动为系统添加词汇
word
2016年WMT排名第一!仍然广泛应用于2018年WMT
谷歌 NMT (GNMT) 使用了它的一个变体
不使用字符的 n-gram count,而是使用贪心近似来最大化语言模型的对数似然函数值,选择对应的 pieces
Wordpiece模型标记内部单词
Sentencepiece模型使用原始文本
BERT 使用了 wordpiece 模型的一个变体
(相对) 在词汇表中的常用词
其他单词由wordpieces组成
如果你在一个基于单词的模型中使用 BERT,你必须处理这个
Learning Character-level Representations for Part-ofSpeech Tagging (Dos Santos and Zadrozny 2014)
对字符进行卷积以生成单词嵌入
为 PoS 标签使用固定窗口的词嵌入
一个更复杂/精密的方法
动机
building blocks
来获得细致入微且功能强大的模型!混合高效结构
使用一个复制机制,试图填充罕见的单词,产生了超过 2个点的 BLEU 的改进
补充讲解
混合模型与字符级模型相比
使用WMT’15数据进行训练 (12M句子对)
30倍数据
3个系统
大型词汇+复制机制
达到先进的效果!
翻译效果很好!
基于字符:错误的名称翻译
基于单词:对齐不正确
基于字符的混合:diagnóze的正确翻译
基于单词:特征复制失败
混合:正确,11-year-old-jedenactileta
错误:Shani Bartova
一种用于单词嵌入和单词形态学的联合模型(Cao and Rei 2016)
用子单词信息丰富单词向量
Bojanowski, Grave, Joulinand Mikolov. FAIR. 2016.
目标:下一代高效的类似于 word2vecd 的单词表示库,但更适合于具有大量形态学的罕见单词和语言
带有字符 n-grams 的 w2v 的 skip-gram 模型的扩展
\[where =,where =
\]
注意 \(
将 word 表示为这些表示的和。上下文单词得分为
\[S(w, c)=\sum g \in G(w) \mathbf{Z}_{g}^{\mathrm{T}} \mathbf{V}_{C}
\]
hashing trick
来拥有固定数量的向量Suggested Readings
可以点击 B站 查看视频的【双语字幕】版本
手机扫一扫
移动阅读更方便
你可能感兴趣的文章