(论文笔记)Learning Deep Structured Semantic Models for Web Search using Clickthrough Data
阅读原文时间:2023年07月08日阅读:2

利用点击数据学习web搜索的深度学习模型

【总结】

该模型可以得到query和item的低维度向量表示,也可以得到二者的余弦语义相似度。

学习过程是通过最大化后验概率的极大似然估计得到的参数。

【模型解读】

A.输入:

1)x是词表长度的向量,维度大,一般是one-hot太大了,所以需要降;

2)Q为query, D为doc,包含正样本(曝光点击的doc),负样本4个(曝光但是未点击的doc),类似word2vec中的负采样;

B.中间过程:

1)经过word hashing ,将x的维度降下来(ngram方法);

2)多层线性层+tanh激活函数l1层 l2层;

C.输出:

1)得到的y为低纬度的稠密语义表示向量,128维;

2)query分别和正/负doc计算余弦相似度R;

3)得到余弦相似度后加上平滑因子计算softmax:

3)学习目标就是最大化query和点击的正样本的相关性后验概率的极大似然估计:

【优缺点】

论文提的优缺点:

️1.采用word hashing ,解决了lsa等用奇异值分解造成的维度高的问题,因为对于英文来说ngram有限

️2.ngram可以有效表示新词;(?)

️3.有监督的学习语义表示,不是直接把无监督模型得到的词向量在输入端作为输入了。

️4.免人工特征

1.word hashing可能有冲突(冲突不大);

2.词袋模型损失了上下文信息;

3.在排序中,搜索引擎的排序由多种因素决定,由于用户点击时doc的排名越靠前,点击的概率就越大,如果仅仅用点击来判断是否为正负样本,噪声比较大;

个人认为的优缺点:

1.对中文来说ngram的方法略落后,而且会忽略掉一些专有名词的含义,远距离的文字信息会丢失,全局信息;

【参考链接】

更多改进的model参考:+lstm or dnn️cnn

https://blog.csdn.net/xixiaoyaoww/article/details/105683329?utm_medium=distribute.pc_relevant.none-task-blog-2~default~baidujs_title~default-0.no_search_link&spm=1001.2101.3001.4242.1&utm_relevant_index=3