新宇的博客

Keep on going and never give up!

对话系统

一、基础介绍 1. 对话系统分类 2. 多轮对话场景 3. 对话系统技术框架 4. 对话系统开发流程 5. 对话系统需求分析 二、对话理解技术 1. NLU的定义和挑战 2. NLU一般方法 3. NLU模版 4. NLU模型 5. 工业界对NLU的诉求 三、对话管理技术 1. 对话系统的核心问题-DM 2. 工业界DM的一般做法 3. 工业界DM的...

机器学习思维导图

总复习


手推公式汇总

一、逻辑回归 1. 逻辑回归模型 2. 求对数似然 3. 梯度更新 二、SVM 参考: https://www.pianshen.com/article/15821257925/ 1. 函数间隔和几何间隔 2. 目标函数的推导 3. 引入拉格朗日函数 4. 证明原始问题与对偶问题的关系(此步可省) 5. 求最优解 三、GBDT 每一颗树都去拟合上一颗...

模型优化

模型剪枝、模型量化、知识蒸馏

一、 模型剪枝 1. 为什么要做模型剪枝 大模型容易train, 小模型难train(欠拟合) 受限于移动端的存储和算力,服务端随意 2. 架构图 二、知识蒸馏 1. 什么是知识蒸馏 train一个小模型模仿大模型的输出 因为大模型的输出更丰富,用小模型输出的dist逼近大模型的dist 2. 架构图 集成模型 为了让studen...

文本摘要(二)

PGN架构

一、PGN架构图 PGN架构本质上仍是一个seq2seq架构,与传统seq2seq不同的是 包含注意力机制 通过context-vec、decoder-output、decoder-input生成概率p-gen,p-gen代表了从vocab-dist生成词汇的概率,而(1-p-gen)代表从attention-dist生成词汇的概率,最后对两个分布...

文本摘要(一)

TextRank, seq2seq, word2vec训练词向量

一、项目介绍 文本摘要任务就是利用模型自动完成关键信息的抽取, 文本核心语义的概括,用一个简短的结果文本来表达和原文本同样的意思, 并传达等效的信息. 中学语文课的中心思想概括. 新浪体育上的体育新闻短评. 今日头条上的每日重要新闻概览. 英语考试中的概括某段落信息的选择题. 从NLP的角度看待文本摘要任务,...

BERT、ELMo、GPT模型

一、BERT 1. BERT介绍 BERT是2018年10月由Google AI研究院提出的一种预训练模型. BERT的全称是Bidirectional Encoder Representation from Transformers. BERT在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩: 全部两个衡量指标上全面超越人类, 并且在11...

迁移学习

GLUE数据集、Fine-tuning

一、迁移学习理论 预训练模型(Pretrained model): 一般情况下预训练模型都是大型模型,具备复杂的网络结构,众多的参数量,以及在足够大的数据集下进行训练而产生的模型. 在NLP领域,预训练模型往往是语言模型,因为语言模型的训练是无监督的,可以获得大规模语料,同时语言模型又是许多典型NLP任务的基础,如机器翻译,文本生成,阅读理解等,常见的预训练模型有...

fasttext的使用

一、认识fasttext工具 $ git clone https://github.com/facebookresearch/fastText.git $ cd fastText # 使用pip安装python中的fasttext工具包 $ sudo pip install . 二、本文分类 什么是文本分类 文本分类的是将文档(例如电子邮件,帖子,文本消息,...

句子对相关性分析

一、句子对相关性分析 句子主题相关任务: 在多轮对话系统中, 往往需要判断用户的最近两次回复是否围绕同一主题, 来决定问答机器人是否也根据自己上一次的回复来讨论相关内容. 选用的模型及其原因: 对话系统是开放的语言处理系统, 可能出现各种文字, 当我们的训练集有限无法覆盖大多数情况时, 可以直接使用预训练模型进行文字表示...