新宇的博客

Keep on going and never give up!

命名实体识别(NER)

一、什么是命名实体识别 命名实体识别(Named Entity Recognition,NER)就是从一段自然语言文本中找出相关实体,并标注出其位置以及类型。是信息提取, 问答系统, 句法分析, 机器翻译等应用领域的重要基础工具, 在自然语言处理技术走向实用化的过程中占有重要地位. 包含行业, 领域专有名词, 如人名, 地名, 公司名, 机构名, 日期, 时间, 疾病名, 症状名, ...

命名实体审核

一、 任务简介 NE审核任务: 一般在实体进入数据库存储前, 中间都会有一道必不可少的工序, 就是对识别出来的实体进行合法性的检验, 即命名实体(NE)审核任务. 它的检验过程不使用上下文信息, 更关注于字符本身的组合方式来进行判断, 本质上,它是一项短文本二分类问题. 选用的模型及其原因: 针对短文本任务, 无须捕捉长距...

Transformer-下

Transformer经典案例

一、案例介绍 什么是语言模型: 以一个符合语言规律的序列为输入,模型将利用序列间关系等特征,输出一个在所有词汇上的概率分布.这样的模型称为语言模型. 语言模型能解决哪些问题: 根据语言模型的定义,可以在它的基础上完成机器翻译,文本生成等任务,因为我们通过最后输出的概率分布来预测下一个词汇是什么. ...

Transformer-中

解码器、输出部分、模型构建

一、解码器 解码器部分: 由N个解码器层堆叠而成 每个解码器层由三个子层连接结构组成 第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接 第二个子层连接结构包括一个多头注意力子层和规范化层以及一个残差连接 第三个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接 1....

Transformer-上

整体介绍、架构图、输入部分、编码器实现

一、Transform背景介绍 2018年10月,Google发出一篇论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》, BERT模型横空出世, 并横扫NLP领域11项任务的最佳成绩! 论文地址: https://arxiv.org/pdf/1810.04805....

周杰伦歌词的文本生成任务

整体介绍、架构图

一、案例介绍 这是一项使用GRU模型的文本生成任务,文本生成任务是NLP领域最具有挑战性的任务之一,我们将以一段文本或字符为输入,使用模型预测之后可能出现的文本内容,我们希望这些文本内容符合语法并能保持语义连贯性。 但是到目前为止,这是一项艰巨的任务,因此从实用角度出发,更多的尝试在与艺术类文本相关的任务中。 这里我们使用周杰伦的歌词进行文本生成任务 ...

使用seq2seq模型架构实现英译法任务

seq2seq、attention

一、模型架构图 1. seq2seq整体架构图 2. Encoder架构图 3. Decoder架构图 4. 基于Attention的Decoder架构图 二、案例介绍 三、代码 1. 导入必备的工具包. # 从io工具包导入open方法 from io import open # 用于字符规范化 import unicodedata # 用于正则表达式 impor...

使用RNN模型构建人名分类器

RNN、LSTM、GRU

一、案例介绍 关于人名分类问题: 以一个人名为输入, 使用模型帮助我们判断它最有可能是来自哪一个国家的人名, 这在某些国际化公司的业务中具有重要意义, 在用户注册过程中, 会根据用户填写的名字直接给他分配可能的国家或地区选项, 以及该国家或地区的国旗, 限制手机号码位数等等. 人名分类数据: 数据下载地址: https:/...

RNN及其变体

RNN、LSTM、GRU、Attention机制

一、RNN模型简介 1. 什么是RNN模型 RNN(Recurrent Neural Network), 中文称作循环神经网络, 它一般以序列数据为输入, 通过网络内部的结构设计有效捕捉序列之间的关系特征, 一般也是以序列形式进行输出. 以时间步对RNN进行展开后的单层网络结构: RNN的循环机制使模型隐层上一时间步产生的结果, 能够作为当下时间步输入的一部分(当下时间步的输入除...

文本预处理-下

新闻主题分类任务案例

一、案例介绍 以一段新闻报道中的文本描述内容为输入, 使用模型帮助我们判断它最有可能属于哪一种类型的新闻, 这是典型的文本分类问题, 我们这里假定每种类型是互斥的, 即文本描述有且只有一种类型. 二、优化方案 文本长度规范(已实现) 进入模型前需要对每条文本数值映射后的长度进行规范 超过限制cutlen的语句切割 ...