携程人工客服电话95010 携程人工客服电话

一、背景介绍
携程一直注重用户的服务效率与服务体验,在售前、售中、售后全过程中给用户提供高效的客服支持 。
用户访问客服页面后,会首先与智能客服进行对话,当智能客服给出的回答无法解决用户问题时便会接入人工客服,再由人工客服给出专业的解答 。对话完成后,系统根据人工客服会话内容,应用NLP相关技术给出会话类别 。这一结果将直接指导客服的管理与决策 。本文将主要介绍携程机票在人工客服会话分类时使用的相关NLP技术和优化方案 。

携程人工客服电话95010 携程人工客服电话


图1-1 智能客服会话与客服会话
二、问题分析
人工客服会话分类时主要使用的数据是客服与用户的文本对话内容,本质上是NLP(自然语言处理)领域中文本分类的问题 。文本分类的应用领域如文档主题分类、情感分类、垃圾邮件分类等 。现阶段经典的文本分类方法包括:基于统计数据特征构建文本分类模型、基于词向量和深度学习网络构建文本分类模型、基于预训练语言模型构建文本分类模型 。
传统的文本分类方法通常是基于统计数据构建文本特征,然后采用线性模型、SVM支持向量机模型等进行文本分类 。传统文本分类方法中的文本表示方式包括布尔模型、向量空间模型、概率模型、潜语义模型等,如图2-1所示 。
携程人工客服电话95010 携程人工客服电话


图2-1 文本表示方式
随着深度学习的发展与应用,文本表示方式也发生了变化,可以直接将文本中的字或词作为输入,在如CNN (convolutional neuralnetworks,卷积神经网络) 或LSTM (recurrent neuralnetworks based on long short-term memory,长短期记忆人工神经网络) 等网络结构中加入embedding层 (嵌入层),而后自动获取文本的特征表达 。embedding层是将高维向量映射到低维空间的过程,经典的embedding方法如word2vec是将词转化成可计算的结构化向量 。Word2vec包含两种训练模式CBOW (ContinuousBag-of-Words Model) 和Skip-gram (Continuous Skip-gram Model) (如图2-2所示) 。CBOW是通过上下文来预测当前词,Skip-gram是以当前词作为特征来预测上下文 。由于 Word2vec 会考虑上下文,相较于传统的文本表示方法效果更好 。
携程人工客服电话95010 携程人工客服电话


图2-2 Word2vec的两种训练模式
2018年左右,注意力机制 (Attention) 被广泛地应用到自然语言处理任务中 。Attention是模仿人脑中的信号处理机制,即人类视觉在观察图像时,会在一些局部区域上投入注意力,重点关注 。Attention的本质可以被描述为一个查询 (query) 到一系列 (键key-值value) 对的映射,如图2-3所示 。在文本分类任务中,可以通过引入self-attention机制的方式识别长文本中不同词语在不同类别的重要性 。self-attention机制即自己注意自己,简单地说在self-attention中Query=Key=value,每个词会与同一句话中另外的词做计算,这样更能够把握句子中词与词的句法特征、语义特征 。
携程人工客服电话95010 携程人工客服电话


图2-3 Attention 键值对映射
近年来,随着Transformer架构的提出,一大批预训练语言模型刷新众多NLP任务,如Bert、XLNet等 。这些模型首先使用大规模文本语料库进行预训练,并对特定任务的小数据集微调,降低单个NLP 任务的难度 。
其中,经典的预训练语言模型BERT (Bidirectional Encoder Representations from Transformers) 诞生于2018年10月,不久便占据GLUE各大任务的榜首,其中涉及情感分析、自然语言推断、文本含义分析与分类等 。BERT由谷歌推出并已开源,成为近几年NLP领域具有非凡意义的里程碑,大力推动了NLP项目在工业界的落地 。

推荐阅读