自然语言处理全家福,nlp自然语言处理( 三 )


自然语言处理(NLP)中,中文和其他语言相比有什么特别之处?

自然语言处理全家福,nlp自然语言处理


NLP的目的是希望计算机能够理解人类语言,并提供智能服务 。在中文的语言环境里,“词”是构成语法的基本单位,绝大多数的NLP任务都依赖分词的结果 。中文和英文有很大的不同,英文是以空格作为分隔符的,而中文是字与字直接连接在一起,这就造成了中文分词要比英文分词难度要大的多了 。中文分词经历了20多年的发展,一路上克服了各种困难,我梳理了一下主要4个难题:1. 中文语言里词界定标注不够清晰和统一,比如:“改革开放”可以整体切分,也可以切分成“改革”和“开发” 。
【自然语言处理全家福,nlp自然语言处理】2. 人工规则和统计学习孰优孰劣 。3. 中文歧义问题,比如:“乒乓球拍卖完了”可以切分成“乒乓球/ 拍卖/ 完/ 了”,也可以切分成“乒乓球拍/ 卖完/ 了“ 。4. 中文的新词发现,比如:各种网络新词、人名、品牌名等等 。综上所述,中文的NLP要比英文类语言难很多,但中文分词之后其实就与其它语言没收什么太大的区别了 。

推荐阅读