自然语言处理(NLP)中,中文和其他语言相比有什么特别之处?
NLP的目的是希望计算机能够理解人类语言,并提供智能服务 。在中文的语言环境里,“词”是构成语法的基本单位,绝大多数的NLP任务都依赖分词的结果 。中文和英文有很大的不同,英文是以空格作为分隔符的,而中文是字与字直接连接在一起,这就造成了中文分词要比英文分词难度要大的多了 。中文分词经历了20多年的发展,一路上克服了各种困难,我梳理了一下主要4个难题:1. 中文语言里词界定标注不够清晰和统一,比如:“改革开放”可以整体切分,也可以切分成“改革”和“开发” 。
【自然语言处理全家福,nlp自然语言处理】2. 人工规则和统计学习孰优孰劣 。3. 中文歧义问题,比如:“乒乓球拍卖完了”可以切分成“乒乓球/ 拍卖/ 完/ 了”,也可以切分成“乒乓球拍/ 卖完/ 了“ 。4. 中文的新词发现,比如:各种网络新词、人名、品牌名等等 。综上所述,中文的NLP要比英文类语言难很多,但中文分词之后其实就与其它语言没收什么太大的区别了 。
推荐阅读
- Pro功能大盘点,三星c9pro处理器
- 苹果6 12,iphone12处理器是多少
- 奔腾双核的处理器 t420i,Thinkpad的T420i的电脑性能等怎么样? 后面带i...
- 万和热水器e4故障处理
- 性能最好的手机,截止2021年最好的几个手机处理器?
- 990与985处理器区别
- 泰迪小狗爪子怎么剪,主人知道怎么处理
- 挂式空调室内机漏水怎么处理,空调滴水是什么原因 挂机室内漏水怎么办
- intel酷睿八代处理器怎么样,Intel第八代酷睿i5
- 英特尔i77700hq怎么样,7700HQ的处理器怎么样