宗成庆,有关计算机领域的自然语言处理方面最权威的书是什么

1,有关计算机领域的自然语言处理方面最权威的书是什么计算机自然语言处理是一个前沿领域,有很多问题还没有根本解决,要了解最新进展最好看论文 。书中一般只讲一些常用的技术和模型,而且基本没有哪本书能把所有的技术都能详细地讲到,所以没有哪本书是绝对权威的,看你想了解哪方面 。几本比较好的书:国外的:统计自然语言处理基础(书店有中文版,网上有英文电子版)作者:(美)(Manning Christopher D.)(德)(Schutze Hinrich) 译者:苑春法自然语言处理综论(美国 朱夫斯凯)国内的:统计自然语言处理(宗成庆)自然语言处理(江铭虎)计算机自然语言处理(王晓龙 关毅)

宗成庆,有关计算机领域的自然语言处理方面最权威的书是什么


2,宗成庆的介绍宗成庆 1998年3月毕业于中国科学院计算技术研究所,获博士学位,1998年5月至2000年4月在中国科学院自动化研究所模式识别国家重点实验室从事博士后研究,出站后留实验室工作至今,现为模式识别国家重点实验室研究员,博士生导师 。
宗成庆,有关计算机领域的自然语言处理方面最权威的书是什么


3,如何评价中国科学院自动化研究所的宗成庆老师我只这里的学生,嘿嘿 。以我的角度看,工作人员,老师等等都相处的很融洽 。科研实力挺厉害的,有两个国家重点实验室 。员工福利就不太清楚了 。【宗成庆,有关计算机领域的自然语言处理方面最权威的书是什么】
宗成庆,有关计算机领域的自然语言处理方面最权威的书是什么


4,自然语言处理怎么最快入门我看了好几遍《致谢》,甚为感动 。从农村、大山里走出来的寒门子弟,能励志成才报效祖国,必将激励一代又一代年轻人!古有颜回之乐 。“一箪食,一瓢饮,在陋巷 。人不堪其忧,回也不改其乐 。贤哉回也!”,后有王阳明的龙场悟道 。“谪官龙场,居夷处困,动心忍性之余,恍若有悟,体验探求,再更寒暑,证诸五经、四子,沛然若决江河而放诸海也 。然后叹圣人之道坦如大路 。”这些史学教育着我们,不管环境有多恶劣,生活有多艰辛,崇尚修齐治平的抱负和理想不能丢 。有过相同的经历,一些感悟不得不共鸣:一是,真心希望天下有学,不因客观原因而夭折了希望之星,未来人才 。二是,正向激励莘莘学子,珍惜来之不易的学习环境,努力成为国之栋梁 。三是,推动社会援学助学,社会应更多地去关心爱护每一个孩子,让其健康快乐成长 。四是,完善社会托底机制,别让求学中的孩子们过多过早来承受不能承受之痛 。五是,常怀感恩勿需怨天,时代造就人才,时势成就英雄 。走过风雨的人,更能坚定人生信念 。我看了好几遍《致谢》,甚为感动 。从农村、大山里走出来的寒门子弟,能励志成才报效祖国,必将激励一代又一代年轻人!古有颜回之乐 。“一箪食,一瓢饮,在陋巷 。人不堪其忧,回也不改其乐 。贤哉回也!”,后有王阳明的龙场悟道 。“谪官龙场,居夷处困,动心忍性之余,恍若有悟,体验探求,再更寒暑,证诸五经、四子,沛然若决江河而放诸海也 。然后叹圣人之道坦如大路 。”这些史学教育着我们,不管环境有多恶劣,生活有多艰辛,崇尚修齐治平的抱负和理想不能丢 。有过相同的经历,一些感悟不得不共鸣:一是,真心希望天下有学,不因客观原因而夭折了希望之星,未来人才 。二是,正向激励莘莘学子,珍惜来之不易的学习环境,努力成为国之栋梁 。三是,推动社会援学助学,社会应更多地去关心爱护每一个孩子,让其健康快乐成长 。四是,完善社会托底机制,别让求学中的孩子们过多过早来承受不能承受之痛 。五是,常怀感恩勿需怨天,时代造就人才,时势成就英雄 。走过风雨的人,更能坚定人生信念 。非科班出身,自学撸出中文分词库HanLP,在GitHub标星1.5万,成为最受欢迎的自然语言处理项目 。他将学习经验总结成书《自然语言处理入门》,帮助小白快速入门NLP 。针对题主的提问,HanLP自然语言处理类库的开发者何晗的经验很值得借鉴 。截至 2019 年 11月初,HanLP项目在 GitHub Star 数达到了 15.6 K,超过了宾夕法尼亚大学的 NLTK、斯坦福大学的 CoreNLP 。贴上GitHub地址:https://github.com/hankcs/HanLP何晗在开发这款 NLP 工具包时,还是上海外国语大学一名日语专业的大二学生,HanLP项目脱胎他大学时接的一份兼职,何晗也因缘从一个非科班专业的小白逐步成长为NLP领域的专家 。如今,正在攻读CS博士的他(研究方向:句法分析、语义分析与问答系统),结合自己的学习历程和HanLP的开发经验创作出版了《自然语言处理入门》一书,得到了周明、刘群、王斌等业内顶级 NLP 专家的推荐 。从着手开发HanLP,到HanLP达到工业使用的水准,何晗对自学NLP有深刻的见解 。如果用一句话来总结,那就是:自顶而下,从工程去切入,由应用层往下面的基础层拓展,递归补充理论知识,才能事半功倍 。以下入门NLP的建议,皆来自于何晗的经验,分享给像题主这样的初学者,希望能对大家有所启发 。一、初学者,请避开自学NLP的常见误区有的初学者排斥基础理论——认为学校教的都是没用的,公司里都用不到;有的初学者对基础理论敬而远之——认为理论太高深了,自己基础不好,学了也白学;有的初学者,特别是已经工作的程序员,基本方向正确但学习路径错误,比较容易走极端:在工作很忙的情况下,只是抱着经典书籍苦啃,直到筋疲力尽项目也毫无进展,从而丧失了学习NLP的兴趣;或者,俗称调库小能手,跟风潮流,缺少理论基础,缺乏独立思考能力(比如,认为深度学习最牛,其他的基础理论都是垃圾;认为CNN/RNN/BERT会调参就行了) 。而实际上,自然语言处理是计算机科学、人工智能和语言学学科的交集,这三方面的学科知识都是需要储备的,基础理论的学习必不可少 。但很多初学者都是在工作之后才入坑NLP,既难以静下心来啃书啃课,又缺少很好的老师传授知识经验 。所以,有效可行的入门方式就是从工程切入,遵循这样的逻辑:延迟加载,只在使用的时候才去加载必要的资料:你首先看到的是一个摸得着的实际问题,为了解决该问题才去接触一个具体的方案;为了理解这个方案,才会引入必要的背景知识;为了实现这个方案,才会引入相关细节;为了克服这个方案的问题,才会过渡到新的方案 。二、想快速入门NLP,边学边做疗效好何晗入门NLP,读过的经典书有:《统计自然语言处理》(宗成庆 著)(对应语言学知识)、《统计学习方法》(李航 著)(对应人工智能知识),《挑战程序设计竞赛》(秋叶拓哉、盐田阳一、北川宜稔 著)(对应计算机算法知识) 。不过,在看经典书籍的过程中,他发现,学习自然语言处理并不需要完全把这几本书看透,最好是可以边看书边做项目 。这些书都是非常牛的好书,然而可惜的是,看完书中的章节,不知该如何应用其中的知识点,即使实现了文章中提到的模型,也很难直接将其运用于工程项目 。想必很多初学者都面临类似的学习困惑 。为了解决这个问题,何晗动手写了《自然语言处理入门》,目的就是希望学习者看完一章后,便可以将知识点直接用于项目,适合NLP初学者入门并快速布置到生产环境中 。成效快,痛苦小,疑问少 。何晗在《自然语言处理入门》一书中,以自己的HanLP开源项目为案例,代码对照公式讲解每一个算法每一个模型,让入门者带着工程思维理解NLP的知识要点,试图在目前市面上艰深晦涩的教科书和简单的入门书之间作出平衡 。《自然语言处理入门》带领学习者从基本概念入手 。逐步介绍中文分词、词性标注、命名实体识别、信息抽取、文本聚类、文本分类、句法分析这几个热门问题的算法原理和工程实现 。通过对多种算法的讲解和实现,比较各自的优缺点和适用场景 。这些实现并非教学专用,而是生产级别的成熟代码,可以直接用于实际项目 。在理解这些热门问题的算法后,这本书会引导学习者根据自己的项目需求拓展新功能,最终达到理论和实践上的同步入门 。何晗认为,NLP的学习路径,应该尊重一般人的认知规律,而不是学术上的纲目顺序,以此为宗旨来编排图书的内容 。因此,面向普通程序员,这本书内容分为以下三大部分:第一部分介绍一些字符串算法,让普通程序员从算法的角度思考中文信息处理 。第二部分由易到难地讲解一些常用的机器学习模型,让算法工程师晋级为机器学习工程师 。由中文分词贯穿始终,构成一种探索式的递进学习 。这些模型也并非局限于中文分词,会在第三部分应用到更多的自然语言处理问题上去 。第三部分新增了许多与文本处理紧密相关的算法,让机器学习工程师进化到自然语言处理工程师 。特别地,最后一章介绍了当前流行的深度学习方法,起到扩展视野、承上启下的作用 。学习者可根据自身情况,灵活跳过部分章节 。何晗在自学过程中走过不少弯路,深知数学语言的艰深晦涩,并且痛恨罗列公式故作高深的文章,所以他在书中只保留了必不可少的公式和推导,并且公式与代码相互印证 。配套代码由Java和Python双语言写成,与GitHub上最新代码同步更新,所以你只要具备基本的编程经验,就可以跟随书本零起点入门 。此外,何晗还总结出一份最为详尽的NLP+ML“双生树”思维导图,导图中的关联知识点不仅涵盖NLP领域的核心知识,甚至涉及许多前沿研究和应用,印刷尺寸宽60cm,高74cm,随书附赠供学习者参考 。三、进阶NLP的学习资料和工具推荐推荐读这些经典书籍:多读论文,推荐用Google Scholar和Papers检索:克服语言障碍,推荐用欧路词典:追踪前沿动态,推荐NLP-progress,在各项NLP任务上的排行榜网址:https://nlpprogress.com/一个中肯的建议:NLP没有通用的解法,算法不够,语料来补算法不是万能的 。(想想:一两个百分点对实际业务有多少帮助,又增加了多少成本?)不要完全相信论文 。(a. 不要相信不公开源代码的论文; b. 不要相信公开源代码但数据预处理作假的论文; c. 即使能跑出作者宣称的分数,请考虑:模型是否能泛化到你的行业领域? 又增加了多少成本?)语料极其重要 。(a. 语料几乎可以把准确率提升到你期望的任何水准,只要数量质量足够; b. 目前通用语料几乎都是新闻,谁能标注出行业语料,谁就是大王; c. 深度学习时代,无标注的纯文本语料也大有用场;d. 软件工程2.0:用数据编程 。)我看了好几遍《致谢》,甚为感动 。从农村、大山里走出来的寒门子弟,能励志成才报效祖国,必将激励一代又一代年轻人!古有颜回之乐 。“一箪食,一瓢饮,在陋巷 。人不堪其忧,回也不改其乐 。贤哉回也!”,后有王阳明的龙场悟道 。“谪官龙场,居夷处困,动心忍性之余,恍若有悟,体验探求,再更寒暑,证诸五经、四子,沛然若决江河而放诸海也 。然后叹圣人之道坦如大路 。”这些史学教育着我们,不管环境有多恶劣,生活有多艰辛,崇尚修齐治平的抱负和理想不能丢 。有过相同的经历,一些感悟不得不共鸣:一是,真心希望天下有学,不因客观原因而夭折了希望之星,未来人才 。二是,正向激励莘莘学子,珍惜来之不易的学习环境,努力成为国之栋梁 。三是,推动社会援学助学,社会应更多地去关心爱护每一个孩子,让其健康快乐成长 。四是,完善社会托底机制,别让求学中的孩子们过多过早来承受不能承受之痛 。五是,常怀感恩勿需怨天,时代造就人才,时势成就英雄 。走过风雨的人,更能坚定人生信念 。非科班出身,自学撸出中文分词库HanLP,在GitHub标星1.5万,成为最受欢迎的自然语言处理项目 。他将学习经验总结成书《自然语言处理入门》,帮助小白快速入门NLP 。针对题主的提问,HanLP自然语言处理类库的开发者何晗的经验很值得借鉴 。截至 2019 年 11月初,HanLP项目在 GitHub Star 数达到了 15.6 K,超过了宾夕法尼亚大学的 NLTK、斯坦福大学的 CoreNLP 。贴上GitHub地址:https://github.com/hankcs/HanLP何晗在开发这款 NLP 工具包时,还是上海外国语大学一名日语专业的大二学生,HanLP项目脱胎他大学时接的一份兼职,何晗也因缘从一个非科班专业的小白逐步成长为NLP领域的专家 。如今,正在攻读CS博士的他(研究方向:句法分析、语义分析与问答系统),结合自己的学习历程和HanLP的开发经验创作出版了《自然语言处理入门》一书,得到了周明、刘群、王斌等业内顶级 NLP 专家的推荐 。从着手开发HanLP,到HanLP达到工业使用的水准,何晗对自学NLP有深刻的见解 。如果用一句话来总结,那就是:自顶而下,从工程去切入,由应用层往下面的基础层拓展,递归补充理论知识,才能事半功倍 。以下入门NLP的建议,皆来自于何晗的经验,分享给像题主这样的初学者,希望能对大家有所启发 。一、初学者,请避开自学NLP的常见误区有的初学者排斥基础理论——认为学校教的都是没用的,公司里都用不到;有的初学者对基础理论敬而远之——认为理论太高深了,自己基础不好,学了也白学;有的初学者,特别是已经工作的程序员,基本方向正确但学习路径错误,比较容易走极端:在工作很忙的情况下,只是抱着经典书籍苦啃,直到筋疲力尽项目也毫无进展,从而丧失了学习NLP的兴趣;或者,俗称调库小能手,跟风潮流,缺少理论基础,缺乏独立思考能力(比如,认为深度学习最牛,其他的基础理论都是垃圾;认为CNN/RNN/BERT会调参就行了) 。而实际上,自然语言处理是计算机科学、人工智能和语言学学科的交集,这三方面的学科知识都是需要储备的,基础理论的学习必不可少 。但很多初学者都是在工作之后才入坑NLP,既难以静下心来啃书啃课,又缺少很好的老师传授知识经验 。所以,有效可行的入门方式就是从工程切入,遵循这样的逻辑:延迟加载,只在使用的时候才去加载必要的资料:你首先看到的是一个摸得着的实际问题,为了解决该问题才去接触一个具体的方案;为了理解这个方案,才会引入必要的背景知识;为了实现这个方案,才会引入相关细节;为了克服这个方案的问题,才会过渡到新的方案 。二、想快速入门NLP,边学边做疗效好何晗入门NLP,读过的经典书有:《统计自然语言处理》(宗成庆 著)(对应语言学知识)、《统计学习方法》(李航 著)(对应人工智能知识),《挑战程序设计竞赛》(秋叶拓哉、盐田阳一、北川宜稔 著)(对应计算机算法知识) 。不过,在看经典书籍的过程中,他发现,学习自然语言处理并不需要完全把这几本书看透,最好是可以边看书边做项目 。这些书都是非常牛的好书,然而可惜的是,看完书中的章节,不知该如何应用其中的知识点,即使实现了文章中提到的模型,也很难直接将其运用于工程项目 。想必很多初学者都面临类似的学习困惑 。为了解决这个问题,何晗动手写了《自然语言处理入门》,目的就是希望学习者看完一章后,便可以将知识点直接用于项目,适合NLP初学者入门并快速布置到生产环境中 。成效快,痛苦小,疑问少 。何晗在《自然语言处理入门》一书中,以自己的HanLP开源项目为案例,代码对照公式讲解每一个算法每一个模型,让入门者带着工程思维理解NLP的知识要点,试图在目前市面上艰深晦涩的教科书和简单的入门书之间作出平衡 。《自然语言处理入门》带领学习者从基本概念入手 。逐步介绍中文分词、词性标注、命名实体识别、信息抽取、文本聚类、文本分类、句法分析这几个热门问题的算法原理和工程实现 。通过对多种算法的讲解和实现,比较各自的优缺点和适用场景 。这些实现并非教学专用,而是生产级别的成熟代码,可以直接用于实际项目 。在理解这些热门问题的算法后,这本书会引导学习者根据自己的项目需求拓展新功能,最终达到理论和实践上的同步入门 。何晗认为,NLP的学习路径,应该尊重一般人的认知规律,而不是学术上的纲目顺序,以此为宗旨来编排图书的内容 。因此,面向普通程序员,这本书内容分为以下三大部分:第一部分介绍一些字符串算法,让普通程序员从算法的角度思考中文信息处理 。第二部分由易到难地讲解一些常用的机器学习模型,让算法工程师晋级为机器学习工程师 。由中文分词贯穿始终,构成一种探索式的递进学习 。这些模型也并非局限于中文分词,会在第三部分应用到更多的自然语言处理问题上去 。第三部分新增了许多与文本处理紧密相关的算法,让机器学习工程师进化到自然语言处理工程师 。特别地,最后一章介绍了当前流行的深度学习方法,起到扩展视野、承上启下的作用 。学习者可根据自身情况,灵活跳过部分章节 。何晗在自学过程中走过不少弯路,深知数学语言的艰深晦涩,并且痛恨罗列公式故作高深的文章,所以他在书中只保留了必不可少的公式和推导,并且公式与代码相互印证 。配套代码由Java和Python双语言写成,与GitHub上最新代码同步更新,所以你只要具备基本的编程经验,就可以跟随书本零起点入门 。此外,何晗还总结出一份最为详尽的NLP+ML“双生树”思维导图,导图中的关联知识点不仅涵盖NLP领域的核心知识,甚至涉及许多前沿研究和应用,印刷尺寸宽60cm,高74cm,随书附赠供学习者参考 。三、进阶NLP的学习资料和工具推荐推荐读这些经典书籍:多读论文,推荐用Google Scholar和Papers检索:克服语言障碍,推荐用欧路词典:追踪前沿动态,推荐NLP-progress,在各项NLP任务上的排行榜网址:https://nlpprogress.com/一个中肯的建议:NLP没有通用的解法,算法不够,语料来补算法不是万能的 。(想想:一两个百分点对实际业务有多少帮助,又增加了多少成本?)不要完全相信论文 。(a. 不要相信不公开源代码的论文; b. 不要相信公开源代码但数据预处理作假的论文; c. 即使能跑出作者宣称的分数,请考虑:模型是否能泛化到你的行业领域? 又增加了多少成本?)语料极其重要 。(a. 语料几乎可以把准确率提升到你期望的任何水准,只要数量质量足够; b. 目前通用语料几乎都是新闻,谁能标注出行业语料,谁就是大王; c. 深度学习时代,无标注的纯文本语料也大有用场;d. 软件工程2.0:用数据编程 。)程序员向,对编程感兴趣的可以了解一下一、数学基础:1.Up主:3Blue1Brown的数学基础:https://space.bilibili.com/88461692用动画讲述数学专业知识,其视频涵盖了线性代数、微积分、拓扑学等领域,每门课都配有直观生动的动画演示,帮助观众加深对数学概念定理的理解 。2.数学分析:https://www.bilibili.com/video/av8042121复旦陈纪修老师的数学分析视频课程,共214讲 。3.数学建模:www.bilibili.com/video/av8824879清华大学数学建模公开课,共84讲 。4.统计学:https://www.bilibili.com/video/av7199273可汗学院公开课,统计学所有内容都涵盖了 。共85讲 。二、C与C++篇1.《带你学C带你飞》(小甲鱼):https://www.bilibili.com/video/av277441412.《C++快速入门》(小甲鱼):https://www.bilibili.com/video/av28127959三、Python 入门&&全栈:1、[小甲鱼]零基础入门学习Python:https://www.bilibili.com/video/av4050443视频风格偏幽默,画面虽然有点偏儿童风格,不像那种扁平化的风格高大上,但配合老师幽默的教学风格倒也显得有点意思,不然播放量也不可能这么高 。2、Python编程 从入门到实践:https://www.bilibili.com/video/av35698354每天30分钟,特别适合毫无基础都同学 。应该不会太无聊,而且时间适中 。不容易打击积极性!目前共23节,还在持续更新中 。3.麻省理工公开课(计算机科学导论及Python编程):https://www.bilibili.com/video/av10497433英文字幕,名校课程 。建议英语水平过关的同学食用 。4.Python】这可能是你见过的最简洁最没有废话的Python教程:https://www.bilibili.com/video/av5236569简单直接,没有废话 。5.python全栈开发(入门到放弃):https://www.bilibili.com/video/av13690129内容丰富,包含 Python 领域方方面面,共 616 讲 。可以慢慢的看 。6.python数据结构与算法系列课程:https://www.bilibili.com/video/av21540971数据结构的Python语言实现课程,共44讲 。四、数据分析:1.Python 数据分析与展示(北京理工大学 ):https://www.bilibili.com/video/av10101509北京理工大学MOOC课程,共65讲 。2.Numpy & Pandas :https://www.bilibili.com/video/av16378934 莫烦 Python 数据处理教程,主要讲解Numpy、Pandas两个包的使用 。共18讲 。五、爬虫:1.Python网络爬虫与信息提取:https://www.bilibili.com/video/av9784617北京理工大学MOOC课程,共65讲 。2.Python 爬虫基础教程 :https://www.bilibili.com/video/av17920849 莫烦出品,内容短小精悍,共13讲 。六、可视化:1.Python数据可视化分析:https://www.bilibili.com/video/av6989413麦子学院的公开课,共31讲 。2.Matplotlib Python 画图教程:https://www.bilibili.com/video/av16378354莫烦Python的课程内容,共19讲 。七、机器学习篇:1.机器学习(Machine Learning)- 吴恩达(Andrew Ng):https://www.bilibili.com/video/av9912938机器学习四大天王称号的吴恩达博士亲自录制的机器学习视频课程,可以说是机器学习入门宝典 。2.李宏毅机器学习(2017):https://www.bilibili.com/video/av10590361大教授李宏毅制作的,经常被认为机器学习中文课程的首选,而且课程风格诙谐幽默,这就让枯燥的课程变的有趣许多 。而且最重要的是,课程中布置了很多作业,而万能的网友更是找出了作业答案,并将其公布在了留言区,可以说太良心了,简直是没钱报班学习者的福音 。3.机器学习算法-2017邹博最新:https://www.bilibili.com/video/av235850804.NLP自然语言理解-中科院(宗成庆):https://www.bilibili.com/video/av233341205.【深度学习】深度学习NLP(牛津大学 2017):https://www.bilibili.com/video/av9817911英文版,英语水平极佳方可食用!6.斯坦福2017季CS224n深度学习自然语言处理课程:https://www.bilibili.com/video/av13383754英文版,英语水平极佳方可食用!7.Python+opencv3.3视频教学:https://www.bilibili.com/video/av24998616基础入门适合新手,OpenCV入门佳品,共30讲 。我看了好几遍《致谢》,甚为感动 。从农村、大山里走出来的寒门子弟,能励志成才报效祖国,必将激励一代又一代年轻人!古有颜回之乐 。“一箪食,一瓢饮,在陋巷 。人不堪其忧,回也不改其乐 。贤哉回也!”,后有王阳明的龙场悟道 。“谪官龙场,居夷处困,动心忍性之余,恍若有悟,体验探求,再更寒暑,证诸五经、四子,沛然若决江河而放诸海也 。然后叹圣人之道坦如大路 。”这些史学教育着我们,不管环境有多恶劣,生活有多艰辛,崇尚修齐治平的抱负和理想不能丢 。有过相同的经历,一些感悟不得不共鸣:一是,真心希望天下有学,不因客观原因而夭折了希望之星,未来人才 。二是,正向激励莘莘学子,珍惜来之不易的学习环境,努力成为国之栋梁 。三是,推动社会援学助学,社会应更多地去关心爱护每一个孩子,让其健康快乐成长 。四是,完善社会托底机制,别让求学中的孩子们过多过早来承受不能承受之痛 。五是,常怀感恩勿需怨天,时代造就人才,时势成就英雄 。走过风雨的人,更能坚定人生信念 。非科班出身,自学撸出中文分词库HanLP,在GitHub标星1.5万,成为最受欢迎的自然语言处理项目 。他将学习经验总结成书《自然语言处理入门》,帮助小白快速入门NLP 。针对题主的提问,HanLP自然语言处理类库的开发者何晗的经验很值得借鉴 。截至 2019 年 11月初,HanLP项目在 GitHub Star 数达到了 15.6 K,超过了宾夕法尼亚大学的 NLTK、斯坦福大学的 CoreNLP 。贴上GitHub地址:https://github.com/hankcs/HanLP何晗在开发这款 NLP 工具包时,还是上海外国语大学一名日语专业的大二学生,HanLP项目脱胎他大学时接的一份兼职,何晗也因缘从一个非科班专业的小白逐步成长为NLP领域的专家 。如今,正在攻读CS博士的他(研究方向:句法分析、语义分析与问答系统),结合自己的学习历程和HanLP的开发经验创作出版了《自然语言处理入门》一书,得到了周明、刘群、王斌等业内顶级 NLP 专家的推荐 。从着手开发HanLP,到HanLP达到工业使用的水准,何晗对自学NLP有深刻的见解 。如果用一句话来总结,那就是:自顶而下,从工程去切入,由应用层往下面的基础层拓展,递归补充理论知识,才能事半功倍 。以下入门NLP的建议,皆来自于何晗的经验,分享给像题主这样的初学者,希望能对大家有所启发 。一、初学者,请避开自学NLP的常见误区有的初学者排斥基础理论——认为学校教的都是没用的,公司里都用不到;有的初学者对基础理论敬而远之——认为理论太高深了,自己基础不好,学了也白学;有的初学者,特别是已经工作的程序员,基本方向正确但学习路径错误,比较容易走极端:在工作很忙的情况下,只是抱着经典书籍苦啃,直到筋疲力尽项目也毫无进展,从而丧失了学习NLP的兴趣;或者,俗称调库小能手,跟风潮流,缺少理论基础,缺乏独立思考能力(比如,认为深度学习最牛,其他的基础理论都是垃圾;认为CNN/RNN/BERT会调参就行了) 。而实际上,自然语言处理是计算机科学、人工智能和语言学学科的交集,这三方面的学科知识都是需要储备的,基础理论的学习必不可少 。但很多初学者都是在工作之后才入坑NLP,既难以静下心来啃书啃课,又缺少很好的老师传授知识经验 。所以,有效可行的入门方式就是从工程切入,遵循这样的逻辑:延迟加载,只在使用的时候才去加载必要的资料:你首先看到的是一个摸得着的实际问题,为了解决该问题才去接触一个具体的方案;为了理解这个方案,才会引入必要的背景知识;为了实现这个方案,才会引入相关细节;为了克服这个方案的问题,才会过渡到新的方案 。二、想快速入门NLP,边学边做疗效好何晗入门NLP,读过的经典书有:《统计自然语言处理》(宗成庆 著)(对应语言学知识)、《统计学习方法》(李航 著)(对应人工智能知识),《挑战程序设计竞赛》(秋叶拓哉、盐田阳一、北川宜稔 著)(对应计算机算法知识) 。不过,在看经典书籍的过程中,他发现,学习自然语言处理并不需要完全把这几本书看透,最好是可以边看书边做项目 。这些书都是非常牛的好书,然而可惜的是,看完书中的章节,不知该如何应用其中的知识点,即使实现了文章中提到的模型,也很难直接将其运用于工程项目 。想必很多初学者都面临类似的学习困惑 。为了解决这个问题,何晗动手写了《自然语言处理入门》,目的就是希望学习者看完一章后,便可以将知识点直接用于项目,适合NLP初学者入门并快速布置到生产环境中 。成效快,痛苦小,疑问少 。何晗在《自然语言处理入门》一书中,以自己的HanLP开源项目为案例,代码对照公式讲解每一个算法每一个模型,让入门者带着工程思维理解NLP的知识要点,试图在目前市面上艰深晦涩的教科书和简单的入门书之间作出平衡 。《自然语言处理入门》带领学习者从基本概念入手 。逐步介绍中文分词、词性标注、命名实体识别、信息抽取、文本聚类、文本分类、句法分析这几个热门问题的算法原理和工程实现 。通过对多种算法的讲解和实现,比较各自的优缺点和适用场景 。这些实现并非教学专用,而是生产级别的成熟代码,可以直接用于实际项目 。在理解这些热门问题的算法后,这本书会引导学习者根据自己的项目需求拓展新功能,最终达到理论和实践上的同步入门 。何晗认为,NLP的学习路径,应该尊重一般人的认知规律,而不是学术上的纲目顺序,以此为宗旨来编排图书的内容 。因此,面向普通程序员,这本书内容分为以下三大部分:第一部分介绍一些字符串算法,让普通程序员从算法的角度思考中文信息处理 。第二部分由易到难地讲解一些常用的机器学习模型,让算法工程师晋级为机器学习工程师 。由中文分词贯穿始终,构成一种探索式的递进学习 。这些模型也并非局限于中文分词,会在第三部分应用到更多的自然语言处理问题上去 。第三部分新增了许多与文本处理紧密相关的算法,让机器学习工程师进化到自然语言处理工程师 。特别地,最后一章介绍了当前流行的深度学习方法,起到扩展视野、承上启下的作用 。学习者可根据自身情况,灵活跳过部分章节 。何晗在自学过程中走过不少弯路,深知数学语言的艰深晦涩,并且痛恨罗列公式故作高深的文章,所以他在书中只保留了必不可少的公式和推导,并且公式与代码相互印证 。配套代码由Java和Python双语言写成,与GitHub上最新代码同步更新,所以你只要具备基本的编程经验,就可以跟随书本零起点入门 。此外,何晗还总结出一份最为详尽的NLP+ML“双生树”思维导图,导图中的关联知识点不仅涵盖NLP领域的核心知识,甚至涉及许多前沿研究和应用,印刷尺寸宽60cm,高74cm,随书附赠供学习者参考 。三、进阶NLP的学习资料和工具推荐推荐读这些经典书籍:多读论文,推荐用Google Scholar和Papers检索:克服语言障碍,推荐用欧路词典:追踪前沿动态,推荐NLP-progress,在各项NLP任务上的排行榜网址:https://nlpprogress.com/一个中肯的建议:NLP没有通用的解法,算法不够,语料来补算法不是万能的 。(想想:一两个百分点对实际业务有多少帮助,又增加了多少成本?)不要完全相信论文 。(a. 不要相信不公开源代码的论文; b. 不要相信公开源代码但数据预处理作假的论文; c. 即使能跑出作者宣称的分数,请考虑:模型是否能泛化到你的行业领域? 又增加了多少成本?)语料极其重要 。(a. 语料几乎可以把准确率提升到你期望的任何水准,只要数量质量足够; b. 目前通用语料几乎都是新闻,谁能标注出行业语料,谁就是大王; c. 深度学习时代,无标注的纯文本语料也大有用场;d. 软件工程2.0:用数据编程 。)程序员向,对编程感兴趣的可以了解一下一、数学基础:1.Up主:3Blue1Brown的数学基础:https://space.bilibili.com/88461692用动画讲述数学专业知识,其视频涵盖了线性代数、微积分、拓扑学等领域,每门课都配有直观生动的动画演示,帮助观众加深对数学概念定理的理解 。2.数学分析:https://www.bilibili.com/video/av8042121复旦陈纪修老师的数学分析视频课程,共214讲 。3.数学建模:www.bilibili.com/video/av8824879清华大学数学建模公开课,共84讲 。4.统计学:https://www.bilibili.com/video/av7199273可汗学院公开课,统计学所有内容都涵盖了 。共85讲 。二、C与C++篇1.《带你学C带你飞》(小甲鱼):https://www.bilibili.com/video/av277441412.《C++快速入门》(小甲鱼):https://www.bilibili.com/video/av28127959三、Python 入门&&全栈:1、[小甲鱼]零基础入门学习Python:https://www.bilibili.com/video/av4050443视频风格偏幽默,画面虽然有点偏儿童风格,不像那种扁平化的风格高大上,但配合老师幽默的教学风格倒也显得有点意思,不然播放量也不可能这么高 。2、Python编程 从入门到实践:https://www.bilibili.com/video/av35698354每天30分钟,特别适合毫无基础都同学 。应该不会太无聊,而且时间适中 。不容易打击积极性!目前共23节,还在持续更新中 。3.麻省理工公开课(计算机科学导论及Python编程):https://www.bilibili.com/video/av10497433英文字幕,名校课程 。建议英语水平过关的同学食用 。4.Python】这可能是你见过的最简洁最没有废话的Python教程:https://www.bilibili.com/video/av5236569简单直接,没有废话 。5.python全栈开发(入门到放弃):https://www.bilibili.com/video/av13690129内容丰富,包含 Python 领域方方面面,共 616 讲 。可以慢慢的看 。6.python数据结构与算法系列课程:https://www.bilibili.com/video/av21540971数据结构的Python语言实现课程,共44讲 。四、数据分析:1.Python 数据分析与展示(北京理工大学 ):https://www.bilibili.com/video/av10101509北京理工大学MOOC课程,共65讲 。2.Numpy & Pandas :https://www.bilibili.com/video/av16378934 莫烦 Python 数据处理教程,主要讲解Numpy、Pandas两个包的使用 。共18讲 。五、爬虫:1.Python网络爬虫与信息提取:https://www.bilibili.com/video/av9784617北京理工大学MOOC课程,共65讲 。2.Python 爬虫基础教程 :https://www.bilibili.com/video/av17920849 莫烦出品,内容短小精悍,共13讲 。六、可视化:1.Python数据可视化分析:https://www.bilibili.com/video/av6989413麦子学院的公开课,共31讲 。2.Matplotlib Python 画图教程:https://www.bilibili.com/video/av16378354莫烦Python的课程内容,共19讲 。七、机器学习篇:1.机器学习(Machine Learning)- 吴恩达(Andrew Ng):https://www.bilibili.com/video/av9912938机器学习四大天王称号的吴恩达博士亲自录制的机器学习视频课程,可以说是机器学习入门宝典 。2.李宏毅机器学习(2017):https://www.bilibili.com/video/av10590361大教授李宏毅制作的,经常被认为机器学习中文课程的首选,而且课程风格诙谐幽默,这就让枯燥的课程变的有趣许多 。而且最重要的是,课程中布置了很多作业,而万能的网友更是找出了作业答案,并将其公布在了留言区,可以说太良心了,简直是没钱报班学习者的福音 。3.机器学习算法-2017邹博最新:https://www.bilibili.com/video/av235850804.NLP自然语言理解-中科院(宗成庆):https://www.bilibili.com/video/av233341205.【深度学习】深度学习NLP(牛津大学 2017):https://www.bilibili.com/video/av9817911英文版,英语水平极佳方可食用!6.斯坦福2017季CS224n深度学习自然语言处理课程:https://www.bilibili.com/video/av13383754英文版,英语水平极佳方可食用!7.Python+opencv3.3视频教学:https://www.bilibili.com/video/av24998616基础入门适合新手,OpenCV入门佳品,共30讲 。非科班出身,自学撸出中文分词库HanLP,在GitHub标星1.5万,成为最受欢迎的自然语言处理项目 。他将学习经验总结成书《自然语言处理入门》,帮助小白快速入门NLP 。针对题主的提问,HanLP自然语言处理类库的开发者何晗的经验很值得借鉴 。截至 2019 年 11月初,HanLP项目在 GitHub Star 数达到了 15.6 K,超过了宾夕法尼亚大学的 NLTK、斯坦福大学的 CoreNLP 。贴上GitHub地址:https://github.com/hankcs/HanLP何晗在开发这款 NLP 工具包时,还是上海外国语大学一名日语专业的大二学生,HanLP项目脱胎他大学时接的一份兼职,何晗也因缘从一个非科班专业的小白逐步成长为NLP领域的专家 。如今,正在攻读CS博士的他(研究方向:句法分析、语义分析与问答系统),结合自己的学习历程和HanLP的开发经验创作出版了《自然语言处理入门》一书,得到了周明、刘群、王斌等业内顶级 NLP 专家的推荐 。从着手开发HanLP,到HanLP达到工业使用的水准,何晗对自学NLP有深刻的见解 。如果用一句话来总结,那就是:自顶而下,从工程去切入,由应用层往下面的基础层拓展,递归补充理论知识,才能事半功倍 。以下入门NLP的建议,皆来自于何晗的经验,分享给像题主这样的初学者,希望能对大家有所启发 。一、初学者,请避开自学NLP的常见误区有的初学者排斥基础理论——认为学校教的都是没用的,公司里都用不到;有的初学者对基础理论敬而远之——认为理论太高深了,自己基础不好,学了也白学;有的初学者,特别是已经工作的程序员,基本方向正确但学习路径错误,比较容易走极端:在工作很忙的情况下,只是抱着经典书籍苦啃,直到筋疲力尽项目也毫无进展,从而丧失了学习NLP的兴趣;或者,俗称调库小能手,跟风潮流,缺少理论基础,缺乏独立思考能力(比如,认为深度学习最牛,其他的基础理论都是垃圾;认为CNN/RNN/BERT会调参就行了) 。而实际上,自然语言处理是计算机科学、人工智能和语言学学科的交集,这三方面的学科知识都是需要储备的,基础理论的学习必不可少 。但很多初学者都是在工作之后才入坑NLP,既难以静下心来啃书啃课,又缺少很好的老师传授知识经验 。所以,有效可行的入门方式就是从工程切入,遵循这样的逻辑:延迟加载,只在使用的时候才去加载必要的资料:你首先看到的是一个摸得着的实际问题,为了解决该问题才去接触一个具体的方案;为了理解这个方案,才会引入必要的背景知识;为了实现这个方案,才会引入相关细节;为了克服这个方案的问题,才会过渡到新的方案 。二、想快速入门NLP,边学边做疗效好何晗入门NLP,读过的经典书有:《统计自然语言处理》(宗成庆 著)(对应语言学知识)、《统计学习方法》(李航 著)(对应人工智能知识),《挑战程序设计竞赛》(秋叶拓哉、盐田阳一、北川宜稔 著)(对应计算机算法知识) 。不过,在看经典书籍的过程中,他发现,学习自然语言处理并不需要完全把这几本书看透,最好是可以边看书边做项目 。这些书都是非常牛的好书,然而可惜的是,看完书中的章节,不知该如何应用其中的知识点,即使实现了文章中提到的模型,也很难直接将其运用于工程项目 。想必很多初学者都面临类似的学习困惑 。为了解决这个问题,何晗动手写了《自然语言处理入门》,目的就是希望学习者看完一章后,便可以将知识点直接用于项目,适合NLP初学者入门并快速布置到生产环境中 。成效快,痛苦小,疑问少 。何晗在《自然语言处理入门》一书中,以自己的HanLP开源项目为案例,代码对照公式讲解每一个算法每一个模型,让入门者带着工程思维理解NLP的知识要点,试图在目前市面上艰深晦涩的教科书和简单的入门书之间作出平衡 。《自然语言处理入门》带领学习者从基本概念入手 。逐步介绍中文分词、词性标注、命名实体识别、信息抽取、文本聚类、文本分类、句法分析这几个热门问题的算法原理和工程实现 。通过对多种算法的讲解和实现,比较各自的优缺点和适用场景 。这些实现并非教学专用,而是生产级别的成熟代码,可以直接用于实际项目 。在理解这些热门问题的算法后,这本书会引导学习者根据自己的项目需求拓展新功能,最终达到理论和实践上的同步入门 。何晗认为,NLP的学习路径,应该尊重一般人的认知规律,而不是学术上的纲目顺序,以此为宗旨来编排图书的内容 。因此,面向普通程序员,这本书内容分为以下三大部分:第一部分介绍一些字符串算法,让普通程序员从算法的角度思考中文信息处理 。第二部分由易到难地讲解一些常用的机器学习模型,让算法工程师晋级为机器学习工程师 。由中文分词贯穿始终,构成一种探索式的递进学习 。这些模型也并非局限于中文分词,会在第三部分应用到更多的自然语言处理问题上去 。第三部分新增了许多与文本处理紧密相关的算法,让机器学习工程师进化到自然语言处理工程师 。特别地,最后一章介绍了当前流行的深度学习方法,起到扩展视野、承上启下的作用 。学习者可根据自身情况,灵活跳过部分章节 。何晗在自学过程中走过不少弯路,深知数学语言的艰深晦涩,并且痛恨罗列公式故作高深的文章,所以他在书中只保留了必不可少的公式和推导,并且公式与代码相互印证 。配套代码由Java和Python双语言写成,与GitHub上最新代码同步更新,所以你只要具备基本的编程经验,就可以跟随书本零起点入门 。此外,何晗还总结出一份最为详尽的NLP+ML“双生树”思维导图,导图中的关联知识点不仅涵盖NLP领域的核心知识,甚至涉及许多前沿研究和应用,印刷尺寸宽60cm,高74cm,随书附赠供学习者参考 。三、进阶NLP的学习资料和工具推荐推荐读这些经典书籍:多读论文,推荐用Google Scholar和Papers检索:克服语言障碍,推荐用欧路词典:追踪前沿动态,推荐NLP-progress,在各项NLP任务上的排行榜网址:https://nlpprogress.com/一个中肯的建议:NLP没有通用的解法,算法不够,语料来补算法不是万能的 。(想想:一两个百分点对实际业务有多少帮助,又增加了多少成本?)不要完全相信论文 。(a. 不要相信不公开源代码的论文; b. 不要相信公开源代码但数据预处理作假的论文; c. 即使能跑出作者宣称的分数,请考虑:模型是否能泛化到你的行业领域? 又增加了多少成本?)语料极其重要 。(a. 语料几乎可以把准确率提升到你期望的任何水准,只要数量质量足够; b. 目前通用语料几乎都是新闻,谁能标注出行业语料,谁就是大王; c. 深度学习时代,无标注的纯文本语料也大有用场;d. 软件工程2.0:用数据编程 。)5,中国京剧中的第一个女老演员是谁 恩晓峰(1887-1949年),。这位清末敢于反抗封建礼教、骇世惊俗的叛逆小姐,红遍京、津、沪,并灌有汪派戏唱片留世 。恩晓峰(1887-1949年),满族正黄旗人,生于北京 。幼年时常随其父出入清音票房听唱 。15岁时即常以“小客串”名义于戏园演唱 。曾向陈彦衡、窦砚峰问艺,请吴联奎练功,技艺与日俱增 。她台风大雅技艺不凡,且多才多艺 。除本工老生外,亦能武生戏《骆马湖》、净角戏《盗御马》及丑角戏《十八扯》等 。恩晓峰是京剧第一女老生演员,京剧真正第一位女性演员应该是雪艳琴,她与老生杨宝忠、武生周瑞安共组“成庆社”,一改男女不同台,不同班的旧制,从此标新立异,开创男女演员合演班的第一家,1932年26岁与已享誉盛名的谭富英分饰铁镜公主、杨四郎,拍摄京剧史上第一部有声、实景影片《四郎探母》 。新中国成立后,参加中国京剧院 。不仅主演传统戏,且在首部现代戏《白毛女》中,成功地饰演黄母一角,影响广泛 。1959年后,专职为中国戏曲学院教授 。高人6,宗成庆的人物简介宗成庆博士于1999年和2001年两次在日本国际电气通信基础技术研究所(ATR)做客座研究员,2004年在法国格勒诺布尔(Grenoble)信息与应用数学研究院(IMAG)机器翻译研究组(GETA)做短期高访 。近几年来,他主要从事自然语言处理理论与方法、口语自动翻译、人机对话技术等方面的研究,目前担任亚洲自然语言处理联合会(AFNLP)执行理事、清华大学讲座教授、中国人工智能学会理事及自然语言处理专业委员会副主任、中国中文信息学会理事 及机器翻译专业委员会副主任和若干国际、国内会议的程序委员会主席、程序委员会委员等多种学术职务 。作为项目负责人承担国家自然科学基金项目、国家“863”项目、国家重大基础研究项目(973)子课题和国际合作研究项目等10余项,近几年来,在国内外重要学术刊物和会议上发表学术论文60余篇,申请国家发明专利多项 。7,机器学习算法怎么使用中文语料 这个事情很简单首先得有词汇特征 就是一组词语的集合比如特征集可以是[这,个,事情,简单,机器,学习,中文,语料]有了这个以后就可以表示句子了例如:“这个事情很简单”[1, 1, 1, 1, 0, 0, 0, 0]"机器学习算法怎么使用中文语料"[0, 0, 0, 0, 1, 1, 1, 1]看出啥意思了吧,对于一个句子,特征词出现的位置就标1,不出现就标0 。所以句子就成了向量,用欧氏距离、余弦夹角等等方法就可以计算两个向量的相似度,那就对应句子的相似度了 。这里面特征词选择方法有很多,常见的有TF、DF、TF-IDF等等,也可以人为指定 。向量里面表的数值也有很多算法,0、1是比较适合情感倾向分析的标法 。PMI指的是点互信息PMI(a, b)=p(a,b)/(p(a)p(b))假设有一个句子集合,总量为N出现a次数为A,出现b次数为Ba和b同时出现在同一句话中的次数为C则有p(a)=A/N,p(b)=B/N,p(a,b)=C/N带入到公式里就算出PMI了 。计算PMI时,A、B、C、N的统计方法有很多策略,根据实际情况定 。相关资料你可以看一下《统计自然语言处理》 宗成庆 写的 。若想了解更牛逼的办法的话 先把统计分析、实分析、泛函分析、变分分析、随机过程、矩阵论、向量空间论、模糊数学、图论、代数图论、数学分析、统计机器学习、模式识别、神经网络、贝叶斯网络、自然语言处理、社会网络这些都学好,就可以独步江湖 称霸机器学习领域了~~哈哈~~我是来看评论的8,中国传统的门神画像原形是唐代的哪两位大将 毋庸置疑,秦叔宝和尉迟敬德秦琼和尉迟恭尉迟恭秦琼(就是秦叔宝)每逢除夕,张贴年画,也是我国古来的民俗之一 。年画来源于贴门神 。据东汉蔡邕所著《独断》记载,我国最早的年画题材是门神,画的是神话传说中的人物神茶、郁垒 。还有的画古勇士成庆的像于殿门,画虎于门 。宗懔在《荆楚岁时记》中说:“正月一日暮途穷,绘二神帖户左右,左神茶,右郁垒,俗谓之门神 。”古代的地理著作《山海经》也有大致相同的记载 。到了唐代,又有了以秦叔宝即秦琼、尉迟恭即敬德和钟馗形象作为门神的年画,大都画在桃木板上,挂于门墙,用意是消灾纳神,镇妖避祸 。明吴承恩在《西游记》里讲述了这样一个故事:有一次,唐太宗生了病,夜以继日做梦听见鬼叫,无法安寝 。第二天告诉群臣后,大将秦叔宝和尉迟恭就全副披挂,仗剑执锏,在宫门把守了一通宵 。这一夜,唐太宗睡得很好,没有梦见鬼 。唐太宗为了以后睡觉都能安宁,但又不忍心叫两位老将夜夜守在宫门侍立,就命画师画了秦叔宝和尉迟恭两人的像,悬挂在宫门两边,久而久之,上行下效,两人就成了门神 。到了宋代,随着木板雕刻技术的发展,逐步演化成了木板年画,并分为着色套色两种,现存最早的木刻年画是宋版的《随朝窈窕呈倾国之芳容》,画着王昭君、赵飞燕、班姬、绿珠,习称《四美图》 。明末清初,出现了三大民间木刻年画,天津的杨柳青、苏州的桃花坞和山东省东潍县的年画,均有三百多年的历史,在我国版画史上享有重要地位,曾先后传入日本和英、德等国 。始于南宋的福建年画,畅销南洋,深受欢迎.传统的年画多为木刻水印,线条单纯,色彩鲜明,画面热闹,题材多以五谷丰登、春牛、婴儿、风景、花鸟等为内容,后来,上海郑曼陀把月历和年画合二而一,制成月历牌年画和挂历年画,至今风靡全国 。9,机器学习算法中调参是什么 是指类似于learning rate的参数,还是指theta?如果是后者用梯度下降法等就可以调参,如果是前者麻烦一点,需要判断一下,也可以可变参数,如果该参数工作效果没有再高过以前的精准度并且过10次(也可以是其它次数),那么就判断该learning rate为最好的 。这个事情很简单 首先得有词汇特征 就是一组词语的集合 比如特征集可以是 [这,个,事情,简单,机器,学习,中文,语料] 有了这个以后就可以表示句子了 例如: “这个事情很简单” [1, 1, 1, 1, 0, 0, 0, 0] "机器学习算法怎么使用中文语料" [0, 0, 0, 0, 1, 1, 1, 1] 看出啥意思了吧,对于一个句子,特征词出现的位置就标1,不出现就标0 。所以句子就成了向量,用欧氏距离、余弦夹角等等方法就可以计算两个向量的相似度,那就对应句子的相似度了 。这里面特征词选择方法有很多,常见的有tf、df、tf-idf等等,也可以人为指定 。向量里面表的数值也有很多算法,0、1是比较适合情感倾向分析的标法 。pmi指的是点互信息 pmi(a, b)=p(a,b)/(p(a)p(b)) 假设有一个句子集合,总量为n 出现a次数为a,出现b次数为b a和b同时出现在同一句话中的次数为c 则有p(a)=a/n,p(b)=b/n,p(a,b)=c/n 带入到公式里就算出pmi了 。计算pmi时,a、b、c、n的统计方法有很多策略,根据实际情况定 。相关资料你可以看一下《统计自然语言处理》 宗成庆 写的 。若想了解更牛逼的办法的话 先把统计分析、实分析、泛函分析、变分分析、随机过程、矩阵论、向量空间论、模糊数学、图论、代数图论、数学分析、统计机器学习、模式识别、神经网络、贝叶斯网络、自然语言处理、社会网络这些都学好,就可以独步江湖 称霸机器学习领域了~~哈哈~~10,门神是哪两位在道教神仙体系中,最早的门神是传说中能捉鬼的神荼、郁垒 。另外,古代一个叫做成庆的勇士也曾经是门神,还被记载在史书中 。到了唐代,门神的位置便被秦琼(字叔宝)和尉迟恭(字敬德)所取代,这两位门神是历史上赫赫有名的一代名将,也是流传最广、影响最大的武将门神 。门神,是道教和民间信仰中每个家庭中司门守卫之神,人们将其神像贴于门上,用以驱邪避鬼、卫家宅、保平安、助功利、降吉祥等,是中国民间深受人们欢迎的守护神 。按照传统习俗,每到春节前夕,家家户户便忙碌起来贴对联和门神,以祈福来年家庭和睦、事业亨达 。在历史上,门神一直都是正气和武力的象征,古人认为,相貌出奇的人往往具有神奇的禀性和不凡本领 。他们心地正直善良,捉鬼擒魔是他们的天性和责任,例如人们所仰慕的捉鬼天师钟馗,即是此种形象 。因此,门神的形象也是怒目圆睁,相貌威猛,手里拿着各种兵器,仿佛随时准备同敢于上门来的鬼魅战斗一般 。在道教神仙体系中,最早的门神是传说中能捉鬼的神荼、郁垒 。相传在上古时,有神荼、郁垒俩兄弟,他们住在东海度朔山上,山上有一棵桃树,树荫如盖 。每天早上,他们便在这树下检阅百鬼,如果有恶鬼为害人间,便将其绑了喂老虎 。后来,人们便用两块桃木板画上神荼、郁垒的画像,挂在门的两边用来驱鬼避邪 。除了神荼、郁垒外,古代一个叫做成庆的勇士也曾经是门神,还被记载在史书中,在班固《汉书·广川王传》中记载:广川王(去疾)的殿门上曾画有古勇士成庆的画像,短衣大裤长剑 。到了唐代,门神的位置便被秦琼(字叔宝)和尉迟恭(字敬德)所取代,这两位门神可是历史上赫赫有名的一代名将,也是流传最广、影响最大的武将门神 。相传,唐太宗生病,听见门外鬼魅呼号,彻夜不得安宁 。于是他让这两位将军手持武器立于门旁镇守,第二天夜里就再也没有鬼魅搔扰了 。其后,唐太宗让人把这两位将军的形象画下来贴在门上,果然夜里也同样安宁,从此,这一习俗开始在民间广为流传 。按照传统习俗,每到春节前夕,善信便会到宫观恭请新年之门神,祈福来年,并在除夕上午择吉时张贴于大门上(朝外一侧),以保来年门户清净,家宅平安,护佑和守卫善信度过吉祥福瑞的一年 。如今,随着社会的发展和意识形态的变化,尽管人们仍延续着“贴门神”的习俗,但与古时相比,其意义更进一步,除了贴门神的传统含义外,更表达的是一种对平安、和谐社会的向往与追求 。11,中国年画的两个门神是谁 神仙本是人创造,在不同的时期、地哉也不一样,最早记载的是汉时的“神茶(shentu)”、“郁垒(yulv)” 。到唐代,便产生了秦琼、敬德 。有些地方也有关羽、关胜,岳飞、岳云等 。另外,门神总共分四类,以上是人们熟悉的武门神,贴在外门上,还有贴在内门上的文门神(文官形象)、儿童门画、祥禽瑞兽等,讲究太多 。叔宝 尉迟恭 传说:昔为唐朝将;今作镇宅神 。起源 门神源於远古时期的庶物崇拜,殷代天子祭五祀,门既为其一,周代祭五祀於宫“门”—每日每时必经之处,自然加以重视,祭祀,对於门神以形像化及人格化 。汉有三位,一位是成庆,另二位是神茶及郁垒 。神茶 郁垒 神荼与郁垒则为专捉小鬼,降伏邪魔之鬼王 。他们专门担任防卫家门、驱赶邪魔的任务 。唐有三位,二位是秦叔宝和尉迟恭,另一位是钟馗 。唐朝门神的故事: 1.秦叔宝和尉迟恭 相传俓河龙王因为差了行雨的时辰和下雨的雨量,而犯了天条,知悉将被 唐太宗的宰相魏徵所斩,於是向太宗求救 。太宗乃计请魏徵前来下棋,以耽误监斩时辰,不料到了午时三刻,魏徵就在棋桌上睡著了,唐太宗以为如此龙王就可免於被斩,岂知魏徵就在梦中斩了俓河龙王的头 。从此,龙王就天天来向太 宗索命,只要太宗想要就寝,门外就有鬼魅哭号,吵的太宗无法入睡 。次日太宗告诉群臣,秦叔宝建议:"愿与尉迟敬德戎装立门外以伺 。於是太宗才能一夜好眠,而太宗也怜惜两位将士的辛劳,命画工将两为将军的画像绘於宫门,以镇压鬼魅 。2.钟馗则因生前宦场失意,无罪受屈,死后追封驱魔大神,民间将他供为后门神 。秦叔宝 尉迟恭 钟馗 宋元之后,民间的门神更是变化,多得不可胜数 。其中较为流传有秦叔宝和尉迟恭、温礄、岳飞、赵云、孙矉、庞涓等古代忠臣名将为代表 。武将战绩显赫,更能镇鬼驱邪,无法越过门栏,家户更加安全 。近年来,门神已由驱邪到招福,招财进宝,百子百孙,门神成为新年装饰 。习俗: 秦叔宝与尉迟恭门神: 唐代名将秦叔宝与尉迟恭二位将军 。粉面红润,凤眼蒜鼻而唇厚顺髯,腰佩宝剑与弓的是秦叔宝将军 。面色如焦,浓眉瞪眼,且一脸腮胡,腰佩宝剑与箭的是尉迟恭将军 。二人采双足八卦步的立姿,双手上下护胸,并执长柄钺兵器 。老少太监门神: 门神为老少太监,分辨老少太监的方法主要是从面貌的不同来区分:年长的太监脸上刻画出岁月的刻痕,年青的太监则面色圆润 。在服饰方面,由上而下依序为圆「领衫」、「束玉带」、「蟒袍」,而脚穿的是「笏头履」 。所执的侍器,两人亦有不同:年长的太监右手捧香炉,左手持拂尘;年轻的太监右手扶玉带,左手捧著瓶花 。民间俗称二人所捧之侍器为「香、花」 。宫娥门神: 两位宫娥头上均作束发,且打双髻,髻下束有牡丹卷草花纹的「簪戴」,且耳下有垂珠的「耳坠」 。在服饰方面,身披「披帛」飘带,给人有一种轻盈的感觉;身穿「直领袄」,上有菱形花纹;衣著大袍,腹有「围腰」加「束」,「束」下悬有「宫条」和玉佩流苏 。在所执侍器方面,左侧的宫女左手捧桃果,右手执玉如意;右侧的宫女右手捧高足的灯具,左手亦执玉如意 。二位宫娥和老少太监所捧的侍器加起来,正好是民间喜用的四祥器:香、花、灯、果 。哼哈二将门神: 左边门的门神伸出一指,嘴巴微张,像是在大声喝道:「哈」 。右门的门神则是翘起两指,彷佛发出「哼」的一声 。他们就是著名的守护神「哼哈二将」 。加官进禄门神: 门神一人持「冠」,一人捧「鹿」,「冠」与「官」谐音,「鹿」与「禄」谐音,组合起来便有了「加官进禄」的意思 。富贵进爵门神: 门神则一人捧「牡丹」,一人捧「爵」,「牡丹」比喻富贵,「爵」比喻「官爵」,结合起来,便有「富贵晋爵」的意思了 。字匾门神: 演变成只有字匾,通常穷人家用字匾门神 。尉迟恭和秦琼尉迟恭和秦琼 西游记上有

推荐阅读