这种简单的词干通常是需要的,但是词义化(实际上是查看字典中描述的词及其词根(称为lemma))(只要词存在于字典中)更为精确 。由于spaCy包含了将单词分解为引理的内置方法,因此我们可以简单地将其用于引理 。在以下非常简单的示例中,我们将使用它.lemma_为要分析的每个单词产生引理 。词性(POS)标记单词的词性定义了它在句子中的功能 。
例如,名词标识一个对象 。形容词描述一个对象 。动词描述动作 。在句子的上下文中识别和标记每个单词的语音部分称为词性标记或POS标记 。让我们尝试使用POS标记spaCy!我们需要导入其en_core_web_sm模型,因为其中包含进行此分析所需的字典和语法信息 。然后,我们需要做的就是将这个模型加载.load()并遍历我们的新docs变量,使用确定每个单词的词性.pos_ 。
(注意?中u"All is well that ends well."表示该字符串是Unicode字符串 。)spaCy已正确识别出该句子中每个单词的词性 。能够识别词性在各种与NLP相关的上下文中很有用,因为它有助于更准确地理解输入句子并更准确地构建输出响应 。实体检测实体检测,也称为实体识别,是语言处理的一种更高级形式,它可以识别文本输入字符串中的重要元素,例如位置,人物,组织和语言 。
这对于快速从文本中提取信息非常有帮助,因为您可以快速挑选出重要的主题或确定文本的关键部分 。我们将为.label文本中检测到的每个实体获取一个标签,然后使用spaCy的displaCy显示工具以更直观的格式查看这些实体 。使用这种技术,我们可以识别文本中的各种实体 。该spaCy文档提供了受支持的实体类型的完整列表,从上面的简短示例中我们可以看出,它能够识别各种不同的实体类型,包括特定位置(GPE),与日期相关的单词(DATE),重要数字(CARDINAL),特定个人(PERSON)等 。
使用displaCy我们还可以可视化我们的输入文本,每个标识的实体都用颜色突出显示并标记 。我们将style = "ent"用来告诉displaCy我们要在此处可视化实体 。依赖解析独立性分析是一种语言处理技术,它使我们可以通过分析句子的构造来确定各个单词之间的相互关系,从而更好地确定句子的含义 。
例如,考虑句子“比尔掷球” 。我们有两个名词(比尔和球)和一个动词(掷) 。但是我们不能只单独看这些话,否则我们可能最终以为球在扔比尔!为了正确理解句子,我们需要查看单词顺序和句子结构,而不仅仅是单词及其词性 。这样做非常复杂,但值得庆幸的是,spaCy它将为我们完成工作!在下面,让我们spaCy从新闻头条中再加上一句话 。
然后,我们将使用另一个spaCy名为的noun_chunks,它将输入分解为名词和描述它们的单词,并遍历源文本中的每个块,从而识别单词,其词根,其依赖项标识以及它属于哪个块 。该输出可能有点难以理解,但是由于我们已经导入了displaCy可视化工具,因此我们可以使用它来查看依赖关系图,其中使用style = "dep"起来更容易理解:当然,我们还可以查看有关依赖关系解析spaCy的文档,以更好地了解根据解释每个句子的方式可能应用于文本的不同标签 。
词向量表示当我们单看单词时,机器很难理解人类会立即理解的联系 。例如,引擎和汽车似乎有一个明显的连接(汽车使用引擎运行),但是这种连接对计算机而言并不那么明显 。值得庆幸的是,有一种方法可以表示可以捕获更多此类连接的单词 。甲字矢量是commuicates其换句话说关系的词的数字表示 。每个单词都被解释为唯一且冗长的数字数组 。
您可以将这些数字视为GPS坐标之类的东西 。GPS坐标由两个数字(纬度和经度)组成,如果我们看到两组GPS坐标在数字上彼此接近(如43--70和44--70),我们会知道这两个位置相对紧靠在一起 。词矢量与此类似,虽然有很多分配给每个单词超过两个坐标,所以他们对人类眼球更难 。使用spaCy的en_core_web_sm模型,让我们看一个单词的向量长度,以及使用.vector和看起来的向量.shape 。
推荐阅读
- 三十六计详解是什么游戏,《三十六计》技能优化
- 网络交换机连接图,张图详解交换机
- 洪门崛起什么是觉醒,剑灵洪门崛起人魂合一技能提升详解
- 仙域给力金元宝怎么获得,同心共济《永恒仙域》仙盟系统详解
- 攻城掠地今天维修什么时候,武神赵子龙攻城掠地玩法详解
- 一文了解青山控股,青山实业
- 龙皇带什么传说装备,传说套对比详解
- 传奇魔龙爆什么,热血传奇魔龙城物资玩法详解
- 一文看懂深度学习,深度学习算法
- 详解以及2038问题的解决方案,2038年