当前位置:   article > 正文

NLP - 依存句法分析、句子歧义_句读 nlp

句读 nlp

1. 语言结构的两种观点

  1. Constituency = phrase struct grammar = context-free grammars(CFGs)
  2. Dependency structure

对于context-free grammars(CFGs)

短语结构(Constituency):短语结构语法是一种描述语言结构的方法,它将句子划分为短语(phrase)的组合。根据短语结构语法的观点,句子由短语构成,而这些短语又由更小的短语或单词组成。

  • w o r d s − > p h r a s e s − > b i g g e r p h r a s e s words -> phrases -> bigger phrases words>phrases>biggerphrases

上下文无关文法(CFGs)上下文无关文法是一种形式化的语法模型,用于描述一类语言的结构(嵌套短语)。它基于一组规则,其中每个规则指定了一个非终结符(可以被进一步展开的符号)如何被替换为终结符(不可再展开的符号)或其他非终结符。

  • 举例: 举例: 举例:
    E x p r − > E x p r + E x p r Expr -> Expr + Expr Expr>Expr+Expr
    E x p r − > E x p r ∗ E x p r Expr -> Expr * Expr Expr>ExprExpr
    E x p r − > ( E x p r ) Expr -> (Expr) Expr>(Expr)
    E x p r − > n u m Expr -> num Expr>num

在这里插入图片描述
在这里插入图片描述

Det 指的是 Determiner, 在语言学中的含义为 限定词
P 指的是 Preposition,在语言学中的含义为 介词

NP 指的是 Noun Phrase, 在语言学中的含义为 名词短语
VP 指的是 Verb Phrase, 在语言学中的含义为 动词短语
PP 指的是 Prepositional Phrase, 在语言学中的含义为 介词短语

举例:

在这里插入图片描述

总结:

在自然语言中,将句子处理为constituency grammar,constituency grammar的标准形式是context-free grammars。还有其他的方法,比如说tree adjoining grammars等。
但是在计算机语言中,另一种dependency structure看待方式最常见。

对于Dependency structure

依存结构(Dependency Structure) 是一种描述语言结构的语法表示方法,它关注词与词之间的依存关系
它不是使用各种类型的短语,而是直接通过单词与其他的单词关系表示句子的结构,显示哪些单词依赖于(修饰或是其参数)哪些其他单词。
在这里插入图片描述

look 是整个句子的根,look 依赖于 crate (或者说 crate 是 look 的依赖)
o in, the, large 都是 crate 的依赖
o in the kitchen 是 crate 的修饰
o in, the 都是 kitchen 的依赖
o by the door 是 crate 的依赖

为什么我们需要句子结构?

为了能够正确的解释语言。因为一个句子常常出现一下错误:

介词短语依附歧义

在这里插入图片描述

San Jose cops kill man with knife

  • 警察用刀杀了那个男子
    • cops 是 kill 的 subject (subject 指 主语)
      man 是 kill 的 object (object 指 宾语)
      knife 是 kill 的 modifier (modifier 指 修饰符)
  • 警察杀了那个有刀的男子
    • knife 是 man 的 modifier (名词修饰符,简称为 nmod)

中文一般不会出现这种问题,因为中文的介词短语通常位于动词的前面。

在这里插入图片描述

board 是 approved 的 主语,acquisition 是 approved 的谓语

上述句子中有四个介词短语
by Royal Trustco Ltd. 是修饰 acquisition 的,即董事会批准了这家公司的收购
of Toronto 可以修饰 approved, acquisition, Royal Trustco Ltd. 之一,经过分析可以得知是修饰 Royal Trustco Ltd. 即表示这家公司的位置
for $27 a share 修饰 acquisition
at its monthly meeting 修饰 approved , 即表示批准的时间地点
面对这样复杂的句子结构,我们需要考虑指数级的可能结构,这个序列被称为 Catalan numbers

Catalan numbers : C n = ( 2 n ) ! / [ ( n + 1 ) ! n ! ] :C_n=(2n)!/[(n+1)!n!] :Cn=(2n)!/[(n+1)!n!]

协调范围模糊

在这里插入图片描述

形容词修饰语歧义

在这里插入图片描述

例句:Students get first hand job experience

  • first hand 表示 第一手的,直接的,即学生获得了直接的工作经验
    - first 是 hand 的形容词修饰语(amod)
  • first 修饰 experience, hand 修饰 job
    声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/酷酷是懒虫/article/detail/884767
推荐阅读
相关标签