首先呢,我们认为语言知识中有下面三条规则:
SP -> NP VP,
NP -> N,
VP -> V N.
其中,SP指句子,NP指名词短语,VP指动词短语,N指名词,V指动词。上面三条规则表示的意义就是:一个名词短语加一个动词短语可以构成一个句子,一个名词构成一个名词短语,而一个动词加一个名词可以构成一个动词短语。
说了理性主义的规则方法,我们再来说说经验主义的统计方法。所谓经验主义方法,首先就是得有经验,然后你才能有方法。因此在NLP中,这种研究方法在很大程度上依赖于语料库,而语料库也就是语言使用的经验。在分析或者生成新句子的时候,也是根据这些已有的材料来进行。只说理论等于没说,我们还是来看例子。
就说我们经常使用的拼音输入法吧。它所依赖的技术其实就是经验主义的统计方法。比如,我们还是输入拼音串儿“yishishiweiyiju”。
首先呢,根据现代汉语的拼音规则,可以将这个串儿分为“yi shi shi wei yi ju”这六个音节,其中每一个音节对应一个汉字(对于xian这种的特例,也就是多一种可能性,这里不再多说了)。