NLP笔试面试题_取转移概率大于某给定阈值的单词为纠错建议

作者：知新_RL | 2024-08-11 23:49:19

踩

取转移概率大于某给定阈值的单词为纠错建议

一、简答题

1、C++中堆内存和栈内存有什么区别？

2、写出C++中构造函数？

3、实现python读取某个文件夹及其子文件夹的路径。

4、Python的垃圾回收机制。

5、已知先序与中序遍历，求后序遍历。

6、贝叶斯公式，并简要说明。

7、平滑策略是什么？举例两种平滑方法。

8、如何评测机器翻译的质量。

9、过拟合是什么？有什么避免办法。

10、CNN的梯度消失是什么？

二、编程

1、实现快速排序算法，输入待排序数组，输出排序完成的数组。

2、从100万行样本中随机抽取10万行，要求只能遍历一次样本。

三、实现一个机器翻译的API，说明输入接口和输出接口，实现分词过程，如果有字典的话其数据结构是什么，如何实现高性能并发思想完成。

四、其他

1 请列出几种文本特征提取算法

答：文档频率、信息增益、互信息、X^2统计、TF-IDF

2 简述几种自然语言处理开源工具包

答：LingPipe、FudanNLP、OpenNLP、CRF++、Standord CoreNLP、IKAnalyzer

3 简述无监督和有监督算法的区别

答：（1）有监督学习：对具有概念标记（分类）的训练样本进行学习，以尽可能对训练样本集外的数据进行标记（分类）预测。这里，所有的标记（分类）是已知的。因此，训练样本的岐义性低。

无监督学习：对没有概念标记（分类）的训练样本进行学习，以发现训练样本集中的结构性知识。这里，所有的标记（分类）是未知的。因此，训练样本的岐义性高。聚类就是典型的无监督学习

（2）有监督学习的样本全部带标记，无监督学习的样本全部不带标记。

PS:部分带标记的是半监督学习

（3）训练集有输入有输出是有监督，包括所有的回归算法分类算法，比如线性回归、决策树、神经网络、KNN、SVM等；训练集只有输入没有输出是无监督，包括所有的聚类算法，比如k-means 、PCA、 GMM等

4 请简述几种熟悉的分类算法

答：kNN，决策树，随机森林等

5、实现输入纠错的方法

1）误拼词字典法。

1）N-gram法。基于n元文法，通过对大规模英文文本的统计得到单词与单词问的转移概率矩阵。当检测到某英文单词不在词典中时。查转移概率矩阵，取转移概率大于某给定阈值的单词为纠错建议。

2）最小编辑距离法。通过计算误拼字符串与词典中某个词间的最小编辑距离来确定纠错候选词。所谓最小编辑距离是指将一个词串转换为另一个词串所需的最少的编辑操作次数。在编辑操作中，可以将单次的编辑动作归纳为三种：插入字符、删除字符和替换字符；

声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop】