赞
踩
作者 | 西山红叶
来源| 红叶看世界 (ID:westM_redL)
转载请联系授权(微信ID: shenjiaweigogogo)
在过去的一年面试了许多NLP相关的技术人员,但是很多人被我内心会称为知乎型面试者,他们对知识的汲取通常以他人的总结来做为知识的全貌,这样的现象在互联网中比比皆是,这也正是说明现在网络知识获取的便捷性。
希望以下内容给大家带来一些NLP的必备技能,在日后的过程中能为读者提供帮助,写完后发现NLP远远不止十大必备知识库,知识图谱和问答系统两个大头都没说。不过下面这些知识也够大家学段时间了。
文章最后会共享一个百度网盘链接给大家,提供一些资源下载地址,希望大家多多支持
一、文本匹配算法:
(1) 无监督:cosine,jaccard,eueclidean,rouge,bleu,meteor , bm25
(2) 有监督:DSSM,Siamese Network (主要区分同构和异构网络)
这几个算法在思想上和应用上都很多区别,比方jaccard适合做短文本,cosine适合做长文本,bm25则适合长短文本匹配是搜索经典匹配方法,siamese network适合做同类文本,dssm适合做非同类文本,rouge/bleu/meteor适合做评价指标,。
不过还有很多有意思的衍生,比方cosine到softcosine,jaccard到log-jaccard(textrank中文本相似度算法的计算方式),DSSM,Siamese Network 更是有无数种变化。
在面试中很多同学连BLEU都没听说过,真的会让面试官的印象分大打折扣。
二、NLP常用基础包:
(1) 中文分词工具:jieba
(2) 混合学习包:sklearn
(3) NLP专用包:genism,nltk,spacy,pattern
基础包其实远远不止这些,这里只是罗列下大家最应该去熟悉的,NLTK看上去很简单,但是里面语法树的解析和短语的抽取都是非常值得研究的。尤其刚入门的同学,如果能灵活运用,马上就能达到非常高的baseline。
三、深度学习和图算法框架:
(1)基础框架:Pytorch,tensorflow,Keras,
(2)图框架:Networkx,DGL,PyTorch Geometirc (PyG)
个人建议,pytorch得熟练使用,其框架优势用一句话概括就是:两年超越了tensorflow 10年成绩。DGL还算不错的框架对化学分子方向支持力度特别高,PyG比较全面。
四、NLP图论算法:
(1) 经典图:HMM,CRF
(2) 怀疑人生图:GNN
HMM,CRF一般是NLP的必问题目,但是个人感觉其价值在于思想,理解HMM的来源和CRF的优势,更具有价值。
至于GNN网上资源很多推荐一个csdn,https://www.cnblogs.com/nxf-rabbit75/p/11306198.html#auto_id_16,一般人难以看懂,不必短时间能纠结,在知识积累后,每周反复去思考一小时左右足矣。
五、吹牛利器,工作神器:
(1) 通用尖端模型:ALBERT
(2) 哈佛NLP顶尖利器:OpenNMT
(3) NLP检索之王:Elasticsearch
(4) NLP演示:AllenNLP
在工作中不要试图去创造算法,大多数时候能合理的运用好尖端技术已不是一件容易的事了,在运用好的同时,去理解这些算法原理和思想足够你在工作中吹牛了,先用指标去碾压,再用思想去修饰。
为什么要提到Elasticsearch,在NLP中最常用的绝对就是搜索,在海量数据下,搜索一直是第一优先级,理解这个搜索引擎会让你对NLP有不一样的境界。
接下来的可能会让你崩溃,真的太难了
六、表示学习:
(1) 词向量表示:Fasttext
(2) 图表示:Graph Embedding System,GAN,GCN
(3) 网络结构表示:Struc2vec
(4) 句级别表示:SELF-ATTENTIVE SENTENCE EMBEDDING,ALBERT
这些算法和知识都适合慢慢读,反复看,半年下来基本也就都懂了,当然不只是懂得其表面意思,git上这些论文的代码都有,如果你真的喜欢算法,有空都可以去拉下来跑一跑。读读源码会让你在思想上升华。
七、高端操作-文本生成:
(1)完形填空:MaskGAN
(2)数据到文本:Data-to-Text
这两个技术看上去其实都很简单,但实际都不容易,MaskGAN是对MLM的升华,让预选训练更加有趣和强大。
Data-to-Text也是很有意思的方法,可以去看下很多互联网电商自动化短评,都是从商品属性和关联信息中提取信息做到对商品的自动化描述。
八、难以运用的尖端-文本摘要:
(1)最佳:Levenshtein Transformer,LDC,Classical Structured Prediction
(2)经典:PGN
Point-genertion-network是文本生成的经典,但是出来比较早,没有经历transformer的洗礼,最佳中的三个模型都是2019年新出来的,在文本生成上都是有非常高的评价,github几乎霸榜,无论工作中用不用的到,都值得一学。
九、NLP优质论文获取地址:
ACL,http://www.aclcargo.com/
EMNLP:https://www.aclweb.org/portal/content/emnlp-2018
NAACL:https://naacl2019.org/
ARXIV,https://arxiv.org/
十、经典视频和学习资料:
https://www.coursera.org/
http://cs229.stanford.edu/
http://www.deeplearningbook.org/
https://www.deeplearning.ai/
http://web.stanford.edu/class/cs224n/
http://academictorrents.com/details/d2c8f8f1651740520b7dfab23438d89bc8c0c0ab
https://github.com/mhagiwara/100-nlp-papers
百度共享盘地址:
https://pan.baidu.com/s/1SVr1bXCsjYRcMDSzkWu-2g
5u9s
END
若链接取消,请在下方作者公众号回复“nlp”获取。
- 往期精彩回顾
-
-
-
-
- 适合初学者入门人工智能的路线及资料下载机器学习在线手册深度学习在线手册AI基础下载(pdf更新到25集)本站qq群1003271085,加入微信群请回复“加群”获取一折本站知识星球优惠券,复制链接直接打开:https://t.zsxq.com/yFQV7am喜欢文章,点个在看
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。