当前位置:   article > 正文

NLP之Sentiment:文本情感分析/情感分类(TSA/SC)的简介、常用方案、案例应用之详细攻略_文本情感分析与实现

文本情感分析与实现

NLP之Sentiment:文本情感分析/情感分类(TSA/SC)的简介、常用方案、案例应用之详细攻略

目录

TSA/SC的简介

1、TSA/SC的概述

2、主流解决方案:基于统计法(分词→识别情感词→更新权重→汇总得分)、基于​​​​​​​机器学习方法(分词→特征提取【如TF-IDF】→模型训练【如NB/SVM】→模型评估【如F1/AUC】​​​​​​​)、基于​​​​​​​深度学习方法(词嵌入【如GloVe/BERT】→​​​​​​​模型构建【如LSTM/BiLSTM/CNN/Transformer】→​​​​​​​模型评估【如F1/AUC】​​​​​​​)、基于​​​​​​​预训练语言模型方法(分词→加载预训练好的语言模型及其分词模型(BERT/RoBERTa/DistilBERT,GPT-2)→输出分类结果)

TSA/SC的案例应用

T1、基于统计法

​​​​​​​NLP之TEA:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)

T2、基于机器学习方法

NLP之Sentiment之NB/LoR:基于Rotten Tomatoes影评数据集利用NB(朴素贝叶斯)、LoR(逻辑斯蒂回归)算法(+CountVectorizer)进行文本情感分类—五分类预测

NLP之Sentiment之NB/LoR:基于Rotten Tomatoes影评数据集利用NB(朴素贝叶斯)、LoR(逻辑斯蒂回归)算法(+TfidfVectorizer)实现文本情感分类—五分类预测

NLP之Sentiment之NB/LoR:基于Kaggle IMDB影评数据集(国外类似豆瓣电影)利用NB和LoR算法实现情感分类

采用SnowNLP库实现情感分析

NLP之TEA:基于SnowNLP实现自然语言处理之对输入文本进行情感分析(分词→词性标注→拼音&简繁转换→情感分析→测试)

T3、基于深度学习方法

NLP之Sentiment之BiLSTM:基于IMDb电影评论数据集利用BiLSTM算法实现对电影评论进行情感分析二分类+模型训练过程可视化+模型推理实战代码之详细攻略

NLP之Sentiment之CNN:利用CNN算法实现对句子分类+进行情感分析(预测句子情感)

NLP之Sentiment:基于PyTorch框架利用Transformer算法针对IMDB数据集实现情感分类的应用案例代码解析

NLP之Sentiment:利用spacy的en_core_web_trf预训练语言模型实现五种顶层应用任务——文本分类(情感分类)任务

T4、基于预训练语言模型方法

NLP之Sentiment之BERT:基于spaCy框架利用预训练Transformer(如BERT)进行多任务学习(添加自定义任务—文本情感分类)训练并进行模型打包和模型推理应用案例实现代码

NLP之Sentiment之BERT:基于spaCy框架利用预训练Transformer进行多任务学习(自定义任务—文本情感分类和命名实体识别NER)训练并进行模型打包和模型推理应用案例实现代码

NLP之Sentiment之GPT-2:基于torch框架利用GPT-2模型对自定义语料库进行预训练并使用微调后的模型对情感分类任务进行微调的完整代码实现

HuggingFace平台测试

BERT—仅适合经济场景数据:基于transformers框架利用BERT及其分词模型(bert-base-chinese-finetuning-financial-news-sentiment-v2)实现情感分析

RoBERTa:基于transformers框架利用RoBERTa及其分词模型(twitter-roberta-base-sentiment-latest)实现情感分析

DistilBERT:基于transformers框架利用RoBERTa及其分词模型(distilbert-base-multilingual-cased-sentiments-student)实现情感分析

拓展—图像领域的情感分类

CV:基于Keras利用CNN主流架构之mini_XCEPTION训练情感分类模型hdf5并保存到指定文件夹下


TSA/SC的简介

1、TSA/SC的概述

背景 文本情感分析(Text Sentiment Analysis,TSA):又称意见挖掘、倾向性分析等。简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。

简介

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号