机器学习:Python实现多标签分类(Multi-label Classification)_多标签归一实现

作者：小小林熬夜学编程 | 2024-04-06 11:15:09

踩

多标签归一实现

1 多标签分类

1.1 定义

传统的多分类算法是对一个训练样本仅标记一个类别标签。而多标签分类(Multi-label Classification, MLC)是指对每个训练样本分配一个或一个以上的类别标签。其数学模型如下：
给定一个 $d$ 维输入空间 $X=\{X_{1},X_{2},\dots,X_{d}\}$ 和一个输出标签 $Y=\{\lambda_{1},\lambda_{2},\dots,\lambda_{q}\},q\gt 1$ 。多标签实例可以定义为一对 $(x, y)$ ，其中 $x=(x_{1},x_{2},\dots,x_{d})\in X$ 并且 $\subseteq Y$ ，其中 $y$ 被称为标签集。当标签 $j$ 和实例 $x$ 相关时， $\lambda_{j}$ 为1，否则为0。MLC的目标就是构建一个预测模型 $\rightarrow 2^{Y}$ 。
MLC主要可以应用于文本分类、医学诊断分类、蛋白质分类、音乐或视频分类等。

1.2 解决思路

传统的多标签分类算法主要分为两种基本处理思路：基于问题转化法和基于算法适应法。

1.2.1 基于问题转化法

该类方法是通过转换样本数据标签，将其处理为传统多分类任务下的数据形式，再借助传统机器学习方法进行训练，从而达到实现多标签分类算法。常见的算法有：Binary Relevance(BR)、Label Powerset(lR)、Calibrated Label Ranking(CLR)、Random k-labelsets等。

BR算法：对标签集 $Y$ 对应建立 $∣ Y ∣$ 个独立的二分类器，对每个标签依次判断是否属于该文本，即将多标签问题转化为 $∣ Y ∣$ 个二分类问题。当标签集比较大时，模型训练的工作量迅速增加，同时BR算法丢弃了标签之间的关联信息，难以达到很高的预测精度；
LR算法：将训练集中每两个标签组合作为一个新的标记，从而使多标签数据转化为单标签数据，但是无法处理未出现的标记组合，同时当标签集很大时，转化后的组合标签集将更大，导致分类效果降低；
CLR的基本思想是通过引入虚拟标记(virtual label)的概念——在待分类对象的相关标签集合与无关标记集合中加入一个人工分割点，使得在标记排序中，虚拟标记应该位于所有相关标记之后，无关标记之前，但增加了算法的复杂度。

1.2.2 基于算法适应法

基于算法适应法的思想是从算法角度入手，借助对传统机器学习算法的改造，以算法模型其能够接受多标签学习样本，进而达到多标签分类的目的。目前常见的基于算法适应方法的多标记分类算法有: ML-kNN、Rank-SVM等。这些模型不需要对数据做标签集的转化，通过最小化汉明损失或者排序损失调整算法权重的优化更新策略，以处理多标签分类任务。

1.2.3 标签相关性

在处理标签之间相关性方面，已有的多标记方法的策略思路主要分为以下三类：一阶策略、二阶策略和高阶策略，分别从考察单标签之间、两两标签之间、单标签对其余标签的影响关系。可以借助神经网络模型和深度学习方法，对多标签之间的相关性进行建模。

2 Python实现多标签分类

2.1 具体代码

本篇使用scikit-multilearn(这个包需要使用pip指令安装)来实现多标签分类，具体代码如下：

import pandas as pd
import numpy as np
from sklearn.datasets import make_multilabel_classification
from skmultilearn.problem_transform import BinaryRelevance #基于问题转化
from sklearn.tree import DecisionTreeClassifier
from skmultilearn.adapt import MLkNN #基于算法适应
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import warnings
warnings.filterwarnings('ignore')

#生成多标签分类数据
#n_classes标签集总数
X,y=make_multilabel_classification(n_samples=1000,n_features=20,
                                   n_classes=5,n_labels=2)
#划分训练集、测试集
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,
                                               random_state=0)

#基于问题转化
classifier=BinaryRelevance(DecisionTreeClassifier())
classifier.fit(X_train,y_train)
y_test_pred=classifier.predict(X_test)
accu_score=accuracy_score(y_test, y_test_pred)
print(accu_score)

#基于算法适应性
classifier2=MLkNN()
classifier2.fit(X_train,y_train)
y_test_pred2=classifier2.predict(X_test)
accu_score2=accuracy_score(y_test, y_test_pred2)
print(accu_score2)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32

参考

《基于UGC的情感多标签分类的研究与应用》
《监督和半监督学习下的多标签分类综述》
https://blog.csdn.net/weixin_35976295/article/details/113659030

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/371571