Kotlin OpenCV 机器学习70 DTrees 梯度提升树

作者：Li_阴宅 | 2024-08-17 10:27:38

踩

1 OpenCV 机器学习算法
2 OpenCV 深度学习算法
3 OpenCV 无监督学习算法
4 Kotlin 梯度提升树
5 Kotlin 梯度提升树训练结果

1 OpenCV 机器学习算法

算法	适用场景	优点	缺点
支持向量机 (SVM)	分类问题回归问题异常检测	在高维空间中有效在数据维度大于样本数量时仍然有效使用不同的核函数可以解决各种非线性问题	对大规模数据集计算成本高需要仔细调参对特征缩放敏感
决策树 (Decision Trees)	分类和回归问题特征重要性分析	易于理解和解释可处理数值型和类别型数据不需要数据归一化	容易过拟合,特别是树很深时可能创建有偏差的树,如果某些类别占主导地位
随机森林 (Random Forests)	分类和回归问题特征选择	减少过拟合风险对异常值不敏感可以处理高维数据	对于非常高维的稀疏数据可能表现不佳模型解释性较差
梯度提升树 (Gradient Boosting Trees)	分类和回归问题特征重要性排序	通常性能优于其他机器学习算法可以处理不同类型的特征可以自动处理特征交互	容易过拟合,需要仔细调参训练时间可能较长
K-最近邻 (K-Nearest Neighbors)	分类和回归问题推荐系统	简单易实现不需要训练过程适用于多分类问题	计算成本高,特别是对大数据集对异常值敏感需要大量内存来存储训练数据
朴素贝叶斯 (Naive Bayes)	文本分类垃圾邮件检测情感分析	对小数据集效果好可处理多类别问题训练速度快	假设特征间独立,实际可能不成立对数据分布敏感

2 OpenCV 深度学习算法

算法	适用场景	优点	缺点
卷积神经网络 (CNN)	图像分类物体检测图像分割	自动学习特征参数共享减少了模型大小适合处理具有空间结构的数据	需要大量标注数据计算资源需求高黑盒模型,解释性差
循环神经网络 (RNN) / 长短期记忆网络 (LSTM)	序列数据处理自然语言处理时间序列预测	可以处理变长序列能捕捉长期依赖关系适合处理时序数据	训练困难(梯度消失/爆炸问题) 计算速度较慢难以并行化
深度神经网络 (DNN)	复杂非线性映射特征学习大规模数据集	可以学习高度非线性的关系可以自动学习特征适用于大规模数据	需要大量数据和计算资源调参复杂容易过拟合

3 OpenCV 无监督学习算法

算法	适用场景	优点	缺点
K-均值聚类 (K-Means Clustering)	数据分组图像分割异常检测	简单易实现可扩展到大数据集收敛速度快	需要预先指定簇的数量对初始质心选择敏感不适合处理非凸形状的簇
主成分分析 (PCA)	降维特征提取数据压缩	可以减少数据的维度去除数据中的噪声可以用于可视化高维数据	只能捕捉线性关系可能丢失有用信息结果难以解释

4 Kotlin 梯度提升树

Kotlin OpenCV 代码

package com.xu.com.xu.ml

import cn.hutool.core.util.CharsetUtil
import cn.hutool.extra.compress.CompressUtil
import org.opencv.core.Core
import org.opencv.core.CvType
import org.opencv.core.Mat
import org.opencv.core.Size
import org.opencv.imgcodecs.Imgcodecs
import org.opencv.imgproc.Imgproc
import org.opencv.ml.DTrees
import org.opencv.ml.Ml
import java.io.File
import java.util.*


object Train {

    init {
        val os = System.getProperty("os.name")
        val type = System.getProperty("sun.arch.data.model")
        if (os.uppercase(Locale.getDefault()).contains("WINDOWS")) {
            val lib = if (type.endsWith("64")) {
                File("lib\\opencv-4.9\\x64\\" + System.mapLibraryName(Core.NATIVE_LIBRARY_NAME))
            } else {
                File("lib\\opencv-4.9\\x86\\" + System.mapLibraryName(Core.NATIVE_LIBRARY_NAME))
            }
            System.load(lib.absolutePath)
        }
        println(Core.VERSION)
    }

    @JvmStatic
    fun main(args: Array<String>) {
        val (trainImages, trainLabels) = load("lib/data/image/train/")
        val (testImages, testLabels) = load("lib/data/image/predict/")

        // 梯度提升树
        val model = DTrees.create()
        model.maxDepth = 20
        model.minSampleCount = 2
        model.useSurrogates = false
        model.cvFolds = 0
        model.use1SERule = false
        model.truncatePrunedTree = false
        model.regressionAccuracy = 0.01f

        // 转换为OpenCV的Mat格式
        val trainImagesData = Mat(trainImages.size, 784, CvType.CV_32F)
        trainImages.forEachIndexed { index, floatArray ->
            trainImagesData.put(index, 0, floatArray)
        }
        val trainLabelsData = Mat(trainLabels.size, 1, CvType.CV_32S)
        trainLabelsData.put(0, 0, trainLabels.toIntArray())

        // 训练模型
        model.train(trainImagesData, Ml.ROW_SAMPLE, trainLabelsData)
        model.save("lib/data/image/ml/DTrees.xml")

        // 评估训练集准确率
        val train = accuracy(model, trainImages, trainLabels)
        println("训练集准确率: $train")

        // 评估测试集准确率
        val test = accuracy(model, testImages, testLabels)
        println("测试集准确率: $test")
    }

    /**
     * 加载数据
     */
    private fun load(path: String): Pair<List<FloatArray>, List<Int>> {
        val images = mutableListOf<FloatArray>()
        val labels = mutableListOf<Int>()

        for (i in 0..9) {
            val dir = File("$path/$i")
            dir.listFiles()?.forEach { file ->
                val img = Imgcodecs.imread(file.absolutePath, Imgcodecs.IMREAD_GRAYSCALE)
                if (!img.empty()) {
                    Imgproc.resize(img, img, Size(28.0, 28.0))
                    val array = ByteArray(784)
                    img.get(0, 0, array)
                    images.add(array.map { it / 255.0f }.toFloatArray())
                    labels.add(i)
                }
            }
        }
        return Pair(images, labels)
    }

    /**
     * 计算准确率
     */
    private fun accuracy(model: DTrees, images: List<FloatArray>, labels: List<Int>): Double {
        var correct = 0
        images.forEachIndexed { index, image ->
            val sample = Mat(1, 784, CvType.CV_32F)
            sample.put(0, 0, image)
            val response = model.predict(sample)
            if (response.toInt() == labels[index]) {
                correct++
            }
        }
        return correct.toDouble() / images.size * 100
    }

    private fun unzip() {
        // 解压训练图片
        CompressUtil.createExtractor(
            CharsetUtil.defaultCharset(),
            File("lib/data/image/train.7z")
        ).extract(File("lib/data/image/train/"))
        // 解压测试图片
        CompressUtil.createExtractor(
            CharsetUtil.defaultCharset(),
            File("lib/data/image/predict.7z")
        ).extract(File("lib/data/image/predict/"))
    }

}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121

5 Kotlin 梯度提升树训练结果

4.9.0
训练集准确率: 98.19333333333333
测试集准确率: 84.54
1
2
3

本文内容由网友自发贡献，转载请注明出处：https://www.wpsshop.cn/w/Li_阴宅/article/detail/992398

算法	适用场景	优点	缺点
支持向量机 (SVM)	分类问题回归问题异常检测	在高维空间中有效在数据维度大于样本数量时仍然有效使用不同的核函数可以解决各种非线性问题	对大规模数据集计算成本高需要仔细调参对特征缩放敏感
决策树 (Decision Trees)	分类和回归问题特征重要性分析	易于理解和解释可处理数值型和类别型数据不需要数据归一化	容易过拟合,特别是树很深时可能创建有偏差的树,如果某些类别占主导地位
随机森林 (Random Forests)	分类和回归问题特征选择	减少过拟合风险对异常值不敏感可以处理高维数据	对于非常高维的稀疏数据可能表现不佳模型解释性较差
梯度提升树 (Gradient Boosting Trees)	分类和回归问题特征重要性排序	通常性能优于其他机器学习算法可以处理不同类型的特征可以自动处理特征交互	容易过拟合,需要仔细调参训练时间可能较长
K-最近邻 (K-Nearest Neighbors)	分类和回归问题推荐系统	简单易实现不需要训练过程适用于多分类问题	计算成本高,特别是对大数据集对异常值敏感需要大量内存来存储训练数据
朴素贝叶斯 (Naive Bayes)	文本分类垃圾邮件检测情感分析	对小数据集效果好可处理多类别问题训练速度快	假设特征间独立,实际可能不成立对数据分布敏感

算法	适用场景	优点	缺点
卷积神经网络 (CNN)	图像分类物体检测图像分割	自动学习特征参数共享减少了模型大小适合处理具有空间结构的数据	需要大量标注数据计算资源需求高黑盒模型,解释性差
循环神经网络 (RNN) / 长短期记忆网络 (LSTM)	序列数据处理自然语言处理时间序列预测	可以处理变长序列能捕捉长期依赖关系适合处理时序数据	训练困难(梯度消失/爆炸问题) 计算速度较慢难以并行化
深度神经网络 (DNN)	复杂非线性映射特征学习大规模数据集	可以学习高度非线性的关系可以自动学习特征适用于大规模数据	需要大量数据和计算资源调参复杂容易过拟合

Kotlin OpenCV 机器学习70 DTrees 梯度提升树

Kotlin OpenCV 机器学习70 DTrees 梯度提升树

1 OpenCV 机器学习算法

2 OpenCV 深度学习算法

3 OpenCV 无监督学习算法

4 Kotlin 梯度提升树

5 Kotlin 梯度提升树 训练结果

5 Kotlin 梯度提升树训练结果