当前位置:   article > 正文

PulsarRPAPro-基于监督学习算法高精度提取网页数据

pulsarrpapro

本视频介绍如何训练机器学习模型,高精度提取网页数据,一次训练,永久有效。

具体方法是:使用PulsarRPAPro采集商品详情页,使用无监督学习技术自动提取数据,得到一个初始的数据集,经过简单的人工校验和数据标注之后,形成了一个可以训练机器学习模型的数据集。用这个数据集训练机器学习模型,就可以高精度提取网页数据。

PulsarRPAPro-基于监督学习算法高精度提取网页数据

举个例子,我们要采集amazon上的产品数据,譬如标题,评分,价格等等。在传统上,我们需要使用PulsarRPA,selenium这样的浏览器自动化工具,逐一打开商品详情页,花费大量时间,编写X-SQL,正则表达式等来提取网页数据,将网页转变成可直接分析的结构化数据。

本视频中,我们使用 PulsarRPAPro 的无监督学习技术自动将每一个字段提取出来,形成初步的数据集,对自动提取出来的字段进行人工校验,剔除错误数据,给每个字段一个名字,得到一个良好标注的数据集,训练一个机器学习模型。

经过训练后,整体准确率超过 98%,而绝大部分字段的准确率和召回率均达到了100%。随着数据质量的提升和训练集的扩大,精度将继续提升。

最后,我们将模型预测结果导出,也就是网页数据提取结果。

使用无监督学习+监督学习进行网页数据提取,我们将网页数据提取的人效提升了1000倍以上,提升了数据提取准确率,降低了人员技能要求,同时也不再需要频繁维护数据提取规则。

在下一个视频中,我们将介绍,采集多个站点网页,一次标注,训练机器学习模型,从而实现单一机器学习模型,自动提取多站点数据。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/运维做开发/article/detail/783178
推荐阅读
相关标签
  

闽ICP备14008679号