当前位置:   article > 正文

movielens数据集介绍及使用python简单处理_movielens-1m

movielens-1m

0 前言

个性化推荐中,电影推荐研究时常使用movielens上的数据集。该网站的数据集主要分两部分,

一是用于推进最新研究进展的数据集。当前最新的是发布于2019年12月份的25M数据集。

二是用于高校、组织科研的数据集。该类数据集按其是否带有标签、时间先后、数据集大小分成6种数据集。

想当时(17年)那会学术论文常见的都是使用1M数据集(2003年发布的)以及10M数据集(2009年发布的),如果是做带标签标记的电影推荐一般是tag-genome数据集(2014年发布的)。数据集中的命名ml为movielens缩写。

1 数据集解读-举例

每个数据集除了大致介绍外,其对应位置还有有一个readme文件,是该数据集的详细介绍。

1.1 1M数据集

1M数据集有rating.dat、movies.dat、users.data三份数据集。ratings是6040位用户对3900部电影的评分数据(共计1,000,209)。

1.1.1 rating文件

rating.dat文件存放的是用户对电影的评分信息,改文件中每条记录形式:UserID::MovieID::Rating::Timestamp,即用户id、电影id、该用户对此电影的评分值、时间戳。

  • - 用户id:从1到6040
  • - 电影id: 从1到3952
  • - rating: 从1-5的整数

readme文档中介绍该文件中的每个用户至少都有20个评分(即每个用户至少对20部不同电影进行了打分)。但当时,我做的分析,好像并不像官方文档说的这样,并且,数据都有缺失部分。

1.1.2 users.dat文件

users.dat文件存放的是用户的相关信息,包括性别、年龄、职业,该文件中每条记录形式:UserID::Gender::Age::Occupation::Zip-code。

  • - 性别(gender)的值为M和F。
  • - 年龄(age)分成7组

  • - 职业(occupation)分成了21中类别

1.1.3 movies.dat文件

movies.dat文件存放的是电影的相关信息,该文件中每条记录形式:MovieID::Title::Genres。

  • - title是电影“标题”,包括电影名称及发布日期
  • - genres是电影类型:包括动作喜剧等18种电影类型

1.2 100k数据集

100k数据集有点不同,其用户属性是单独一个文件。另外还有u1到u5五份数据(五折交叉验证,已经给分好了)。

该数据集包括了943位用户对1682部电影的评分信息(总共100,000),评分也是1-5的整数

1.2.1 100k数据集文件介绍

  • - u.data文件包含了100,000条评分信息,每条记录的形式:user id | item id | rating | timestamp.(分隔符是一个tab)
  • - u1.base和u1.test是一组训练集和测试集,u1到u5是把u.data分成了5份(用于五折交叉验证实验)。可以通过运行mku.sh重新生成一组u1到u5(原来的会被覆盖)
  • - ua和ub是把u.data分成了两份。每一份又分成了训练集和测试集。同样可以通过mku.sh重新生成一组ua和ub
  • - mku.sh文件, 每运行一次,就会随机生成一组u1--u5、ua、ub的数据集。(所以非必要不要用,不然每次实验的数据都不一样)

2 python简要分析处理movielens数据集-举例

- win10 + python3.8

- jupyter版

- pycharm版

2.1 100k数据集

2.1.1 粗略查看数据信息

 

2.1.2 去掉occupation为none的记录

  1. nones = u_user[u_user['occupation'] == 'none']
  2. u_user = u_user.drop(nones.index)

2.1.3 gender中的m、f映射成0、 1

2.1.4 对age进行分段,映射成7组

2.1.5 occupation字段数值化

2.1.6 zip_code提取前3位

2.1.7 处理好的数据保存,留待后续直接使用

u_user.to_csv('D:/d/python/u_result.csv')

3 其它

3.1 2.1的实例源码

- jupyter版

- pycharm版

3.2 2.1的pycharm版

  1. # !/usr/bin/env python
  2. # -*- coding: utf-8 -*-
  3. # __author__ = 'QiuZiXian' http://blog.csdn.net/qqzhuimengren/ 1467288927@qq.com
  4. # @time :2020/9/14 0:07
  5. # @abstract :
  6. import pandas as pd
  7. # 粗略查看数据信息
  8. u_data = pd.read_csv('D:/d/python/ml-100k/u.data')
  9. u_genre = pd.read_csv('D:/d/python/ml-100k/u.genre')
  10. u_info = pd.read_csv('D:/d/python/ml-100k/u.info')
  11. #u_item = pd.read_csv('D:/d/python/ml-100k/u.item')
  12. u_occupation = pd.read_csv('D:/d/python/ml-100k/u.occupation')
  13. u_user = pd.read_csv('D:/d/python/ml-100k/u.user')
  14. print(u_data.head())
  15. print(u_user.head())
  16. # 去掉occupation为none的记录
  17. nones = u_user[u_user['occupation'] == 'none']
  18. u_user = u_user.drop(nones.index)
  19. # gender中的m、f映射成0、 1
  20. u_user['gender'] = u_user['gender'].map({'M':1, 'F':0})
  21. print(u_user.head())
  22. # 对age进行分段,映射成7组
  23. def age_map(age):
  24. if age >= 1 and age <= 7: return 1
  25. if age >= 8 and age <=16: return 2
  26. if age >=17 and age <= 29: return 3
  27. if age >= 30 and age <= 39: return 4
  28. if age >= 40 and age <= 49: return 5
  29. if age >= 50 and age <= 59: return 6
  30. if age >= 60: return 7
  31. u_user['age'] = u_user['age'].apply(lambda age : age_map(age))
  32. print(u_user.head())
  33. # occupation字段数值化
  34. def occupations_map(occupation):
  35. occupations_dict = {'technician': 1,
  36. 'other': 0,
  37. 'writer': 2,
  38. 'executive': 3,
  39. 'administrator': 4,
  40. 'student': 5,
  41. 'lawyer': 6,
  42. 'educator': 7,
  43. 'scientist': 8,
  44. 'entertainment': 9,
  45. 'programmer': 10,
  46. 'librarian': 11,
  47. 'homemaker': 12,
  48. 'artist': 13,
  49. 'engineer': 14,
  50. 'marketing': 15,
  51. 'none': 16,
  52. 'healthcare': 17,
  53. 'retired': 18,
  54. 'salesman': 19,
  55. 'doctor': 20}
  56. return occupations_dict[occupation]
  57. u_user['occupation'] = u_user['occupation'].apply(lambda occupation : occupations_map(occupation))
  58. print(u_user.head())
  59. # zip_code提取前3位
  60. u_user['zip_code'] = u_user['zip_code'].apply(lambda zip_code : str(zip_code)[:3])
  61. # 处理好的数据保存,留待后续直接使用
  62. u_user.to_csv('D:/d/python/u_result.csv')

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/752626
推荐阅读
相关标签
  

闽ICP备14008679号