赞
踩
个性化推荐中,电影推荐研究时常使用movielens上的数据集。该网站的数据集主要分两部分,
一是用于推进最新研究进展的数据集。当前最新的是发布于2019年12月份的25M数据集。
二是用于高校、组织科研的数据集。该类数据集按其是否带有标签、时间先后、数据集大小分成6种数据集。
想当时(17年)那会学术论文常见的都是使用1M数据集(2003年发布的)以及10M数据集(2009年发布的),如果是做带标签标记的电影推荐一般是tag-genome数据集(2014年发布的)。数据集中的命名ml为movielens缩写。
每个数据集除了大致介绍外,其对应位置还有有一个readme文件,是该数据集的详细介绍。
1M数据集有rating.dat、movies.dat、users.data三份数据集。ratings是6040位用户对3900部电影的评分数据(共计1,000,209)。
rating.dat文件存放的是用户对电影的评分信息,改文件中每条记录形式:UserID::MovieID::Rating::Timestamp,即用户id、电影id、该用户对此电影的评分值、时间戳。
readme文档中介绍该文件中的每个用户至少都有20个评分(即每个用户至少对20部不同电影进行了打分)。但当时,我做的分析,好像并不像官方文档说的这样,并且,数据都有缺失部分。
users.dat文件存放的是用户的相关信息,包括性别、年龄、职业,该文件中每条记录形式:UserID::Gender::Age::Occupation::Zip-code。
movies.dat文件存放的是电影的相关信息,该文件中每条记录形式:MovieID::Title::Genres。
100k数据集有点不同,其用户属性是单独一个文件。另外还有u1到u5五份数据(五折交叉验证,已经给分好了)。
该数据集包括了943位用户对1682部电影的评分信息(总共100,000),评分也是1-5的整数
- win10 + python3.8
- jupyter版
- pycharm版
- nones = u_user[u_user['occupation'] == 'none']
- u_user = u_user.drop(nones.index)
u_user.to_csv('D:/d/python/u_result.csv')
- jupyter版
- pycharm版
- # !/usr/bin/env python
- # -*- coding: utf-8 -*-
- # __author__ = 'QiuZiXian' http://blog.csdn.net/qqzhuimengren/ 1467288927@qq.com
- # @time :2020/9/14 0:07
- # @abstract :
-
- import pandas as pd
-
-
- # 粗略查看数据信息
- u_data = pd.read_csv('D:/d/python/ml-100k/u.data')
- u_genre = pd.read_csv('D:/d/python/ml-100k/u.genre')
- u_info = pd.read_csv('D:/d/python/ml-100k/u.info')
- #u_item = pd.read_csv('D:/d/python/ml-100k/u.item')
- u_occupation = pd.read_csv('D:/d/python/ml-100k/u.occupation')
- u_user = pd.read_csv('D:/d/python/ml-100k/u.user')
-
- print(u_data.head())
- print(u_user.head())
-
-
- # 去掉occupation为none的记录
- nones = u_user[u_user['occupation'] == 'none']
- u_user = u_user.drop(nones.index)
-
- # gender中的m、f映射成0、 1
- u_user['gender'] = u_user['gender'].map({'M':1, 'F':0})
- print(u_user.head())
-
-
- # 对age进行分段,映射成7组
- def age_map(age):
- if age >= 1 and age <= 7: return 1
- if age >= 8 and age <=16: return 2
- if age >=17 and age <= 29: return 3
- if age >= 30 and age <= 39: return 4
- if age >= 40 and age <= 49: return 5
- if age >= 50 and age <= 59: return 6
- if age >= 60: return 7
-
- u_user['age'] = u_user['age'].apply(lambda age : age_map(age))
- print(u_user.head())
-
- # occupation字段数值化
- def occupations_map(occupation):
- occupations_dict = {'technician': 1,
- 'other': 0,
- 'writer': 2,
- 'executive': 3,
- 'administrator': 4,
- 'student': 5,
- 'lawyer': 6,
- 'educator': 7,
- 'scientist': 8,
- 'entertainment': 9,
- 'programmer': 10,
- 'librarian': 11,
- 'homemaker': 12,
- 'artist': 13,
- 'engineer': 14,
- 'marketing': 15,
- 'none': 16,
- 'healthcare': 17,
- 'retired': 18,
- 'salesman': 19,
- 'doctor': 20}
- return occupations_dict[occupation]
- u_user['occupation'] = u_user['occupation'].apply(lambda occupation : occupations_map(occupation))
- print(u_user.head())
- # zip_code提取前3位
- u_user['zip_code'] = u_user['zip_code'].apply(lambda zip_code : str(zip_code)[:3])
- # 处理好的数据保存,留待后续直接使用
- u_user.to_csv('D:/d/python/u_result.csv')

Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。