首页 大数据 算法与数据结构     /    电影数据分析.docx

电影数据分析.docx

上传者: DreamMeson | 上传时间:2023/1/19 6:32:34 | 文件大小:459KB | 文件类型:docx
电影数据分析.docx
一、数据分析项目介绍1. 项目所需的模块库介绍pandas用法:需要导入以下模块importnumpyasnpimportpandasaspdfrompandasimportSeries,Dataframe2.项目背景介绍互联网电影资料库(InternetMovieDatabase,简称IMDB)是一个关于电影演员、电影、电视节目、电视明星和电影制作的在线数据库。
电影作为艺术和娱乐载体已成为我们生活中的一部分,作为电影爱好者之一,希望通过分析了解电影市场大体情况,以便于以后选择电影观看。
使用的数据是IMDB美国票房排名前1000的电影数据,数据包含了电影名称,票房金额,上映年份,演职人员,IMDB评分,电影类型等信息,数据中的很多电影大家也比较熟悉。
相信不少人都有这样的经历,当想要看一部电影的时候,会去百度一下谁是导演,谁是主演。
如果导演是克里斯托弗•诺兰,心里已经给电影打了个8分以上的评分了。
而阿汤哥的动作片,预期也都能肾上腺素飙升。
对于已上映的电影,不少人会去豆瓣搜索现时的评分,或是前作的评价,若是豆瓣高分、高评论数,也会按奈不住去蹭下热度。
如果要去电影院观看的话,想必不少人会更倾向选择动作片或者科幻大片这类特效丰富,影音冲击强烈的电影。
近几年特效技术和3D动画的日渐成熟,影院观影已经是越来越多人的第一选择。
IMDB的资料中包括了影片的众多信息、演员、片长、内容介绍、分级、评论等。
对于电影的评分目前使用最多的就是IMDB评分。
截至2018年6月21日,IMDB共收录了4,734,693部作品资料以及8,702,001名人物资料。
3.项目所需数据介绍数据的属性包括:电影名称、评论数、评分、导演、上映时间、上映国家、主要演员、语言、IMDB评分等。
理解数据:color、director_name、num_critic_for_reviews、duration、director_facebook_likes、actor_3_facebook_likes、actor_2_name、actor_1_facebook_likes、gross、genres、actor_1_name、movie_title、num_voted_users、cast_total_facebook_likes、actor_3_name、facenumber_in_poster、plot_keywords、movie_imdb_link、num_user_for_reviews、language、country、content_rating、budget、title_year、actor_2_facebook_likes、imdb_score、aspect_ratio、movie_facebook_likes4.项目功能详细介绍显示电影评分分布的情况;
电影数量与平均分年度变化的情况;
评论家评论数与评分的关系;
评分与电影票房的关系;
电影数量大于5前提下平均分前十的导演推荐的数据;
不同电影类型的年份累计分析;
电影时长的分布及时长能否和评分有相关性;
电影时长的分布及时长能否和评分有相关性。
二、数据分析过程1.主要功能实现的类和方法介绍#清洗runtime电影时长列数据,可使用str.split()方法df['runtime']=df['runtime'].str.split('').str.get(0).astype(int)df['runtime'].head()#清洗year列,使用str[:]选取年份数字并转换成int类型,使用df.unique()方法检查数据df['year']=df['year'].str[-5:-1].astype(int)df['year'].unique()2. 数据分析过程代码和解释说明导入包:导入、查看、清洗数据:评分分布图:电影数量与平均分布年度变化:评论家评论数&评分、评分&票房:电影数量大于5平均分前十的导演:统计不同年份、不同类型电影的数量:cumsum=df.groupby(['main_genre','year']).title.count()#使用累加功能统计1980年起不同年份不同电影类型的累计数量,对于中间出现的缺失值,使用前值填充genre_cumsum=cumsum.unstack(level=0).cumsum().ffill()#只选取总数量大于 本软件ID:12034289

文件下载

资源详情

算法与数据结构

评论信息

免责申明

【好快吧下载】的资源来自网友分享,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,【好快吧下载】 无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论 【好快吧下载】 经营者是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二条之规定,若资源存在侵权或相关问题请联系本站客服人员,8686821#qq.com,请把#换成@,本站将给予最大的支持与配合,做到及时反馈和处理。关于更多版权及免责申明参见 版权及免责申明