IMDB票房信息數據分析
library(dplyr)
library(ggplot2)電影院的數據表的名稱。 movie_title 電影標題gross 總值imdb_score 分數plot_keywords 情節關鍵詞director_name 導演的名字genres 電影類型facenumber_in_poster 上海報的電影movies <- read.csv(D:/rstudio/dianying/data/movie_metadata.csv,header=T,stringsAsFactors = F)
導演最多的電影的20位導演
顏色漸變color_scheme = brewer.pal(8, "Blues")#刷選director_name導演名字director = movies[director_name]# 計算導演的記錄頻數director = data.frame(table(director))
# 按照次數最多的排序director = director[order(director$Freq,decreasing=TRUE),]# 去的沒有次數的導演director = director[-c(1),]# 前20名的導演 導演最多的電影的20位導演ggplot(director[1:20,], aes(x=reorder(factor(director), Freq), y=Freq, alpha=Freq)) +geom_bar(stat = "identity", fill=color_scheme[8]) +xlab("Director") +ylab("Number of Movies") +ggtitle("Top 20 Directors with the most movies") +coord_flip()
獲取上海報的次數,
poster = movies[facenumber_in_poster]
#海報記錄頻數
poster = data.frame(table(poster))
poster = poster[order(poster$Freq,decreasing=TRUE),]# Plot the face count occurences in postersggplot(poster, aes(x=reorder(factor(poster), Freq), y=Freq, alpha=Freq)) +geom_bar(stat = "identity", fill=color_scheme[8]) +xlab("Number of Faces on Movie Poster") +ylab("Frequency") +ggtitle("Distribution of the Number Faces on Movie Posters") +coord_flip()
# 頻次紀錄
genre = data.frame(table(genre))# 從新排序次數多的排在前genre = genre[order(genre$Freq,decreasing=TRUE),]# 最熱門的20種電影類型ggplot(genre[1:20,], aes(x=reorder(factor(genre), Freq), y=Freq, alpha=Freq)) +geom_bar(stat = "identity", fill=color_scheme[8]) +xlab("Genre") +ylab("Number of Movies") +ggtitle("Top 20 genres with the most movies") +coord_flip()
選擇向量
year = movies[title_year]計算頻次year = data.frame(table(year))year = year[order(year$year,decreasing=TRUE),]# 從 1916到2016年上映的電影ggplot(data=year, aes(x=year, y=Freq)) + geom_bar(colour = "black", fill = "blue", width = 0.8, stat="identity") + xlab("Year") + ylab("Count") + ggtitle("Number of Movies by Year") + scale_x_discrete(breaks = seq(1916, 2016, 5))
geom_bar(stat = "identity", fill=color_scheme[8]) +
xlab("Director") + ylab("Average IMDB Score") + ggtitle("Top 50 Director Average IMDB Scores") + coord_flip()推薦閱讀:
※選全明星哪家強,機器學習來幫忙
※挑戰自我-python數據分析師成長路徑
※Kindle是否值得包月
※數據篇(1):數據分析
TAG:數據分析 |