Moviedata-10M電影數據集統計分析之源碼分享（Python）

之前寫過一篇電影數據分析的文章” 豆瓣13萬電影數據統計與分析 “，引起了一些讀者的關注，並且在後臺諮詢我是否可以分享下源碼。爲了滿足大家的需要，我在五一期間將源碼略作整理了下，並從中篩選了幾個繪圖源碼在這裏分享給大家，如有疑問，可在評論區留言。特別說明下，文中分析的數據來自電影數據集Moviedata-10M中的movies.csv文件，需要的童鞋可以按照官方的說明進行下載即可。

準備工作

在進行源碼分享之前，這裏先說說我們的運行環境吧，我是使用jupyter進行實驗的（強烈推薦），python 3.6版本，依賴的相關庫如下：

pandas
matplotlib
seaborn
numpy
WordCloud
imageio
squarify

如果對上面的庫不瞭解或者不會安裝的，請自行查閱，這裏就不一一細說了。

數據加載

由於文件是csv文件，所以加載數據只需要使用python裏面的pandas庫即可，採用pandas中的read_csv就可以將csv中的數據加載到內存中，代碼如下：

import csv
import pandas as pd
import random
movies = pd.read_csv("../data/movies.csv", encoding="utf-8")

統計分析

在豆瓣13萬電影數據統計與分析一文，我從不同的維度對電影數據進行了分析，在這裏不會將全部的源碼分享出來，但是會將核心內容貼出來。

按上映年份統計電影

首先導入相關依賴庫，主要是matplotlib，如下：

import matplotlib.pyplot as plt
import matplotlib
matplotlib.matplotlib_fname()

下面這幾行代碼是爲了解決圖表中的中文亂碼問題，僅供參考：

#解決matplotlib 亂碼
matplotlib.rcParams['font.sans-serif'] = ['SimHei']
matplotlib.rcParams['font.family']='sans-serif'
#解決負號'-'顯示爲方塊的問題
matplotlib.rcParams['axes.unicode_minus'] = False
from matplotlib.font_manager import _rebuild
_rebuild()

在繪製圖表之前，我們需要對數據進行處理，構造我們需要的數據格式：

#如果year字段爲空，就從release_date進行截取
def map_year(x):
    year = x["year"]
    if year == 0:
        year = str(x["release_date"]).split("-")[0]
    return str(year)
    
movies["year2"] = movies.apply(lambda x: map_year(x), axis=1)
#獲取2020年之前上映的電影
movies = movies[movies["year2"]<"2020"]

得到2020年之前的電影之後，我們再分組統計每年上映的電影數量

year_grp = movies.groupby("year2").size().reset_index(name="num") \
                 .sort_values(by="year2", ascending=True)
year_grp = year_grp.rename(columns={"year2":"year"})

接着，按照年份和上映的電影量進行繪圖，首先分享下散點圖的繪製方法，代碼如下：

import seaborn as sns
#散點圖
def draw_stripplot(df, df_x, df_y, title="Title", ylabel="Y", savepath="defalt.png"):
    # draw stripplot start
    fig, ax = plt.subplots(figsize=(20,10), dpi= 80)    
    sns.stripplot(df_x, df_y, jitter=0.25, size=8, ax=ax, linewidth=.5)

    # decoration
    plt.gca().set_xticklabels(df_x, rotation=90, horizontalalignment= 'right')
    plt.title(title, fontsize=16)
    plt.ylabel(ylabel)
    plt.savefig(savepath)
    plt.show()

draw_stripplot(year_grp, year_grp.year, year_grp.num, 
            title="Number Of Movies Released Each Year(1873-2019)", 
            ylabel='# Number', 
            savepath="result/movies_number_of_each_year_stripplot.png")

draw_stripplot方法是可以共用的，如果其他的聚合數據生成了，也可以調用上面的方法。得到的圖表如下所示：

Fig 1.每年上映的電影數（趨勢圖）

按評分統計電影

首先分組統計出每個評分的電影數量

df = movies.groupby('douban_score').size().reset_index(name='counts')
df = df[df["douban_score"]>0]
df["douban_score"] = df.douban_score.astype("str")

採用 movies[movies["douban_score"] > 0]["douban_score"].mean() 可以統計出電影的平均得分爲6.63。

接着編寫柱狀圖繪製函數，代碼如下：

#柱狀圖
def draw_barplot(df, df_x, df_y, title="Title", ylabel="# Y", 
                savepath="default.png", fontsize=5, x_fontsize=10):
    all_colors = list(plt.cm.colors.cnames.keys())
    random.seed(100)
    c = random.choices(all_colors, k=df_x.shape[0])

    # Plot Bars柱狀
    plt.figure(figsize=(20,10), dpi= 200)
    plt.bar(df_x, df_y, color=c, width=.5)
    for i, val in enumerate(df_y.values):
        plt.text(i, val, int(val), horizontalalignment='center', 
                verticalalignment='bottom', 
                fontdict={'fontweight':200, 'size':fontsize})

    # Decoration
    plt.gca().set_xticklabels(df_x, rotation=90, horizontalalignment= 'right', 
                            fontdict={"size":x_fontsize})
    plt.title(title, fontsize=16)
    plt.ylabel(ylabel)
    plt.savefig(savepath)
    plt.show()

將數據採用上面別寫函數進行渲染：

draw_barplot(df, df.douban_score, df.counts, 
            title="Movie Statistics For Each Score", 
            ylabel='# Score', savepath="result/movie_stat_by_score.png", fontsize=10)

得到的柱狀圖如下所示：

Fig 2.各個評分下的電影數統計

按照國家進行統計

首先根據國家進行聚合，

movies_regions = movies
movies_regions["regions"] = movies_regions.regions  \
                .apply(lambda x: x.split("/")[0].split(" ")[0].strip())
df = movies_regions.groupby('regions').size().reset_index(name='counts')
df = df[df["regions"]!=""].sort_values(by=["counts"], ascending=False)[:50]

然後調用 draw_barplot 函數即可：

draw_barplot(df, df.regions, df.counts, 
            title="Movie Statistics For Each Region", ylabel='# Number', 
            savepath="result/movies_stat_by_regions.png", fontsize=8,x_fontsize=12)

結果圖如下：

Fig 3.按發行地域統計電影數（Top 50的發行地域）

按語言進行統計

數據構建

df = movies.groupby('languages').size().reset_index(name='counts')
df = df[df["languages"]!=""]
df = movies.languages.apply(lambda x: x.split("/")[-1].split(" ")[0])   \
         .reset_index(name="languages").drop(columns="id")
df = df.groupby("languages").size().reset_index(name='counts')
df = df[df["languages"]!=""]
df = df.sort_values(by=["counts"], ascending=False)[:20]

繪製餅狀圖，並進行渲染：

import matplotlib.pyplot as plt
import numpy as np

def draw_pieplot(df, df_x, df_y, 
                title="Title", 
                subtitle="subtitle", 
                savepath="default.png"):
    # Draw Plot
    fig, ax = plt.subplots(figsize=(12, 7), subplot_kw=dict(aspect="equal"), dpi= 80)

    data = df_y
    categories = df_x
    explode = np.zeros(df_x.shape[0])
    explode[3] = 0.1

    def func(pct, allvals):
        absolute = int(pct/100.*np.sum(allvals))
        return "{:.1f}% ({:d} )".format(pct, absolute)

    wedges, texts, autotexts = ax.pie(data,
                                      autopct=lambda pct: func(pct, data),
                                      textprops=dict(color="w"),
                                      colors=plt.cm.Dark2.colors,
                                     startangle=140)

    # Decoration
    ax.legend(wedges, categories, 
            title=subtitle, loc="center left", 
            bbox_to_anchor=(1, 0, 0.5, 1))
    plt.setp(autotexts, size=10, weight=700)
    ax.set_title(title)
    plt.savefig(savepath)
    plt.show()
    
draw_pieplot(df, df.languages, df.counts, 
            title="Statistics By Languages: Pie Chart", 
            subtitle="Languages", 
            savepath="result/movie_language_stat_pieplot.png")

結果圖如下：

Fig 4.按語言統計電影數

對中國的電影進行分析

同理，首先構造數據格式：

movies_china = movies[movies.regions.str.startswith("中國") |  \
                      movies.regions.str.startswith("香港") |  \
                      movies.regions.str.startswith("臺灣") |  \
                      movies.regions.str.startswith("澳門")]

df = movies_china.reset_index().groupby('year').size().reset_index(name="counts")
df = df[df["year"]!=""][df["year"]!=0]
df = df.sort_values(by="year", ascending=True)
#df["counts"] = df.counts.astype("str")

接着繪製線性趨勢圖：

def draw_plot_liner2(df, df_x, df_y, 
                    x_name, 
                    y_name, 
                    title="Title", 
                    ylabel="Y", 
                    savepath="defalt.png"):
    # Draw Plot - liner
    plt.figure(figsize=(16,10), dpi= 80)
    plt.plot(x_name, y_name, data=df, color='tab:red')

    plt.yticks(fontsize=12, alpha=.7)
    plt.title(title, fontsize=22)
    plt.ylabel(ylabel)
    plt.grid(axis='both', alpha=.3)

    # Remove borders
    plt.gca().spines["top"].set_alpha(0.0)    
    plt.gca().spines["bottom"].set_alpha(0.3)
    plt.gca().spines["right"].set_alpha(0.0)    
    #plt.gca().spines["left"].set_alpha(0.3)   
    plt.savefig(savepath)
    plt.show()

draw_plot_liner2(df, df.year, df.counts,'year','counts', 
                title="Statistics of Movie_China For Each Year", 
                ylabel='# Number', savepath="result//movies_china_each_year.png")

最後得到的趨勢圖如下：

Fig 5.中國每年的電影數量統計

如果需要渲染多個國家進行對比，只需要將多個國家的數據進行聚合然後一個個繪製到圖上即可。

詞雲

電影類型詞雲

如果想要繪製類型詞雲，需要上面提到的WordCloud庫。

from wordcloud import WordCloud
import collections
import imageio

當具備這些之後，我們首先要準備數據，取出電影標籤，然後進行詞頻統計,

object_list = movies.genres.tolist()
word_list = []
for words in object_list:
    word_list.extend(words.split("/"))
word_counts = collections.Counter(word_list) # 對分詞做詞頻統計

接着調用WordCloud庫進行分析

b_mask = imageio.imread("./data/bg_my.jpeg") #如果運行到這裏找不到圖片，請自行替換圖片即可

wc = WordCloud(font_path="Hiragino Sans GB.ttc", # 字體
               background_color = 'white', # 背景色
               max_words = 2000, # 最大顯示單詞數
               #width=1000,
               #height=500,
               max_font_size = 160, # 頻率最大單詞字體大小
               mask=b_mask
               #stopwords = stopwords # 過濾噪聲詞
              ).generate_from_frequencies(word_counts)

wc.to_file("genres_cloud.png")
plt.imshow(wc, interpolation="bilinear")
plt.axis("off")
plt.show()

如果詞庫比較大的話，時間需要久一點，最後得到的圖片如下：

Fig 6.電影類型詞雲

標籤詞雲也是類似的，只修要重新渲染下數據即可。

結束語

文章共介紹了散點圖、線性圖、柱狀圖、餅狀圖、詞雲這幾個核心圖表的繪製，只要下載了相關庫，那麼構造出相應的數據格式之後，代碼可以直接運行，後續我會考慮以jupyter文件分享出來，大家可以關注下我的公衆號：【鬥碼小院】，相關內容會第一時間發佈到公衆號中，如果相關問題，也可以在公衆號的“關於小院”一欄進行留言。