一篇長文學懂 pytorch

磐創AI分享

來源 | 機器學習與推薦系統

作者 | silwer

作爲目前越來越受歡迎的深度學習框架，pytorch 基本上成了新人進入深度學習領域最常用的框架。相比於 TensorFlow，pytorch 更易學，更快上手，也可以更容易的實現自己想要的 demo。今天的文章就從 pytorch 的基礎開始，幫助大家實現成功入門。

首先，本篇文章需要大家對深度學習的理論知識有一定的瞭解，知道基本的 CNN，RNN 等概念，知道前向傳播和反向傳播等流程，畢竟本文重點是一篇實操性的教程。

其次，這篇文章我更想從一個總體性的視角展開，大家在學習的過程中更注重的應該是在接觸新知識時，如何設計學習路線的一種思路分享。這種思路不一定適合所有人，但是肯定可以對你有所借鑑，你也可以基於此總結出來更適合自己的方法。

接下來我們從以下幾個步驟去幫助大家入門 pytorch 的實戰教程。

1. 開始一個簡單的分類器

2. 在 MNIST 上實現一個 cnn

3. 常用網絡層介紹

4. tensorboard 可視化

5. 以 vgg 爲例實現深層網絡的一些小技巧

6. GPU 加速和保存加載模型

7. RNN 和 LSTM 實現分類和迴歸

番外: 一個並行生成數據的例子告訴你，pytorch 未來的路該怎麼做

這八個步驟，對應了我的八篇學習筆記的文章，本文是從一個串講的思路來介紹學習路徑，對應步驟的更多細節會在具體的文章中展示。在每個步驟介紹的最後和全文的結尾，我們也會給出文章的鏈接，大家可以針對性食用~

1. 開始一個簡單的分類器

我個人在學習一門新語言，一個新框架，一個新技術時，最優先要保證的就是成就感反饋。以學習 pytorch 爲例，很多教程從張量開始。我自己也按照這種教程學習過，的確內容非常全盡，但是有兩個原因，我自己不太推薦以這種方式入門：1）前期學習過於枯燥，沒有成就感；2）有的知識內容屬於深度學習的基本功，過於贅述。

所以我覺得入門一個新知識的知識，最好是先搭起來結構，然後再去慢慢補充細節。因此我在這篇文章的第一部分，先選擇構建一個簡單的分類器，讓大家知道一個 pytorch 下的代碼流程應該是什麼樣子。

學過 c 語言的朋友肯定知道，我們先學第一個代碼的時候，肯定是先來一個 hello world，而不是去研究第一行的 #include。

對於第一個 pytorch 程序而言，我們要做的是首先跑通整個流程，如果是一個簡單的分類器，數據集也就不能太複雜。因此，我們從三方面考慮：1）自定義生成一些點，分爲兩類；2）學習如何構建一個淺層的神經網絡；3）嘗試 pytorch 中的訓練和測試過程。

1.1 自定義生成數據集

首先，自定義生成我們的數據集。利用 torch 自帶的 zeros，ones 這些方法，我們生成一些隨機的點，分爲兩類。比如分別以（2，2）和（-2，-2）爲均值，隨機生成一些隨機數，作爲兩類，這樣子我們就得到了我們想要的數據集。

1.2 學會構建網絡的流程

其次，就是構建一個淺層的神經網絡，這裏我們給出一個代碼示例，大家瞭解一下最基礎的 pytorch 的網絡應該如何構建：

class Net(torch.nn.Module):
    def __init__(self, n_feature, n_hidden, n_output):
        super(Net, self).__init__()
        self.n_hidden = torch.nn.Linear(n_feature, n_hidden)
        self.out = torch.nn.Linear(n_hidden, n_output)

    def forward(self, x_layer):
        x_layer = torch.relu(self.n_hidden(x_layer))
        x_layer = self.out(x_layer)
        x_layer = torch.nn.functional.softmax(x_layer)
        return x_layer


net = Net(n_feature=2, n_hidden=10, n_output=2)
# print(net)

optimizer = torch.optim.SGD(net.parameters(), lr=0.02)
loss_func = torch.nn.CrossEntropyLoss()

這個 Net 類，就是我們構建的代碼框架，用它生成的對象就是一個我們可以用來訓練和測試的網絡。這個類中，初始化函數中表示了每個網絡層的結構設置，而 forward（）方法表示了每個層之間的交互順序和關係。

而 optimizer 就是優化器，包含了需要優化的參數有哪些，loss_func 就是我們設置的損失函數。

這個就像我們寫一個 hello，world 一樣，我們只需要知道自己該如何構造一個網絡。當我們需要調整的時候，就將其中對應的模塊替換掉。

1.3 訓練與測試

接下來就是訓練與測試的階段。訓練我們需要知道三句代碼是核心：

optimizer.zero_grad()    
loss.backward()    
optimizer.step()

這裏的核心思路是，梯度清空，反向傳播，參數更新。分別對應了這三句代碼的作用。在pytorch 中，梯度會保留，所以需要用 zero_grad() 來清空，然後利用損失函數反向傳播計算梯度，最後就是用我們定義的優化器將每個需要優化的參數進行更新。

測試階段就很簡單了，直接將輸入丟進去就可以看到預測結果。現在我們重新隨機生成一些數據點作爲測試集，可以看到訓練集對它的分類結果就很明顯。

至此，我們就完成了一個對於簡單分類器的描述。

2. 在 MNIST 上實現一個 cnn

完成了一個線性分類器後，我們的學習路線應該是什麼樣子呢？我覺得比較合適的做法是先改動 “hello，world” 的部分，讓我們看看把最直觀的部分進行修改，會有哪些變化。並且可以得到很直接的成就反饋。

做深度學習，肯定最熟悉的就是 CNN 做圖片分類。在一張圖片上，通過卷積來一層層的提取特徵，最終實現分類的效果。那麼我們既然已經知道如何實現一個分類器，接下來就來看看如何用 CNN 完成圖片的分類。

這裏的數據集我們選擇 mnist，是大家經常用來作爲入門的圖片分類數據集，內容是各種手寫數字的展示。在安裝 torch 的時候，大家參考的教程一般也會推薦安裝 torchvision。在這個之中給出了一個 dataset 的集合，其中包括了各種各樣的常見數據集，mnist 自然也是其中之一。

對於這些數據集的使用方法，主要是 root，transform 等幾個參數，並不是很難。然後對應的有一個 torch.data 中的 DataLoader 方法，可以用來讓數據按自己想要的 batch 生成。具體的如何並行式生成數據，在本文的最後一部分會進行介紹。這裏我們只需要知道可以使用 DataLoader 並行式按批生成數據。

核心的是如何構建一個 CNN 網絡。我們前面學會了分類器，只使用了一個隱藏層進行 embedding 操作就可以了。那麼如果要實現 CNN，我們自然要加入卷積層，激活層，池化層這些操作。

class CNN(nn.Module):
    def __init__(self):
        super(CNN, self).__init__()
        self.conv1 = nn.Sequential(
            nn.Conv2d(
                in_channels=1,
                out_channels=16,
                kernel_size=5,
                stride=2,
                padding=2,
            ),
            nn.ReLU(),
            nn.MaxPool2d(2)
        )

        self.conv2 = nn.Sequential(
            nn.Conv2d(16, 32, 5, 1, 2),
            nn.ReLU()
        )

        self.out = nn.Linear(32 * 7 * 7, 10)

    def forward(self, x):
        x = self.conv1(x)
        x = self.conv2(x)
        x = x.view(x.size(0), -1)
        output = self.out(x)
        return output

所以按照這個樣子，我們就可以改造前面簡單分類器的結構，生成我們現在的 CNN 結構。從代碼中可以看到，將第一個卷積層設計爲：卷積+激活+最大池化；第二個卷積層設計爲：卷積+激活。最後跟上一個全連接層，實現整個 CNN 的網絡結構設計。

最終的網絡運行結果可以對 mnist 數據集達到 97% 以上的分類精度，可見 CNN 在圖片分類領域的確有獨到的優勢。

那麼在完成了這一步的操作後，我們可能需要思考一點：如果我自己想去做一些更自定義的網絡結構出來，該如何實現呢？我又怎麼知道去修改哪裏，以及修改成什麼樣子呢？所以接下來需要了解的是 torch 都提供了哪些集成好的常用網絡層。

3. 常用網絡層介紹

通過兩個遞進的例子，我們已經知道了該如何實現一個基本的 CNN 網絡結構。但是如前面提到的問題一樣，如果想改某一部分，應該怎麼改呢？

所以從學習的角度出發的話，現在應該考慮的是介紹常用的網絡層都有哪些。然後我們就可以（成爲一個調包俠。哈哈，入門肯定要從調包開始嘛~）開始針對自己想要設計的網絡結構選擇合適的模塊啦~

在這部分我們從以下幾個方面去對 pytorch 提供的網絡層進行了介紹：

卷積層 ：自帶了一維，二維，三維等卷積函數；

池化層 ：可選的有最大池化，平均池化等；

Dropout ：有一維，二維等選擇；

BN層 ：是否加入 BN 層的操作；

激活函數 ：elu，relu，sigmoid，tanh，softmax 等層可供選擇；

損失函數 ：mse，CrossEntropy 等可供選擇。

4. tensorboard 可視化

現在我們具備了初步構建自定義網絡結構的能力，也可以完成在自帶數據集上進行訓練和測試的操作。那麼如何讓我們對訓練過程中的性能有一個更直觀的認識呢？對網絡結構如何進行可視化呢？數據集的內容是什麼樣子的？

這些功能我們都可以用一個名爲 tensorboard 的工具來實現，這個工具在 TensorFlow 中也很常用。

如何學習使用 tensorboard 呢？這部分我們建議從如下幾個步驟去進行：首先舉一個簡單的例子，讓代碼示例跑起來；然後將整個訓練過程可視化出來；最後再展示如何可視化數據集的內容以及網絡結構流程。

4.1 run一個例子

這裏我們選擇先運行一個官方教程給出的例子，瞭解如何使用 tensorboard 的基本流程：

from torch.utils.tensorboard import SummaryWriter
writer = SummaryWriter()
x = range(100)
for i in x:
    writer.add_scalar('y=2x', i * 2, i)
writer.close()

從這個流程中我們可以看到，引入了一個 SummaryWriter 類，然後生成一個 writer 對象，在 for 循環中，每次調用 add_scalar() 方法，往進添加內容。

在完成這個代碼後，如果我們在終端中輸入：

tensorboard --logdir='runs'

我們會得到一副 y=2x 的斜線，這就相當於揭示了 tensorboard 的本質。每次將一個值傳入 ‘runs’ 文件夾中的文件中，然後在終端中去調用保存的數據，產生我們想要的圖形。

這一步我們主要是理解上面的這個流程，那麼我們就來看看該怎麼替換想要換掉的模塊，來生成我們想要生成的圖形。

4.2 可視化 CNN 的訓練數據

前面第二部分，我們定義了一個 CNN 來實現對圖片的分類效果。那麼在訓練過程中的 accuracy 和 loss 是如何變化的呢？

output = cnn(b_x)
loss = loss_func(output, b_y)
optimizer.zero_grad()
loss.backward()
optimizer.step()

if step % 50 == 0:
    test_output = cnn(test_x)
    pred_y = torch.max(test_output, 1)[1].data
            
    accuracy = float((pred_y == test_y.data.numpy()).astype(int).sum()) / float(test_y.size(0))
    writer.add_scalar("Train/Accuracy", accuracy, step)

writer.add_scalar("Train/Loss", loss.item(), step)

這裏我們可以看出來是訓練部分的內容，只是在後面加上了我們前面的一個步驟：添加了兩行 add_scalar() 方法。其實就是訓練時每隔 50 步都進行一次測試，並將測試結果記錄下來，並且每一步的 loss 也都會保存下來。

所以到最後，我們在終端中輸入上面提到的：tensorboard —logdir=dir，就可以看到下面這幅圖：

4.3 圖片和模型的可視化

除了上面對數值的記錄，tensorboard 還提供了諸如圖片和模型等的可視化，相比於使用 add_scalar()，這裏我們使用 add_image() 和 add_graph() 來實現對應的功能。

add_image() 對圖片數據進行保存，每次輸入一個 batch 的數據，也就是說 batch 有多大，其實相當於可視化了多少的 image。

add_graph() 則是對模型結構的保存，在可視化的時候，就可以對這些內容進行自動展示。

5. vgg 及一些 tricks

這一部分的內容就比較簡單了，找一個比較經典的深層網絡來實現一下，驗證一下我們之前的基礎。此外，再介紹一種方法來簡化深層網絡的構造方法。

首先實現一個 vgg 本身並沒有太多難度，我們看一看 paper，就可以知道網絡的結構設置。我們不拘泥於 vgg，而是說一個深層次的網絡的構成。

實現一個長的網絡，本質上還是按照前面的思路，一層層的把網絡堆疊起來。我們先看使用 Sequential 構建一個卷積層的樣子：

這是一層的網絡樣子，我們根據自己要實現的網絡定義，比如參考 vgg 的 paper 內容，定義了卷積層的各個參數，加上 BN 層，加上 relu 進行激活。

整體就是我們定義好的一層，其它層以此類推，用我們前面介紹的常用網絡層就可以像搭積木一樣，把它們搭建起來。

所以按照前面的教程思路，一個深層的神經網絡，例如 vgg，本質上是可以通過簡單的堆疊來實現的。最後我們在 forward 函數中，定義好如下內容：

def forward(self, x):
    x = self.conv1(x)
    x = self.conv2(x)
    x = self.conv3(x)
    x = self.conv4(x)
    x = self.conv5(x)
    x = self.conv6(x)
    x = self.conv7(x)
    x = self.conv8(x)
    x = self.conv9(x)
    x = self.conv10(x)
    x = self.conv11(x)
    x = self.conv12(x)
    x = self.conv13(x)
    x = x.view(x.size(0), -1)

    output = self.out(x)
    return output

可以看到從內容上就是前面的 CNN 的擴展，沒有技術上的新東西。但是也顯然易見，有點醜陋，寫這麼長個 forward，而且還看起來都是重複的東西，程序員當然不能容忍重複的內容一直出現。

所以這裏分爲兩步我們去考慮如何簡化一個模型：sequential 以 list 的形式輸入各層的網絡結構；更加方便的生成各層網絡結構的 list。具體的意思是什麼呢？我們簡單的展開來講一下。

對一個網絡的設置而言，我們使用 Sequential 來定義我們想要的一層網絡。這裏的一層往往指代卷積+激活+池化等，當然不固定是這樣子。換句話說，一個 Sequential 裏面本身就定義了不止一個網絡，那麼我們是否可以將所有網絡都放到一個 Sequential 裏面來？答案是可以的！
對於一個 Sequential，我們可以將所有的網絡結構都輸入進去，以動態參數的方式。也就是說，我們讓 Sequential 的輸入是這個形式：*[網絡層1，網絡層2，…，網絡層n]。可以看到，是一個 list 前面加 *，就可以將 list 中的所有元素以參數的方式傳進去。
但是這樣輸入進來的參數，需要一個非常非常長的 list。在定義這個 list 的時候，顯得我們的模型更加難看。所以我們需要一個優雅的方式，來生成這樣一個 list，其中的每個元素都是我們想要的網絡層結構。所以我們介紹的生成方式就是下述代碼：

def make_layers(cfg, batch_norm=False):
    layers = []
    in_channels = 3
    for v in cfg:
        if v == 'M':
            layers += [nn.MaxPool2d(kernel_size=2, stride=2)]
        else:
            conv2d = nn.Conv2d(in_channels, v, kernel_size=3, padding=1)
            if batch_norm:
                layers += [conv2d, nn.BatchNorm2d(v), nn.ReLU(inplace=True)]
            else:
                layers += [conv2d, nn.ReLU(inplace=True)]
            in_channels = v
    return nn.Sequential(*layers)

cfg = [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 'M', 512, 512, 512, 'M', 512, 512, 512, 'M']

這裏就可以很直接的看到，最終生成的 layers 這個 list，就是我們想要的內容，其中包含了我們需要的每個網絡層結構。在 for 循環中就是我們生成的方式，按照在參數 cfg 中定義的內容，依次往 layers 中添加我們需要的內容。數字表示該卷積層的輸出通道，字母 ‘M' 表示最大池化。

6. GPU 和如何保存加載模型

到了這一步，我們的網絡深度也加上來了，是時候考慮一下 GPU 加速的問題了。GPU 在深度學習中是無論如何也繞不過去的一個話題，好在 pytorch 在 GPU 的使用方面給了非常友好的接口，下面我們就看一下如何使用 GPU 加速，以及如何保存訓練好的模型，到測試時再加載出來。

6.1 先看看 GPU 咋用吧

我們就來說一下 GPU 在 pytorch 中有多麼簡單易用吧。首先如下簡單命令：

torch.cuda.is_available()

這條命令可以判讀你是否安裝好了 GPU 版本的 pytorch，或者你的顯卡是否可以使用，如果結果顯示 True ，那我們就可以進行下一步了。

GPU 的使用在 pytorch 中，我們就記住三部分：遷移數據，遷移模型，遷回數據。

首先遷移數據是指，我們需要將數據遷移到 GPU 上，這個時候就體現出顯存的重要性，顯存越大，就可以往進遷移的數據越多；

其次是遷移模型，也就是說將我們定義好的網絡模型也遷移到 GPU 上，這個時候就可以在 GPU 上對給定模型，利用遷移進來的數據進行訓練和測試；

最後是遷回數據，也就是說將測試好的結果再返回 CPU，進行下一步的其它處理，比如計算精度之類。

這裏給一個小栗子來爲大家看一下這三步：

# 指定好用的 GPU 設備，如果是單卡，一般就是 0.
device = "cuda:0"

# 遷移數據
images = images.to(device)
labels = labels.to(device)

# 遷移網絡，將我們定義好的網絡 cnn 遷移到 GPU 中。
cnn.to(device)

# 訓練...
# 測試... 生成測試結果 pred_y

# 遷回數據，將 pred_y 再遷回 CPU。
pred_y = pred_y.cpu()

通過這個例子，我們可以很清晰的看到如何使用 GPU 完成我們上所述的三個步驟。只要保證了將這三部分加入到你的代碼中，中間的訓練和測試依然保持原樣，我們就實現了利用 GPU 加速的目的。

6.2 訓練好的模型如何保存和加載呢？

關於 pytorch 中的模型保存，一般有兩種途徑：只保存網絡參數，保存整個網絡。

首先要知道的一點是，在 pytorch 中所有的網路參數數據都是一個 dict，也就是網絡對象的 state_dict() 參數。那麼我們如果想保存下來需要的內容，其實在底層操作方面並不複雜。

現在來看如何保存模型，其實就一條語句：torch.save(content，path)，就可以將需要的 content 保存到目標的 path 中。這裏唯一的需要思考的是如何區分只保存網絡參數，還是保存整個網絡。

只保存網絡參數時，我們的 content 就是 cnn.state_dict()，如果保存整個網絡，content 就是 cnn。下面兩行代碼分別是隻保存參數和保存整個網絡：

torch.save(cnn.state_dict(), PATH)
torch.save(cnn, PATH)

可以看到保存的方式非常方便，一個函數就可以完成。那麼對應的，讀取的方式是什麼呢？

分別用兩個不同的方法來進行讀取：load_state_dict() 和 load()。

只看名稱也可以想到前者是讀取參數，後者是讀取整個網絡。但是隻讀取參數的話，我們需要提前定義好對應的網絡對象，然後通過讀取參數的方式，爲網絡的結構中填充相應的參數。

7. RNN 迴歸

前面我們介紹了 CNN 的創建方式，常用的網絡層，基於此的基礎上，又介紹了一些其它的相關操作，比如 GPU 加速等。現在我們來看系列教程的最後一部分，就是如何使用 RNN。

以 RNN 爲例，我們構建一個迴歸器，以此來介紹 RNN 在 pytorch 中的使用方法，幫助大家入門 RNN 的操作過程。

7.1 RNN 參數

我們這裏不再贅述 RNN 的定義和內容，在本節後面的文章鏈接中，詳細的介紹了這一部分。我們在這裏只說一下在 pytorch 中的 RNN 類可以設置的參數。

input_size ：這個參數表示的輸入數據的維度。比如輸入一個句子，這裏表示的就是每個單詞的詞向量的維度。

hidden_size ：可以理解爲在 CNN 中，一個卷積層的輸出維度一樣。這裏表示將前面的 input_size 映射到一個什麼維度上。

num_layers ：表示循環的層數。舉個栗子，將 num_layers 設置爲 2，也就是將兩個 RNN 堆疊在一起，第一層的輸出作爲第二層的輸入。默認爲 1。

nonlinearity ：這個參數對激活函數進行選擇，目前 pytorch 支持 tanh 和 relu，默認的激活函數是 tanh。

bias ：這個參數表示是否需要偏置項，默認爲 True。

batch_first ：這個是我們數據的格式描述，在 pytorch 中我們經常以 batch 分組來訓練數據。這裏的 batch_size 表示 batch 是否在輸入數據的第一個維度，如果在第一個維度則爲 True，默認爲 False，也就是第二個維度。

dropout ：這裏就是對每一層的輸出是否加一個 dropout 層，如果參數非 0，那麼就會加上這個 dropout 層。值得注意的是，對最後的輸出層並不會加，也就是這個參數只有在 num_layers 參數大於 1 的時候纔有意義。默認爲 0。

bidirectional ：如果爲 True，則表示 RNN 網絡爲雙向結構，默認爲 False。

這些參數的給定，我們就可以輕鬆的去設置我們想要的 RNN 結構。此處 input_size 和 hidden_size 是兩個必須傳入的參數，需要讓網絡知道將什麼維度的輸入映射到什麼維度上去。其餘的參數都給了比較常用的默認值。

7.2 迴歸器：用 sin 預測 cos

在這裏我們舉一個非常容易理解的例子。也不去折騰什麼複雜數據集，我們同樣使用一個簡單的自定義數據集：sin 函數作爲 data，cos 函數作爲 label。因爲重點是學習 RNN 的使用，所以我們無需測試集，只看訓練的擬合程度，判斷是否成功收斂就可以了。

首先給出來我們定義的 RNN 結構，再對其中的細節進行解讀：

class RNN(nn.Module):
    def __init__(self):
        super(RNN, self).__init__()
        self.rnn = nn.RNN(
            input_size=1,
            hidden_size=32,
            batch_first=True,
        )
        self.out = nn.Linear(32, 1)

    def forward(self, x, h_state):
        r_out, h_state = self.rnn(x, h_state)
        outs = []
        for time_step in range(r_out.size(1)):
            outs.append(self.out(r_out[:, time_step, :]))
        return torch.stack(outs, dim=1), h_state

我們先看第一部分 RNN 的結構上，定義了三個參數：input_size，hidden_size，batch_first。

input_size 我們設置爲 1，是因爲每次輸入的數據上，只有一個點的位置，數據是一維數據；

hidden_size 設置爲 32，表示我們想要將這個數據映射到 32 維的隱空間上，這個值由自己進行選擇，不要太小，也不要太大（太小會導致擬合能力較差，太大會導致計算資源消耗過多）；

batch_first 設爲 True ，表示我們的數據格式中，第一個維度是 batch。

最終，根據前面對參數的介紹，可以得知，我們構建了一個單層的 RNN 網絡，輸入的每個 time_step 上的數據都是一維的，通過將其映射到 32 維的隱空間上，來發掘對標籤數據的擬合關係。

接下來我們看一下 forward 函數中的內容，與 CNN 的 forward 中有些不一樣。在 CNN 中，我們直接將對應的網絡結構往一起拼接就可以，這裏多了一些奇怪的參數。這是爲什麼呢？

從第一行開始看起，首先 RNN 我們都知道，每個 time_step 的循環中，都是將上一個循環的隱狀態和當前的輸入結合起來作爲輸入。那麼 r_out 和 h_state 就是當前狀態的輸出和隱狀態。

第二行的 outs 是一個空列表，用來存儲什麼內容呢？我們往下看。

後面是一個 for 循環，循環的次數取決於 r_out.size(1)。這個參數表示什麼呢？r_out 我們知道是輸出，這個輸出的格式應該和輸入是相同格式（batch，time_step，hidden_size），所以 r_out.size(1) 表示了這批數據的 time_step 的大小，也就是這批數據有多少個點。將對應的數據進行 self.out() 操作，也就是將 32 維的數據再映射到 1 維，並將結果 append 到 outs 中。

這裏我們就知道前面定義的 outs 列表用來裝什麼數據了，最後將結果 stack 起來，作爲 forward 的返回值。

這裏看一下訓練過程中的擬合情況：