銅靈 編譯整理量子位 出品 | 公衆號 QbitAI

就怕前腳剛立志搞個新研究,後腳就發現沒有合適的數據集可用。AI工程師從入門到放棄,可能就是這麼一會的功夫。

別找了,現在深度學習數據集也能自制了。

在這份教程中,來自fast.ai的小哥哥Francisco Ingham就想手把手教你,如何利用谷歌圖片搜索,DIY一份自己的深度學習數據集出來,還不會違反谷歌服務條例。

整裝待發,這樣的好事其實需要六步就夠了。

Let’s Go

第1步:搜索圖像

非常簡單,就像平時在谷歌圖片中查找圖像一樣,輸入關鍵詞,搜索你感興趣的圖像。

谷歌圖像最多顯示700張圖像,所以一頁到底再點擊“顯示更多”,直到加載完畢。

小竅門:輸入的關鍵詞越精準,最後得到的數據集質量也越高。

第2步:下載圖片

在瀏覽器中運行下面這段Javascript代碼,創建數據集中所有圖像的URL:

然後將這些URL保存到一個文件夾中,以備後用。

第3步:創建目錄將URL傳至服務器

上一步的成果,現在可以拿來用了。不過先得創建一個項目目錄。作者將其命名爲mkdir MyProject,不過“MyProject”可以替換成你喜歡的項目名字。

按下“Upload”鍵,將上傳URL地址一鍵上傳到這個目錄中。

第4步:下載圖像

上傳到上面目錄後,就能把它們從各自的URL下載下來,得到了初版數據集。

也不麻煩,,每個目錄中都需要運行一次下面這段代碼:

download_images(path/file, dest, max_pics=200)

只需要指定URL文件名和目標文件,就能自動下載保存,在本地就能打開圖像了。

Tips:要下載圖像的數量可以自己選擇。

第5步:篩選圖像

查看新鮮出爐的圖像,可能會發現一些不需要的圖像,此時就需要你手動去篩選和刪除它們了。

如果一開始在谷歌搜索中的關鍵詞沒有設置好,那這一步可能得多費點時間嘍。

第6步:準備訓練目錄

和數據集的衆多兄弟姐妹一樣,在開始使用它前,最好還是把裏面的圖片分成訓練、驗證和測試集。

過完這道坎,你就擁有了一個DIY的深度學習數據集了,此時有沒有感覺贊讚的?

傳送門

GitHub項目地址:

https://github.com/lesscomfortable/google-image-dataset

此外,Francisco Ingham還將教程搬到了fast.ai的課程倉庫中,是用Jupyter Notebooks寫成的。不過剛量子位看時還沒有搬完。如果原地址找不到了,不妨來這裏看看:

https://github.com/fastai/course-v3/blob/master/nbs/dl1/download_images.ipynb

條條大路通教程,祝你學有所得~

— 完 —

活動策劃招聘

量子位正在招聘活動策劃,將負責不同領域維度的線上線下相關活動策劃、執行。歡迎聰明靠譜的小夥伴加入,並希望你能有一些活動策劃或運營的相關經驗。相關細節,請在量子位公衆號(QbitAI)對話界面,回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

查看原文 >>
相關文章