教程:用谷歌圖片搜索自制深度學習數據集
銅靈 編譯整理量子位 出品 | 公衆號 QbitAI
就怕前腳剛立志搞個新研究,後腳就發現沒有合適的數據集可用。AI工程師從入門到放棄,可能就是這麼一會的功夫。
別找了,現在深度學習數據集也能自制了。
在這份教程中,來自fast.ai的小哥哥Francisco Ingham就想手把手教你,如何利用谷歌圖片搜索,DIY一份自己的深度學習數據集出來,還不會違反谷歌服務條例。
整裝待發,這樣的好事其實需要六步就夠了。
Let’s Go
第1步:搜索圖像
非常簡單,就像平時在谷歌圖片中查找圖像一樣,輸入關鍵詞,搜索你感興趣的圖像。
谷歌圖像最多顯示700張圖像,所以一頁到底再點擊“顯示更多”,直到加載完畢。
小竅門:輸入的關鍵詞越精準,最後得到的數據集質量也越高。
第2步:下載圖片
在瀏覽器中運行下面這段Javascript代碼,創建數據集中所有圖像的URL:
然後將這些URL保存到一個文件夾中,以備後用。
第3步:創建目錄將URL傳至服務器
上一步的成果,現在可以拿來用了。不過先得創建一個項目目錄。作者將其命名爲mkdir MyProject,不過“MyProject”可以替換成你喜歡的項目名字。
按下“Upload”鍵,將上傳URL地址一鍵上傳到這個目錄中。
第4步:下載圖像
上傳到上面目錄後,就能把它們從各自的URL下載下來,得到了初版數據集。
也不麻煩,,每個目錄中都需要運行一次下面這段代碼:
download_images(path/file, dest, max_pics=200)
只需要指定URL文件名和目標文件,就能自動下載保存,在本地就能打開圖像了。
Tips:要下載圖像的數量可以自己選擇。
第5步:篩選圖像
查看新鮮出爐的圖像,可能會發現一些不需要的圖像,此時就需要你手動去篩選和刪除它們了。
如果一開始在谷歌搜索中的關鍵詞沒有設置好,那這一步可能得多費點時間嘍。
第6步:準備訓練目錄
和數據集的衆多兄弟姐妹一樣,在開始使用它前,最好還是把裏面的圖片分成訓練、驗證和測試集。
過完這道坎,你就擁有了一個DIY的深度學習數據集了,此時有沒有感覺贊讚的?
傳送門
GitHub項目地址:
https://github.com/lesscomfortable/google-image-dataset
此外,Francisco Ingham還將教程搬到了fast.ai的課程倉庫中,是用Jupyter Notebooks寫成的。不過剛量子位看時還沒有搬完。如果原地址找不到了,不妨來這裏看看:
https://github.com/fastai/course-v3/blob/master/nbs/dl1/download_images.ipynb
條條大路通教程,祝你學有所得~
— 完 —
活動策劃招聘
量子位正在招聘活動策劃,將負責不同領域維度的線上線下相關活動策劃、執行。歡迎聰明靠譜的小夥伴加入,並希望你能有一些活動策劃或運營的相關經驗。相關細節,請在量子位公衆號(QbitAI)對話界面,回覆“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態
查看原文 >>