Umelá inteligencia - vytvorenie datasetu

25.03.2020 | 12:58 | Žumpa | bedňa

V minulom zápisku som napísal pár riadkov o tom ako začať s programovaním našej prvej umelej inteligencie pre rozpoznávanie obrazu, dnes to zas bude pár riadkov o tom kde si pre ňu zaobstarať dáta.

Pre naučenie umelej inteligencie potrebujeme nejaké trénovacie dáta (dataset), v našom prípade obrázky. Buď si ich vytvoríme mobilom, foťákom, kamerou, simuláciou alebo si ich musíme niekde stiahnuť. Pozrieme sa ako sa dajú nejak jednoducho stiahnuť.

Ako prvú možnosť máme sťahovať si ich po jednom z nášho obľúbeného internetového vyhladávača.


Môžeme si našim obľúbeným internetovým vyhladávačom nájsť stránky na ktorých nájdeme požadované datasety.

Prípadne šiahneme po nejakých overených datasetoch ako je napríklag kaggle



Alebo Open Images Dataset V6+


Môžete použiť aj rozcestník na všelijaké datasety ako napríklad Awesome Public Datasets


Alebo môžete použiť DuckDuckGo image downloader. Nainštalujeme ho príkazom:
git clone https://github.com/wfr/ddg-image-search
cd ddg-image-search
a spustíme:
python3 ddg-image-search.py --type all --limit 1 --destdir images "cat"
DuckDuckGo ale nijak nerieši licencie obrázkov.

Ak budete chcieť riešiť licencie obrázkov môžete použiť google_images_download, ktorý je momentálne rozbitý, ale hádam sa to opraví. Nainštalujeme ho príkazom
python3 -m pip install google_images_download
a spustíme
python3 ~/.local/lib/python3.7/site-packages/google_images_download/google_images_download.py --limit 10 --output_directory images --type face --keywords "cat"

Prípadne Bulk Bing Image Downloader
Nainštalujeme ho príkazom:
git clone https://github.com/ostrolucky/Bulk-Bing-Image-downloader.git
cd Bulk-Bing-Image-downloader
a sťahovanie spustíme príkazom:
python3 bbid.py -s "cat" --limit 50 --output images --filters +filterui:license-L2_L3

Prílohy