Umelá inteligencia - vytvorenie datasetu
V minulom zápisku som napísal pár riadkov o tom ako začať s programovaním našej prvej umelej inteligencie pre rozpoznávanie obrazu, dnes to zas bude pár riadkov o tom kde si pre ňu zaobstarať dáta.
Pre naučenie umelej inteligencie potrebujeme nejaké trénovacie dáta (dataset), v našom prípade obrázky. Buď si ich vytvoríme mobilom, foťákom, kamerou, simuláciou alebo si ich musíme niekde stiahnuť. Pozrieme sa ako sa dajú nejak jednoducho stiahnuť.
❶
Ako prvú možnosť máme sťahovať si ich po jednom z nášho obľúbeného internetového vyhladávača.❷
Môžeme si našim obľúbeným internetovým vyhladávačom nájsť stránky na ktorých nájdeme požadované datasety.➌
Prípadne šiahneme po nejakých overených datasetoch ako je napríklag kaggleAlebo Open Images Dataset V6+
➍
Môžete použiť aj rozcestník na všelijaké datasety ako napríklad Awesome Public Datasets➎
Alebo môžete použiť DuckDuckGo image downloader. Nainštalujeme ho príkazom:git clone https://github.com/wfr/ddg-image-search cd ddg-image-searcha spustíme:
python3 ddg-image-search.py --type all --limit 1 --destdir images "cat"DuckDuckGo ale nijak nerieši licencie obrázkov.
➏
Ak budete chcieť riešiť licencie obrázkov môžete použiť google_images_download, ktorý je momentálne rozbitý, ale hádam sa to opraví. Nainštalujeme ho príkazompython3 -m pip install google_images_downloada spustíme
python3 ~/.local/lib/python3.7/site-packages/google_images_download/google_images_download.py --limit 10 --output_directory images --type face --keywords "cat"
➐
Prípadne Bulk Bing Image DownloaderNainštalujeme ho príkazom:
git clone https://github.com/ostrolucky/Bulk-Bing-Image-downloader.git cd Bulk-Bing-Image-downloadera sťahovanie spustíme príkazom:
python3 bbid.py -s "cat" --limit 50 --output images --filters +filterui:license-L2_L3
Pre pridávanie komentárov sa musíte prihlásiť.