Bandcamp explorer - 9 milionů
Historie se opakuje. Když jsem se posledně zmiňoval, že bandcamp explorer indexuje 6 milionů alb a singlů, zas to nebyla pravda. Už v té chvíli index překročil metu 8 milionů nahrávek.
Všimnul jsem si totiž, že se na webu bandcampu dá doklikat na kompletní seznam
všech umělců a skupin a ten seznam byl překvapivě dlouhý – asi 2 miliony
skupin a velká část z nich zcela chyběla v mém indexu. Obratem jsem nacvakal
pár řádků PHP kódu, začal crawlovat tyto katalogy a alba přibývala. Hlavně pak
singly. Na bandcampu to funguje tak, že singly se neukazují v API dig_deeper
,
pouze alba. Skupina nebo umělec, co publikuje jen singly, může unikat bez
povšimnutí dokud nevydá album nebo dokud se odkaz na jeho tvorbu neobjeví v nějakém postranním kanálu. Z každé HTML stránky stažené z bandcampu extrahuju
všechny odkazy a z nich vytahám ty, které vypadají, že odkazují na BC alba nebo
singly, jež zatím nejsou v databázi. Tímhle způsobem do indexu přibude kolem
100 záznamů denně. Ne úplně málo, přesto nedostatečné pro objevení těch dvou milionů
skrytých nahrávek, které dosud existovaly mimo moje zorné pole.
Když jsem začal tahat kompletní katalog všeho, na povrch začalo vyplavávat velké množství spamu.
Na jedné straně to byl očividný spam, který se člověku snaží prodat něco mimo bandcamp: call girls, keto dieta, gumoví medvídci s kanabidiolem. S tím si poradí jednoduchý blacklist, žádný problém.
Na straně druhé se začal objevovat spam, který se člověku snažil prodat podvodná alba. Vždy to bylo stejné: umělec vystupoval jako jednotlivec (Ariel Brandt, Maria O'Brein, Calvin Valentinee, Julie Janet, Margaret Helen a podobné), jako bio nějaká generická semi-motivační věta, žádný odkaz nikam jinam, na internetu se jinde nevyskytuje, generická hudba bez zjevného autorského stylu, možná generovaná AI a na vrch ukradený obrázek jiného alba, jméno a název nikdy neseděl s tím uvedeným na bandcampovské stránce. Takový spammer pod daným jménem publikuje album, aby bylo viditelné v seznamech, ale jen jedno, aby nevzbudil podezření a čeká, až se někdo chytí a vyplázne podvodníkovi pár dolarů.
Na první kategorii spammerů stačí nasadit nepříliš komplikovanou černou listinu. Pět nebo šest regexů vyfiltruje většinu nákazy. S tou druhou je to komplikovanější a v součastnosti používám strategii nedělat nic. Bandcamp spammery sám za čas odhalí a nějakou dobu poté můj robot objeví, jací umělci byli smazáni a vyhodí je z indexu. Není to ideální a bude to jen horší. AI spam bude jen efektivnější a vlezlejší.
V současné době bandcamp explorer indexuje přes 9 milionů alb a za dva roky jeho existence 432 tisíc alb – 4.8% současného objemu – zmizelo v závějích času. Ne všechno byl nutně spam, ale tipuji, že spamu nebylo málo.
Do budoucna, jako varování před potenciálním spamem, nejspíš přidám indikaci, že autor publikoval jen jedno album, které nese známky nekalých praktik.