k47.cz
výběr kolo foto Praha povídky kultura
TECH ▞▞ | twitter RSS
««« »»»

Na co se budeme dívat dneska?

13. 10. 2020 — k47

Jak se roz­hod­nout, na jaký film se po­dí­vat? Co třeba tohle: Stáh­nout všechna uži­va­tel­ská hod­no­cení z ČSFD, pro­hnat je přes al­go­rit­mus NN-descent a pak to dát na web.

Už jsem to jednou dělal, podle his­to­ric­kých zá­znamů v roce 2015 (nebo možná už 2014) vý­sled­kem byl webík, do kte­rého jste zadali jméno filmu a našlo to snímky podle hod­no­cení lidí z ČSFD po­dobné. A byla to hrůza. Běželo to na VPSce s mon­goDB jako da­ta­bázi. Ta sou­časná verze je mnohem víc spar­tán­ská, ale jinak ťip ťop.

Během jed­noho večera jsem scrapnul celé ČSFD skrip­tem od minula, data vy­čis­til, pro­hnal je al­go­rit­mem NN-descent, který jsem napsal už dřív v jazyce D, z vý­sledků vy­ro­bil jed­no­du­chý bi­nární soubor, na­cvakal PHP skript jako webo­vou tvář celého počinu, vše nahrál na server & hotovo. Žádná da­ta­báze, tři sou­bory a rychlé jako stín. Idea je taková, že to beze změny může na ser­veru sedět a fun­go­vat až do konce věků. Kromě části v D, která je nóbl, jsou všechno jen zbrklé PHP frag­menty po­sle­po­vané do­hro­mady BASHem. Tohle kombo má, jak říkal Larry Wall, skvě­lou whi­pap­ti­tude.

Docela dobrý vý­sle­dek na ak­ti­vitu jed­noho večera a to jsem velkou část času strá­vil če­ká­ním, až do­běhne crawlo­vání (tímto bych chtěl po­dě­ko­vat ČSFD za spo­lu­práci, že ne­pro­tes­to­vali proti agre­siv­nímu ra­bo­vání). Pak jsem taky chvíli pře­mýš­lel nad vhod­nou me­t­ri­kou po­dob­nosti, u toho jsem usnul, pro­bu­dil se, pře­mýš­lel ještě chvíli, pak jsem ale zkusil to nej­jed­no­dušší s tím, že se uvidí a uvi­dělo se. Jac­card na uži­va­te­lích, který film jak­koli hod­no­tili, fun­guje docela OK a navíc je to velice rychlé díky SIMD kouz­lení. Zkou­šel jsem ještě mno­žinu hod­no­cení pro­mít­nout minha­shem a po­rov­ná­vat po­dob­nosti na ske­čích, ale to bylo jednak pomalé a druhak ne­přesné. NN-descent je mnohem lepší, rychlý a přesný a navíc se pro vy­lep­šení vý­sledků dá pustit ně­ko­li­krát a data pak spojit. Bez toho ma­né­vru by to třeba ne­na­šlo Ivan Vasilje­vič mění po­vo­lání jako do­po­ru­čení k Kin-dza-dza!.

Ukázky vý­sledků: Vi­deodrome tady, Color out of space tady, Con­tagion tady, An­ni­hi­lation tadyOne Cut of the Dead tady.

Trpí to kla­sic­kými ne­do­statky jako že velice po­pu­lární po­ložky mají ten­denci splý­vat. Každý velký film je po­dobný kaž­dému vel­kému filmu a nemá to jemný dis­kri­mi­nační po­ten­ciál jako u men­ších snímků. Můžeme se na to dívat jako na další formu vy­me­zení, ne žánro­vou, ale jako bloc­kbus­ter, což je ka­te­go­rie sama pro sebe. I přes ne­do­statky jsem už našel pár kan­di­dátů na shléd­nutí. Al­go­rit­mus mi tlačí skoro všechno od Cro­nenberga.

píše k47 & hosté, ascii@k47.cz