k47.cz

twitter RSS
««« »»»

Dodělávky

4. 6. 2020 — k47

Ve dnech karantény se mi podařilo dorazit pár článků, které mi dlouho ležely na disku. Nebylo to nijak extra komplikované, jen jsem se musel odhodlat & psát. To se podařilo, teprve když se Republika téměř úplně zastavila. Pak světlo světa konečně spatřily tyhle věci původně začaté někdy i víc než před rokem. (Protip: přestaňte psát v místě, odkud můžete další den snadno pokračovat; neodkládejte práci v obtížném bodě, motivace se vám bude hledat mnohem hůř.) To všechno fajn.

Ve dnech podstatně současnějších, (id est teď) se nacházím opět v podobném módu. Žongluju několik „projektů“, programuju ve čtyřech jazycích, často najednou (nevěřte ničemu, co se vám PR manipulátoři ze silicon valley snaží nalhat, polyglotní prog je strašné nepříjemné, přepínání mezi kontexty hodně stojí). Do toho jsem dneska začal s další věcí, kterou jsem taky měl na plánu už pár let. Chtěl jsem udělat interaktivní věc, ve níž byste mohli zjistit frekvence slov používaných na 4chanu během let; něco jako n-gram viewer, jen pro n=1 a tu nejhorší končinu internetu. Začal jsem někdy přes den & v noci to skoro dotáhnul do konce. Skoro.

Mám skript, který sežere archivy 4chan, vytahá frekvence slov, z nich vytvoří indexový soubor (relační databáze netřeba) + webový skript, který index čte & přes SVG zobrazí jako graf. To bylo fajn, ale přesto nic moc. Aby vynikl účel, jsou potřeba data. Na notebooku se mi válí archiv asi rok nebo dva nazpátek & to je málo. Je potřeba víc. Mnohem víc. Ty poklady jsou uschovány na serveru rustbucket napěchovaném rotující rzí. Většinou neběží, protože cena za elektrony by nebyl úplně nulová; většinou jen tiše leží ve svinčíku Cely & vyčkává svůj okamžik. Ten nadešel právě teď.

Jako první krok jsem naimportoval 8 let historie /pol/ – místa, odkud se na 4chan dostala nákaza alt-right – celkem něco přes 4 miliardy slov textu. Když počítám jen 100000 top termínů, index i tak zabere ±200MB. To nemusí vypadat jako moc, ale bavíme se tu o jednom boardu asi z padesáti + rád bych indexoval 1M top termínů + někde mám ještě dva roky historie & to se rychle nastřádá.

Tady někde jsem pozdě v noci skončil. Velikost by se měla dát celkem bez problémů seříznout na polovinu a možná víc, když se budu snažit. Na tyhle dodělávky ale potřebuju víc času.

píše k47 & hosté, ascii@k47.cz