k47.cz
výběr kolo foto makro povídky kultura
koronavirus TECH ▞▞ 🞄⬤🞄 | twitter RSS
««« »»»

Chanminer: 400 giga toho nejhoršího, co internet nabízí

7. 12. 2020 — k47

Cha­n­mi­ner stále běží. Téměř 10 let ne­pře­tr­ži­tého ar­chi­vo­vání 4chanu, jedné z nej­hor­ších končin in­ter­netu, nikdy ne­pře­stalo. Teď to celé jede na Raspberry Pi, jen 2 watty ener­gie, po­ti­chu sta­huje data z webu, který si po­pravdě ne­za­slouží nic lep­šího než ne­pří­liš ce­re­mo­ni­ální konec své exis­tence. Jediná známka ak­ti­vity, že celá ope­race po­kra­čuje, je bli­ka­jící diodka u ether­ne­to­vého portu. Jednou za ~14 dní data z SD karty vy­klo­pím na disk, jeden příkaz, který je po­sta­huje, pře­kom­pri­muje přes zstd a přidá na hro­madu k těm starým. Dlou­hou dobu exis­tují jen na je­di­ném disku, na sta­řič­kém SSD na laptopu, bez záloh, bez RAIDu. Teď mi tu leží asi rok a půl ar­chivů.

Nedělá mi to moc sta­rosti, nejsem si jistý, jakou ten poklad má vlastně hod­notu. Na za­čátku pro­jektu v roce 2011 jsem v ja­kousi hod­notu věřil, ale teď ne tak docela. Je to jen záznam gra­du­álně sílící ne­ná­visti, ra­sismu a těch nej­hor­ších lid­ských rysů, mag­ni­fi­ko­va­ných ano­nym­ním pro­stře­dím do gro­teskní podoby.

A když to nemá žádnou hod­notu, tak to po­stupně zve­řej­ním. Proč ne? Kdo to za­staví?

Když jsem to zkou­šel minule, web­hos­tér se rychle ozval s tím, že takhle to dál ne­pů­jde, že jim to zabíjí da­ta­bázi. Jo, to bylo fér. Teď tam žádná da­ta­báze není, jen sou­bory s daty a sou­bory s indexy, ne­hledá se v B-stro­mech, jen se na­vi­guje přes (ma­xi­málně 3) per­si­s­tentní poin­tery. Vypadá to jako celkem svižná věc na to, že se v ní válí zatím 13 mi­li­onů postů. Každá stránka by měla být hotová do 3-5 mi­li­sekund ne­hledě na to, jak velké to na­ko­nec bude.

Ve finále by se tam mohlo vy­skyt­nout hodně přes jednu a půl mi­li­ardy postů1 , ale na to po­tře­buju mi­ni­málně 400 giga jen pro texty. Ob­rázky jsem se snažil ar­chi­vo­vat pouze na sa­mot­ném za­čátku sna­žení, ale z důvodu malých disků pře­stal.

Nemám dost místa, ale nechce se mi za to dávat ani korunu navíc. Jak jsem řekl, jde o bez­cenný odpad.


  1. K 25. 2. 2021 v ar­chivu leží 2.44 mi­li­ard postů.
píše k47 & hosté, ascii@k47.cz