k47.cz  — každý den dokud se vám to nezačne líbit
foto Praha výběr povídky kultura
twitter FB RSS
««« »»»

Projekt Chanminer

21. 10. 2011 — k47 (CC by-nc-sa) (♪)

Na 4chan jsem poprvé za­ví­tal krátce po in­ci­dentu Boxxy a ná­sled­ném shit­stormu. To bylo někdy na za­čátku roku 2009 a od té doby ne­u­ply­nul den, abych nebyl na ně­ja­kém chanu.

O dva a čtvrt roku poz­ději jsem spus­til Cha­n­mi­ner, který už 6 měsíců v kuse pro­chází a ar­chi­vuje 4chan a další velké image­bo­ardy neboli chany.


Ve světě chanů je ob­vyklé, že nemají žádnou paměť, žádný archiv a stará vlákna se za nějaký čas ne­ná­vratně ztratí v pro­pad­lišti dějin. A právě tohle je jejich nej­lepší vlast­nost. Nulová paměť a široce po­u­ží­vaná ano­ny­mita vy­tvo­řila spe­ci­fic­kou kuturu, kde je všechno do­vo­leno a člověk může říkat, co si do­o­pravdy myslí a není hod­no­cen podle toho kým je, ale jen a pouze podle svých slov. Není k ničemu vázán, není ničím ome­zo­ván.

Jestliže je za­po­mět­li­vost chanů jejich hlavní před­nost, tak proč se sakra snažím všechno ar­chi­vo­vat? Jednak jako pa­mátku pro bu­doucí ge­ne­race, ale hlavně kvůli vě­dec­kému po­znání, po­cho­pi­telně. Hlavní smysl Cha­n­mi­neru je iden­ti­fi­ko­vat ra­ko­vinu, která zabíjí 4chan. Už od ne­pa­měti si všichni stě­žují, že /_/ není, co bývalo a že je tady nějaké blíže ne­spe­ci­fi­ko­vané něco, co zabíjí /_/. Účel Cha­n­mi­neru je tedy určit jestli kva­lita chanů stoupá nebo klesá. Zatím tedy nemám nejmeší ponětí, jak něco ta­ko­vého změřit, ale jednou na to přijdu.

Hlavní in­spi­rací pro Cha­n­mi­ner byla jedna před­náška na DE­F­CONu 2005 Meme Mining for Fun, Profit, kde před­ná­še­jící mluvil o tom, jak ana­ly­zo­val trendy v pro­gra­mo­va­cích ja­zy­cích, aby zjis­til, co přijde v bu­doucnu a mohl se naučit všechny po­třebné tech­no­lo­gie a pak zářit jak pro­gra­má­tor­ská su­per­star. Jedním z hlav­ních po­sel­ství oné před­nášky bylo: nejdřív musíte mít data. A tak vznikl Cha­n­mi­ner. Začal jako jed­no­du­chý curl skript, který pe­ri­o­dicky ro­bo­to­val 4chan, ale rychle se vy­vi­nul v celkem kom­pli­ko­vaný systém na­psaný ve Scale, který kromě 4chanu ar­chi­vuje 420chan.org 4chon.net, 7chan.org, britfa.gs, ope­ra­tor­chan.org, ano­ther­talk.co.cc, laghouls.com/forum, mi­ni­chan.org, ota­ku­talk.org a ti­nychan.org.

Jak už jsem zmínil, Cha­n­mi­ner běží ne­pře­tr­žitě už 6 měsíců a za tu dobu na­sbí­ral 90 mi­li­onů postů, 4,2 mi­li­onů vláken a každý den pri­bude dal­ších 500000 postů (a tohle tempo je až pře­kva­pivě sta­bilní). V řeči MySQL: 28GB dat, 5,8BG indexů a oby­čejný count(*) trvá přes 8 minut.

Sa­motné ro­bo­to­vání je až pře­kva­pivě ne­ná­ročné: tex­tová část všech zmí­ně­ných chanů po­tře­buje stálý datový tok kolem 50kB/s. Ro­bo­to­vání všech ob­rázků v plné ve­li­kosti mi plně vytíží při­po­jení (~450kB/s), takže když už to běží, tak vět­ši­nou nějak ome­zeně.


Abych ukázal, že se sku­tečně něco děje, tak prv­ních 5 mi­li­onů postů si můžete stáh­nout tady (po­tře­bu­jete ještě tohle schéma MySQL da­ta­báze). A kdyby někdo toužil po kom­plet­ním ar­chivu, stačí mi poslat ob­rov­kou hro­madu peněz a nějak se určitě do­mlu­víme.

Kromě Cha­n­mi­neru nevím o žádném dalším bě­ží­cím ar­chivu. Tedy kromě Jasona Scotta z text­fi­les.com, který má údajně archiv 10 mi­li­onů vláken 4chanu před­sta­vu­jící 5 let jeho his­to­rie. Ale ne­hodlá nic pu­b­li­ko­vat (aspoň ne v nej­bliž­ších letech) pro­tože správně tuší, že by pak ná­sle­do­val shit­storm epic­kých roz­měrů.

další části napíšu pár drob­ností o tom jak je Cha­n­mi­ner na­pro­gra­mo­vaný ve Scale.

píše k47 & hosté, ascii@k47.cz