k47.cz  — každý den dokud se vám to nezačne líbit
foto Praha výběr povídky kultura
twitter FB RSS
««« »»»

It's time for science. 4chan science!

29. 11. 2012 — k47 (CC by) (♪)

I když o pro­jektu Cha­n­mi­ner – snahy za­rchi­vo­vat celý 4chan a z vý­sled­ných dat ex­tra­ho­vat Čistou Krys­ta­lic­kou Vědu – nepíšu, stále běží a už více než rok a půl od spuš­tění pořád vesele ar­chi­vuje.


V po­slední době mi moot po­ně­kud usnad­nil scra­po­vací práci, když na 4chanu začal po­sky­to­vat JSON API. I když tohle roz­hraní má nějaká ome­zení (ma­xi­málně jeden po­ža­da­vek za vte­řinu), tak jde o pře­kážky čistě te­o­re­tické (už jsem vám říkal, jak jsem ro­bo­to­val Reddit s pomocí 400 proxy ser­verů, jenom abych obešel velice po­dobný limit?).

Na­štěstí pro moje scrap­per­ské know-how pořád mám uplat­nění, pro­tože near­chi­vuji jenom matku všech chanů, ale i mnoho dal­ších image­bo­ardů (420chan, 7chan, kraut­chan, 2chan, po­nychan, nějaké polské chany, jeden ruský a ještě pár men­ších kousků).

Pro­jekt už běží dost dlouho, stál mě dost úsilí, nervů a místa na disku na to, aby při­nesl nějaké mě­ři­telné vý­sledky. Za rok a půl by měl vy­tvo­řit tolik Vědy, že by se dala stáčet do lahví, žejo?

Ne tak docela, ale nějaké ty vý­sledky už při­nesl.

Už dříve jsem psal o tom, jak jsem po­tvr­dil zákaz doubles na /b/ a /v/, zjiš­ťo­val odkud jsou lidi z /int/ a z /sp/ a se­sta­vo­val seznam nej­čas­těji po­sto­va­ných ob­rázků.

K této tro­jici teď při­dá­vám další dvě Zcela Zá­sadní Vě­decké Studie:

(Při­lo­žené grafy se ne­snažte roz­luš­tit, nemůže se vám to nikdy po­da­řit; berte je jenom jako lehce ne­vkus­nou de­ko­raci.)

V ná­sle­du­jí­cích dnech a týd­nech bych si chtěl po­sví­tit na ob­rázky a jejich re­posty. Je známo, že kolem 30% postů má při­lo­žen ob­rá­zek z nichž 60% jsou re­posty. Po­měrně snadno by se dalo zjis­tit, kolik ob­rázků jdou přímé re­posty z tum­blru nebo z De­vi­an­tArtu. Kdy­bych do dat šťou­ral do­sta­tečně dlouho, dalo by se zjis­tit, kolik ob­rázků je re­post­nu­tých z ně­ja­kého chanu a hlavně jak staré jsou jed­not­livé re­posty – neboli, kdy při­bližně uži­va­tel re­po­sto­vaný ob­rá­zek pů­vodně uložil. Po tom bych se chtěl vě­no­vat čet­nosti slov a n-gramů v prů­běhu času. Z toho by se daly (možná) zjis­tit nějaké (možná) za­jí­mavé trendy (možná).

Oba nové Zcela Zá­sadní Vě­decké Články jsem napsal en­g­licky. Je to jednak proto, že budou hlavně za­jí­mat ci­zo­ja­zyčné pu­b­li­kum a také proto, že češ­tina jed­no­duše po­strádá slova, která by do­ká­zala popsat kul­turu chanů (a české pře­klady vždycky zní divně a ne­pa­t­řičně). A dlouho před pu­b­li­kací tady na k47čce jsem je zve­řej­nil na /r9k/ za­š­ti­ťu­jící se iden­ti­tou In­sti­tute for point­less in­ter­net stu­dies (ar­chi­vo­vaná vlákna jsou tadytady) /r9k/ proto, že 4chan nemá nějaký meta board a robot se zdál jako místo pro obec­nou dis­kuzi, kde se moje vlákno ne­ztratí v pro­pad­lišti dějin do deseti minut.

píše k47 & hosté, ascii@k47.cz