k47.cz  — každý den dokud se vám to nezačne líbit
foto Praha výběr povídky kultura
twitter FB RSS
««« »»»

Jeden rok, 200 milionů postů a anomálie Chanmineru

25. 4. 2012 — k47 (CC by-sa)

Dva­cá­tého dubna to byl rok, co začal běžet pro­jekt Cha­n­mi­ner se skrom­ným cílem za­cho­vat to nej­horší z in­ter­netu pro bu­doucí ge­ne­race. Zrovna v té době pře­kro­čil ma­gic­kou hra­nici 200 mi­li­onů ar­chi­vo­va­ných postů, které do­hro­mady před­sta­vují 22% his­to­rie 4chanu.


K té pří­le­ži­tosti jsem udělal malou vi­zu­a­li­zaci (1880x36170 pixelů), která uka­zuje za­rchi­vo­vanéchy­bě­jící posty nej­ak­tiv­něj­šího boardu na 4chanu. Vý­sle­dek byl za­jí­mavý.

Spousta děr a chy­bě­jí­cích bloků, kdy Cha­n­mi­ner ne­fun­go­val, padalo mi JVM, na straně 4chanu se změ­nilo html a Cha­n­mi­ner jej nemohl par­so­vat, po­sí­lali chybné nebo žádné hla­vičky last-mo­di­fied nebo jsem jed­no­duše zrovna dostal ban. Spousta postů mi uteklo, ale trend je takový, že se po­krytí zlep­šuje a ostatní méně frek­ven­to­vané boardy jsou na tom s po­kry­tím vý­razně lépe.

Na konci vi­zu­a­li­zace se vy­skytl zvláštní ar­te­fakt: ab­so­lutně pra­vi­delné čáry sig­na­li­zu­jící chy­bě­jící posty.

Nejdřív jsem si myslel, že jde o za­o­krouh­lo­vací chyby. Vi­zu­a­li­zační skript jsem napsal v PHP, které nemá ce­lo­čí­selné dělení. Před­po­klá­dal jsem, že při vý­po­čtech s vy­so­kými id, kdy se čísla pře­vá­dějí z intů na floaty a na­zpá­tek, se to celé začne chovat divně.

Poz­ději jsem vi­zu­a­li­zační skript pře­psal do jazyka Go, který má ce­lo­čí­selné dělení, ale defekt se opa­ko­val. Zase ty po­divné čáry. Že by byla chyba na mojí straně? Nebylo by to poprvé, jedna chyba s de­fault­ním cho­vá­ním ti­mestampů v da­ta­bázi zne­hod­no­tila ně­ko­lik set tisíc postů.

Za­hle­děl jsem se tedy do notně za­zo­o­mo­vané vi­zu­a­li­zace, sle­do­val jsem roz­lo­žení chyb a vyšel mi tenhle vzor: 10 správně – 1 chybí – 10 správně – 1 chybí – 10 správně – 1 chybí – 10 správně – 1 chybí – 10 správně – 1 chybí – 10 správně – 1 chybí – 10 správně – 1 chybí – 10 správně – 1 chybí – 10 správně – 2 chybí. Vzor se opa­ko­val beze změny.

To skoro vypadá jako… A pak mě to trklo: doubles.

Tohle je důkaz toho, že na /b/ žádný post nemůže mít id, kon­čící dvo­jicí stej­ných čísel. Tyhle posty ge­ne­ro­valy velice, velice otravná vlákna a shit­po­sting.

Z dat (ukázka níže) vy­plývá, že blo­ko­vání dvojic začalo 17. února 2012, kdy moot (nej­spíš) začal blo­ko­vat jednu dvo­jici a pak 22. února začal blo­ko­vat všechny. Zá­ro­veň je vidět, že se netýká trojic a vyš­ších.

date doubles pozn
2012-02-13 22330 ← 100% doubles = 10% postů
2012-02-14 20692
2012-02-15 18208
2012-02-16 18383
2012-02-17 2155 ← 10% doubles
2012-02-18 2201
2012-02-19 2187
2012-02-20 1176
2012-02-21 1484
2012-02-22 319 ← 1% doubles
2012-02-23 146
2012-02-24 4 ← chyba není na vašem při­jí­mači
2012-02-25 177
2012-02-26 189
2012-02-27 188
2012-02-28 192

A teď jste zase o něco chytřejší.

píše k47 & hosté, ascii@k47.cz