k47.cz    — každý den dokud se vám to nezačne líbit
foto Praha výběr povídky kultura | twitter FB


««« »»»

Jeden rok, 200 milionů postů a anomálie Chanmineru

25. 4. 2012 — k47 (CC by-sa)

Dvacátého dubna to byl rok, co začal běžet projekt Chanminer se skromným cílem zachovat to nejhorší z internetu pro budoucí generace. Zrovna v té době překročil magickou hranici 200 milionů archivovaných postů, které dohromady představují 22% historie 4chanu.


K té příležitosti jsem udělal malou vizualizaci (1880x36170 pixelů), která ukazuje zarchivované a chybějící posty nejaktivnějšího boardu na 4chanu. Výsledek byl zajímavý.

Spousta děr a chybějících bloků, kdy Chanminer nefungoval, padalo mi JVM, na straně 4chanu se změnilo html a Chanminer jej nemohl parsovat, posílali chybné nebo žádné hlavičky last-modified nebo jsem jednoduše zrovna dostal ban. Spousta postů mi uteklo, ale trend je takový, že se pokrytí zlepšuje a ostatní méně frekventované boardy jsou na tom s pokrytím výrazně lépe.

Na konci vizualizace se vyskytl zvláštní artefakt: absolutně pravidelné čáry signalizující chybějící posty.

Nejdřív jsem si myslel, že jde o zaokrouhlovací chyby. Vizualizační skript jsem napsal v PHP, které nemá celočíselné dělení. Předpokládal jsem, že při výpočtech s vysokými id, kdy se čísla převádějí z intů na floaty a nazpátek, se to celé začne chovat divně.

Později jsem vizualizační skript přepsal do jazyka Go, který má celočíselné dělení, ale defekt se opakoval. Zase ty podivné čáry. Že by byla chyba na mojí straně? Nebylo by to poprvé, jedna chyba s defaultním chováním timestampů v databázi znehodnotila několik set tisíc postů.

Zahleděl jsem se tedy do notně zazoomované vizualizace, sledoval jsem rozložení chyb a vyšel mi tenhle vzor: 10 správně - 1 chybí - 10 správně - 1 chybí - 10 správně - 1 chybí - 10 správně - 1 chybí - 10 správně - 1 chybí - 10 správně - 1 chybí - 10 správně - 1 chybí - 10 správně - 1 chybí - 10 správně - 2 chybí. Vzor se opakoval beze změny.

To skoro vypadá jako... A pak mě to trklo: doubles.

Tohle je důkaz toho, že na /b/ žádný post nemůže mít id, končící dvojicí stejných čísel. Tyhle posty generovaly velice, velice otravná vlákna a shitposting.

Z dat (ukázka níže) vyplývá, že blokování dvojic začalo 17. února 2012, kdy moot (nejspíš) začal blokovat jednu dvojici a pak 22. února začal blokovat všechny. Zároveň je vidět, že se netýká trojic a vyšších.

date doubles pozn
2012-02-13 22330 <- 100% doubles = 10% postů
2012-02-14 20692
2012-02-15 18208
2012-02-16 18383
2012-02-17 2155 <- 10% doubles
2012-02-18 2201
2012-02-19 2187
2012-02-20 1176
2012-02-21 1484
2012-02-22 319 <- 1% doubles
2012-02-23 146
2012-02-24 4 <- chyba není na vašem přijímači
2012-02-25 177
2012-02-26 189
2012-02-27 188
2012-02-28 192

A teď jste zase o něco chytřejší.

píše k47 & hosté, ascii@k47.cz