Jeden rok, 200 milionů postů a anomálie Chanmineru
Dvacátého dubna to byl rok, co začal běžet projekt Chanminer se skromným cílem zachovat to nejhorší z internetu pro budoucí generace. Zrovna v té době překročil magickou hranici 200 milionů archivovaných postů, které dohromady představují 22% historie 4chanu.
K té příležitosti jsem udělal malou vizualizaci (1880x36170 pixelů), která ukazuje zarchivované a chybějící posty „nejaktivnějšího boardu na 4chanu .(ano správně, jde o /b/)“. Výsledek byl zajímavý.
Spousta děr a chybějících bloků, kdy Chanminer nefungoval, padalo mi JVM, na straně 4chanu se změnilo html a Chanminer jej nemohl parsovat, posílali chybné nebo žádné hlavičky last-modified nebo jsem jednoduše zrovna dostal ban. Spousta postů mi uteklo, ale trend je takový, že se pokrytí zlepšuje a ostatní méně frekventované boardy jsou na tom s pokrytím výrazně lépe.
Na konci vizualizace se vyskytl zvláštní artefakt: absolutně pravidelné čáry signalizující chybějící posty.

Nejdřív jsem si myslel, že jde o zaokrouhlovací chyby. Vizualizační skript jsem napsal v PHP, které nemá celočíselné dělení. Předpokládal jsem, že při výpočtech s vysokými id, kdy se čísla převádějí z intů na floaty a nazpátek, se to celé začne chovat divně.
Později jsem vizualizační skript přepsal do jazyka Go, který má celočíselné dělení, ale defekt se opakoval. Zase ty podivné čáry. Že by byla chyba na mojí straně? Nebylo by to poprvé, jedna chyba s defaultním chováním timestampů v databázi znehodnotila několik set tisíc postů.
Zahleděl jsem se tedy do notně zazoomované vizualizace, sledoval jsem rozložení chyb a vyšel mi tenhle vzor: 10 správně – 1 chybí – 10 správně – 1 chybí – 10 správně – 1 chybí – 10 správně – 1 chybí – 10 správně – 1 chybí – 10 správně – 1 chybí – 10 správně – 1 chybí – 10 správně – 1 chybí – 10 správně – 2 chybí. Vzor se opakoval beze změny.
To skoro vypadá jako… A pak mě to trklo: doubles.
Tohle je důkaz toho, že na /b/ žádný post nemůže mít id, končící dvojicí stejných čísel. Tyhle posty generovaly velice, velice otravná vlákna a shitposting.
Z dat (ukázka níže) vyplývá, že blokování dvojic začalo 17. února 2012, kdy moot (nejspíš) začal blokovat jednu dvojici a pak 22. února začal blokovat všechny. Zároveň je vidět, že se netýká trojic a vyšších.
date | doubles | pozn |
---|---|---|
2012-02-13 | 22330 | ← 100% doubles = 10% postů |
2012-02-14 | 20692 | |
2012-02-15 | 18208 | |
2012-02-16 | 18383 | |
2012-02-17 | 2155 | ← 10% doubles |
2012-02-18 | 2201 | |
2012-02-19 | 2187 | |
2012-02-20 | 1176 | |
2012-02-21 | 1484 | |
2012-02-22 | 319 | ← 1% doubles |
2012-02-23 | 146 | |
2012-02-24 | 4 | ← chyba není na vašem přijímači |
2012-02-25 | 177 | |
2012-02-26 | 189 | |
2012-02-27 | 188 | |
2012-02-28 | 192 |
A teď jste zase o něco chytřejší.
