k47.cz
mastodon twitter RSS
bandcamp explorer
««« »»»

Jeden rok, 200 milionů postů a anomálie Chanmineru

25. 4. 2012 (před 11 lety) — k47 (CC by-sa)

Dvacátého dubna to byl rok, co začal běžet projekt Chanminer se skromným cílem zachovat to nejhorší z internetu pro budoucí generace. Zrovna v té době překročil magickou hranici 200 milionů archivovaných postů, které dohromady představují 22% historie 4chanu.


K té příležitosti jsem udělal malou vizualizaci (1880x36170 pixelů), která ukazuje zarchivovanéchybějící posty „nejaktivnějšího boardu na 4chanu .(ano správně, jde o /b/)“. Výsledek byl zajímavý.

Spousta děr a chybějících bloků, kdy Chanminer nefungoval, padalo mi JVM, na straně 4chanu se změnilo html a Chanminer jej nemohl parsovat, posílali chybné nebo žádné hlavičky last-modified nebo jsem jednoduše zrovna dostal ban. Spousta postů mi uteklo, ale trend je takový, že se pokrytí zlepšuje a ostatní méně frekventované boardy jsou na tom s pokrytím výrazně lépe.

Na konci vizualizace se vyskytl zvláštní artefakt: absolutně pravidelné čáry signalizující chybějící posty.

Nejdřív jsem si myslel, že jde o zaokrouhlovací chyby. Vizualizační skript jsem napsal v PHP, které nemá celočíselné dělení. Předpokládal jsem, že při výpočtech s vysokými id, kdy se čísla převádějí z intů na floaty a nazpátek, se to celé začne chovat divně.

Později jsem vizualizační skript přepsal do jazyka Go, který má celočíselné dělení, ale defekt se opakoval. Zase ty podivné čáry. Že by byla chyba na mojí straně? Nebylo by to poprvé, jedna chyba s defaultním chováním timestampů v databázi znehodnotila několik set tisíc postů.

Zahleděl jsem se tedy do notně zazoomované vizualizace, sledoval jsem rozložení chyb a vyšel mi tenhle vzor: 10 správně – 1 chybí – 10 správně – 1 chybí – 10 správně – 1 chybí – 10 správně – 1 chybí – 10 správně – 1 chybí – 10 správně – 1 chybí – 10 správně – 1 chybí – 10 správně – 1 chybí – 10 správně – 2 chybí. Vzor se opakoval beze změny.

To skoro vypadá jako… A pak mě to trklo: doubles.

Tohle je důkaz toho, že na /b/ žádný post nemůže mít id, končící dvojicí stejných čísel. Tyhle posty generovaly velice, velice otravná vlákna a shitposting.

Z dat (ukázka níže) vyplývá, že blokování dvojic začalo 17. února 2012, kdy moot (nejspíš) začal blokovat jednu dvojici a pak 22. února začal blokovat všechny. Zároveň je vidět, že se netýká trojic a vyšších.

datedoublespozn
2012-02-1322330← 100% doubles = 10% postů
2012-02-1420692
2012-02-1518208
2012-02-1618383
2012-02-172155← 10% doubles
2012-02-182201
2012-02-192187
2012-02-201176
2012-02-211484
2012-02-22319← 1% doubles
2012-02-23146
2012-02-244← chyba není na vašem přijímači
2012-02-25177
2012-02-26189
2012-02-27188
2012-02-28192

A teď jste zase o něco chytřejší.

píše k47, ascii@k47.cz