přihlásit se
k47.cz
Anarchy Now

Projekt Chanminer

autor: kaja47 - CC by-nc-sa - publikováno: - sekce obsah » internal » projekty #2368
štítky: , a
projekt je součástí sbírky Projekt Chanminer »»
předchozí: DRM musí být zakázáno, protože je jedovaté (18. října 2011) - následující: Digitální ticho (30. listopadu 2011)
Tento článek obsahuje zhruba 600 slov a jeho přečtení Vám zabere 3 až 6 minut

Na 4chan jsem poprvé zavítal krátce po incidentu Boxxy a následném shitstormu. To bylo někdy na začátku roku 2009 a od té doby neuplynul den, abych nebyl na nějakém chanu.

O dva a čtvrt roku později jsem spustil Chanminer, který už 6 měsíců v kuse prochází a archivuje 4chan a další velké imageboardy neboli chany.

Ve světě chanů je obvyklé, že nemají žádnou paměť, žádný archiv a stará vlákna se za nějaký čas nenávratně ztratí v propadlišti dějin. A právě tohle je jejich nejlepší vlastnost. Nulová paměť a široce používaná anonymita vytvořila specifickou kuturu, kde je všechno dovoleno a člověk může říkat, co si doopravdy myslí a není hodnocen podle toho kým je, ale jen a pouze podle svých slov. Není k ničemu vázán, není ničím omezován.

Jestliže je zapomětlivost chanů jejich hlavní přednost, tak proč se sakra snažím všechno archivovat? Jednak jako památku pro budoucí generace, ale hlavně kvůli vědeckému poznání, pochopitelně. Hlavní smysl Chanmineru je identifikovat rakovinu, která zabíjí 4chan. Už od nepaměti si všichni stěžují, že /_/ není, co bývalo a že je tady nějaké blíže nespecifikované něco, co zabíjí /_/. Účel Chanmineru je tedy určit jestli kvalita chanů stoupá nebo klesá. Zatím tedy nemám nejmeší ponětí, jak něco takového změřit, ale jednou na to přijdu.

Hlavní inspirací pro Chanminer byla jedna přednáška na DEFCONu 2005 Meme Mining for Fun, Profit, kde přednášející mluvil o tom, jak analyzoval trendy v programovacích jazycích, aby zjistil, co přijde v budoucnu a mohl se naučit všechny potřebné technologie a pak zářit jak programátorská superstar. Jedním z hlavních poselství oné přednášky bylo: nejdřív musíte mít data. A tak vznikl Chanminer. Začal jako jednoduchý curl skript, který periodicky robotoval 4chan, ale rychle se vyvinul v celkem komplikovaný systém napsaný ve Scale, který kromě 4chanu archivuje 420chan.org 4chon.net, 7chan.org, britfa.gs, operatorchan.org, anothertalk.co.cc, laghouls.com/forum, minichan.org, otakutalk.org a tinychan.org.

Jak už jsem zmínil, Chanminer běží nepřetržitě už 6 měsíců a za tu dobu nasbíral 90 milionů postů, 4,2 milionů vláken a každý den pribude dalších 500000 postů (a tohle tempo je až překvapivě stabilní). V řeči MySQL: 28GB dat, 5,8BG indexů a obyčejný count(*) trvá přes 8 minut.

Samotné robotování je až překvapivě nenáročné: textová část všech zmíněných chanů potřebuje stálý datový tok kolem 50kB/s. Robotování všech obrázků v plné velikosti mi plně vytíží připojení (~450kB/s), takže když už to běží, tak většinou nějak omezeně.


Abych ukázal, že se skutečně něco děje, tak prvních 5 milionů postů si můžete stáhnout tady (potřebujete ještě tohle schéma MySQL databáze). A kdyby někdo toužil po kompletním archivu, stačí mi poslat obrovkou hromadu peněz a nějak se určitě domluvíme.

Kromě Chanmineru nevím o žádném dalším běžícím archivu. Tedy kromě Jasona Scotta z textfiles.com, který má údajně archiv 10 milionů vláken 4chanu představující 5 let jeho historie. Ale nehodlá nic publikovat (aspoň ne v nejbližších letech) protože správně tuší, že by pak následoval shitstorm epických rozměrů.

další části napíšu pár drobností o tom jak je Chanminer naprogramovaný ve Scale.

Obsah seriálu Projekt Chanminer

čtěte pokračování »

komentáře RSS

2 komentáře a můžete napsat další
Aaron Brown
8. dubna 2012 2:33 #963
Aaron Brown píše…

Já bych se na ty posty i mrknul, ale nikam se mi to nedaří importovat, nešlo by to dumpnout „CREATE IF NOT EXIST“?

kaja47
27. dubna 2012 17:35 #969
kaja47 píše…

[963] Tady jsem uploadnul nový dump prvních 5 milionů postů: http://uloz.to/…s-5m-sql-bz2 + tady je db schéma: https://gist.github.com/2510172

Komentář bude formátován pomocí Texy! syntaxe.
Např: **tučný text**, *kurzíva*, "text odkazu":adresa.
Na ostatní komentáře můžete odkazovat pomocí [čísla komentáře].

Napište komentář!

 

o autorovi:

K. Jmenuji se K., v síti také známý jako kaja47 - tak trochu spisovatel, trochu programátor, trochu webař, ateista, milovník divné hudby atd atd.
mail:
jabber: kaja47@jabbim.cz

další projekty

wyhledawacz fel.log stalkr vtipy.k47.cz k47.shop Zkracovač adres stripbot

živě z twitteru

Commercialization makes your online rights irrelevant http://t.co/DhjZ3Mbk
Talking Surveillance Cameras Coming to U.S. Streets http://t.co/SjNF8jXd
Ericsson could turn you into a human USB connection next year http://t.co/QB33zHzZ
OnStar Files Patents for Minority Report-Style Billboards http://t.co/bj7CSOr9
@maxogden node.js: that thing you use when you want to process more connections than SOME servers written in static languages (fixd)

K. K. na Twitteru

tadá

poslední články

Londýn bude sportovat!
článek | 14. května 2012
Inspirace #1
| 12. května 2012
Post-scarcity
| 9. května 2012
Atrox\Arr
programování | 9. května 2012
Srovnání Scala.xml, Anti-xml a XPath
programování | 3. května 2012
669.387
| 27. dubna 2012
Dotovat hudbu?
článek | 6. dubna 2012

poslední komentáře

Londýn bude sportovat!
Filip Procházka (@HosipLan) | 14. května 2012
Kafka, Čapek a Huxley promlouvají
Woodbin | 5. května 2012
Kafka, Čapek a Huxley promlouvají
detergent | 5. května 2012
Projekt Chanminer
kaja47 | 27. dubna 2012
Jeden rok, 200 milionů postů a anomálie Chanmineru
Filip Procházka (@HosipLan) | 25. dubna 2012
Růže
nikola0123 | 12. dubna 2012

největší kecalové

Filip Procházka (@HosipLan) Filip Procházka (@HosipLan)
XXXXXXXX XXXXXXXX
Anonym Anonym
alica alica
Petr Mach Petr Mach

K47i © 2002 - 2012 K. aka Kaja47