k47.cz
výběr kolo foto makro povídky kultura
koronavirus TECH ▞▞ 🞄⬤🞄 | twitter RSS
««« »»»

Plazit se internetem

17. 3. 2019 — k47

Kolik je na in­ter­netu .cz domén? Na to není úplně lehké získat od­po­věď. Člověk se musí stát re­gis­trá­to­rem a spřáh­nout se CZ.NIC, aby mohl dostat přes­nou od­po­věď. Pro nás smr­tel­níky zbý­vají jen odhady.

Výše na­stí­ně­nou otázku jsem si po­lo­žil někdy v prů­běhu dne a in­ter­net na­bí­zel jem se­znamy domén vý­mě­nou za tvrdou měnu, nic za­darmo. Šlo o otázku, která nemá žádný smysl, nic z ní ne­vzejde a nijak ne­po­může lid­stvu, jako jedna scéna ve filmu Primer: „And with no need for it, no possi­ble real-world ap­pli­cation, no advan­tage at all to be gained from it, the idea stayed“.

Zeptal jsem se twit­teru, od­po­věď se ne­do­sta­vila. Tedy do­sta­vila se až o chvíli poz­ději. Me­zi­tím jsem stihl ob­je­vit pro­jekt Common Crawl, který pra­vi­delně pro­chází velkou část in­ter­netu (an­g­licky se tomu říká crawl, v pře­kladu pla­zení, to jen abych vy­svět­lil nadpis) a při­pra­vuje ji (zcela zdarma) ke sta­žení. Na­padlo mě, že bych mohl celý in­ter­net stáh­nout a vy­ta­hat z něj české domény. Proč ne? Po­slední várka má pou­hých 60TB kom­pri­mo­va­ných dat. wget pře­smě­ruji do gunzipu, ten do grepu a vý­sle­dek vy­klo­pím do sou­boru. Stačí si jen počkat 139 dnů.

Ale než jsem to stačil rozjet ve velkém a roz­drá­sat nervy míst­nímu ISP, ozvali se ochotní lidé z twit­teru & na­smě­ro­vali mě na seznam Mi­chala Špačka, který ob­sa­ho­val 1.6M čes­kých domén.

Takže jich bude asi mega a půl. Otázka zod­po­vě­zena.

Ale v tom oka­mžiku mi na no­te­booku už běžel curl -I na milion celých šest domén, abych zjis­til, co se na nich na­chází. Zatím skript ne­do­běhl, ale vypadá to, že při­bližně 40% domén je ne­funkč­ních a nemá DNS záznam, 25000 jich jede na českém Nette fra­meworku (ten po­há­něl i k47čku dokud ne­do­šlo k pře­pnutí na as­cii­blog) a 60 domén vrací hla­vičku X-Powered-By: Chuck Norris.

Nevím, co budu s touto in­for­mací dál dělat. Možná bych mohl najít všechny české blogy a vy­tvo­řit něco jako dev­blogy, jen pro blogy obecně, abych (aspoň nějak) po­sí­lil ote­vřený web mimo hra­nice in­dustri­ální farmy fa­ce­booku.

Možná.


Nicméně #1: Common Crawl pro­chází web každý měsíc, takže pokud ne­dě­láte zálohy svého webu, ani se ne­mu­síte snažit. Když je aspoň trochu po­pu­lární, skončí v ar­chi­vech CC. Ten sta­huje všechny stránky, které jsou vzdá­lené na pět odkazů ze se­znamu 50 mi­li­onů nej­po­pu­lár­něj­ších webů. Všechny stránky k47čky jsou do­stupné na tři klik­nutí z indexu, takže jsem po­krytý.

Nicméně #2: my­space omylem smazal 50 mi­li­onů em­pétro­jek od 14 mi­li­onů autorů na­hra­ných během prv­ních 12 letech exis­tence. Cynik může na­mí­tat, že nešlo o úplný omyl a gooni z my­space se jen ne­sta­rali. Ne­stálo jim za to mi­gro­vat fůru sta­rých mp3 sou­borů. Kolik by to za­bralo místa? 5MB na jednu em­pét­řojku? 250 TB? 32 8TB disků? Cena 280 tisíc korun z czc.cz? Tak malou pro ně má cenu sna­žení 14 mi­li­onů kre­a­tiv­ních duší. Až se you­tube a další weby dneška do­sta­nou do úzkých, není důvod ne­vě­řit, že se si­tu­ace bude opa­ko­vat a google hodí přes palubu tvorbu těch, na je­jichž zádech se vezl.

píše k47 & hosté, ascii@k47.cz