přihlásit se
k47.cz
Už deset let na vašich monitorech.

wyhledawacz

autor: kaja47 - CC by-nc-sa - publikováno: - sekce obsah » internal » projekty #707

Wyhledawacz je meta-vyhledávač, který čerpá data z vyhledávačů specializovaných file hostingových služeb a upload serverů. Pomocí Wyhledawacze můžete hledat soubory na mnoha místech najednou.

Wyhledawacz vznikl – stejně jako jiné projekty – z nouze.

Postupem času jsem si psal seznamy souborů, které jsem chtěl najít a stáhnout (neříkám, že to byly hromady alb, protože pak by to vypadalo jako že jsem pirát a to já nejsem). Ale bylo to problematické, protože jsem musel hledat jeden soubor po druhém. Potřeboval jsem nějaký nástroj, který by dokázal vyhledávat hromadně a na mnoha místech najednou, na mnoha serverch, na Rapidshare, Megauploadu, Ulozto a na dalších místech. Původní myšlenka byla taková, že tomu předhodím strukturovaný seznam položek a řeknu hledej. Wyhledawacz pak proleze všechny kouty internetu, vytahá z nich data a ty naservíruje: tady to je – všechno.

Plánoval jsem, že takto by se daly výborně stahovat celé diskografie – stačilo by předhodit seznam všech alb jednoho interpreta, nebo celé seriály v jejichž jménech se mění jenom číslo dílu nebo série (nemá smysl si nic nalhávat, hledaný obsah na inkriminovaných serverech je z 99% chráněný autorským zákonem). Všechno tohle hromadné hledání a stahování je v podstatě jednoduchý úkol, k jehož řešení však nejsou na internetu dostupné prostředky (možná pomocí P2P se to dá řešit líp, ale znáte to: stahovat můžeš, sdílet už ne). To byly předpoklady pro vznik wyhledawacze: hledej několik věcí na několika místech najednou.

Pak jsem přemýšlel, co dál, až tohle všechno bude. Aby se z wyhledawacze stala regulérní web 2.0 služba, byl by krásný export dat v XML nebo JSONu. Konec konců moje data to nejsou, i já je kradu od vedle. Bylo by to pěkné, ale svět se bez exportů nepřestane točit.

Začal jsem dumat nad tím, co udělat dál, aby se wyhledawacz změnil na zbraň hromadného ničení, která dokáže rychleji porušovat autorská práva než cokoli co tu bylo dosud (přičemž sám wyhledawacz nic neporuší, protože jenom nabízí, kde se data dají stáhnout a sám nemá žádnou databázi nelegálních dat, ani odkazů na ně)?

Pak mě napadla jedna věc.

Vezměte i příklad, že si chci sáhnout nějaká alba od nějakého interpeta, takže nejdřív musím najít jaká alba interpret vydal a pak teprve je začít hledat. Právě tuto smyčku, která zdržuje, by to chtělo zatáhnout. Ale jak?
V poslední době dělá web nesmělé krůčky na cestě k sémantickému webu, kde data nejsou jenom hromady písmen, ale jde z nich vyčíst, jaký je jejich význam, což má kardinální význam při strojovému zpracovávání. Wyhledawacz sám vysekává logickou informaci z HTML smetí pomocí regulárních výrazů ušitých na míru každému vyhledávači a právě export výsledků v XML nebo JSONu by bylo to zesémantičtění. Zdroje sémantických dat by se tedy daly využít pro naši věc.
Spoluviníkem velkého plánu se stane sémantická encyklopedie Freebase, která by se dala popsat jako sémantická Wikipedie. Data v ní obsažená tedy nejsou jenom stránky textu, ale jde o strukturované seznamy a položky jejichž význam je daný. A protože je sémantická, je možno se jí například zeptat na všechna alba od jednoho interpreta a ona je vrátí ve strojově čitelné formě, která se v budoucnu předhodí wyhledawaczi a ten je vyhledá. Smyčka zatažena, vyhledávání urychleno.
Avšak možnosti zneužití sémantických dat jsou mnohem větší, daly by se takto vyhledat všechna alba určitého žánru za poslední měsíc, všechny filmy, kde hrál nějaký herec, všechny britské sitcomy natočené do roku 2001. Možnosti jsou neuvěřitelné, ale způsob je pořád stejně jednoduchý: freebase poskytne moře dat, které se wyhledawacz pokusí najít na velkém množství serverů.
Ještě něco, co by lámalo captcha a wyhledawacz by se stal postrachem.


Poznámky pod čarou. Napadlo mě jak ještě víc zneužít sémantická data z Freebase a vytvořit něco doopravdy velkého – (skoro) automatický stahovací systém, takovou malou pirátskou sociální síť. Nebudu zatím nic prozrazovat, ale plány jsou velké a ještě nabírají na konkrétní podobě. Tuhle věc v budoucnu poskytnu uživatelům, kteří mi na bibli odpřísáhnou, že to nepoužijí na žádné pirátské neplechy, protože tahle věc už bude značně na hraně a já bych se velice nerad dostal do křížku se zákonem. Zůstaňte na příjmu, ještě se budou dít věci!


komentáře RSS

Zatím žádné komentáře. Buďte první.
Komentář bude formátován pomocí Texy! syntaxe.
Např: **tučný text**, *kurzíva*, "text odkazu":adresa.
Na ostatní komentáře můžete odkazovat pomocí [čísla komentáře].

Napište komentář!

 

o autorovi:

K. Jmenuji se Karel Čížex, v síti také známý jako kaja47 - tak trochu spisovatel, trochu programátor, trochu webař, milovník divné hudby atd atd.
mail:
jabber: kaja47@jabbim.cz

další projekty

wyhledawacz fel.log stalkr vtipy.k47.cz k47.shop Zkracovač adres stripbot

živě z twitteru

N/A

tadá

poslední články

#299
článek | 27. srpna 2014
O čem mluvím, když mluvím o Murakamim
článek | 31. července 2014
Kafe v pět
povídka | 30. června 2014
O bestii
povídka | 30. června 2014
Úvod do zrcadel a labyrintů
článek | 12. května 2014
Slova starého feťáka
článek | 17. dubna 2014
669.350
| 8. dubna 2014
Sny cypherpunků
článek | 17. března 2014
Přinesla si na to dokonce vlastní provaz
článek | 20. února 2014

poslední komentáře

MySQL group by trik
mrsa | 20. března 2014
Vodník
cbvcxy | 22. února 2014
Rozdělení velkých tříd ve Scale
JeLiTo | 11. ledna 2014
Božena Němcová - V zámku a podzámčí
Anonym | 27. prosince 2013
Sedm let post-rocku
Woodbin | 9. prosince 2013

největší kecalové

Anonym Anonym
JeLito JeLito
cbvcxy cbvcxy
Ondřej Levek Ondřej Levek
mrsa mrsa

K47i © 2002 - 2014 K. aka Kaja47