k47.cz  — každý den dokud se vám to nezačne líbit
výběr foto Praha povídky kultura
TECH ▞▞ kolo | twitter RSS

wyhledawacz

13. 10. 2008 (před 11 lety) — k47 (CC by-nc-sa) (♪)

Wy­hle­da­wacz je meta-vy­hle­dá­vač, který čerpá data z vy­hle­dá­vačů spe­ci­a­li­zo­va­ných file hos­tingo­vých služeb a upload ser­verů. Pomocí Wy­hle­da­wa­cze můžete hledat sou­bory na mnoha mís­tech na­jed­nou.


Wy­hle­da­wacz vznikl – stejně jako jiné pro­jekty – z nouze.

Po­stu­pem času jsem si psal se­znamy sou­borů, které jsem chtěl najít a stáh­nout (ne­ří­kám, že to byly hro­mady alb, pro­tože pak by to vy­pa­dalo jako že jsem pirát a to já nejsem). Ale bylo to pro­ble­ma­tické, pro­tože jsem musel hledat jeden soubor po druhém. Po­tře­bo­val jsem nějaký ná­stroj, který by do­ká­zal vy­hle­dá­vat hro­madně a na mnoha mís­tech na­jed­nou, na mnoha ser­verch, na Ra­pid­share, Me­gauplo­adu, Ulozto a na dal­ších mís­tech. Pů­vodní myš­lenka byla taková, že tomu před­ho­dím struk­tu­ro­vaný seznam po­lo­žek a řeknu hledej. Wy­hle­da­wacz pak pro­leze všechny kouty in­ter­netu, vytahá z nich data a ty na­ser­ví­ruje: tady to je – všechno.

Plá­no­val jsem, že takto by se daly vý­borně sta­ho­vat celé dis­ko­gra­fie – sta­čilo by před­ho­dit seznam všech alb jed­noho in­ter­preta, nebo celé se­ri­ály v je­jichž jmé­nech se mění jenom číslo dílu nebo série (nemá smysl si nic nalhá­vat, hle­daný obsah na in­kri­mi­no­va­ných ser­ve­rech je z 99% chrá­něný au­tor­ským zá­ko­nem). Všechno tohle hro­madné hle­dání a sta­ho­vání je v pod­statě jed­no­du­chý úkol, k jehož řešení však nejsou na in­ter­netu do­stupné pro­středky (možná pomocí P2P se to dá řešit líp, ale znáte to: sta­ho­vat můžeš, sdílet už ne). To byly před­po­klady pro vznik wy­hle­da­wa­cze: hledej ně­ko­lik věcí na ně­ko­lika mís­tech na­jed­nou.

Pak jsem pře­mýš­lel, co dál, až tohle všechno bude. Aby se z wy­hle­da­wa­cze stala re­gu­lérní web 2.0 služba, byl by krásný export dat v XML nebo JSONu. Konec konců moje data to nejsou, i já je kradu od vedle. Bylo by to pěkné, ale svět se bez ex­portů ne­pře­stane točit.

Začal jsem dumat nad tím, co udělat dál, aby se wy­hle­da­wacz změnil na zbraň hro­mad­ného ničení, která dokáže rych­leji po­ru­šo­vat au­tor­ská práva než cokoli co tu bylo dosud (při­čemž sám wy­hle­da­wacz nic ne­po­ruší, pro­tože jenom nabízí, kde se data dají stáh­nout a sám nemá žádnou da­ta­bázi ne­le­gál­ních dat, ani odkazů na ně)?

Pak mě na­padla jedna věc.

Vez­měte i pří­klad, že si chci sáh­nout nějaká alba od ně­ja­kého in­ter­peta, takže nejdřív musím najít jaká alba in­ter­pret vydal a pak teprve je začít hledat. Právě tuto smyčku, která zdr­žuje, by to chtělo za­táh­nout. Ale jak?

V po­slední době dělá web ne­smělé krůčky na cestě k sé­man­tic­kému webu, kde data nejsou jenom hro­mady písmen, ale jde z nich vyčíst, jaký je jejich význam, což má kar­di­nální význam při stro­jo­vému zpra­co­vá­vání. Wy­hle­da­wacz sám vy­se­kává lo­gic­kou in­for­maci z HTML smetí pomocí re­gu­lár­ních výrazů uši­tých na míru kaž­dému vy­hle­dá­vači a právě export vý­sledků v XML nebo JSONu by bylo to ze­sé­man­tič­tění. Zdroje sé­man­tic­kých dat by se tedy daly využít pro naši věc.

Spo­lu­vi­ní­kem vel­kého plánu se stane sé­man­tická en­cy­klo­pe­die Fre­e­base, která by se dala popsat jako sé­man­tická Wi­ki­pe­die. Data v ní ob­sa­žená tedy nejsou jenom stránky textu, ale jde o struk­tu­ro­vané se­znamy a po­ložky je­jichž význam je daný. A pro­tože je sé­man­tická, je možno se jí na­pří­klad zeptat na všechna alba od jed­noho in­ter­preta a ona je vrátí ve stro­jově či­telné formě, která se v bu­doucnu před­hodí wy­hle­da­wa­czi a ten je vy­hledá. Smyčka za­ta­žena, vy­hle­dá­vání urych­leno.

Avšak mož­nosti zne­u­žití sé­man­tic­kých dat jsou mnohem větší, daly by se takto vy­hle­dat všechna alba ur­či­tého žánru za po­slední měsíc, všechny filmy, kde hrál nějaký herec, všechny brit­ské sit­comy na­to­čené do roku 2001. Mož­nosti jsou ne­u­vě­ři­telné, ale způsob je pořád stejně jed­no­du­chý: fre­e­base po­skytne moře dat, které se wy­hle­da­wacz pokusí najít na velkém množ­ství ser­verů.

Ještě něco, co by lámalo cap­t­cha a wy­hle­da­wacz by se stal po­stra­chem.


Po­známky pod čarou. Na­padlo mě jak ještě víc zne­u­žít sé­man­tická data z Fre­e­base a vy­tvo­řit něco do­o­pravdy vel­kého – (skoro) au­to­ma­tický sta­ho­vací systém, ta­ko­vou malou pi­rát­skou so­ci­ální síť. Nebudu zatím nic pro­zra­zo­vat, ale plány jsou velké a ještě na­bí­rají na kon­krétní podobě. Tuhle věc v bu­doucnu po­skytnu uži­va­te­lům, kteří mi na bibli od­pří­sáh­nou, že to ne­po­u­žijí na žádné pi­rát­ské ne­ple­chy, pro­tože tahle věc už bude značně na hraně a já bych se velice nerad dostal do křížku se zá­ko­nem. Zů­staňte na příjmu, ještě se budou dít věci!

píše k47 & hosté, ascii@k47.cz