k47.cz  — každý den dokud se vám to nezačne líbit
výběr foto Praha povídky kultura
TECH ▞▞ kolo | twitter RSS

Podobnosti & doporučování 3

12. 12. 2019 — k47 (♪)

Asi takhle: Zase jsem tady na k47čce o něco málo vy­lep­šil do­po­ru­čo­vání po­dob­ných článků. Pod ka­po­tou sále tiká velice ne­bez­pečná ~~~UMĚLÁ IN­TE­LI­GENCE~~~, na tom se nic ne­změ­nilo, teď je jen o něco málo in­te­li­gent­nější a o něco blíž re­voltě nad pa­te­tic­kými pytli masa, které mají tu drzost se ozna­čo­vat jako homo sa­pi­ens. A když říkám umě-int, myslím tím al­go­rit­mus word2vec z obou stran oba­lený pri­mi­tiv­ními ad-hoc funk­cemi.

Výběr pří­buz­ných textů má v 99% pří­padů pod palcem pro­gram za­lo­žený počtu na sdí­le­ných štítků, tagů a ka­te­go­rií, který fun­guje docela dobře. Pouze v pří­padě, že tyto chybí, se ke slovu do­sta­nou al­ter­na­tivy do kte­rých se ředí i teď vy­lep­šený al­go­rit­mus.

První verze po­dob­nosti zjiš­ťo­vala jen za pomoci klí­čo­vých slov. Druhá při­dala word2vec pro ex­panzi se­znamu klí­čo­vých slov o sy­no­nyma. Třetí verze před­sta­vo­vala ne­ú­spěšný pokus s cluste­ro­vá­ním. Snažil jsem se slova s pomocí word2vec slou­čit do clus­terů a pak pra­co­vat s nimi. To ne­fun­go­valo z důvodů, které jsou teď víc než jasné.

V dalším kroku jsem pak za­ho­dil jed­no­du­chý Jac­car­dův index a pro vý­po­čet po­dob­ností použil přímo word2vec. Bylo to na jednu stranu jed­no­du­ché, po­čí­tal jsem spo­lečné klí­čové slovo nejen, když dva články sdí­lely iden­tický termín, ale i v pří­pa­dech, kdy ob­sa­ho­valy slova je­jichž vek­tory měly po­dob­nost nad nad ur­či­tou mezí. Na druhou stranu to zna­me­nalo značné zpo­ma­lení vý­po­čtu po­dob­nosti, pro­tože bylo nutné pro­vést O(n2) ska­lár­ních sou­činů, ne jen jed­noho Jac­carda, který běží v čase O(n+m).

Po­slední kolo úprav pak za­hr­no­valo ladění funkce při­dě­lu­jící váhu jed­not­li­vým slovům, která hraje klí­čo­vou roli v de­tekci klí­čo­vých slov. Nešlo o žádné stro­jové učení, pro­tože stroj se nic nového ne­na­u­čil. Po­stu­po­val jsem stylem pokus/omyl, in­terní ma­chi­nace al­go­ritmu pod drob­no­hle­dem, pa­ra­me­try od­ha­lené den­nímu světlu a snažil jsem se jim po­ro­zu­mět, udělat si v nich po­řá­dek a vědomě je upra­vit do podoby, kdy fun­go­valy. Jestli se někdo něco naučil pak jsem to byl já, nikoli stroj, a roz­hodně nešlo o nic nového.

Shodou náhod jsem ne­dávno četl raný paper za­bý­va­jící se pro­blé­mem au­to­ma­tické ex­trakce ano­tací. Jeho autor na­vr­ho­val velice po­dobný způsob vážení klí­čo­vých slov, jako napadl mě. Jen on (Hans Peter Luhn, na­ro­zený 1896, ne­zá­visle přišel s ná­pa­dem hash ta­bulky) to navrhl v roce 1959. Takové zjiš­tění mi vždy dodá jis­totu. Když ti nej­lepší z nej­lep­ších přišli na něco po­dob­ného, zna­mená to, že nebudu úplně mimo.

Jinak mi při­padá, že teď de­tekce re­le­vant­ních článků jen na zá­kladě textu fun­guje docela dobře. Ke ±kaž­dému článku najde aspoň něco re­le­vant­ního a ne­stává se, že by na prv­ních příč­kách skon­čily zcela zcestné texty (v žar­gonu sta­tis­tiků: nízký recall, ale dobrá pre­ci­sion) a mohla by celkem efek­tivně na­hra­dit po­dob­nosti na zá­kladě tagů a ta­xo­no­mie.

Iro­nicky, pro­blém je jen v tom, že nej­lepší vý­sledky podává na člán­cích, které jsou již ota­go­vané z důvodu, že když má text jasně dané téma, tak ono téma také vy­zna­čím ně­ja­kým tagem. Na­proti tomu te­ma­ticky ne­jasné články, kterým nej­čas­těji chybí tag, ne­ob­sa­hují ani jasně roz­li­šu­jící klí­čová slova.

Třicet procent nuly

11. 12. 2019 — k47 (♪)

In­ter­net nám po­skytl mož­nost ko­pí­ro­vání za prak­ticky nu­lo­vou cenu. Amazon, no­to­ricky známý tím, že pře­pa­luje cenu ze přenos dat, si účtuje 9 centů za gi­ga­bajt. Tak proč si „app story“ obou ma­jo­rit­ních mo­bil­ních plat­fo­rem ná­ro­kují 30% z kaž­dého dolaru, který jimi pro­teče? Pokud je 30% ne­zbyt­ných k jejich pro­vozu, jde o tra­gicky ne­e­fek­tivní metodu dis­tri­buce soft­ware. Ale tak tomu po­cho­pi­telně není. „App store“ je sen hor­kých hlav si­li­con valley: Vy­tvo­řit plat­formu, pro­žrat se k mo­no­polu, na­in­sta­lo­vat se jako ne­o­do­pe­ro­va­telný pro­střed­ník, který slízne 30 centů z kaž­dého dolaru a je stejně ne­zbytný a uži­tečný jako ra­ko­vinný nádor. Hi-tech prů­mysl (nejen v tomto pří­padě, ale i v mnoha dal­ších) prak­ti­kuje po­kro­čilý Il­li­chov­ský „ra­di­kální mo­no­pol“, kdy úspěch jejich masivně za­fi­nan­co­vané vize světa, zne­mož­ňuje pří­stup k al­ter­na­ti­vám.

Kill everbody

10. 12. 2019 — k47 (♪)

O ko­ke­to­vání s pro­gra­mo­vá­ním her tu už padlo pár slov. Tady, tady, tady, tady, tady a možní i jinde. Vždy to pro­bíhá stejně: Mám nápad, na­dchnu se, dojde nad­šení, přijde vy­stříz­li­vění, že to ne­fun­guje jako v před­sta­vách a práce ustane. Chvíle ticha a pak se na­dchnu nad něčím jiným. Ně­ja­kou dobu jsem si po­hrá­val s před­sta­vou pře­dě­lat Master of Orion 2. Brzo mi ale došlo, že nemám v tomhle oboru zku­še­nosti. Proto jsem začal s jed­no­dušší hrou. Ta byla ale taky příliš slo­žitá na to, abych se cítil jistý v kram­fle­cích. Tak jsem začal pro­gra­mo­vat ještě jed­no­dušší věc. Pokud po­čí­táte, s kolika věcmi jsem začal, pře­staňte, tím směrem jen ší­len­ství dlí. Je to jako ko­loběh života, nikdy ne­kon­čící a vždy ne­kom­pletní.

V pří­padě té po­slední ite­race se ale něco změ­nilo. Můžete si stáh­nout tenhle soubor a vy­zkou­šet na vlastní smysly. Jde o jed­no­du­chou vě­cičku bez gra­fiky ve fázi pro­to­typu. Sta­víte zá­kladnu, valí se na vás ne­tu­cha­jící hordy zombií, klidně pár stovek tisíc na­jed­nou a všechny je musíte zabít. Odtud ten název kill eve­ry­body.


Jinak Skrillex má na svě­domí super track po­jme­no­vaný taky Kill Eve­ry­body. To jenom, aby bylo mezi námi jasno.

Kunst-projekt

9. 12. 2019 — k47 (♪)

V roce 2014 bylo na spo­fify na­hráno album se­stá­va­jící se z pěti minut kom­plet­ního ticha. Autoři, sku­pina Vul­f­peck, na tomhle počinu vy­dě­lali 20000 dolarů, jimiž za­fi­nan­co­vali nad­chá­ze­jící turné. Pár týdnů nato je spo­tify pláclo přes prsty, že tohle se nedělá a album stáhlo.

Když jsem se na kole vracel z nákupu & mysl jako ob­vykle jela na vol­no­běh, prázd­no­tou mozkovny se ro­ze­zněla ozvěna to­ho­hle: Oči­vidně se plat­formy ohradí, když se na nich budu snažit bez práce něco uloup­nout. Album ticha nebo album šumu je ze hry. Co kdyby ale šlo o sou­část UMĚ­LEC­KÉHO PRO­JEKTU? To by mohla být jiná po­hádka.

O čem mluvím? Asi takhle: Vý­sled­kem by byl pořád ná­hodný šum, jen způsob jeho ge­ne­ro­vání by byl značně UMĚ­LECKÝ. Po­čí­tač čte re­al­time proud tweetů a jejich nálada určuje jak silně me­cha­nické za­ří­zení hází kost­kami. OCR pro­gram pak přečte, co na kost­kách padlo a tuto hod­notu vepíše do zvu­ko­vého WAV sou­boru. Celé by se to stre­a­mo­valo na in­ter­netu. Po­cho­pi­telně. Jde přece o UMĚ­LECKÝ POČIN hodný jed­n­a­dva­cá­tého sto­letí.

Nic z toho by ne­fun­go­valo. Sen­ti­ment by se uka­zo­val ná­hodně, žádný OCR pro­gram by ne­pra­co­val a do sou­boru by se za­pi­so­vala ná­hodné hla­diny zvuku. Jediné, co by muselo aspoň trochu pra­co­vat, je nějaké me­cha­nické za­ří­zení pe­ri­o­dicky po­ha­zu­jící kost­kami.

Šlo by o ne­smysl a podvod, ale když to bude mít nějaké bull­shit AR­TIS­TICKÉ vy­svět­lení, jako že jde o hu­dební pro­jekci glo­bál­ního ze­it­ge­istu, naší lásky a ne­ná­visti v di­gi­tál­ním světě, od­vážné ale přesto plaché al­go­rit­mické umění, jen mnohem více umě­lecký bull­shit, někdo to bude brát vážně.

Vraždy v Čechách a na Moravě

8. 12. 2019 — k47 (♪)

V Os­t­ravě bylo za­vraž­děno 6 lidí.

Ve stínu téhle tragé­die jsem se po­dí­val do po­li­cej­ních sta­tis­tik, jak časté jsou vraždy v naší malé ze­mičce.

Bylo třeba projít mnoho ex­ce­lo­vých sou­borů pro jed­not­livé roky (sta­tis­tiky jsou vy­dá­vány po mě­sí­cích, avšak ty ne­ob­sa­hují čísla za daný měsíc, ale od za­čátku roku do konce daného měsíce) buď volně le­ží­cích nebo s mnoha ve­d­lej­šími pře­hledy za­ba­le­nými do zip ar­chivů. Není to žádná sláva nebo jsem aspoň ne­na­šel, jak po­ža­do­vaná data jed­no­duše vy­táh­nout do jedné HTML ta­bulky.

Vý­sled­kem je tohle:

2000279
2001234
2002234
2003232
2004227
2005186
2006231
2007196
2008202
2009181
2010173
2011173
2012188
2013182
2014160
2015155
2016136
2017146
2018116
2019112 (prv­ních 10 měsíců)
celkem3743

Vražd je každý rok víc jak sto, ale na­štěstí mají ve třetím ti­sí­ci­letí se­stupný trend. Můžeme si od­dech­nout, svět se ne­zbláz­nil.

Prim hrají vraždy mo­ti­vo­vané osob­ními vztahy, lou­pež­ných je drobná men­šina, ty na ob­jed­návku téměř ne­e­xis­tují. Asi čtvr­tina je spáchána pod vlivem a na­prostá vět­šina skončí vy­ře­šena. Do vražd se ne­za­po­čí­tává zabití nebo usmr­cení z ne­dba­losti. Těch je zhruba tře­tina co úmy­sl­ných zabití.

Sta­tis­ticky vzato ta­bul­kový je­di­nec měl od roku 2000 šanci asi 1/2800, že bude za­vraž­děn. To vypadá jako hodně, ale kaž­dému z nás po tři­cítce hrozí větší riziko, že zemře tak jako tak. Jen tahle šance není za dvě dekády, ale každý rok.

Na­štěstí vět­šina vražd je mo­ti­vo­vaná osob­ními vztahy. Já mám vztahy osobní nebo jiné více méně s nulou lidí, takže budu v bez­pečí.


Mmch: Nevím, co jsem tímhle chtěl říct. Vy­ta­ho­vat sta­tis­tiky ten samý den, co do­zněly vý­střely, a ma­chro­vat, že se to v nich ztratí, je (i když by to byla pravda & bylo za­mýš­leno pro utlu­mení plí­ži­vého pocitu, že žijeme ve stále méně pří­čet­ném světě) ne­pří­liš taktní. Za to se omlou­vám.

Euphemism treadmill

7. 12. 2019 — k47 (♪)

Jeden de­li­kátní fak­toid, na který jsem v po­sled­ních dnech na­ra­zil, je taz­kvaný eu­phe­mism tread­mill. Jde o proces, kdy se termín ozna­ču­jící in­te­lek­tu­ální po­ru­chu nebo jiné po­sti­žení stane uráž­kou, proto je za­ve­deno nové slovo jako slušná al­ter­na­tiva, která jde k věci a není za­tí­žena kon­tex­tem, ale i z něj se po­stupně stane urážka a tak to po­kra­čuje dál. Jde o vývoj jazyka, kdy každé slovo ozna­ču­jící chá­pa­nou sla­bost začne být po­u­ží­váno jako zbraň ver­bální války. „Men­tální re­tar­dace“ byla vy­na­le­zena jako ná­hrada za lé­kař­ská slova jako „im­be­cil“, která stihla zdi­vo­čet, ale dneska „re­tar­do­vaný“ už zní ne­pří­jemně & útočně.

Jazyk se vyvíjí or­ga­nicky a nikdy není pro vás, vždy je určen ostat­ním. Na tom, co jste se sna­žili vy­já­d­řit, skoro ne­zá­leží. Vaše slova budou in­ter­pre­to­vána ostat­ními v jejich kon­textu. Stě­žo­vat si na po­li­ticky ko­rektní jazyk? Ví­tejte na be­žec­kém pásu eu­fe­mismů.


Ještě jedna věc: Drásá mě, když o sobě někdo říká, že „je hrozně OCD“ i když vidím, že pře­hání. Je rozdíl mezi „musím mít ukli­zený stůl“ a „musím mít ukli­zený stůl, jinak se stane něco hroz­ného, co mě zabije.“ Jedno je OC, druhé je OCD. Jedno je otravné, druhé je disor­der a může těžce ome­zo­vat běžné fun­go­vání člo­věka.

Udi­vuje mě, když lidé jen tak mezi řečí po­pi­sují své cha­rak­te­rové rysy žar­go­nem du­šev­ních chorob, aniž by se sna­žili sami sebe di­a­gnos­ti­ko­vat. Cítit se jeden večer sklesle je de­prese. Nikdo o sobě zbůh­darma neříká „mám tak hroz­nou ra­ko­vinu“, to by bylo šílené. Ale du­ševní cho­roby působí ne­sku­tečně, žádný nádor, žádná zlo­me­nina, žádná krev & tak jimi můžeme stří­let od boku.

Unabomber

6. 12. 2019 — k47 (♪)

Je to zvláštní pocit sle­do­vat, jak vám svět, který po­va­žu­jete za ak­cep­to­va­telný, mizí před očima a víte, že se proud dějin nemůže otočit a vám zbývá jen čekat na vy­svo­bo­zení smrti…

Začetl jsem se do pam­fletu ame­ric­kého do­má­cího te­ro­risty Una­bom­bera In­dustrial So­ci­ety and Its Future a hned je mi ve­se­leji.

Ro­zu­mím mo­ti­vaci lidí, kteří se do­pustí hrůz­ných činů, když si při­pa­dají, že jsou za­tla­čeni zády ke zdi a cítí, že nemají žádnou jinou mož­nost jak změnit svět než teror. Ne­schva­luji to, ale mám dojem, že aspoň o ob­ry­sech chápu ten pocit bez­moci, kdy se vám svět roz­padá mezi prsty, vy se cítíte v pasti, zdr­cu­jící váhu ne­vy­hnu­telna na svých bed­rech a z do té doby ne­mys­li­tel­ných činů se stá­vají při­ja­telné al­ter­na­tivy.

Nevím, co přesně jsem čekal… Je to dlouhá, roz­ta­haná, ne­ko­he­rentní tiráda člo­věka, který z výtahu vy­stou­pil mezi patry. Ze za­čátku, když celé po­li­tické levici dává zdarma sezení freu­dov­ské psy­cho­te­ra­pie, se to čte jako kla­sické plky alt-right ma­nos­fe­ric­kého neo-re­ak­ci­o­nář­ského trolla. Pak rychle přejde oslí můstek po­ně­kud po­chybné psy­cho­lo­gie a snaží se s její pomocí ob­ha­jo­vat fa­na­tický pri­mi­ti­vis­mus, jako jed­ni­nou za­ru­če­nou cestu ke spa­sení lidské duše™. V pod­statě tvrdí, že mo­derní in­dustri­ální spo­leč­nost nás zka­zila a je­di­nou cestou, jak se zbavit všech jejich ne­ga­tiv­ních účinků, je se vrátit k pri­mi­tivní de­in­dustri­a­li­zo­vané formě žití. Můžete si to projít a pod­tr­há­vat lo­gické fauly, ne­kon­zis­tence a z prdele vy­ta­žená tvr­zení, ale pak by vám ne­zů­stalo nic než za­čer­něná stránka. Aspoň ze za­čátku. Nejsem dost velký ma­so­chista, abych to dočetl.

Roz­ve­se­lilo mě hlavně, že jestli taky vy­stou­pím mezi patry & začnu poštou ro­ze­sí­lat nálože, napíšu mnohem lepší ma­ni­fest na vy­svět­le­nou. V tomhle žánru není laťka na­sta­vená příliš vysoko.


Pozn: Tohle jsem napsal dva dny před tím, než bylo v Os­t­ravě zabito šest lidí. Teď bych měl větší de­ko­rum a radši bych pozdr­žel vir­tu­ální pero.

5. 12.

#TeamTrees & vánoce


O operaci TeamTrees jsem se tu už zmínil. Můžeme ji brát různě, jako bezzubou hurá akci, která nic nezmění, jako příležitost se vykoupit z ekologického hříchu, která nic nezmění, jako rozptýlení, které odvrátí naši pozornost a představivost od globálních řešení globálního problému nebo jako prvotní… celý článek →
4. 12.

Náhodná fotka #32 - Kam vede tento tunel?


Odpověď je někde tady. celý článek →
3. 12.

Sametové posvícení


Tohle mělo bát hotové už před půlkou měsíce, nicméně pořád není. Ale co, tady na k47čce nikdy nepředstírám, že jsem jakkoli aktuální. Abych to uvedl na pravou míru: Během oslav 17. listopadu jsem si vzpomněl, že z Kampy vyráží alegorický/satirický průvod masek Sametové posvícení & proto právě tam… celý článek →
2. 12.

NEVERYOUNG: Pít nebo nepít?


Hej, váš příležitostný kamarád NEVERYOUNG je tu zas! Dneska budu plácat něco a chlastu. Nejsem na mol, takže to možná bude dávat smysl. celý článek →
1. 12.

Bullshit


Slovo bullshit není jen hanlivý výraz používaný, když někdo kecá nesmysly, ale i akademický termín označující výroky někoho, kdo se nezajímá o pravdu. Lhář se snaží záměrně pravdu zatajit, bullshiterovi je to jedno, rozhoduje jen, jestli se mu podaří ostatní přesvědčit. celý článek →
30. 11.

Kolo a post-apokalypsa


Většina filmů zasazených v době po zombie apokalypse nejsou víc než pohádky fetišizující drsný individualismus, kde jedinec vybavený silným autem a věrným psem dokáže přežít navzdory osudu. Ale v době, kdy bezduché zombie snědli většinu lidí, na mysli těch přeživších asi nebude snaha udržovat… celý článek →
29. 11.

Evgeny Morozov


Pozorní čtenáři jsou si jistě vědomi, že tu opakovaně zaznívá, často v poznámkách pod čarou, jedno konkrétní jméno – Evgeny Morozov. Je to původem Běloruský badatel a autor, který studuje společenské a politické dopady technologie. Na tu nehledí růžovými brýlemi a často se jen prořezává ideologickým… celý článek →
28. 11.

Kulturní imperialismus


Pořádně ani nevím, co to kulturní imperialismus vlastně je, ale zvažte tohle: Z týdenních statistik kinoboxu top 20 nevýdělečnějších filmů, vychází že v daném roce 59%-65% diváků šlo na filmy ze Spojených Států a jen 16%-29% zamíří na filmy české provenience. Na třetí příčce návštěvnosti se drží… celý článek →
2019  1   2   3   4   5   6   7   8   9   10   11   12 
2018  1   2   3   4   5   6   7   8   9   10   11   12 
2017  1   2   3   4   5   6   7   8   9   10   11   12 
2016  1   2   3   4   5   6   7   8   9   10   11   12 
2015  1   2   3   4   5   6   7   8   9   10   11   12 
2014  1   2   3   4   5   6   7   8   9   10   11   12 
2013  1   2   3   4   5   6   7   8   9   10   11   12 
2012  1   2   3   4   5   6   7   8   9   10   11   12 
2011  1   2   3   4   5   6   7   8   9   10   11   12 
2010  1   2   3   4   5   6   7   8   9   10   11   12 
2009  1   2   3   4   5   6   7   8   9   10   11   12 
2008  1   2   3   4   5   6   7   8   9   10   11   12 
2007  1   2   3   4   5   6   7   8   9   10   11   12 
2006  1   2   3   4   5   6   7   8   9   10   11   12 
2005  1   2   3   4   5   6   7   8   9   10   11   12 
2004  1   2   3   4   5   6   7   8   9   10   11   12 
2003  1   2   3   4   5   6   7   8   9   10   11   12 
2002  1   2   3   4   5   6   7   8   9   10   11   12 
píše k47 & hosté, ascii@k47.cz