k47.cz    — každý den dokud se vám to nezačne líbit
foto Praha výběr povídky kultura | twitter FB

««« »»»

Podobnosti & doporučování

25. 10. 2018 — k47

Ko­neč­ně jsem na as­cii­blog, který pohání i k47čku, do­dělal jednu funkci, po které jsem prahl už dlouho. A přitom to nebylo nic kom­pli­ko­va­né­ho.

Asi takhle: Pod každým člán­kem se uka­zu­je seznam odkazů na po­dob­né články. Mo­ti­va­ce je jed­no­du­chá – když se ná­vštěv­ní­ko­vi líbí, co právě čte, může se mu líbit i něco z po­skyt­nu­té­ho se­zna­mu. Pokud je to pravda, zůsta­ne tady na webu & všich­ni budou spo­ko­je­ní. Sám z toho nic nemám, nejsou tady žádné re­kla­my nebo sle­do­va­cí skrip­ty (a doufám, že to tak i nadále zůsta­ne), ale každé klik­nu­tí mě za­hře­je u srdce a dodá pocit, že to není jen gi­gan­tic­ká ztráta času.

Mělo to jen jeden drobný pro­blém. Po­dob­nos­ti byly počí­ta­né na zá­kladě tagů (nebo štítků nebo ka­te­go­rií nebo tak nějak). Když jsem článek ne­o­zna­čil žádným tagem, systém ne­do­po­ru­čil žádné po­dob­né a text se stal slepou ulič­kou za které ne­ved­la žádná oči­vid­ná cesta dál.

Právě tohle se teď mění. Přidal jsem funkci, která iden­ti­fi­ku­je po­dob­né články pouze na zá­kladě textu a ten nemůžu jen tak bez­trest­ně vy­ne­chat (kromě občas­ných vy­cpá­vek) a jak uka­zu­jí sta­tis­ti­ky, tak mám ve zvyku pravý opak – píšu víc než by bylo při­ja­tel­né ve slušné spo­leč­nos­ti.

Fun­gu­je to docela jed­no­du­še. Nejdřív se pro­gram snaží iden­ti­fi­ko­vat klíčo­vé ter­mí­ny v textu pri­mi­tiv­ní­mi váže­ný­mi frek­ven­ce­mi slov a pak najde články, které sdílí co nej­ví­ce těchto ter­mí­nů. Hotovo. Jde o velice hrubý přístup, který občas ko­mic­ky selže, někdy trefí hře­bíček na hla­vič­ku, ale je to pořád lepší než nic. Třeba jména ho spo­leh­li­vě pokoří – Jon RonsonJon Ri­chard­son ob­sa­hu­jí klíčo­vý termín „Jon“ a v očích na­iv­ní­ho al­go­rit­mu si jsou po­dob­ní. Také nebere v potaz kon­text jako na­pří­klad zmínky o reálné válce a válče­né PC hře, nebo jen ome­ze­ně roz­lišu­je mezi okra­jo­vý­mi po­znám­ka­mi a hlav­ním té­ma­tem. To dělám dost často v po­znám­kách pod čarou. A tak dále, a tak dále, a tak dále. Nejde o žádnou deep lea­ring AI, nic ta­ko­vé­ho, ba právě naopak. Na druhou stranu takhle mám spous­tu pro­sto­ru pro ex­pan­zi a vy­le­pšo­vá­ní + celé je to rychlé & o rych­lost tu jde pře­de­vším. Nechce se mi čekat minutu při každé ak­tu­a­li­za­ci webu.


+1: Pří­klad, kde se to krásně trefí, je třeba tenhle post. Algo oči­vid­ně roz­po­znal klíčo­vý termím „sen“ a našel všech­ny další snové zá­pis­ky.

píše k47 & hosté, ascii@k47.cz