k47.cz  — každý den dokud se vám to nezačne líbit
foto Praha výběr povídky kultura
twitter FB RSS
««« »»»

Podobnosti & doporučování

25. 10. 2018 — k47

Ko­nečně jsem na as­cii­blog, který pohání i k47čku, do­dě­lal jednu funkci, po které jsem prahl už dlouho. A přitom to nebylo nic kom­pli­ko­va­ného.

Asi takhle: Pod každým člán­kem se uka­zuje seznam odkazů na po­dobné články. Mo­ti­vace je jed­no­du­chá – když se ná­vštěv­ní­kovi líbí, co právě čte, může se mu líbit i něco z po­skyt­nu­tého se­znamu. Pokud je to pravda, zů­stane tady na webu & všichni budou spo­ko­jení. Sám z toho nic nemám, nejsou tady žádné re­klamy nebo sle­do­vací skripty (a doufám, že to tak i nadále zů­stane), ale každé klik­nutí mě za­hřeje u srdce a dodá pocit, že to není jen gi­gan­tická ztráta času.

Mělo to jen jeden drobný pro­blém. Po­dob­nosti byly po­čí­tané na zá­kladě tagů (nebo štítků nebo ka­te­go­rií nebo tak nějak). Když jsem článek ne­o­zna­čil žádným tagem, systém ne­do­po­ru­čil žádné po­dobné a text se stal slepou ulič­kou za které ne­vedla žádná oči­vidná cesta dál.

Právě tohle se teď mění. Přidal jsem funkci, která iden­ti­fi­kuje po­dobné články pouze na zá­kladě textu a ten nemůžu jen tak bez­trestně vy­ne­chat (kromě ob­čas­ných vy­cpá­vek) a jak uka­zují sta­tis­tiky, tak mám ve zvyku pravý opak – píšu víc než by bylo při­ja­telné ve slušné spo­leč­nosti.

Fun­guje to docela jed­no­duše. Nejdřív se pro­gram snaží iden­ti­fi­ko­vat klí­čové ter­míny v textu pri­mi­tiv­ními vá­že­nými frek­ven­cemi slov a pak najde články, které sdílí co nej­více těchto ter­mínů. Hotovo. Jde o velice hrubý pří­stup, který občas ko­micky selže, někdy trefí hře­bí­ček na hla­vičku, ale je to pořád lepší než nic. Třeba jména ho spo­leh­livě pokoří – Jon RonsonJon Ri­chard­son ob­sa­hují klí­čový termín „Jon“ a v očích na­iv­ního al­go­ritmu si jsou po­dobní. Také nebere v potaz kon­text jako na­pří­klad zmínky o reálné válce a vál­čené PC hře, nebo jen ome­zeně roz­li­šuje mezi okra­jo­vými po­znám­kami a hlav­ním té­ma­tem. To dělám dost často v po­znám­kách pod čarou. A tak dále, a tak dále, a tak dále. Nejde o žádnou deep lea­ring AI, nic ta­ko­vého, ba právě naopak. Na druhou stranu takhle mám spoustu pro­storu pro ex­panzi a vy­lep­šo­vání + celé je to rychlé & o rych­lost tu jde pře­de­vším. Nechce se mi čekat minutu při každé ak­tu­a­li­zaci webu.


+1: Pří­klad, kde se to krásně trefí, je třeba tenhle post. Algo oči­vidně roz­po­znal klí­čový termím „sen“ a našel všechny další snové zá­pisky.

píše k47 & hosté, ascii@k47.cz