k47.cz
výběr kolo foto makro povídky kultura
koronavirus TECH ▞▞ 🞄⬤🞄 | twitter RSS
««« »»»

Podobnosti & doporučování

25. 10. 2018 — k47

Ko­nečně jsem na as­cii­blog – soft­ware po­há­ně­jící i k47čku – přidal funkci, po níž jsem už dlouho prahnul. A přitom to nebylo nic kom­pli­ko­va­ného.

Asi takhle: Pod každým člán­kem se uka­zuje seznam odkazů na po­dobné články. Mo­ti­vace je jed­no­du­chá – když se ná­vštěv­ní­kovi líbí, co právě čte, může se mu líbit i něco z po­skyt­nu­tého se­znamu. Pokud je to pravda, zů­stane tady na webu & všichni budou spo­ko­jení. Sám z toho nic nemám, nejsou tady žádné re­klamy nebo sle­do­vací skripty (a doufám, že to tak i nadále zů­stane), ale každé klik­nutí mě za­hřeje u srdce a dodá pocit, že to není jen gi­gan­tická ztráta času.

Mělo to jen jeden drobný pro­blém. Po­dob­nosti byly po­čí­tané na zá­kladě tagů (nebo štítků nebo ka­te­go­rií nebo tak nějak). Když jsem článek ne­o­zna­čil žádným tagem, systém ne­do­po­ru­čil žádné po­dobné a text se stal slepou ulič­kou za které ne­vedla žádná oči­vidná cesta dál.

Právě tohle se teď mění. Přidal jsem funkci, která iden­ti­fi­kuje po­dobné články pouze na zá­kladě textu a ten nemůžu jen tak bez­trestně vy­ne­chat (kromě ob­čas­ných vy­cpá­vek). Sta­tis­tiky uka­zují, že mám ve zvyku pravý opak. Píšu víc, než by bylo při­ja­telné ve slušné spo­leč­nosti.

Fun­guje to docela jed­no­duše. Nejdřív se pro­gram snaží iden­ti­fi­ko­vat klí­čové ter­míny v textu pri­mi­tiv­ními vá­že­nými frek­ven­cemi slov a pak najde články, které sdílí co nej­více těchto ter­mínů. Hotovo. Jde o velice hrubý pří­stup, který občas ko­micky selže, někdy trefí hře­bí­ček na hla­vičku, ale je to pořád lepší než nic. Třeba jména ho spo­leh­livě pokoří – Jon RonsonJon Ri­chard­son ob­sa­hují klí­čový termín „Jon“ a v očích na­iv­ního al­go­ritmu si jsou po­dobní. Také nebere v potaz kon­text jako na­pří­klad zmínky o reálné válce a vál­čené PC hře, nebo jen ome­zeně roz­li­šuje mezi okra­jo­vými po­znám­kami a hlav­ním té­ma­tem. To dělám dost často v po­znám­kách pod čarou. A tak dále, a tak dále, a tak dále. Nejde o žádnou deep lea­ring AI, nic ta­ko­vého, ba právě naopak. Na druhou stranu takhle mám spoustu pro­storu pro ex­panzi a vy­lep­šo­vání + celé je to rychlé & o rych­lost tu jde pře­de­vším. Nechce se mi čekat minutu při každé ak­tu­a­li­zaci webu.


+1: Pří­klad, kde se to krásně trefí, je třeba tenhle post. Algo oči­vidně roz­po­znal klí­čový termín „sen“ a našel všechny další snové zá­pisky.

píše k47 & hosté, ascii@k47.cz