k47.cz
mastodon twitter RSS
bandcamp explorer
««« »»»

Podobnosti & doporučování 2

— k47

Počínaje dnešním dnem je k47čka oficiálně poháněna ~~~UMĚLOU INTELIGENCÍ~~~. Tedy ne tak docela, jen došlo k vylepšení původního algoritmu hledajícího příbuzné články. Teď interně používá word2vec – algoritmus pro word embedding založený na ~~~NEURONOVÝCH SÍTÍCH~~~.

Stejně jako dřív proces začne tak, že se pokusí najít klíčová slova humpolácky neohrabanou metodou, ty pak obohatí o synonyma a blízké termíny, které word2vec identifikoval, a úroveň podobnosti se pak počítá jako Jaccardův index těchto obohacených seznamů.

Jde o dvě velice primitivní fáze mezi než je vklíněna jedna inteligentní, která skutečně dělá to, pro co byla zamýšlená, a ne jen hrubou aproximaci. Word2vec funguje skoro až zázračně. Dokáže přesně vyhmátnout význam slova, které je použité jen zřídka. Například termín „isohunt“, který se na k47čce vyskytuje jen osmkrát, je správně identifikován jako příbuzný jménům jiných torrentových trackerů a sdílecích webů. Magie!

Na druhou stranu nerozlišuje, že slovo může mít několik různých významů. SPD, což na jedné straně označuje typ pedálů a na druhé finanční podraz, který se maskuje za politickou stranu, má pro algoritmus identický smysl. Nicméně to vypadá, že se přesnost podobných článků o něco zlepšila.

Nevýhodou je, že se čas generování k47čky propadl ze čtyř vteřin na deset. Bude třeba to optimalizovat.

Do budoucna by stálo za to se podívat na doc2vec – variantu, která nedělá embedding jednotlivých slov do vektorového prostoru, ale větších textů. Pak by nebylo potřeba dělat všemožné manévry s detekcí klíčových slov, ale podobnost článků se dá zjistit přímo z podobnosti výsledných vektorů.

Ale to až někdy příště, přece jenom by to bylo hodně práce pro web, kam pravidelně chodí asi tak tři lidi a jeden pes.

píše k47, ascii@k47.cz