k47.cz
výběr kolo foto makro povídky kultura
koronavirus TECH ▞▞ 🞄⬤🞄 | twitter RSS
««« »»»

Podobnosti & doporučování 2

19. 5. 2019 — k47

Po­čí­naje dneš­ním dnem je k47čka ofi­ci­álně po­há­něna ~~~UMĚLOU IN­TE­LI­GENCÍ~~~. Tedy ne tak docela, jen došlo k vy­lep­šení pů­vod­ního al­go­ritmu hle­da­jí­cího pří­buzné články. Teď in­terně po­u­žívá word2vec – al­go­rit­mus pro word em­bed­ding za­lo­žený na ~~~NEU­RO­NO­VÝCH SÍTÍCH~~~.

Stejně jako dřív proces začne tak, že se pokusí najít klí­čová slova hum­po­lácky ne­o­hra­ba­nou me­to­dou, ty pak obo­hatí o sy­no­nyma a blízké ter­míny, které word2vec iden­ti­fi­ko­val, a úroveň po­dob­nosti se pak počítá jako Jac­car­dův index těchto obo­ha­ce­ných se­znamů.

Jde o dvě velice pri­mi­tivní fáze mezi než je vklí­něna jedna in­te­li­gentní, která sku­tečně dělá to, pro co byla za­mýš­lená, a ne jen hrubou apro­xi­maci. Word2vec fun­guje skoro až zá­zračně. Dokáže přesně vy­hmát­nout význam slova, které je po­u­žité jen zřídka. Na­pří­klad termín „iso­hunt“, který se na k47čce vy­sky­tuje jen osm­krát, je správně iden­ti­fi­ko­ván jako pří­buzný jménům jiných torren­to­vých trac­kerů a sdí­le­cích webů. Magie!

Na druhou stranu ne­roz­li­šuje, že slovo může mít ně­ko­lik růz­ných vý­znamů. SPD, což na jedné straně ozna­čuje typ pedálů a na druhé fi­nanční podraz, který se mas­kuje za po­li­tic­kou stranu, má pro al­go­rit­mus iden­tický smysl. Nicméně to vypadá, že se přes­nost po­dob­ných článků o něco zlep­šila.

Ne­vý­ho­dou je, že se čas ge­ne­ro­vání k47čky pro­padl ze čtyř vteřin na deset. Bude třeba to op­ti­ma­li­zo­vat.

Do bu­doucna by stálo za to se po­dí­vat na doc2vec – va­ri­antu, která nedělá em­bed­ding jed­not­li­vých slov do vek­to­ro­vého pro­storu, ale vět­ších textů. Pak by nebylo po­třeba dělat vše­možné ma­né­vry s de­tekcí klí­čo­vých slov, ale po­dob­nost článků se dá zjis­tit přímo z po­dob­nosti vý­sled­ných vek­torů.

Ale to až někdy příště, přece jenom by to bylo hodně práce pro web, kam pra­vi­delně chodí asi tak tři lidi a jeden pes.

píše k47 & hosté, ascii@k47.cz