k47.cz
výběr kolo foto makro povídky kultura
koronavirus TECH ▞▞ 🞄⬤🞄 | twitter RSS
««« »»»

Slovní zásoba

10. 2. 2020 — k47

Nemůžu se zbavit dojmu, že moje slovní zásoba je po­ně­kud strohá. Když píšu na k47čku, pořád a pořád do­stá­vám pocit, že to není ono, že nemůžu najít správná slova, stále po­u­ží­vám býtmít na­místo jiných efek­tiv­něj­ších akč­ních sloves a tak po­dobně.

Může jít jen o pocit & od­mí­tám pro­pad­nout trud­no­my­sl­nosti, pokud to nemám pod­lo­žené čísly. Napsal jsem proto skript, který vy­táhne všechny texty k47čky (přes milion slov), roz­láme je na slova, os­te­muje na kost a sečte počet uni­kát­ních slov po­u­ži­tých v daném měsíci. Vý­sle­dek? Čím víc toho napíšu, tím víc růz­ných slov po­u­žiju.

Hmm, to se dalo čekat.

Nejde ale o jed­no­du­chý vztah. Když napíšu 2× tolik, ne­zna­mená to 2× větší slovní re­per­toár, po­cho­pi­telně. Když do grafu vynesu cel­kový počet slov v daném měsíci na lo­ga­rit­mické ose x a sumu uni­kát­ních slov v ose y, vypadá to takhle:

Vypadá to, že exis­tuje určitá rov­nice, která celkem ±přesně od­hadne kolik růz­ných slov bude po­u­žito vzhle­dem k cel­ko­vému objemu textu. To je ta čára skrytá v moři křížků. Takhle zdálky to působí, že ±pasuje docela fajn. Teď se nabízí mož­nost měřit bo­ha­tost slovní zásoby vzhle­dem k tomuto odhadu. Ne­dávno padla řeč o špatné sta­tis­tice, tak proč ne­při­dat vlastní pří­spě­vek do to­ho­hle žánru?

Mohlo by jít o lehce stou­pavý trend. Plus mínus. Možná. Trochu. S velice při­vře­nýma očima. Pravda, ten propad v roce 2017 se sho­duje s ob­zvlášť gi­gan­tic­kým ob­je­mem na­psa­ného textu a to uka­zuje na zá­sadní pro­blém: Rov­nice ne­fun­guje na delší časové úseky a větší objemy slov. V těch pří­pa­dech značně nad­hod­no­cuje odhady.

Navíc tohle nebude ta správná me­t­rika. Bohatá slovní zásoba zna­mená, že běžně po­u­ží­vám pes­trou paletu slov, ne že občas vy­hrabu ne­zvyklý termín, který se vy­skytne jen jednou a pak za­po­me­nutý. Z grafů je patrné, že prů­měrné slovo je v prů­měr­ném měsíci po­u­žito asi tak tři­krát (prů­měrně). Po­lo­vina všech slov byla za 16 let k47čky po­u­žitá jen jednou. Jak se říká ve sta­tis­tické han­tý­rce jde o long tail a moje měření nikam ne­ve­dou.


Do­da­tek: Heap's law

píše k47 & hosté, ascii@k47.cz