k47.cz
výběr kolo foto Praha povídky kultura
TECH ▞▞ | twitter RSS
««« »»»

Čeština/mechanizace

2. 4. 2018 — k47

Od zá­kladní školy mám docela dobrou před­stavu o správně češ­tině. Zvlá­dám všechna ta za­peklitá i/y a když si dávám pozor, píšu po­vět­ši­nou bez chyb. Nikdy jsem si tedy ne­za­pa­ma­to­val všechna pra­vi­dla, kde se píšou velká pís­mena, ty vždycky při­dě­luji podle citu, ale kromě nich všechno ±zvlá­dám.

Po­slední dobou mi přesto při­padá, že za­čí­nám tápat.

Ne­dávno jsem pře­mýš­lel, jestli se píše „kecy“ nebo „keci“. Tvrdé y po c mi nějak ne­při­pa­dalo. Sa­mo­zřejmě že se to tak píše, ale byl jsem nakřápnutý.

Také jsem si s hrůzou uvě­do­mil, že jsem zcela pře­stal psát „mně“, a ve všech pří­pa­dech po­u­ží­val jeho brat­říčka, kte­rému schází pro­střední pís­meno. Proč ne? Je to jenom malý pro­hře­šek a navíc se obě slova vy­slo­vují stejně. Ale tady jde o prin­cip. Když už jsem začal psát spi­sovně a správně, budu v tom po­kra­čo­vat dokud mi v tom nikdo ne­začne ak­tivně bránit. Do dneš­ního dne si pa­ma­tuji mne­mo­tech­nic­kou po­můcku, která mi po­mohla ovlád­nout mě/mně. „Mě“ má 2 pís­mena a se užívá ve 2. a 4. pádu, „mně“ má 3 pís­mena a po­u­žívá se ve 3. a 6. pádu. Když je pád dě­li­telný třemi, píše se „mně“. Po­ně­kud kom­pli­ko­vaný men­tální tahák, ale fun­guje.

Abych na­pra­vil staré pro­hřešky proti čes­kému jazyku a chy­bě­jí­címu pís­menu „n“ na tomto webu, napsal jsem další skript, který kon­t­ro­luje tyto a ně­ko­lik dal­ších chyb (jako třeba pře­klepy „jsem“/„jsme“), a s jeho pomocí jsem zpětně opra­vil všechny omyly za po­sled­ních 15 let.

Nejde o žádný zá­sadní akt ja­zy­ko­vého pu­rismu. Pří­pad­ných chyb si všimne jen má­lo­kdo a za­staví se nad nimi jen pe­danti, ale jak tu už za­znělo, jde o prin­cip. Chci tu pro­vo­zo­vat ja­zy­ko­vou ekvi­lib­ris­tiku na nej­vyšší možné úrovni.

To se týká i slovní zásoby. Často nemůžu přijít na úderné sy­no­ny­mum a místo tápání v paměti ho hledám přes česko-an­g­lický slov­ník – okli­kou přes cizí jazyk je možné ob­je­vit i po­ně­kud ne­or­to­doxní ná­hrady.

Ale to je ne­o­hra­bané. Už dlouho jsem pře­mýš­lel, že bych je mohl vy­bí­rat al­go­rit­micky na zá­kladě masiv­ního kor­pusu textu. To jsem dneska udělal, tedy aspoň první krok. Rozjel jsem word2vec nad kom­plet­ním ob­sa­hem k47čky, který má rozsah přes jeden milion slov. Po vy­la­dění pa­ra­me­trů (lehký stem­ming + ski­p­gramy + hodně ite­rací) to dává skoro zá­zračné vý­sledky. Na hle­dání sy­no­nym to ještě není, shlu­kuje to slova na jiné úrovni re­le­vance1 – slova po­u­ží­vaná v po­dob­ném kon­textu, syn­tak­tic­kém a vý­zna­mo­vém. Vý­sledky však docela jasně uka­zují la­tentní slony k pe­si­mismu. Ke slovu láska mají nej­blíže ter­míny pra­po­divný, na­i­vita, za­po­me­nutí, matka, vztah, ne­od­vá­žil, od­lou­čení; nebo k mi­lo­vat to jsou zhor­šo­vatig­no­ro­vat. Na po­zi­ti­vitu si tu nikdo ne­hraje, to musí být pra­vi­del­ným ná­vštěv­ní­kům jasné.

Doufám, že dalším la­dě­ním, pří­padně při­sy­pá­ním dal­ších textů, se z toho stane uži­tečný lovec sy­no­nym, který posune ja­zy­kové hry na novou úroveň. Nebo možná by se to dalo použít pro hle­dání te­ma­ticky re­le­vant­ních článků nebo au­to­ma­tic­kému ta­go­vání. Našel jsem pár aka­de­mic­kých článků, které můžou po­skyt­nou od­po­vědi. Ale teď už je pozdě & musím jít spát.


  1. Pro slovo gin al­go­rit­mus vybral tyto pří­buzné výrazy: tonic, ta­nque­ray, nápoj, hen­dricks, vermut, okurka, koktejl, im­pe­rial, vodka, gimlet, whisky, skle­nice, la­phro­iag, šťáva, oliva, led, lahev, drink, bee­fe­a­ter. Je mezi nimi ne­od­dis­ku­to­va­telná pojící linie, ale nejde o sy­no­nyma jako taková, jsou to spíš při­dru­žené ter­míny. Stejně tak dotaz na tra­ma­dol vybere názvy všech drog, které jsem kdy zmínil včetně těch fik­tiv­ních.
píše k47 & hosté, ascii@k47.cz