k47.cz    — každý den dokud se vám to nezačne líbit
foto Praha výběr povídky kultura | twitter FB


««« »»»

Čeština/mechanizace

2. 4. 2018 — k47

Od základní školy mám docela dobrou představu o správně češtině. Zvládám všechna ta zapeklitá i/y a když si dávám pozor, píšu povětšinou bez chyb. Nikdy jsem si tedy nezapamatoval všechna pravidla, kde se píšou velká písmena, ty vždycky přiděluji podle citu, ale kromě nich všechno ±zvládám.

Poslední dobou mi přesto připadá, že začínám tápat.

Nedávno jsem přemýšlel, jestli se píše "kecy" nebo "keci". Tvrdé y po c mi nějak nepřipadalo. Samozřejmě že se to tak píše, ale byl jsem nakřápnutý.

Také jsem si s hrůzou uvědomil, že jsem zcela přestal psát "mně", a ve všech případech používal jeho bratříčka kterému schází prostřední písmeno. Proč ne? Je to jenom malý prohřešek a navíc se obě slova vyslovují stejně. Ale tady jde o princip. Když už jsem začal psát spisovně a správně, budu v tom pokračovat dokud mi v tom nikdo nezačne aktivně bránit. Do dnešního dne si pamatuji mnemotechnickou pomůcku, která mi pomohla ovládnout mě/mně. "Mě" má 2 písmena a se užívá ve 2. a 4. pádu, "mně" má 3 písmena a používá se ve 3. a 6. pádu. Když je pád dělitelný třemi, píše se "mně". Je to poněkud komplikovaný mentální tahák, ale fungoval.

Abych napravil staré prohřešky proti českému jazyku a chybějícímu písmenu "n" na tomto webu, napsal jsem další skript, který kontroluje tyto a několik dalších chyb (jako třeba překlepy "jsem"/"jsme"), a s jeho pomocí jsem zpětně opravil všechny omyly za posledních 15 let.

Nejde o žádný zásadní akt jazykového purismu. Případných chyb si všimne jen málokdo a zastaví se nad nimi jen pedanti, ale jak tu už zaznělo, jde o princip. Chci tu provozovat jazykovou ekvilibristiku na nejvyšší možné úrovni.

To se týká i slovní zásoby. Často nemůžu přijít na úderné synonymum a místo tápání v paměti ho hledám přes česko-anglický slovník - oklikou přes cizí jazyk je možné objevit i poněkud neortodoxní náhrady.

Ale to je neohrabané. Už dlouho jsem přemýšlel, že bych je mohl vybírat algoritmicky na základě masivního korpusu textu. To jsem dneska udělal, tedy aspoň první krok. Rozjel jsem word2vec nad kompletním obsahem k47čky, který má rozsah přes jeden milion slov. Po vyladění parametrů (lehký stemming + skipgramy + hodně iterací) to dává skoro zázračné výsledky. Na hledání synonym to ještě není, shlukuje to slova na jiné úrovni relevance1 - slova používaná v podobném kontextu, syntaktickém a významovém. Výsledky však docela jasně ukazují latentní slony k pesimismu. Ke slovu láska mají nejblíže termíny prapodivný, naivita, zapomenutí, matka, vztah, neodvážil, odloučení; nebo k milovat to jsou zhoršovat a ignorovat. Na pozitivitu si tu nikdo nehraje, to musí být pravidelným návštěvníkům jasné.

Doufám, že dalším laděním, případně přisypáním dalších textů, se z toho stane užitečný lovec synonym, který posune jazykové hry na novou úroveň. Nebo možná by se to dalo použít pro hledání tematicky relevantních článků nebo automatickému tagování. Našel jsem pár akademických článků, které můžou poskytnou odpovědi. Ale teď už je pozdě & musím jít spát.


  1. Pro slovo gin algoritmus vybral tyto příbuzné výrazy: tonic, tanqueray, nápoj, hendricks, vermut, okurka, koktejl, imperial, vodka, gimlet, whisky, sklenice, laphroiag, šťáva, oliva, led, lahev, drink, beefeater. Je mezi nimi neoddiskutovatelná pojící linie, ale nejde o synonyma jako taková, jsou to spíš přidružené termíny. Stejně tak dotaz na tramadol vybere názvy všech drog, které jsem kdy zmínil včetně těch fiktivních.
vstoupit do diskuze    sdílet na facebooku, twitteru, google+

štítky: #local #jazyk

příbuzné články: Chaos/mechanizace 📷, Pauza, Je na čase začít raidovat, Nic jako publikum neexistuje, Vytvořit jazyk (exkurze do světa Lispu, šílenství závorek a vítězství strojů), Proč by to mělo být jinak? 📷

sem odkazují: Jak nakonfigurovat asciiblog

píše k47 & hosté, ascii@k47.cz