k47.cz
výběr foto Praha povídky kultura
TECH ▞▞ kolo | twitter RSS
««« »»»

DeepSpeech

25. 6. 2019 — k47 (♪)

Pa­ma­tu­jete, jak jsem si ne­dávno po­vzdychl, že ve světě svo­bod­ného soft­waru není žádný dobrý a oka­mžitě po­u­ži­telný pro­gram pro syn­tézu řeči? Mo­zilla mě vy­sly­šela s pro­jek­tem De­e­pSpe­ech. Mo­zilla na nás všechny myslí, Mo­zilla nás za­chrání, Mo­zille záleží na in­ter­netu a in­ter­ne­to­vých svo­bo­dách.

Tedy ne tak úplně. Ne­vy­sly­šela mě v tom oka­mžiku, pro­tože jde o pro­jekt, který běží už mnoho měsíců. Navíc jde o druhou stránku zvuko-tex­tové mince. De­e­pSpe­ech pře­vádí hlas na text, ne naopak. Ale co? Je to open source a zlobit se nebudu. Mo­zilla má hlavní kom­po­nentu kaž­dého pro­gramu za­lo­že­ného na stro­jo­vém učení – korpus mlu­vené řeči Common Voice, který můžou použít pro vývoj plá­no­va­ného bu­dou­cího text-to-speech pro­gramu (nevím přesně, ale z mého hlu­boce di­le­tant­ského po­hledu, mi při­padá, že by to tak mohlo být).

K De­e­pSpe­ech mě do­vedlo hle­dání svo­bod­ných STT pro­gramů po shléd­nutí videa, ve kterém před­ná­še­jící uka­zuje pro­gra­mo­vání bez klá­ves­nice jen vlast­ním hlasem. Bylo to docela pou­tavé & aspoň na chvíli jsem uznal, že by se někdy hodilo mít mož­nost ovlá­dat po­čí­tač STT stylem nebo dik­to­vat po­známky (bez pří­tom­nosti alexy, siri a jiných bot­netů). Tak tedy: Jak De­e­pSpe­ech fun­guje? Umož­ňuje tohle všechno?

Asi takhle: Do­dá­vané modely jsou na­tré­no­vané pro ame­ric­kou an­g­lič­tinu a na ukáz­kách fun­guje velice dobře. Mě se ale ne­po­da­řilo, aby pře­lo­žily je­di­nou mojí větu dobře. Moc se tomu po­pravdě ne­di­vím. Nejsem rozený mluvčí & navíc mi má pro­blém po­ro­zu­mět vět­šina živých lidí (Chci být víc jako Hunter S. Thomp­son: Mumlání jako první, drogy jako druhé, žur­na­lis­tická bri­li­ance se jistě brzy do­staví).

Takže zatím ne, ale jsme na dobré cestě. Za pro­jek­tem stojí Mo­zilla, které na svo­bod­ném soft­waru záleží a svo­bodný STT a TTS progam je dů­le­žitý krok, jak se zbavit jha si­li­con valley.

píše k47 & hosté, ascii@k47.cz