LINGEA: Slovníky nepíšeme, ale generujeme

IT firma, překladatelská agentura a nakladatelství. Tři (zdánlivě nesourodé) oblasti spojuje jedna střecha a název LINGEA. Brněnská firma umně propojuje offline lingvistický svět s online světem informačních technologií. Její produkty pravděpodobně používáte každý den i vy. Třeba v rámci cizojazyčného slovníku na webu Seznam.cz nebo v programu Microsoft Word, kde vám pomáhá chytrý korektor spolu se slovníkem synonym. Co za úspěchem firmy z Brna stojí? A jak taková jazyková aplikace vlastně vzniká? Přečtěte si příběh firmy LINGEA

Pavel Ševeček zakládal firmu LINGEA v roce 1997. Byl vystudovaný informatik a chtěl se věnovat jazykům, a tak tyto dva obory propojil. V oboru elektronických slovníků a jazykových aplikací se pohybuje od začátku. Pamatuje tak všechny generace strojového překladu. Prvním produktem byl elektronický překladový slovník. „U prvních verzí byla snaha dělat překlady pomocí slovníků a morfologických pravidel. Používat se daly jen velmi omezeně, třeba na popisky pod fotkami nebo jiné kratší úseky. Překladač jednoduše přeložil slovo a vyskloňoval pády. Selhával ale na složitějších větách, významy slov nemusely vždy sedět,“ vzpomíná na počáteční nedokonalosti Pavel Ševeček. Druhou generaci strojového překladu už ve svém prohlížeči používal třeba Seznam. Jednalo se o frázové překladače, kde hlavní roli hrály paralelní korpusy a statistické modely. Pořád ale pokulhávala syntax cílové věty. To už dnes neplatí. Technologie se totiž neuvěřitelně posunula. „Dnes máte problém poznat, jestli text překládal člověk nebo stroj. Mění se tak i náplň práce samotných překladatelů – postupně se posouvají na pozici posteditorů,“ popisuje změny v oboru Pavel Ševeček.

Od roku 2005 rozšířila firma svůj převážně IT záběr i o nakladatelství, začala vydávat knihy. A postupně se nabalovaly také služby – tlumočení a překlady. Po čtyřiadvaceti letech působení LINGEA působí v sedmi pobočkách po Evropě a stojí pevně na třech segmentech, což jí pomohlo překonat i současnou pandemickou krizi.

Učitelé strojového překladu? Ne rodilí mluvčí, ale data

Aktuálně pracuje LINGEA na velkém evropském projektu, pro který má vytvořit překladače mezi mnoha jazyky, včetně arabštiny nebo turečtiny. „Arabština se z našeho pohledu píše bez samohlásek, a každé slovo tak může mít několik významů. Rodilý mluvčí ho pozná z kontextu, pro překladač je to už ale komplikovanější,“ vysvětluje Pavel Ševeček. Na vývoj překladačů přesto není potřeba lingvista ani rodilý mluvčí. Jelikož se jedná o strojové učení, stačí kvalitní data. „Taková, která jsou takzvaně zarovnaná, to znamená, že věta v původním jazyce odpovídá větě v jazyce cílovém. Pokud takových vět máte pár milionů, už se s tím dá pracovat,“ pokračuje Ševeček.

Jak ale taková data získat? To už je výrazně komplikovanější úkol. Paralelních korpusů totiž není mnoho, a tak musí vývojáři na internetu hledat takové texty, u kterých se dá rovnost dat předpokládat – například jazykové varianty stejných webových stránek, manuály stejného produktu v různých řečech nebo překlady agenturních zpráv. Lingvistu přivolají až na samotný závěr k vyhodnocování překladače.

Že jsou vývojáři překladačů rodilí Češi tak nehraje pro české verze aplikací téměř žádnou roli. Jazykové nástroje se trénují na dostupných datech, korpusy obsahují asi 200 miliard slov. Korekturní aplikace díky kvalitnímu datovému „vzdělání“ rozpoznají překlepy a nabízejí slovník synonym. Oba nástroje dodává LINGEA do programů Microsoft Office, Adobe, InDesign nebo Photoshop. Na portálu nechybujte.cz jsou pak jazykové nástroje pro češtinu k dispozici zdarma. Pokud máte text bez háčků a čárek a potřebujete ho upravit, stačí ho projet online nástrojem na webu LINGEA. „Když máte například slovo šířka a sirka, stroj pozná z kontextu, o které slovo se v textu má jednat,“ vybízí k použití služby, která je zdarma, Pavel Ševeček.

Arzenál jazyků a databáze slov(níků) jako nejsilnější zbraň

Ve světových jazycích je dat pro strojové učení dostatek, horší to může být s menšími jazyky – například při překladu z francouzštiny do srbštiny. „V takovém případě je lepší překlad z francouzštiny do angličtiny, a následně z angličtiny do srbštiny,“ vysvětluje Ševeček. Obrovskou výhodou je proto široká škála jazyků, které má LINGEA v portfoliu. V současné době jich je asi padesát. Při specifických překladech textů – například pro medicínu nebo automobilový průmysl – pak doplňují stávající obecné překladače konkrétního jazyka o oborově zaměřené texty a technický slovník. A spolehlivý překladač pro daný účel je na světě.

Spojení „vygenerovat slovník“ přitom v případě LINGEA není vůbec náhodné a neplatí jen pro online svět. Stejným způsobem totiž firma vytváří i všechny papírové slovníky. „Mnoho lidí si představuje, že slovník vzniká ve Wordu na základě rukopisu konkrétního člověka. Tak tomu už dlouho není. Jednotlivé významy slov z každého jazyka se napojují na sémantický význam slova. Celé se to propojí, a tak vznikají postupně databáze,“ upřesňuje Ševeček. Ty může firma použít do aplikací nebo z nich připravit konkrétní papírový slovník

Papír není pasé

Díky chytrému procesu se firmě vyplatí tisknout papírové verze slovníků i v dnešní době. Kromě České republiky je vydávají i v dalších zemích, kde má LINGEA pobočku – v Polsku, Maďarsku, Rumunsku, Srbsku, Slovinsku a na Slovensku. „Kromě nejrůznějších typů slovníků vydáváme také takzvané mluvníky, což je spojení slov mluvit a slovník. Jedná se o slovníček z celých vět, obratů, idiomů. Jsou to vděčné výrazy, například – mám to na háku nebo tu zkoušku jsem nedala. Lidský mozek funguje při čtení klasické knížky přece jen jinak a i listování v příručce může pomoct, aby lidé cizí jazyk lépe dostali pod kůži,“ říká Ševeček.

Ještě docela nedávno v nakladatelství LINGEA připravovali také tištěné turistické průvodce, které překládali (i s pomocí svých překladačů) do několika jazyků. Pandemická krize ale právě toto změnila. Novým ale vlastně i zcela přirozeným směrem, kterým se firma vydala, je oblast vzdělávání. „V příručkách se věnujeme rozvoji personálu ve firmách nebo marketingovým dovednostem. Z překladatelů jsou editoři, z lexikografů částečně redaktoři. Lidé u nás ve firmě si už zvykli, že jejich práce se v průběhu let neustále obměňuje,“ vysvětluje s úsměvem Pavel Ševeček, a dodává, že každodenní pestrost a kreativita je to, co jeho i celý tým na práci v LINGEA baví.

Vedle jazykových aplikací (jako IT firma) a tištěných knih (jako nakladatelství) nabízí LINGEA také služby svých překladatelů – překlady, korektury a tlumočení. V tom také Pavel Ševeček vnímá jedinečnost své firmy a stabilitu pro současnou pandemickou krizi. „Je samozřejmě věc diskuze, jestli mít nakročeno do více oblastí je dobře nebo ne. Jedinečnost v propojování online a offline procesů nám ale v současné nelehké době moc pomohla,“ říká Ševeček.

Překladatelé z masa a kostí jsou strojem (zatím) nenahraditelní

Firma Lingea působí v sedmi zemích včetně České republiky. Otevření poboček v sousedních zemích ještě nebylo tak složité, pro vstup na další zahraniční trhy je ale přece jen potřeba zkušený parťák. Díky JICu našli Lukáše Maňáska, obchodního ředitele z Y Softu. „Možnost konzultovat s Lukášem byla velmi cenná. Ve firmě řešíme s kolegy každodenně problémy, ale jako majitel jsem si s někým potřeboval popovídat ještě v trochu jiné rovině,“ vzpomíná Pavel Ševeček. Konzultace s expertem JICu tak přinesly to, co si od nich firma slibovala – především to, jak nastavit spolupráci s lokálními partnery v zahraničí a jak je proškolit. „Lukáš mi pomohl zaplašit pochybnosti a potvrdil mi moje domněnky. Odcházel jsem s čistou hlavou a utříděnými myšlenkami – a nakonec pro mě rozhodování bylo o mnoho jednodušší,“ dodává Ševeček.

A co čeká lingvistické strojové učení v budoucnu? Přestože překladače už teď velmi zdatně zvládají překlady běžných textů, třeba v beletrii stále naráží na kulturní překážky – například dvojsmysly – a znalost kontextu tak nezvládne nikdo lépe než lingvista z masa a kostí. Do budoucna ale není vyloučené ani odstranění této chybovosti. Stroje se totiž stále učí z vlastních chyb. „Ve chvíli, kdy překladatel opravuje už poněkolikáté určitou chybu, aplikace je schopná si to vyhodnotit a příště už text přeložit správně. Dokonalé překlady za všech okolností ale budou určitě ještě běh na dlouhou trať,“ uzavírá Ševeček.