Strojový preklad zaznamenal skutočný progres až v dvadsiatom storočí, no jeho počiatky siahajú do sedemnásteho storočia. Filozofi Leibnitz alebo Descartes ako prví navrhli číselné kódy, ktoré mali vytvárať koreláciu medzi slovami jednotlivých jazykov. Všetky návrhy však zostali v teoretickej rovine a žiaden z nich neviedol ku vzniku konkrétneho „stroja“.
Počiatky strojového prekladu
1930 – 1949
Novodobým priekopníkom strojového prekladu bol Peter Troyanskii, ruský vedec, ktorý v roku 1933 navrhol trojfázový proces strojového prekladu. Ten mal fungovať nasledovne: v prvej fáze rodený hovorca východiskového jazyka rozložil slová vo vete na ich základné formy (nominatív, neurčitok) a syntaktické funkcie. V druhej fáze stroj preložil príslušné reťazce na základné formy slov a syntaktické funkcie v cieľovom jazyku. Rodený hovorca cieľového jazyka následne upravil výstup. Táto idea však zostala až do vzniku prvých počítačov nevyužitá.
1950 – 1979
Prvé systémy strojových prekladov zo začiatku päťdesiatych rokov používali rozsiahle bilingválne korpusy a základné gramatické kódovanie, vďaka ktorému bol počítač schopný vytvoriť text v cieľovom jazyku. Hneď na začiatku však bolo jasné, že „jednoduchý“ matematický kód nepokryje žiaden prirodzený (teda nie kontrolovaný, resp. umelý) jazyk komplexne. Zložité vetné konštrukcie, abstraktnosť, idiomatickosť, homonymia, metonymia, to všetko bolo pre strojový preklad neprekonateľnou prekážkou.
V roku 1954 sa uskutočnil tzv. „Georgetown-IBM experiment“, ktorého cieľom bolo upriamiť pozornosť vlád a verejnosti na užitočnosť strojového prekladu. Systém obsahoval len šesť gramatických pravidiel a 250 položiek slovnej zásoby a okrem všeobecných tém sa špecializoval na oblasť organickej chémie. Počítač IBM 701 vtedy úspešne preložil z ruského do anglického jazyka 60 viet. Verejnosť bola výsledkom nadšená a autori experimentu tvrdili, že systém za pár rokov úplne nahradí človeka – prekladateľa. Video o strojovom preklade z roku 1954 si môžete pozrieť tu.
Správa ALPAC-u (Automatic Language Processing Advisory Committee) z roku 1966, ktorej cieľom bolo zhodnotiť progres v rámci strojového prekladu za uplynulé obdobie, dokázala pravý opak a vláda USA výrazne zredukovala dotácie výskumu. Ani neúspech však neodradil vedcov v iných krajinách pokračovať vo výskume.
1980 – 1989
V dôsledku väčšej dostupnosti počítačov vzrástol v tomto období jednak počet nástrojov poskytujúcich strojový preklad, ale aj príslušné metódy či techniky.
Na konci osemdesiatych rokov spoločnosť IBM vyvinula systém založený na štatistickej metóde a v Japonsku sa ujal strojový preklad pomocou príkladov (pozri nižšie) založený na analógii paralelných textov. V súčasnosti sa najviac nádeje a zdrojov vkladá práve do týchto dvoch prístupov.
Podrobnejšie informácie o histórii strojového prekladu nájdete tu a v ďalších publikáciách.
Moderný strojový preklad
V súčasnosti poznáme niekoľko druhov strojového prekladu. Najjednoduchším typom prekladu je tzv. slovníkový preklad. Doplnením súboru pravidiel vznikol tzv. pravidlový transférový preklad. Ďalším typom prekladu je interlingválny preklad, ktorý využíval akýsi umelý jazyk, resp. medzijazyk. Najnovším prírastkom v rámci vývoja strojového prekladu bol už spomínaný štatistický preklad a preklad pomocou príkladov nevynímajúc hybridný prístup.
Slovníkový preklad
Slovníkový typ strojového prekladu (t.j. doslovný) je založený na transfere slov zo zdrojového do cieľového jazyka bez ohľadu na ich funkciu či kontext.
Pravidlový transferový preklad
Pri tomto type prekladu sa vykonáva lingvistická analýza v niekoľkých krokoch. V morfologickej analýze sa zdrojový text rozloží na slová a ich funkcie (slovný druh, číslo, rod, atď.). V nasledujúcej fáze – lexikálnej kategorizácii – sa prihliada na kontext slova, resp. na fakt, že dané slovo môže mať viacero významov. Pri samotnom transfere sa slovo preloží zo zdrojového do cieľového jazyka. Počas štrukturálneho prenosu dochádza k úprave slov v rámci viet a fráz (pády, časy, slovosled). Vo finálnej fáze sa výstup upraví podľa rozloženia vstupu (rovnaké rozloženie textu, odsekov a pod.).
Pravidlový interlingválny preklad
Interlingválny preklad je v princípe podobný tomu predošlému s jedným zásadným rozdielom – pri interligválnom preklade sa neprekladá priamo zo zdrojového jazyka do cieľového jazyka, ale zo zdrojového jazyka do jazyka Interligua a následne do cieľového jazyka. Jazyk Interligua je akýmsi medzičlánkom, ktorý umožňuje jednoduché pridávanie zdrojových i cieľových jazykov, pretože v strede sa nachádza ich nezávislá reprezentácia. Jednou z vážnejších nevýhod je, že definovanie pravidiel takéhoto medzijazyka je veľmi náročné pri ďalších doménach, a preto je vhodný skôr pre špecifické oblasti.
Štatistický preklad
Ide o modernú metódu, na základe ktorej sa generuje cieľový text pomocou štatistických metód a pravdepodobnosti. Štatistický strojový preklad pracuje s bilingválnym korpusom – s čo možno najväčšou databázou bilingválnych textov. Štatistický strojový preklad využíva dva modely prekladu: založený na slovách alebo založený na vetách/frázach.
Preklad pomocou príkladov
Pri tejto metóde je podobne ako pri štatistickom strojovom preklade potrebný viacjazyčný korpus.
Na základe týchto dát sa systém najprv „učí“ a následne vytvára slovník fráz a ich prekladov. Nový text rozdelí na vety a tie na frázy. Frázy následne preloží na základe analógie s predošlými prekladmi, napokon skomponuje vetu v cieľovom jazyku. Zvláštnosťou tohto typu strojového prekladu je, že korpus musí byť koncipovaný paralelne po vetách. Najprv je uvedená veta v zdrojovom jazyku a následne veta v cieľovom jazyku.
Hybridný strojový preklad
Najčastejším hybridným typom strojového prekladu je kombinácia pravidlového a štatistického prekladu. Najprv sa vykoná preklad na základe určitých pravidiel, ktorý sa následne pomocou štatistických metód upraví, resp. vylepší.
Neurónový strojový preklad
Najvýraznejším rozdielom oproti predošlým metódam je, že neurónový strojový preklad nevyužíva na preklady korpusy, ale tzv. neurónové siete. Tie sa neustále učia a zlepšujú. Neučia sa však jazyk ako taký. Skôr by sa dalo povedať, že sa učia, ako prekladať rôzne texty a získané poznatky sú schopné použiť naprieč jazykmi. Na učenie sa využívajú veľké množstvo dát ako sú webové stránky, knihy, zákony a ďalšie zdroje. Výsledkom je preklad viet ako celku, nie len preklad po slovách či frázach, ako to mu bolo doteraz. To znamená presnejší a prirodzenejší preklad.
Metódu neurónového strojového prekladu používa napríklad aj Google Translate.
Zdroje:
www.hutchinsweb.me.uk/PPF-2.pdf
www.smartling.com/blog/2012/04/20/a-brief-history-of-machine-translation/
en.wikipedia.org/wiki/History_of_machine_translation
www.translationdirectory.com/article411.htm
www2.fiit.stuba.sk/~kapustik/ZS/Clanky0809/simon/index.html#Sekcia9
www.taus.net/home
https://www.idnes.cz/technet/internet/google-translate-neural-networks.A170418_224649_sw_internet_pka
Sme tím ľudí s vášňou pre jazyky. Naším poslaním je pomáhať ľuďom komunikovať a navzájom sa dorozumieť. Už od roku 1993 pomáhame našim klientom napredovať.
Povedzte to ďalej!