A Google és a nyelvi egyeduralom

Kategória: 2015. március
Írta: Frédéric Kaplan és Dana Kianfar
Találatok: 4080

goHa valaki december elején arra kérdezett rá a Google Fordítóban, mi az olasz megfelelője a következő mondatnak: „Ez a lány csinos”, furcsa választ kapott. Az olasz mondat, Questa ragazza è abbastanza, ugyanis szó szerint azt jelenti, „Ez a lány eléggé.”A szépség a fordítás közben– lost in translation – elveszett. Hogy lehetséges, hogy az automatikus fordítók egyik legjobbika, amelynek példátlanul nagy, több milliárd mondatból álló nyelvi bázis áll rendelkezésére, ilyen szarvashibát követ el? A válasz egyszerű: a fordítás angol nyelvi közvetítéssel történik. Márpedig „csinos” angolul pretty, és pretty olaszul abbastanza.

Hasonló elv alapján könnyedén jönnek létre különös és gyakran vicces mondatok. A „Gondolom, kiváló elnökük van.” mondat így lesz olaszul: Penso che tu abbia una bella sedia. Kár, hogy ennek a jelentése más, mint az eredetinek: Gondolom, hogy szép a széked. A Google Fordító a chair szót „szék”-nek fordította (amely pedig itt azt jelenti: „elnök”).

Az angolnak mint közvetítő nyelvnek az alkalmazása néha félreértéshez vezet. A Hai fatto un compito terrificante vagyis „Borzalmasan rossz munkát végeztél” fordítására a Goggle azt dobja ki, hogy „Nagyszerű munkát végeztél.” És ez azért lehetséges, mert a pozitív jelentésárnyalattal is bíró angol terrific szó közvetített.Vagy például a „Szakad az eső” jelentésű It rains cats and dogs kifejezés igen poétikusan alakul át olaszra: Piove cani e gatti. A baj csak az, hogy ez is szó szerinti fordítás (Kutyák és macskák esnek), és teljességgel érthetetlen egy olasz számára.

Az automatikus fordítás lefordított azonos szövegek nagy korpuszát igényli. Az amerikai Google vállalat logikusan úgy alkotta meg szövegpárokkal dolgozó eszközét, hogy szinte mindig az angolt használja közvetítő nyelvnek. Olyan a „konstrukció”, hogy például egy francia szövegtől annak olasz megfelelőjéig angol nyelvű közvetítő fordítással lehet eljutni.

Ez a folyamat nyelvi kerülőutat teremt. A francia és az olasz egymáshoz viszonylag közel álló nyelvek. Velük összehasonlítva az angol sajátos, tömör, nyelvi fordulatokban gazdag. A kontextus félreértése számos tévedésnek nyit utat. Angol nyelvű közegbe ültetni át egy kifejezést, majd onnan visszahozni azt a célnyelvre – ebből bizony sok nem kívánt nyelvi újítás születik.

Az automata fordítás által létrehozott furcsaságok anekdotába illenek. Minden fordítás, és különösen az automata fordítás közismerten problematikus dolog. Így hát nem lehet azon csodálkozni, hogy a gépek tévednek. Tévedésük egyébként fontos tényre világít rá: arra, hogy minden egyes nyelvnek megvannak a maga egyedi sajátosságai. Ezért egy olyan, záros határidőn belül kifejlesztendő kétnyelvű korpusz, amely kikerüli az angol nyelvű közvetítést csakúgy, mint a netezők által elvégzett javításokat, valószínűleg sokat javítana a fordítások minőségén. Lehet, hogy a fönt említett hibákat már addigra ki is javítaná, mire ezt a cikket a hagyományos forma szerint nyomdába adnánk? („nyomdába adni” – ez egyébként ismét egy olyan kifejezés, amit a Google így fordít spanyolra: Vamos a presionar: „megyünk megnyomni”). Egyszóval, minden okunk megvan rá, hogy aggódjunk az ilyen közvetítés miatt.

Hogy jobban megértsük, milyen hatása van az angolnak, mint közvetítő nyelvnek, az automata fordítást tágabb összefüggésben, az internetes algoritmusok működési körében kell megvizsgálnunk. Ezek az informatikai programok nemcsak nyelvi újításokat hoznak létre a robotizált fordítás során, hanem más funkcióik is vannak. Újságcikkek szerkesztéséhez, Wikipédia-tartalmak szintaktikai (nyelvtani) és szemantikai (jelentésbeli) korrigálásához, célzott reklámok megalkotásához vagy egy-egy weboldal tartalmának optimalizálásához is használják őket abból a célból, hogy megkönnyítsék a keresőprogramok általi indexálásukat.

Így hát hogyan is lehetne egymástól elkülöníteni azokat az elsődleges nyelvi forrásokat, amelyeket emberek alkotnak algoritmikus közvetítés nélkül (például leírt beszélgetéseket, elektronikus könyveket stb…) és azokat a másodlagos nyelvi forrásokat, amelyek az elsőkből jönnek létre algoritmikus átalakítás folyamán?

Mára szinte mindenféle műveleti területen szokássá vált, hogy az internetes felhasználók nem a teljes szót, hanem csak a szó elejét gépelik be, és a mondat többi részét a gép automatikusan egészíti ki. Ezáltal az internetes algoritmusok írás közben jóformán rendszeres közvetítőkké váltak. Sok esetben felhagyunk a betűről betűre való beírással és megelégszünk azzal, hogy a rendszer által felajánlott valamelyik kiegészítést válasszuk a szó végére. Ez az írásmód egyszerre gyors és hatékony, különösen akkor, hogyha a mobilunkon internetezünk.

Ilyen körülmények között a szerkesztés csak abból áll, hogy gyorsan kiválasztunk egyet a várható kifejezések közül, amelyeket a gép kidob. Néhány év múlva valószínűleg nem is lesz már olyan művelet,amely során más technológiát alkalmaznánk.

Az automatikus fordítással létrehozott algoritmusos szövegek nem annak látszanak, amik. Sőt, néha olyan természetesnek tűnnek, mint az elsődleges forrásszövegek, és az olvasók számára esetleg példaként szolgálnak. Egy nem olasz anyanyelvű internet-felhasználó nemigen fogja hibásnak tartani a Piove cani e gatti kifejezést. És ez az észrevétel még inkább vonatkozik azokra az algoritmusokra, amelyek a nyelvi struktúrát rostálják meg abból a célból, hogy mesterségesen alkossanak új szövegeket. Egy algoritmus, amely eredeti forrást keres, hogy a lehető legjobban használja ki fordítási kapacitását, figyelmetlenségből olyan más algoritmussal készült szöveget hozhat létre, amely tele van félreértésekkel és „hamis barátokkal”.[i]

Az automatizmus által „szennyezett” forrásszövegek internetes terjedése az egész technológiai konstrukciót fenyegeti, mert az adattömeg mennyiségét részesíti előnyben, de nem ellenőrzi a minőséget. Máris igen sok különös kifejezést találunk a világhálón. Az Apple-nek az a szoftvere, amelynek segítségével járás közben is küldhetünk üzenetet, a következő komment írására sarkallta az egyik felhasználót: „Intuitív használat, szép eredmények és újra jókedv. Köszönet, aki csinálta! Ez tényleg kúl és ajánlás”. Alatta egy másik komment írója láthatóan hasonló bizarr nyelvi megoldást választott: „Segít nekem beírni függőleges és vízszintes szöveget, küldeni SMS-t, küldeni ímélt, küldeni üzeneteket Twitteren és Facebookon… elég jópofa, köszönöm nektek!”

Ezek a mondatok, amelyek algoritmusok kreálta furcsaságokat tartalmaznak, könnyedén válhatnak ajánlott példamondatokká, például épp most, amikor Ön a gép előtt ül. Elképzelhető, hogy nemsokára a Piove… kezdetű olasz mondat lehetséges folytatásai között szerepelni fog a Piove cani e gatti. Egy olyan kifejezés, amelyet valószínűleg soha senki nem ejtett ki és le sem írt, mióta olasz nyelv létezik.

Így fennáll a lehetősége annak, hogy az angol mint közvetítő nyelv részt vegyen a nyelvi gyarmatosítás jelenségében. Ilyen ugyanis létezik: az, hogy meglévő nyelvek alapjain, azok átalakulásával új nyelv alakuljon ki, jól ismert dolog a nyelvészek körében. Azok a módosulások, amelyeket az algoritmusos közvetítés teremt, egyfajta keveréknyelvet, összekötő nyelvet hoznak létre két nyelvtani rendszer között; egyelőre még rövid életűt. Ám ha a fiatalabb korosztály folyton ilyen átalakult kifejezésekre bukkan internetezés közben, akkor ezek a nyelvi innovációk beépülhetnek a köztudatba, koherens és autonóm rendszer formáját ölthetik, és létrejöhet egy új keveréknyelv. Ennek kialakulását felgyorsíthatja az új gépelési mód, mely úgy működik, mint egy nyelvi protézis és igen érzékenyen alakítja a jövőbeni kifejezési formákat.

Az angol nyelv imperializmusának hatása tehát jóval összetettebb kérdés, mintha csak „a nyelvek háborújáról” volna szó. Ha ugyanis egyetlen idiómát teszünk meg közvetítőnek, azzal a többi nyelvre is annak az egynek a logikáját, egyúttal sajátos gondolkodásmódját erőltetjük rá. Ez a jelenség pedig egy olyan globális nyelvi átalakulás részévé válhat, amelyben az algoritmusok játszanak főszerepet. Az angol az európai nyelvek között közvetít, más nyelvek pedig nyilván más nagy nyelvterületeken tölthetnek be hasonló funkciót (például a hindi). A fordítási lánc-hálózat referenciaként szolgál egyéb közvetítő nyelvek számára, és előkelő helyet foglal el a világ rangsorában.

Ki fog öt év múlva még tiszta, eredeti, algoritmikus közvetítés nélküli elsődleges forrásokkal dolgozni? És ahhoz vajon mennyi idő kell, hogy az algoritmikus újításokra mindenki természetes formaként tekintsen? Ezeket a hibrid írásokat figyelmesen kell tanulmányoznunk. És lehet, hogy ki kell dolgozni egy új nyelvészet alapjait is, amely tömegesen alkalmazza az algoritmusokat, hogy jobban megértse és ellenőrizni tudja azok hatásait…

 

A szerző Frédéric Kaplan és Dana Kianfar, a Lausanne-i Politechnikai Főiskola Digitális Humántudományok intézetének igazgatója illetve doktorandusza.

 

Fordította: J. Horváth Katalin

 


[i] „Hamis barátoknak” (faux amis) nevezik azokat a szópárokat, amelyeknek elemei csak látszólag felelnek meg egymásnak. Például a kiejtésük a két nyelvben hasonló, de a jelentésük nem egyezik meg. /Ld.: magyar rúzs(’ajakszínező kozmetikai szer’) ésfrancia rouge (’vörös’,’ piros’), ; magyar morfondíroz(’ töpreng’,’ gondolkodik’) és francia (se) morfondre (’unatkozik’, ’tétlenül vár’, ’nyugtalankodik’)/