Лекция 4 компютърен превод и машинния превод

Система за автоматично превод и машинния превод

През последните 10-15 години, естеството на работа на преводача и неговите изисквания са се променили значително. На първо място промени засегнати превода на научното и техническо, официална и бизнес документи. Не е достатъчно просто да се преведат текст, с помощта на компютъра като пишеща машина. Клиентът очаква преводач, че дизайнът на готовия документ ще съответства на външния вид на оригинала възможно най-точно, като същевременно отговаря на стандартите за работа в тази страна. Преводачът също се нуждае от възможност за ефективно използвате вече изпълнени поръчки на същата тема, и работодателя, от своя страна, се основава на значително време и разходи в превода на повтарящи се или подобни текстови фрагменти. Тези трудни, често противоречащи си условия могат да се наблюдават само в случай, ако преводачът е не само владее родния и чуждия език, и дълбоко проучени избраната от тях предметна област, но също така се фокусира уверено в съвременните компютърни технологии.

Ключов техническа документация за превод в тези условия е технология Превод памет на (TM). системи за машинен превод е даден малко пространство, като възможност за тяхното ограничено и не е възможно да ги препоръчва за употреба по време на професионалната работа по текста.

През последните години, обемът на паричните преводи увеличава постоянно, свързани с информационните технологии, и за превод и компютърни фирми трябва да се справят не само с подготовката на документацията, но също така и за локализиране на софтуер, т.е. прехвърляне на ресурси, съдържащи се в exe- и dll- файлове. И с последващо тестване на софтуер.

Какво е машинен превод и автоматизирани системи за превод, как те се различават и как може да помогне на преводача в работата си.

машинен превод

Машинен превод - процес превод Word (писмено и устно идеално) от един естествен език на друг напълно специален компютър. Той също така се отнася до посока на научните изследвания, свързани с изграждането на такива системи.

Форми на организация на взаимодействието на компютър и превод човек-машина

С predredaktirovaniem човек се вписва текст към обработващите машини (премахване на възможността за двусмислено четене, улеснява и маркира текста), следвани от започва обработка на софтуер.

С interredaktirovaniem човек се намесва в работата на системата за превод, което позволява на трудни случаи.

Смесени системи (например, едновременно с преди и след монтажа).

автоматизиран превод

Вместо на "машината" понякога се използва думи автоматично. че не се отразява на смисъла. Въпреки това, терминът автоматизиран превод има съвсем различно значение - с него програмата просто помага на човек да превежда текстове.

Автоматизиран превод включва такива форми на сътрудничество:

Частично автоматизиран превод: например, използването на преводач лице компютър.

Система с разделение на труда: компютърът е обучен да се преведе само фрази строго определени структура (но да го направи, така че не трябва да го поправи) и все още не отговарят на схемата дава едно лице.

На английски език терминология също варира машинен превод термини, MT (напълно автоматичен превод) и машина за автоматизирано или машинно assistedtranslation (МАТ) (автоматично); ако е необходимо да се идентифицира и след това, и повече, написана М (А) Т.

Историята на машинния превод

Идеята за използване на компютър за прехвърляне е направено в годината. веднага след появата на първите компютри. Първата публична машинен превод на (т.нар Джорджтаун експеримент) се провежда през годината. Въпреки примитивност на системата (на речник от 150 думи, от 6 на правилата, превод на няколко прости фрази), експериментът получи широк отзвук: изследвания започна инча и други страни; в същото през 1954 г. и инч

До средата на Съединените щати за практическото прилагане на системата за превод две руско-английски са предоставени от:

MARK (Министерството на чуждестранното изкуство Air Force);

GAT (развитие в университета Джорджтаун, е бил използван в Националната лаборатория по атомна енергия в Oak Ridge и в центъра на Евратом в Испра, Италия).

Въпреки това, създаден за оценка на такива системи, Комисията заключи, че с оглед на лошото качество на машина преведени текстове на тези дейности в САЩ под нерентабилни. Въпреки че Комисията препоръчва да се продължи и задълбочи теоретичните разработки по принцип заключенията си позволи да се увеличи. намаляване на финансирането, често до пълно спиране на работата по тази тема.

Въпреки това, в някои страни проучването продължава, подхранвана от устойчивия напредък на компютърните технологии. Особено важен фактор е появата на мини и персонални компютри, а заедно с тях още по-сложна лексика и N. системи ориентирани estestvennoyazykovymi данните така нататък.. Тя израства и необходимостта от превод като такъв, защото на растежа на международните отношения. Всичко това е довело до нов подем в района, състоянието се наблюдава в средата. Дошло е време широкото практическо използване на системи за превод, има пазар на търговски развитие по този въпрос.

Въпреки това, мечтата, на които човешката раса се преди половин век със задачата за машинен превод, до голяма степен остават мечти: висококачествен превод на обща тема на текста, все още е недостижим. Но безспорен е ускоряването на превода, използвайки системи за машинен превод очакваните края на 1980, до пет пъти.

В момента има редица търговски проекти на машинния превод. Един от пионерите в областта на машинния превод е от компанията. В България, основен принос за развитието на машинния превод е направил екип, ръководен от проф. Р. Г. Piotrovskogo (български държавен педагогически университет. Херцен).

Качеството на превода

Използването на машинния превод, без корекция на темата (или умишлено невярна настройка) е обект на множество вицове за роуминг в Интернет. От дълги примери за най-известните текстови "Дроувър Мишките" (превеждат Poliglossum компютърна програма въз основа на медицински, търговски и юридически речници); накратко - една фраза «Моята котка е родила четири котенца, две жълти, един бял и един черен», PROMT софтуер, който превръща в "Моята котка ражда четири котенца, две жълт цвят, един бял и един афроамериканец."

Най-често, като на шега се дължи на факта, че програмата не разпознава контекста на фрази и термини се превежда дума по дума, за едни и същи, без да разграничават собствените имена от общи думи. Същата програма PROMT прави «сутиен-KET нотация» в "Забележка Кейт сутиен", "Lie алгебра» - в "алгебра на Lie", "ексцентричност вектор» - в "вектор на оригиналност" и др ...

Автоматизирани системи за превод


Професионална работа е невъзможно без надеждни инструменти. Превод и локализация като поле на професионална дейност в този смисъл, не е изключение. Всеки преводач е изправен пред проблема за последователното прилагане на терминология речник по време на дълъг проект или бързото повторно използване на предварително преведен текст. По своята същност, като рутинна задача е сравнително лесно (за разлика от машинния превод) формализирана и програмиран така работното място оборудване локализатор автоматизирани средства е в норма в индустрията, като някои от тези средства са основно индустриалните стандарти.

Повечето такива инструменти са базирани на концепцията за преводаческа памет (преводаческа памет) - проста база данни, всеки запис от които представлява единица (изречение или параграф) паралелни текстове (обикновено двуезична). Тази база данни съхранява предишните преводи за възможно повторно използване и бързи решения за търсене на проблеми по отношение на съдържанието. Въпреки факта, че програмите са оборудвани с преводаческа памет се наричат ​​компютърна превод (CAT, с помощта на компютър / подпомаган превод), да не се бърка с машинен превод (машинен превод) - превод на паметта не се превежда в докато за машинен превод, се основава на генериране на парични преводи в резултат на анализирането на изходния текст.

Обикновено влизането на транслация памет се състои от два сегмента: източник (източник) и крайния (мишена) език. Ако идентични (или подобен) в сегмента на изходния език се случва в сегмента на текст в целевия език се намира в паметта на превода, преводачът е предвидена като основа за нов трансфер. Автоматично намери текст може да се използва както е, редактирани или напълно отхвърлена. Повечето програми използват размита съвпадение алгоритъм (размита съвпадение), значително подобрява тяхната функционалност, както в този случай, можете да намерите оферти само лека прилика с фразата за търсене, но все пак са подходящи за по-нататъшна обработка.

Ползите от използването на такъв софтуер може да не са видими на пръв - но тъй като съдържанието на база данни с автоматична смяна на рамка за трансфера ще станат по-точни и редовни.

автоматизиран превод

Автоматизиран превод (CAD, компютърно AidedTranslation) - текстове с помощта на компютърните технологии. От машинен превод (MT) се характеризира с това, че целият процес превод се извършва от човек, компютър, само му помага да извършите готов текст за по-малко време, или с най-добро качество.

AP Идеята дойде с появата на компютрите: преводачи винаги са се противопоставили на стандарта по това време депутат понятие, което е изпратено до част от изследванията в областта на компютърната лингвистика, но подкрепиха използването на компютри, за да помогне за преводачи. В годините на Европейската общност за въглища и стомана (предшественик на модерното) започва да се създаде терминологични бази данни под общо име. В Съветския съюз да се създаде е създадена база данни от този вид.

В момента най-често срещаните начини за използване на компютрите в превода е работата с речници и речници, преводни памети (TranslationMemory, TM), съдържащ примери на вече преведени текстове, както и използването на т.нар. големи колекции от текстове в един или повече езици, което дава кратко описание на това как думи и фрази са наистина се използва в езика като цяло или в определена тематика.

В едновременното използване на автоматичен превод на необходимостта от прехвърляне на ограничени. използва речници, които са натоварени на един от примерите. Друг пример е полуавтоматично извличане на дългосрочни списъци в препарат за едновременно превода в тясна област.

В областите тесните обект с голям брой източници и установена терминология преводачи могат да използват за машинен превод, който може да осигури добро качество на превод и терминология стабилен израз в тесни граници. Преводач в този случай носи получава текста. Повече от половината от текста вътре (главно юридически тестове и действителната кореспонденция) се прехвърля с помощта на IP.

Превод памет

Преводна памет (PP, translationmemory TM понякога се нарича "път с превод".) - база данни, съдържаща набор от предварително преведени. Един запис в база данни съответства на "превод единица» (translationunit), за което обикновено отнема един (най-малко - част slozhnosochinonnogo оферти, или). Ако друго предложение на изходния текст съвпада точно с изречението съхраняват в база данни (точно, по exactmatch), може да се попълва автоматично в превод. Новата оферта може да се различава леко от данните, съхранявани в (неточно съвпадение, fuzzymatch). Такова предложение може да бъде заместен в превода, но преводачът ще трябва да се направят необходимите промени.

В допълнение към ускоряване на процеса на повтаряне фрагменти превод и промени в преведени текстове (например, нови версии на софтуер или промени в законодателството) PP система също осигуряват еднородност на терминология в превода на идентични фрагменти, което е особено важно в технически превод. От друга страна, ако интерпретатора редовно замества в негово превод на точни съвпадения, трансфери, извлечени от бази данни, без контрол на използването им в нов контекст, качеството на преведения текст може да бъде нарушена.

Във всяка една система, данните от PP се съхранява в собствен формат (текстов формат в Wordfast, достъп до база данни в Deja Vu), но там е международен стандарт (TranslationMemoryeXchangeformat), който е базиран на XML, която може да доведе до почти всички от системата PP. Благодарение на резултатите от преводачите могат да бъдат обменяни между приложения, т.е. преводач работа с OmegaT да използвате PP, създаден през Trados, както и обратното.

Повечето от ПП системи най-малко подкрепа на създаването и използването на потребителски речници, създаването на нови бази данни, на базата на паралелни текстове (коригиране), както и полуавтоматични извличане на терминология от оригиналните и паралелни текстове.

Популярни софтуерни системи PP

Според скорошен преглед на използването на ПП системи на най-популярните системи включват:

(Free система, освободен под лиценз)