История и опит в използването на машинен превод. Машинен превод: Преодоляване на езиковите бариери
1947 г. - дата на раждане на машинния превод (MT) като научно направление. Уорън Уивър, директор на клон природни наукиФондация Рокфелер, пише писмо до Норберт Винер, в което разглежда задачата за превод на текстове от един език на друг като друга област на приложение на техниката за дешифриране. Това писмо беше последвано от много дискусии.
1947 - А. Буут и Д. Бритън разработват подробен "код"
за машинен превод дума по дума.
1948 г. - Р. Риченс предлага правила за разделяне на словоформите
за основа и край.
1952 г. - първата конференция за MT в Масачузетския технологичен институт.
1954 г. - въведена е първата MT система - IBM Mark II - руско-английска, която имаше речник от 250 единици и 6 бр.
граматически правила. Следващото десетилетие е време на бурно развитие на МП.
1967 г. - Специално създадената в САЩ комисия на Националната академия на науките, въз основа на реалната ситуация с преводите в САЩ и показателите за себестойност на различните методи за превод, стига до извода, че машинният превод е нерентабилен. Докладът значително забави развитието на МТ като цяло.
70-те години - възраждане на интереса към работата в областта на МТ. С развитието на компютърните технологии се появиха нови възможности за машинна реализация на лингвистични алгоритми.
80-те години - времето за работа на персоналните компютри стана много по-евтино, машинният превод най-накрая стана икономически жизнеспособен.
90-те години – отново се засилва интересът към машинния превод, което се свързва с появата и бързото развитие на Интернет/Интранет. Ползите от използването на машинен превод са особено очевидни при получаване на онлайн превод.
През 1990 г. Лари Чайлдс, специалист по машинен превод, предлага следната класификация на системите за машинен превод:
FAMT (Fully-automated machine translation) – напълно автоматизиран
автоматизиран машинен превод;
NAMT (Human-assisted machine translation) - машина
превод с помощта на човек;
MANT (Machine-assisted human translation) - превод, ос
извършвани от човек с помощта на компютър.
Как компютърът превежда
Машинният превод е такава специфична област на приложение на компютрите, в чиито проблеми почти всеки се чувства повече или по-малко експерт.
Първо, очевидно е, че колкото по-голям е речникът, толкова по-добър е преводът, така че първият проблем е проблемът за създаване на големи речници за системи.
Второ, ясно е, че системата трябва да превежда изречения като "Здравей, как си?". Това означава, че друг проблем е да се научи системата да разпознава стабилни обороти.
Трето, ясно е, че едно изречение за превод се пише по определени правила, то се превежда по определени правила, което означава, че има още един проблем: всички тези правила да се напишат под формата на програма. Това всъщност е всичко.
Най-интересното е, че тези проблеми наистина са основните в разработването на системи за машинен превод, но друго е, че методите за тяхното решаване далеч не са известни на всички и в никакъв случай не са толкова прости, колкото изглеждат.
Речник
Методите за организиране на големи бази данни са доста добре разработени, но за превода е също толкова важно, а може би дори по-важно, правилно да се структурира информацията, която се приписва на елемент от база данни, да се избере правилно този елемент. Колко, например, записи в речника трябва да съответстват на обикновената руска дума "програма"? И като цяло голям речник речник, който съдържа много речникови статии ли е или речник, който ви позволява да разпознавате много думи от текст?
При по-внимателно разглеждане се оказва, че например съществителните на руски се променят по падежи и по числа, т.е. за едно съществително може да има до 12 различни форми, а за глаголи и прилагателни, като правило, има още повече различни форми (повече от тридесет). Следователно, за да преведете изречения, съдържащи думите "програма", "програма", "програми" и т.н., би било хубаво да имате начин да съпоставите речниковия запис от автоматичния речник за думата "програма" с съответна словоформа от текста. Следователно, за да се опишат както входните, така и изходните езици в системата, трябва да има някакъв формален метод за описание на морфологията, на който се основава изборът на речникова единица.
Въпреки това, разработването на морфологично описание позволява да се реши само проблемът за това какво е заглавието на речниковия запис, чрез който се идентифицират текстовата единица и речниковата единица. Но в края на краищата идентифицирането на дума от текст с речников запис не се случва в името на идентификацията, необходимо е програмата да извърши действителните процедури за превод. Каква информация е необходима в речников запис и как трябва да бъдат описани правилата за превод, за да може програмата да превежда?
Граматика
Тук е необходимо да направим малко историческо отклонение, тъй като машинният превод като област на приложната лингвистика има драматична история. През 50-те години на миналия век, практически с появата на първите компютри, възниква идеята за машинен превод, между другото, самият термин „машинен превод“ съществува оттогава. Привидната простота на задачата породи известна езикова еуфория и бяха стартирани няколко глобални проекта за създаване на системи за превод за различни езици. Нито една от тях не доведе до създаването на работещи системи и през 1967 г. специална комисия на Националната академия на науките на САЩ обяви машинния превод за необещаващ и недостоен за финансиране. Едва в началото на 80-те години лингвистите повече или по-малко се възстановяват от такава сурова присъда и възобновяват изследванията в областта на MT. Разбира се, това възраждане до голяма степен е свързано с развитието на компютърните технологии като цяло и с интереса към проблемите на изкуствения интелект като област на приложение на компютрите в частност.
Глобални проективсе още бяха фокусирани върху решаването на проблема с превода като цяло. Те разглеждат разработването на описанието на лексикалните единици в речника и разработването на алгоритми за превод като различни задачи. Появиха се много лингвистични произведения, които предлагат структура за описание на свойствата на жива дума в речников запис на машинен речник. Не се появи
имаше само реални търговски системи, в които тези изследвания по някакъв начин биха били комбинирани. Всички системи, които по някакъв начин са съществували, са имали скромно допълнение „експериментален“ или „прототип“. Но в действителност нито една от тези системи никога не е била финализирана до система за масова употреба. Това се случи, защото методите, използвани за описание на превода, когато се прехвърлят в естествената среда (т.е. когато се прилагат към произволни текстове), влязоха в конфликт с методите, предложени за формиране на речникови статии.
В същото време местни проектинасочени към решаване на тесни проблеми. Намерението на разработчиците беше да получат поне някакви практически резултати.
Въпреки че и двата подхода не доведоха до търговски системи, работата, извършена в тази посока, позволи разберете сложността на задачатаи най-малкото да установят тесните места в подобни разработки. По един или друг начин, но от местни проекти се появиха системи за превод, които сега се предлагат на крайния потребител.
Оказа се, че е много продуктивно системата за превод да се разглежда не като преводач, чиято задача е да преведе текст, валиден от гледна точка на входната граматика, а като някаква сложна система, чиято задача е да получи резултати за произволни входни данни, включително за текстове, които не са правилни за граматиката, с която системата работи.
Вместо приетия лингвистичен подход, който включва разпределяне на последователни процеси на анализ и синтез на изречение, системната архитектура се основава на представянето на процеса на превод като процес с обектно-ориентирана организация, базирана на йерархия от обработени компоненти на изречението.
Нека първо изясним някои определения. Наред с развитието на машинния превод като област на приложната лингвистика, класификациясистеми. Стана обичайно системите за превод да се разделят на системи от типа TRANSFER и системи от типа
ИНТЕРЛИГВА. Това разделение се основава на особеностите на архитектурните решения за лингвистични алгоритми.
Алгоритмите за превод за системи от типа TRANSFER са изградени като комбинация от три процеса: анализ на входното изречение по отношение на структурите на входния език, трансформиране на тази структура в подобна структура на изходния език (TRANSFER) и след това синтез на изходното изречение според получената структура.
Системи като INTERLINGUA предполагат a priori наличието на някакъв метаезик на структурите (INTERLINGUA), в който е възможно да се опишат всички структури както на входните, така и на изходните езици в общия случай. Следователно алгоритъмът за превод в система като INTERLINGUA се приема за по-прост: анализ на входното изречение по отношение на метаезика и след това синтез от метаструктурата на съответното изречение на изходния език. „Единствената“ трудност в този случай е да се развие самият метаезик и да се опише естественият език с подходящи термини.
Въпреки факта, че тази класификация съществува и се счита за добра форма сред разработчиците на машинен превод да попитат към кой тип система принадлежи вашата система, все още не е разработена реална система, базирана на принципа INTERLINGUA.
Бих искал да се надявам, че тази информация ще позволи на потенциалните потребители на системи за превод да разберат, че създаването на система за машинен превод не е лесна задача и, както се казва, наукоемка. Следователно броят на наистина използваемите системи за превод, които могат да се появят за единица време, е фундаментално ограничен.
2.2.3. Системна класификация
1. Системи за машинен превод (MT)
Системите за машинен превод са програми, които извършват напълно автоматизиран превод. главен
Критерият на програмата е качеството на превода. В допълнение, за потребителя е важно удобството на интерфейса, лекотата на интегриране на програмата с други инструменти за обработка на документи, изборът на теми, полезността, попълването на речника. С навлизането на Интернет големите доставчици на MT са включили уеб интерфейси в своите продукти, като същевременно ги интегрират с друг софтуер и имейл, позволявайки MT да се използва за превод на уеб страници, имейли и онлайн разговори.
2. Системи с преводна памет (TM)
Системите с функцията Translation Memory (TM) предоставят средства за така наречения Machine-assisted human translation (MANT) - превод, извършен от лице, използващо машина.
Те се основават на технологията Translation Memory (TM) за разлика от MT, машинния превод. Идеята е да се съхранява база данни с преводи, направени от професионален преводач, за да се предложи на човек готов превод на фраза или част от текста по време на процеса на превод, ако вече е преведен веднъж. Освен това съвпадението по фраза не трябва да е буквално, а може да се определи от критериите за "сходство", вградени в програмата, с възможност за персонализирането им. TM програмите са много полезни в ситуации, в които трябва да преведете актуализирана версия на вече преведен документ. Тази необходимост възниква с поддръжката на многоезични сайтове. Програмата бързо ще открие места в документа, които са се променили от предишната версия на документа, и лицето ще трябва само да преведе тези променени части. Програмите на ТМ значително повишават ефективността на работата на преводача, като го спестяват от рутинна, повтаряща се работа. В много преводачески фирми владеенето на една от тези програми е основен критерий за наемане.
3. Контролиран език и базиран на знания машинен превод
В системи, базирани на контролиран език, се осъществява преходът от свободен входен език към контролиран входен език. Контролът на езика на въвеждане предвижда определени ограничения върху речника, граматиката и семантиката. Езикът за контролирано въвеждане се използва за опростяване на изразите на изходния текст, за да се подобри качеството на превода.
■- |
4. Онлайн преводачи
Услугите за онлайн превод извършват превод директно в прозорец на браузър, без да се изисква инсталиране на програма на компютъра на потребителя. Доста голям брой връзки към безплатни услуги за машинен превод с указания за превод могат да бъдат намерени на http://rivendel. com/~ric/resources/free. html.
По правило има ограничение за количеството въведен текст.
Безплатен онлайн превод можете да направите и на следните адреси:
http://www.t-mail.com/;
http://www.freetranslation.com/.
5. Онлайн речници
Повечето пълен списъкречници, достъпни на http://members.aol.com/Mgierhake/trans.html. Онлайн речниците имат възможност за търсене, има ред за въвеждане и меню за избор на входен и изходен език. Сред речниците от този тип са известни LOGOS ONLINE DICTIONARY (английски, френски, немски, испански, италиански, чешки), TRADOS MultiTerm, Langenscheidt "s New College Dictionary on-line и др.
6. Онлайн преводачески услуги
На практика всяка компания, която произвежда системи за MT, предлага преводачески услуги. Например на страницата
Languge Partners International (http://www.languagepartners.com/reg-forms/inq-trans.html) е услуга за превод, която обработва всеки електронен документ с помощта на MT системи и го изпраща обратно без редактиране. Потребителят може да предостави термини за попълване на речника по своя предмет (напр допълнителна такса) или го създайте сами. Скорост на трансфер - 1 работен ден. Цената е $0,04 на дума (приблизително $8 на страница). Услугите за сканиране се предлагат срещу допълнително заплащане. Насоки на превод: английски-френски-английски, английски-немски-английски, английски-италиански-английски, английски-испански-английски, английски-португалски-английски, английски-японски-английски, английски-руски-английски. Но по-често на потребителя се дава избор: да получи само машинен превод или машинен превод с последващо редактиране от професионален преводач или превод, извършен от професионален преводач. Този вид услуга може да бъде намерена на http://www.plustranslation.com/ (услуга на Transparent Language). Цените варират от $0,01 на дума за машинен превод до $0,38 за превод с преводач. SYSTRAN, L&H, Langscheidt, Language Engineering Corporation имат подобни услуги.
2.2.4. Иновативни технологии на фирма ПРОМТ
Водещи служители на PROMT започват изследвания в областта на приложната лингвистика и изучават модели за изграждане на системи за машинен превод преди повече от 20 години, в края на 70-те години. Изследването е проведено в лабораторията по инженерна лингвистика на Ленинградския държавен педагогически институт. ИИ Херцен (сега Педагогически университет). Натрупаният теоретичен багаж е в основата на MP технологиите, разработени в PROMT.
За 10 години от основаването на PROMT е възможно да се създадат напреднали MT технологии, базирани на съвременни лингвистични алгоритми, разработки в областта на математическото моделиране и невронни мрежи. На базата на тези технологии са разработени системи за машинен превод, които с 30% превъзхождат по качество водещите световни аналози.
През 2000 г. PROMT пусна семейство MT системи, базирани на нов двигател за превод. Новото ядро внедрява технологии за разширени преходни мрежи и формализъм на невронни мрежи, които изведоха машинния превод на качествено ново ниво, както и най-новите разработки в областта на семантичния анализ и алгоритмите за анализ.
Нова стъпка в развитието на MP на PROMT беше използването на технологията F2F, която гарантира запазването на цялата информация за формата по време на процеса на превод, което направи възможно преводът на сложни форматирани документи без загуба на характеристики на формата.
В допълнение към развитието на самата технология за машинен превод, бяха положени специални усилия за внедряване в новите системи на възможността за езикова персонализация, което осигурява значително подобряване на качеството на превода на специализирани текстове.
По-специално, появата на поддръжка за теми в новото ядро направи възможно радикалната промяна на подхода към превода на специализирани текстове. Използването на теми реши проблема с лингвистичното приспособяване на системата към специализирани текстове и осигури ефективността на тяхното запазване.
Лекотата и удобството на езиковото администриране на MT системите е реализирана на базата на следните технологии:
AutoDetect за прилагане на автоматично откриване
теми на документи;
SmartFolders за предварително дефиниране на предмета на
вода към всички документи в определена папка;
Ключови думи - избор на теми по предварителен
този списък с ключови думи;
SmartURL - възможност за предварително задаване на темата на превода за конкретен URL.
PROMT предлага услуги за онлайн превод на текст, уеб страници и имейли на английски, немски, френски, испански, италиански и руски. За да превеждате специализирани текстове, можете да свържете тематични речници.
Превод на текст.Позволява ви да превеждате всеки текст, въведен в прозореца за превод или копиран от клипборда (Clipboard).
Превод на уеб страници.Позволява ви да превеждате напълно уеб страници, включително хипервръзки, като същевременно запазвате оригиналното форматиране.
Превод на имейл.Позволява ви да превеждате и изпращате имейли директно онлайн.
WAP преводач.Нова услуга за превод за потребители на мобилни телефони.
40-те: първи стъпки
Историята на машинния превод като научно и приложно направление започва в края на 40-те години на миналия век (с изключение на устройството за механизиран превод на П. П. Смирнов-Троянски, вид лингвистична машина за добавяне, изобретена през 1933 г.). През март 1947 г. Уорън Уивър ( Уорън Уивър), директор на отдела по природни науки на фондация Рокфелер ( Фондация Рокфелер), в кореспонденция с Андрю Буут ( Андрю Д Буут) и Норберт Винер ( Норберт Винер) за първи път формулира концепцията за машинен превод, която той развива малко по-късно (през 1949 г.) в своя меморандум, адресиран до Фондацията.
У. Уивър пише: " Имам текст пред себе си, който е написан на руски, но ще се преструвам, че наистина е написан на английски и че е кодиран с някакви странни символи. Всичко, което трябва да направя, е да премахна кода, за да извлека информацията, съдържаща се в текста."("Имам текст, написан на руски пред очите си, но ще се преструвам, че всъщност е написан на английски и кодиран с доста странни знаци. Всичко, което ми трябва, е да разбия кода, за да извлека информацията, съдържаща се в текста"). Аналогията между превода и декриптирането беше естествена в контекста на следвоенната ера, предвид напредъка, който криптографията направи по време на Втората световна война.
Идеите на Уивър формират основата на подход към МТ, базиран на концепцията интерлингва A: етапът на трансфер на информация е разделен на два етапа; на първия етап изходното изречение се превежда на междинен език (създаден на базата на опростен английски), а след това резултатът от този превод се представя с помощта на целевия език.
Меморандумът на Уивър предизвика най-жив интерес към проблема за МП. През 1948 г. А. Буут и Ричард Риченс ( Ричард Риченс) направи някои предварителни експерименти (например Риченс разработи правилата за разделяне на словоформите на основи и окончания).
Тези години бяха доста различни от днешните. Това бяха много големи и скъпи машини, които заемаха цели стаи и изискваха голям персонал от инженери, оператори и програмисти, за да ги поддържат. По принцип тези компютри се използват за извършване на математически изчисления за нуждите на военните институции, както и на математическите и физическите факултети на университетите (последните също са тясно свързани с военната сфера). Следователно, на ранни стадииразвитието на MP беше активно подкрепено от военните, докато в САЩ основното внимание беше обърнато на руско-английската посока, а в СССР - на англо-руската.
През 1952 г. се провежда първата MT конференция в Масачузетския технологичен институт, а през 1954 г. първата MT система е представена в Ню Йорк - IBM Mark II, разработен от IBM съвместно с Джорджтаунския университет (това събитие влезе в историята като Джорджтаунския експеримент). Беше представена много ограничена програма (имаше речник от 250 единици и 6 граматически правила), която превеждаше от руски на английски. Изглеждаше, че създаването на висококачествени автоматични системи за превод е доста постижимо в рамките на няколко години (като акцентът беше поставен върху разработването на напълно автоматични системи, които осигуряват висококачествени преводи; човешко участие в етапа след редактиране се считаше за временен компромис). Професионалните преводачи сериозно се страхуваха да не останат без работа скоро...
50-те: първо разочарование
До началото на 50-те години редица изследователски групи в САЩ и Европа работят в областта на МТ. В тези проучвания бяха инвестирани значителни средства, но резултатите скоро разочароваха инвеститорите. Една от основните причини за ниското качество на MT през онези години бяха ограничените възможности на хардуера: малко количество памет с бавен достъп до информацията, съдържаща се в нея, невъзможността за пълно използване на езиците за програмиране високо ниво. Друга причина беше липсата на теоретична основа, необходима за решаване на лингвистични проблеми, в резултат на което първите MT системи бяха сведени до дума по дума ( дума на дума) превод на текстове без никаква синтактична (и още повече семантична) цялост.
През 1959 г. философът J. Bar-Hillel ( Йохошуа Бар Хилел) направи твърдението, че висококачествен напълно автоматичен MP ( FAHQMT) не може да се постигне по принцип. Като пример той посочи проблема с намирането на правилния превод на думата химилкав следния контекст: Джон търсеше кутията си с играчки. Накрая го намери. Кутията беше в писалката. Джон беше много щастлив. (Джон търсеше своята кутия за играчки. Най-накрая я намери. Кутията беше в кошарата. Джон беше много щастлив.). химилкав този случай трябва да се превежда не като "писалка" (инструмент за писане), а като "кошарка" ( писалка за игра). Изборът на един или друг превод в този случай и в редица други се определя от познаването на екстралингвистичната реалност, а това знание е твърде обширно и разнообразно, за да бъде въведено в компютър. Въпреки това, Бар-Хилел не отрича идеята за МТ като такава, считайки развитието на машинни системи, ориентирани към използването им от човешки преводач (вид „симбиоза човек-машина“) като обещаваща посока.
Това представяне се отрази най-неблагоприятно на развитието на МП в САЩ. През 1966 г. Комисията ALPAC, специално създадена от Националната академия на науките (Консултативен комитет за автоматична езикова обработка), въз основа, наред с други неща, на констатациите на Bar-Hillel, стигна до извода, че машинният превод е нерентабилен: съотношението между цената и качеството на MT очевидно не беше в полза на последното и имаше достатъчно човешки ресурси за нуждите на превода на технически и научни текстове. Зад доклада АЛПАКпоследвано от намаляване на финансирането за изследвания в областта на МТ от правителството на САЩ - и това въпреки факта, че по това време поне три различни МТ системи са редовно използвани от редица военни и научни организации (включително ВВС на САЩ , Комисията на САЩ по ядрена енергия, център на Евроатом в Италия).
60-те: нисък старт
През следващите десет години разработването на MT системи се извършва в САЩ от университета Университет Бригъм Йънгв Прово, Юта (ранни търговски системи ВАЙДНЕРИ АЛПИ) и финансиран от мормонската църква, която се интересува от превода на Библията; в Канада от групи изследователи, в т.ч ТАУМв Монреал с нейната система МЕТЕО; в Европа - групово ГЕНА(Гренобъл) и СУЗИ(Саарбрюкен). Специално трябва да се отбележи работата в тази област на местни лингвисти, като И. А. Мелчук и Ю. Д. Апресян (Москва), което доведе до лингвистичния процесор ETAP. През 1960 г. като част от Изследователския институт по математика и механика в Ленинград е организирана експериментална лаборатория за машинен превод, която по-късно е преобразувана в лаборатория по математическа лингвистика на Ленинградския държавен университет.
70-80-те години: нов тласък
С развитието на компютърните технологии в края на 70-те години (появата на микрокомпютрите, развитието на мрежите, увеличаването на ресурсите на паметта) машинният превод навлезе в ерата на "Ренесанса". В същото време акцентът се измести донякъде: сега изследователите си поставиха за цел разработването на „реалистични“ MT системи, които предполагаха участието на човек на различни етапи от процеса на превод. MT системите се превръщат от "враг" и "конкурент" на професионалния преводач в незаменим помощник, спомагащ за спестяване на време и човешки ресурси.
За възраждането на МП през 70-80-те години. се доказва от следните факти: Комисията на Европейските общности ( ЦИК) купува англо-френската версия на Systran, както и система за превод от руски на английски (последната разработена след доклада АЛПАКи продължи да се използва от ВВС на САЩ и НАСА); освен това CEC нарежда разработването на френско-английската и италианско-английската версия. Тогава благодарение на ЦИК бяха положени основите на проекта ЕВРОТРАвъз основа на разработките на групите СУЗИИ ПОЛУЧИТЕ. Едновременно с това има бързо разширяване на дейностите по MT в Япония (главно въз основа на технологиите интерлигва, разработен от Уивър в края на 40-те); в Съединените щати Панамериканската здравна организация (PAHO) нарежда разработването на испано-английско направление (система СПАНАМ); Военновъздушните сили на САЩ финансират разработването на системата за MT в Центъра за лингвистични изследвания към Тексаския университет в Остин; група ТАУМв Канада постига забележителен напредък в развитието на своята система МЕТЕО(което се използва главно за превод на метеорологични доклади). Редица проекти започват през 70-те и 80-те години. впоследствие се развиха в пълноценни търговски системи.
През периода 1978-93 г. в САЩ са изразходвани 20 милиона долара за изследвания в областта на МТ, 70 милиона в Европа и 200 милиона в Япония.
Едно от новите разработки е технологията TM (преводна памет), работещи на принципа на натрупване: в процеса на превод се запазват оригиналният сегмент (изречение) и неговият превод, в резултат на което се формира лингвистична база данни; ако в новопреведения текст бъде намерен идентичен или подобен сегмент, той се показва заедно с превода и индикация за процентното съвпадение. След това преводачът взема решение (да редактира, отхвърли или приеме превода), резултатът от което се съхранява от системата. И в крайна сметка "няма нужда да превеждате едно и също изречение два пъти!". В момента разработчикът на добре позната търговска система, базирана на технологията TM, е системата TRADOS (основана през 1984 г.) .
От 90-те до XXIвек
90-те години донесоха със себе си бързото развитие на компютърния пазар (от десктоп до джоб) и информационните технологии, широкото използване на Интернет (който става все по-международен и многоезичен). Всичко това направи възможно и най-важното, в търсенето, по-нататъшното развитие на MT системите. Има нови технологии, базирани на използването на невронни мрежи, концепцията за конекционизъм и статистически методи.
В момента няколко десетки компании разработват търговски MT системи, включително: Systran, IBM, L&H (Lernout & Hauspie), Transparent Language, Cross Language, Trident Software, Atril, Trados, Caterpillar Co., LingoWare, Ata Software; Linguistica b.v. и други (повече за чуждестранните разработчици на MP и техните системи).
Стана възможно да се използват услугите на автоматичните преводачи директно в мрежата: alphaWorks; Онлайн преводач на PROMT; LogoMedia.net; Yahoo! Вавилонска риба; InfiniT.com.
От началото на 1990 г местни разработчици навлизат на пазара на компютърни системи.
През юли 1990 г. на изложбата PC форумв Москва беше представена първата комерсиална система за машинен превод в Русия под името PROMT (машинен превод на PROgrammer). През 1991 г. е създадена CJSC PROJECT MT, а още през 1992 г. PROMT спечели търга на НАСА за доставка на MP системи (PROMT беше единствената неамериканска фирма в този търг).
През 1992 г. PROMT пусна цяло семейство системи под ново име СТИЛУСза превод от английски, немски, френски, италиански и испански на руски език и от руски на английски език, а през 1993 г. на осн. СТИЛУСсъздаде първата в света MT система за Windows. През 1994 г. е издадена версия СТИЛУС 2.0 за Windows 3.X/95/NT, а през 1995-1996г. представи третото поколение системи за машинен превод, напълно 32-битови СТИЛУС 3.0 за Windows 95/NT, в същото време беше успешно завършено разработването на напълно нови, първите в света руско-германски и руско-френски MP системи.
През 1997 г. е подписано споразумение с френска компания Softissimoза създаването на системи за превод от френски на немски и английски и обратно, а през декември тази година беше пусната първата в света немско-френска система за превод. През същата година компанията PROMT пусна система, реализирана с помощта на технологията Giant - за поддръжка на няколко езикови направления в една обвивка, както и специален преводач за работа в Интернет WebTransite.
През 1998 г. беше пуснато цяло съзвездие от програми под ново име PROMT 98. Година по-късно PROMT пусна два нови продукта: уникален софтуерен пакет за работа в Интернет - PROMT Интернет, и преводач за корпоративни пощенски системи - Преводач на поща PROMT. Разработени са и специални сървърни решения за корпоративни клиенти – корпоративен сървър за превод PROMT сървър за преводи (PTS)и интернет решение PROMT сървър за интернет превод (PITS). През 2000 г. PROMT актуализира цялата гама от своите софтуерни продукти, като пусне ново поколение MP системи: PROMT Translation Office 2000, PROMT Internet 2000И Magic Gooddy 2000.
Онлайн превод с поддръжката на системата PROMT се използва в редица местни и чуждестранни сайтове: Online Translator на PROMT, InfiniT.com и др.
Софтуерните продукти на фирма ПРОМТ са отличени с редица местни и чуждестранни награди, повече подробности.
Миналото и бъдещето на машинния превод. Основни дати
Първо публикувано на уебсайта на Wired
1966 АЛПАКпубликува доклад за машинния превод със заключението, че годините изследвания в тази посока не са донесли очаквания резултат. Това доведе до спиране на държавното финансиране на програмите за развитие на малкия бизнес.
1982 Джанет и Джим Бейкър основават Dragon Systems в Нютон, Масачузетс.
1983 Въвежда се система за автоматична обработка на реч ( АЛПИ) е първата MP програма за микрокомпютри.
1988 Учените от изследователския център на IBM Thomas J. Watson се връщат към разработката статистически метод MP, в който се сравняват паралелни текстове и се изчислява вероятността за съвпадение на думите.
1990 Драконови системипуска програмата DragonDictate, първата система за писане на говор, способна да разпознава 30 000 думи.
DAPRAстартира програмата Speech Systems ( SLS) за разработване на приложения, които позволяват гласово взаимодействие човек-машина.
1991 Появи се първата работна станция за преводач, съчетаваща програмите Transit на STAR, Мениджър на преводите на IBM, Канадски преводачески услуги PTTИ Оптимизаторът на Eurolang.
1992 ART-ITLоснова Консорциум за изследване на превода на естествен език ( C-STAR), който организира първата публична демонстрация на телефонен превод между английски, немски и японски език.
1993 В Германия се работи по проекта Verbmobil. Изследователите са се фокусирали върху преносими системи за превод на бизнес разговори от английски на немски и японски.
2264 „Човекът е глупав като торба дървени стърготини“, заяви Устройство 296. „Само напълно наивни учени биха се сетили да разработят технология, която да разбере какво казват тези неподредени парчета протоплазма. Определено има много по-малко смисъл в шума, който издават от дупките в главата, отколкото в космическата радиация".
Съставител: Кристин Демос ( [имейл защитен]) и Марк Фраунфелдер ( [имейл защитен]). 1629-2000: К. Д.; 2001-2264: M.F.
Андреева Елена Владимировна
Материалът е подготвен от А. А. Тараскин
Компютърният превод е трудна, но интересна научна задача. Основната му трудност се крие във факта, че естествените езици са трудни за формализиране. Оттук и ниското качество на текста, получен с помощта на MP системи, чието съдържание и форма служи като неизменен обект на шеги. Идеята за машинен превод обаче е далеч назад. За първи път идеята за възможността за машинен превод е изразена от Чарлз Бабидж, който се развива през 1836-1848 г. проект за цифрова аналитична машина. Идеята на Чарлз Бабидж беше, че памет от 1000 50-битови десетични числа (50 зъбни колела във всеки регистър) може да се използва за съхраняване на речници. К. Бабидж цитира тази идея като оправдание за искане от британското правителство на средствата, необходими за физическото въплъщение на аналитичната машина, която той така и не успя да изгради.
И 100 години по-късно, през 1947 г., У. Уивър (директор на отдела по естествени науки на Фондация Рокфелер) пише писмо до Норберт Винер. В това писмо той предложи да се използва техниката на дешифриране за превод на текстове. Тази година се счита за рождена година на машинния превод. През същата година е разработен алгоритъм за превод дума по дума, а през 1948 г. Р. Риченс предлага правило за разделяне на думата на основа и окончание. През следващите две десетилетия системите за машинен превод се развиха бързо. През януари 1954 г. първата система за машинен превод IBM Mark II беше демонстрирана на машина IBM 701. Но през 1967 г. специално създадена комисия на Националната академия на науките на САЩ призна машинния превод за нерентабилен, което значително забави изследванията в тази област. Машинният превод преживява нов възход през 70-те години, а през 80-те става икономически изгоден поради сравнителната евтиност на машинното време.
Въпреки това в СССР изследванията в областта на машинния превод продължават. След демонстрация на системата IBM Mark II, група учени от VINITI започнаха да разработват система за машинен превод за машината BESM. Първият образец на превод от английски на руски е получен в края на 1955 г.
Друга посока на работа възниква в отдела по приложна математика на Математическия институт на Академията на науките на СССР (сега Институт по приложна математика на М. В. Келдиш на Руската академия на науките) по инициатива на А. А. Ляпунов. Първите програми за машинен превод, разработени от този екип, са внедрени на машината Strela. Благодарение на работата по създаването на MT системи се оформи такова направление като приложната лингвистика.
През 70-те години група разработчици от VINITI RAS работи върху създаването на MT системи под ръководството на проф. Г.Г. Белоногов. Първата им MP система е разработена през 1993 г., а през 1996 г. след редица подобрения е регистрирана в ROSAPO под името Retrans. Тази система се използва от министерствата на отбраната, комуникациите, науката и технологиите.
Паралелни изследвания бяха проведени в лабораторията по инженерна лингвистика на Ленинградския държавен педагогически институт. А. И. Херцен (сега Педагогически университет). Именно те са в основата на сега най-популярната MP система „PROMT“. Най-новите версии на този софтуерен продукт използват наукоемки технологии и са изградени на базата на усъвършенствана технология за преходни мрежи и формализъм на невронни мрежи.
Класификация на системите за машинен превод според Лари Чайлд
Новите членове на чуждоезиковия форум на CompuServe често питат дали някой може да препоръча добра програма за машинен превод на разумна цена.
Отговорът на този въпрос неизменно е „не“. В зависимост от респондента отговорът може да съдържа два основни аргумента: или че машините не могат да превеждат, или че машинният превод е твърде скъп.
И двата аргумента са валидни до известна степен. Отговорът обаче далеч не е толкова прост. Изучавайки проблема с машинния превод (MT), е необходимо да разгледаме отделно различните подраздели на този проблем. Следното разделение се основава на лекции на Лари Чайлдс, изнесени на Международната конференция по техническа комуникация през 1990 г.:
Напълно автоматичен превод;
Автоматизиран машинен превод с човешко участие;
Превод, извършен от лице с помощта на компютър.
Напълно автоматизиран машинен превод
Този вид машинен превод е това, което повечето хора имат предвид, когато говорят за машинен превод. Значението тук е просто: текст на един език се въвежда в компютъра, този текст се обработва и компютърът извежда същия текст на друг език. За съжаление, внедряването на този тип автоматичен превод е изправено пред определени пречки, които все още трябва да бъдат преодолени.
Основният проблем е сложността на самия език. Вземете например значенията на думата "може". В допълнение към основното значение на модалния спомагателен глагол, думата "can" има няколко официални и жаргонни значения като съществително: "банка", "нужник", "затвор". Освен това има архаично значение на тази дума - "да знаеш или разбираш". Ако приемем, че целевият език има отделна дума за всяка от тези стойности, как компютърът може да ги различи?
Както се оказва, е постигнат известен напредък в разработването на програми за превод, които разграничават значението въз основа на контекста. По-новите изследвания в анализа на текстове разчитат повече на теорията на вероятностите. Въпреки това, напълно автоматизираният машинен превод на текстове с обширна тематика все още е невъзможна задача.
Автоматизиран машинен превод с човешко участие.
Този вид машинен превод вече е напълно осъществим. Говорейки за машинен превод с участието на човек, те обикновено означават редактиране на текстове както преди, така и след обработката им от компютър. Човешките преводачи променят текстовете, така че да могат да бъдат разбрани от машините. След като компютърът извърши превода, хората отново редактират грубия машинен превод, правейки текста на целевия език правилен. В допълнение към този ред на работа има системи за MT, които изискват постоянното присъствие на човек-преводач по време на превода, което помага на компютъра да превежда особено сложни или двусмислени структури.
Машинният превод с помощта на човека е приложим в по-голяма степен за текстове с ограничен речников запас от тясно ограничени теми.
Икономиката на използването на машинен превод, подпомаган от човека, все още е спорна. Самите програми обикновено са доста скъпи, а някои от тях изискват специално оборудване, за да работят. Редактирането преди и след това трябва да се научи, а това не е приятна работа. Създаването и поддържането на бази данни от думи е трудоемък процес и често изисква специални умения. Въпреки това, за организация, която превежда големи обеми текстове в добре дефинирана предметна област, машинният превод с помощта на човек може да бъде доста рентабилна алтернатива на традиционния човешки превод.
Превод от човек с компютър
При този подход човешкият преводач се поставя в центъра на процеса на превод, докато компютърната програма се разглежда като инструмент, който прави процеса на превод по-ефективен и превода точен. Това са обикновени електронни речници, които предоставят превод на необходимата дума, което носи отговорност за избора на правилната опция и значението на преведения текст. Такива речници значително улесняват процеса на превод, но изискват от потребителя да има определени познания по езика и да отдели време за неговото изпълнение. И въпреки това самият процес на превод е значително ускорен и улеснен.
Сред системите, които помагат на преводача в неговата работа, най-важно място заемат така наречените системи Translation Memory (TM). TM системите са интерактивен инструмент за натрупване на двойки еквивалентни текстови сегменти на оригинални и преведени езици в база данни с възможност за тяхното последващо търсене и редактиране. Тези софтуерни продукти не са предназначени да използват високо интелигентни информационни технологии, а напротив, се основават на използването на творческия потенциал на преводача. В процеса на работа преводачът сам формира базата данни (или я получава от други преводачи или от клиента) и колкото повече единици съдържа тя, толкова по-голяма е възвръщаемостта от нейното използване.
Ето списък на най-известните TM системи:
Транзитна швейцарска компания Star,
Trados (САЩ),
Мениджър на преводи от IBM,
Eurolang Optimizer на френската компания LANT,
DejaVu от ATRIL (САЩ),
WordFisher (Унгария).
TM системите позволяват да се изключи повторният превод на идентични текстови фрагменти. Преводът на сегмент се извършва от преводача само веднъж, след което всеки следващ сегмент се проверява за съвпадение (пълно или размито) с базата данни и ако се намери идентичен или подобен сегмент, той се предлага като превод опция.
В момента се извършват разработки за подобряване на TM системите. Например, ядрото на системата Transit на Star се основава на технологията на невронни мрежи.
Въпреки широката гама от TM системи, те споделят няколко общи характеристики:
Функция за подравняване. Едно от предимствата на TM системите е възможността да се използват вече преведени материали по тази тема. TM базата данни може да бъде получена чрез сравнение сегмент по сегмент на оригиналния и преводния файл.
Наличие на филтри за импортиране и експортиране. Това свойство гарантира съвместимостта на TM системите с различни текстови процесори и издателски системи и дава на преводача относителна независимост от клиента.
Механизъм за търсене на неясни или пълни съвпадения. Именно този механизъм е основното предимство на ТМ системите. Ако при превод на текст системата срещне сегмент, който е идентичен или близък до предишния преведен, тогава вече преведеният сегмент се предлага на преводача като вариант на превода на текущия сегмент, който може да бъде коригиран. Степента на размито съвпадение се задава от потребителя.
Поддръжка на тематични речници. Тази функция помага на преводача да се придържа към речника. По правило, ако преведен сегмент съдържа дума или фраза от тематичен речник, тя се маркира в цвят и се предлага нейният превод, който може да бъде вмъкнат автоматично в преведения текст.
Средства за търсене на фрагменти от текст. Този инструмент е много удобен при редактиране на превод. Ако в процеса на работа е намерена по-успешна версия на превода на някой фрагмент от текста, тогава този фрагмент може да бъде намерен във всички сегменти на TM, след което последователно се правят необходимите промени в сегментите на TM.
Разбира се, като всеки софтуерен продукт, TM системите имат своите предимства и недостатъци, както и своя обхват. Въпреки това, по отношение на ТМ системите, основният недостатък е тяхната висока цена.
Особено удобно е използването на TM системи при превод на документи като ръководства за потребителя, инструкции за експлоатация, проектна и бизнес документация, продуктови каталози и други документи от същия тип с голям брой съвпадения.
Системи за машинен превод (MT)
В съответствие с горната класификация, целта на тази работа е да проучи и анализира МТ системите от втората група, тъй като МТ системите от първата група все още не съществуват в природата, а системите от третата група по същество , не са МТ системи, а по-скоро напомнят електронни речници.
MP системите извършват автоматизиран превод на текста. В този случай единиците за превод са думи или фрази, а най-новите разработки позволяват да се вземе предвид морфологията на преведената дума. Разработените MT системи извършват превод според алгоритмите за превод, определени от разработчика и/или коригирани от потребителя.
За извършване на машинен превод в компютъра се въвежда специална програма, която изпълнява алгоритъма за превод, който се разбира като последователност от недвусмислено и строго определени действия върху текста за намиране на преводни съответствия в дадена двойка езици L1 - L2 с тази посокапревод (от един определен език на друг). Системата за машинен превод включва двуезични речници, снабдени с необходимата граматична информация (морфологична, синтактична и семантична), за да се гарантира прехвърлянето на еквивалентни, вариантни и трансформационни преводни съответствия, както и инструменти за алгоритмичен граматичен анализ, които прилагат всяка от формалните граматики, приети за автоматични обработка на текст.. Съществуват и самостоятелни системи за машинен превод, предназначени да превеждат на три или повече езика, но те в момента са експериментални.
Най-често срещаната е следната последователност от формални операции, които осигуряват анализ и синтез в система за машинен превод:
1. На първия етап се въвежда текст и се извършва търсене на входни словоформи (думи в определена граматична форма, например дателен множествен падеж) във входния речник (речник на езика, от който се прави преводът) с придружител морфологичен анализ, при което се установява принадлежността на дадена словоформа към определена лексема (дума като речникова единица). В процеса на анализ от формата на думата може да се получи и информация, свързана с други нива на организация на езиковата система.
2. Следващият етап включва превод на идиоматични фрази, фразеологични единици или печати от дадена предметна област (например, в англо-руски превод, фрази като in case of, в съответствие с получават единен цифров еквивалент и се изключват от по-нататъшни граматически анализ); определяне на основните граматични (морфологични, синтактични, семантични и лексикални) характеристики на елементите на входния текст (например броя на съществителните, глаголното време, синтактичните функции на словоформите в този текст и т.н.), извършени в рамките на входа език; разрешаване на хомография (преобразуване на омонимия на словоформи - да речем, английският кръг може да бъде съществително, прилагателно, наречие, глагол или предлог); лексикален анализ и превод на лексеми. Обикновено на този етап еднозначните думи се отделят от полисемантичните (имащи повече от един преводен еквивалент в целевия език), след което еднозначните думи се превеждат според списъци с еквиваленти и се използват т. нар. контекстологични речници за превод на многозначни думи, чиито речникови статии са алгоритми за търсене на контекста при наличие/отсъствие на детерминанти на контекстна стойност.
3. Окончателният граматичен анализ, по време на който се определя необходимата граматична информация, като се вземат предвид данните на целевия език (например при руски съществителни като шейна, ножици глаголът трябва да е в множествено число, въпреки факта, че оригиналът може да има единствено число).
4. Синтез на изходни словоформи и изречения като цяло на целевия език.
В зависимост от характеристиките на морфологията, синтаксиса и семантиката на определена езикова двойка, както и посоката на превод общ алгоритъмпреводът може да включва други стъпки, както и модификации на тези стъпки или техния ред, но вариациите от този вид в съвременните системи като правило са незначителни. Анализът и синтезът могат да се извършват както по фраза, така и за целия текст, въведен в паметта на компютъра; в последния случай алгоритъмът за превод осигурява дефинирането на така наречените анафорични връзки (например връзката на местоимение със съществителното, което замества - да речем, местоимението im с думата местоимение в самото това обяснение в скоби).
Понастоящем съществуват две концепции за развитие на МТ системи:
1. Моделът на „голям речник с сложна структура”, който е вграден в повечето съвременни програми за превод;
2. Моделът „смисъл-текст“, формулиран за първи път от A.A. Ляпунов, но все още не е внедрен в нито един търговски продукт.
Към днешна дата най-известните системи за машинен превод са
PROMT 2000/XT от PROMT;
Retrans Vista от Vista и Advantis;
Сократ - комплект програми на фирма Арсенал.
Понастоящем качеството на машинния превод оставя много да се желае и самото съществуване на такива системи все още е по-правилно да се възприема като предмет на научни изследвания. В повечето случаи при работа по проект използването на MT системи не е оправдано, защото:
MT системите не осигуряват приемливо качество на изходния текст. По-високо качество може да се постигне чрез предварително конфигуриране на системата (продуктите от серията PROMT XT предоставят на потребителя много възможности за това), което е напълно неприемливо за малки обеми преведен текст и/или чрез последващо редактиране, което само забавя процеса на работа. работи, ако преводачът използва слепия метод за печат.
MT системите не гарантират спазването на единството на терминологията, особено когато екип от преводачи работи върху голям проект. Или по-скоро те могат да го гарантират при условие на много внимателно боравене с потребителските речници, а на това не винаги си струва да се разчита.
Въпреки това, в някои случаи използването на MP системи все още помага за намаляване на разходите за време. Това се случва, ако текстът е доста обемен и съдържа монотонна терминология, което дава възможност за сравнително бързо адаптиране на системата MT към него. Тогава редактирането на текста няма да отнеме твърде много време. В този случай обаче трябва да обърнете специално внимание на стила на текста за превод. Машинният превод е формален, така че има голяма вероятност за проследяване на синтактичните структури на оригиналния език, което е типично за превода като цяло и следователно може да бъде пропуснато по време на редактиране.
Най-общо казано, MT системите могат да се използват там, където се използва най-стандартизираният език с проста граматика и сравнително малък речник. Доста успешен проект на MP системата е немската програма Meteo, която превежда прогнозите за времето от френски на английски и обратно. За да улесни работата на преводачите и техническите писатели, Boeing веднъж разработи езиков стандарт за писане на техническа документация, който е известен като Boeing English.
MP Retrans Vista система
Системите за машинен превод на текстове от един естествен език на друг симулират работата на човешки преводач. Тяхната ефективност зависи преди всичко от това доколко те отчитат обективните закони на функциониране на езика и мисленето. За съжаление тези закони все още са недостатъчно проучени. При решаването на проблема с машинния превод е необходимо да се вземе предвид богатият опит в международната комуникация и опитът на преводаческите дейности, натрупан от човечеството. И този опит показва, че в процеса на превод фразеологичните фрази, изразяващи цялостни понятия, а не отделни думи, се считат за основни единици на значението преди всичко. Концепциите са тези елементарни мисловни образи, чрез които можете да изградите по-сложни мисловни образи, които съответстват на преведения текст.
Нека се съгласим да наричаме системи за машинен превод, в които не отделни думи, а фразеологични фрази се считат за основни минимални единици на значение, системи за фразеологичен машинен превод. В тези системи могат да се използват и отделни думи, но те се разглеждат като спомагателни смислови единици, към които трябва да се прибягва поради липса на по-добри.
Системата за фразеологичен машинен превод трябва да включва база от знания, съдържаща преводни еквиваленти за най-често срещаните фрази, фразеологични комбинации и отделни думи, както и софтуерни инструменти за морфологичен и синтактичен анализ и синтез на текстове и за човешка редакция. В процеса на превод на текстове системата използва преводните еквиваленти, съхранени в нейната база знания в следния ред: първо се прави опит за превод на цялата фраза като цялостна единица; освен това, в случай на повреда, фразите, включени в неговия състав; и накрая се извършва превод дума по дума на онези фрагменти от текста, които не могат да бъдат преведени с първите два метода. Фрагментите от изходния текст, получени и от трите метода, трябва да бъдат граматически съгласувани един с друг (използвайки процедурите на морфологичен и синтактичен синтез).
Принципите на изграждане на системи за фразеологичен машинен превод на текстове са формулирани за първи път през 1975 г. в предговора към книгата на Д. Жуков "Ние сме преводачи". В по-пълен вид те са представени през 1983 г. в книгата на Г. Г. Белоногов и Б. А. Кузнецов „Лингвистични инструменти за автоматизирани информационни системиИ накрая, през 1993 г. бяха публикувани две статии, които описват система за машинен превод, изградена на тези принципи и методи за автоматизирано съставяне на двуезични речници от паралелни (руски и английски) текстове.Най-важните сред тези принципи са следните:
1. Основните единици на езика и речта, които на първо място трябва да бъдат включени в машинния речник, трябва да бъдат фразеологични единици (словосъчетания, фрази). В речника могат да бъдат включени и отделни думи, но те трябва да се използват само в случаите, когато не е възможно да се преведе само въз основа на фразеологични единици.
2. Наред с фразеологичните единици, състоящи се от непрекъснати последователности от думи, системите за машинен превод трябва да използват и така наречените „говорни модели“ – фразеологични единици с „празни пространства“, които могат да бъдат запълнени с различни думи и фрази, генерирайки смислени сегменти от речта .
3. Реалните текстове, независимо от принадлежността им към една или друга тематична област, обикновено са политематични, ако имат достатъчно голям обем. Следователно машинният речник, предназначен за превод на текстове дори само от една предметна област, трябва да бъде политематичен и още повече за превод на текстове от различни тематични области. Той трябва да бъде създаден преди всичко на базата на автоматизирана обработка на двуезични текстове, които са преводи един на друг, и в процеса на функциониране на системи за превод.
4. Заедно с основния политематичен речник с голям обем е препоръчително да се използва набор от малки допълнителни тематични речници във фразеологичните системи за машинен превод. Допълнителните речници трябва да съдържат само информацията, която не е в основния речник (например информация за приоритетните еквиваленти на превод на фрази и думи за различни предметни области).
Въз основа на описаните принципи VINITI RAS (виж по-горе) изгради две системи за фразеологичен машинен превод:
1) Руско-английска система за превод (RETRANS)
2) англо-руска система за превод (ERTRANS).
И двете системи имат еднаква структура и приблизително еднакъв обем машинни речници. Затова ще разгледаме само първата система.
Системата RETRANS има следните характеристики:
1. Обхват, предназначение, функционалност. Системата е предназначена за автоматизиран превод на научни и технически текстове от руски на английски език. Руско-английският политематичен машинен речник на системата съдържа терминология по естествени и технически науки, икономика, бизнес, политика, законодателство и военно дело. По-специално, той съдържа термини и фразеологични единици в следните предметни области: Машиностроене, Електротехника, Енергетика, Транспорт, Аеронавтика. Космонавтика, Роботика, Автоматика и радиоелектроника, Компютърна техника, Комуникации, Математика, Физика, Химия, Биология, Медицина, Екология, селско стопанство, Строителство и архитектура, Астрономия, География, Геология, Геофизика, Минно дело, Металургия и др.
Преводът на текстове може да се извършва в автоматичен и интерактивен режим.
2. Обемът на политематичния машинен речник: повече от 1 300 000 речникови статии; 77 процента от тях са фрази с дължина от две до седемнадесет думи. Обемът на допълнителните машинни речници (за настройка на системата за различни предметни области) е повече от 200 000 записа.
MP PROMT XT система
Софтуерните продукти на PROMT се основават на решаването на следните основни проблеми:
Първо, на всички е ясно, че колкото по-голям е речникът, толкова по-добър е преводът, което означава, че първият проблем е проблемът за създаване на големи речници за системи.
Второ, ясно е, че системата трябва да превежда изречения като: ЗДРАВЕЙТЕ, КАК СИ? Това означава, че друг проблем е да се научи системата да разпознава стабилни обороти.
Трето, ясно е, че едно изречение за превод се пише според определени правила, то се превежда според определени правила, което означава, че има още един проблем: да напишем всички тези правила под формата на програма. Това всъщност е всичко.
Най-интересното е, че тези проблеми наистина са основните в разработването на системи за машинен превод, но друго е, че методите за тяхното решаване далеч не са известни на всички и в никакъв случай не са толкова прости, колкото изглеждат.
Методите за организиране на големи бази данни са доста добре разработени, но за превода е също толкова важно, а може би дори по-важно, правилно да се структурира информацията, която се приписва на елемент от база данни, да се избере правилно този елемент. Колко, например, записи в речника трябва да съответстват на обикновената руска дума "програма"? И като цяло голям речник речник, който съдържа много речникови статии, ли е или речник, който ви позволява да разпознавате много думи от текст? Очевидно второто е по-вярно. Следователно, за да се опишат както входните, така и изходните езици в системата, трябва да има някакъв формален метод за описание на морфологията, на който се основава изборът на речникова единица.
В почти всички системи, които претендират да се считат за системи за превод, проблемът с представянето на морфологични модели е решен по един или друг начин. Но някои системи могат да разпознаят милион словоформи с обем на речника от петдесет хиляди речникови статии, докато други с обем на речника от сто хиляди речникови статии могат да разпознаят тези сто хиляди.
В системите от семейството PROMT е разработено морфологично описание, почти уникално по своята пълнота, за всички езици, които системите могат да обработват. Той съдържа 800 вида флексии за руския език, повече от 300 вида както за немския, така и за френския език и дори за английския, който не принадлежи към флективните езици, са идентифицирани повече от 250 вида флексии. Наборът от окончания за всеки език се съхранява като дървовидни структури, което осигурява не само ефективен метод за съхранение, но и ефективен алгоритъм за морфологичен анализ.
В допълнение, използваният морфологичен модел направи възможно разработването на експертна система за потребителя - създателя на речника. Тази система всъщност автоматизира процедурата за подчертаване на основата и определяне на типа флексия при въвеждане на нови речникови записи.
Тази опция не е налична в нито един от съществуващи системимашинен превод, дори в такива общи системи като Power Translator (Globalink, САЩ), Language Assistant (MicroTac, САЩ), TRANSEND (Intergaph, САЩ), където потребителите трябва ръчно да свързват и отклоняват думи, за да зададат морфологичен модел.
Въпреки това, разработването на морфологично описание позволява да се реши само проблемът за това какво е заглавието на речниковия запис, чрез който се идентифицират текстовата единица и речниковата единица. Но в края на краищата идентифицирането на дума от текст с речников запис не се случва в името на идентификацията, както се изисква в правописните или електронните речници, необходимо е програмата да извърши действителните процедури за превод. Каква информация е необходима в речников запис и как трябва да бъдат описани правилата за превод, за да може програмата да превежда?
В много MT системи в миналото (както и сега), описанието на речника и описанието на алгоритмите се разглеждаха като страни на един и същ проблем, но решението, като правило, се търсеше в ограничаването на разглеждания свят, било то граматически или семантичен. Например, въз основа на атрибута "принадлежност към част от речта", е описана граматика от този тип:
съществителната фраза е съществително
съществителната фраза е прилагателно + съществителна фраза
глаголната група е глаголът + съществителната фраза
изречението е съществителна фраза + глаголна фраза
Ясно е, че част от изреченията на естествения език се описват от такава граматика, но тази част е много незначителна и въз основа на нея е невъзможно правилно да се анализира и преведе поне някакъв реален текст. Но от друга страна, можете да използвате ефективни методи за конструиране на конвертор според дадена граматика или в най-лошия случай да напишете програма, която чрез изброяване ще изгради дървета на зависимости за ограничен набор от изречения. Такива системи получиха определенията "експериментални" по същия начин.
По един или друг начин, но от такива проекти се появиха системи за превод, които сега се предлагат на крайния потребител. Това са Power Translator (фирма Globalink) и Language Assistant (компания MicroTac) и TRANSEND (компания Intergraph).
Системите от семействата STYLUS и PROMT не са изключение, тъй като много специалисти на PROMT имат опит в този тип проекти. Въпреки това, при разработването на системите PROMT за първи път беше приложен наистина революционен подход, който направи възможно получаването на впечатляващи резултати. Системите за превод от фамилията PROMT са системи, проектирани на базата на не лингвистични, а кибернетични методи.
Оказа се, че е много продуктивно системата за превод да се разглежда не като преводач, чиято задача е да преведе текст, валиден от гледна точка на входната граматика, а като някаква сложна система, чиято задача е да получи резултати за произволни входни данни, включително за текстове, които не са правилни за граматиката, с която системата работи.
Вместо възприетия лингвистичен подход, който предполага разпределяне на последователни процеси на анализ и синтез на изречение, системната архитектура се основава на представянето на процеса на превод като процес с "обектно-ориентирана" организация, базирана на йерархия на обработени компоненти на изречението. Това направи PROMT системите устойчиви и отворени.
В допълнение, този подход направи възможно използването на различни формализми за описание на превода на различни нива. Системите също така работят с мрежови граматики, подобни по тип на разширени преходни мрежи, и процедурни алгоритми за попълване и трансформиране на рамкови структури за анализиране на сложни предикати.
Описанието на лексикална единица в речникова статия, която всъщност е неограничена по размер и може да съдържа много различни характеристики, е тясно свързана със структурата на системните алгоритми и е структурирана не на базата на вечния антитезисен синтаксис - семантика, а въз основа на нивата на текстовите компоненти.
В същото време системите могат да работят с непълно описани речникови записи, което е важен момент при отваряне на речници за потребителя, от когото не може да се изисква фино боравене с езиков материал.
Първата система за машинен превод, издадена от PROMT през 1991 г., превежда специализирани софтуерни текстове от английски на руски. Използвала е малък речник - около 17 хиляди думи и изрази, работела е в DOS среда и не е разполагала с инструменти за персонализиране на потребителя. Но вече тази първа система беше правилно подредена и текущата технология за разработване на алгоритми за машинен превод, използвани от PROMT, не е претърпяла значителни промени. Напротив, откритият тогава подход се оказа много плодотворен за различни езици.
Първо, нека обясним някои определения: заедно с развитието на машинния превод като област на приложната лингвистика се появиха и класификации на системите и стана обичайно системите за превод да се разделят на системи от типа TRANSFER и системи от типа INTERLINGUA. Това разделение се основава на особеностите на архитектурните решения за лингвистични алгоритми.
Алгоритмите за превод за системи от типа TRANSFER са изградени като комбинация от три процеса: анализ на входното изречение по отношение на структурите на входния език, трансформиране на тази структура в подобна структура на изходния език (TRANSFER) и след това синтез на изходното изречение според получената структура.
Системите от типа INTERLINGUA предполагат априори наличието на определен метаезик на структурите (INTERLINGUA), в който е възможно да се опишат всички структури както на входните, така и на изходните езици в общия случай; следователно алгоритъмът за превод в система като INTERLINGUA се приема за по-прост: анализ на входното изречение по отношение на метаезика и след това синтез от метаструктурата на съответното изречение на изходния език. „Единствената“ трудност в този случай е да се развие самият метаезик и да се опише естественият език с подходящи термини.
Въпреки факта, че тази класификация съществува и се смята за добра форма сред разработчиците на машинен превод да питат какъв тип е системата PROMT, все още не е разработена нито една реална система, базирана на принципа INTERLINGUA.
Системата PROMT не е изключение и ние отговаряме на този въпрос: нашата система извършва превод от типа TRANSFER. Но това е много прост отговор, той практически не отразява архитектурата на системата PROMT. А особеностите са, че този метод (ТРАНСФЕР) се прилага в системата не в съответствие с подхода на лингвистичния стандарт.
Факт е, че системата за превод по правило работи в условия на непълно описани данни, тъй като езикът е жива система, което се развива много бързо: непрекъснато се появяват нови думи, нови функции на стари думи и, заедно с нови същности, нови значения. При тези условия определящото структурно свойство на алгоритмите за превод е тяхната устойчивост на произволни входни данни и вместо последователен TRANSFER "a, алгоритмите, които извършват превод в системата PROMT, се основават на йерархичен подход, който разделя процеса на превод на взаимосвързани TRANSFER за различни единицианализ.
Системата разграничава ниво на лексикални единици, ниво на групи, ниво на прости изречения и ниво на сложни изречения. Всички тези процеси са свързани и взаимодействат йерархично в съответствие с йерархията на текстовите единици, като обменят синтезирани и наследени характеристики. Такава подредба на алгоритмите позволява използването на различни формални методи за описание на алгоритми от различни нива.
Помислете за нивото на лексикалните единици: лексикалната единица е дума или фраза, която е единица от най-ниското ниво. И в случая на входния, и в случая на изходния език думата се описва като комбинация от основа и окончание. Това осигурява, от една страна, разпознаване на входните думи и анализ на входната морфология и, от друга страна, удобен синтез на изходните думи според тяхната морфологична информация (основа, тип флексия и краен адрес в масив от окончания на това Тип). По този начин, ако въведем правила за трансформиране на входната морфологична информация в изходна морфологична информация, ТРАНСФЕРЪТ се извършва на морфологично ниво.
Груповото ниво разглежда по-сложни структури: групи от съществителни, прилагателни, наречия и сложни глаголни форми. Това ниво в анализа, базирано на формални мрежови граматики, е в състояние да свърже групите в синтактични единици, всяка от които се характеризира със синтезирана структурна информация и основния елемент на групата. Според входната структура, получена по отношение на директните компоненти, заедно със синтезираните характеристики, изходната група се формира като набор от лексикални единици със стойности на морфологични характеристики, които могат да бъдат наследени въз основа на резултатите от груповия анализ. По този начин ТРАНСФЕРЪТ се изпълнява на ниво група.
Анализът на простите изречения като структури, състоящи се от синтактични единици, се извършва на базата на рамкови предикатни структури, които позволяват ефективни трансформации. Глаголът се счита за основен елемент за простите изречения и неговата валентност определя запълването на съответната рамка. За всеки тип рамки има определен закон за трансформация в изходната рамка и дизайна на актантите. Така ТРАНСФЕРЪТ се извършва на ниво изречение. Анализът на сложните изречения е необходим в случай на формиране на съгласието на времената и правилния превод на съюзите.
Преглед на продукта
С появата на писмеността хората получиха мощен инструмент за съхранение на знания и за комуникация. Първите писания, достигнали до нас на стените на храмове и гробници, разказват за делата на царе и генерали, извършени преди много векове. Освен това хората записват резултатите от икономическите дейности, за да търгуват успешно, да събират данъци и т.н.
За да се улесни писменото общуване между народите, са създадени първите речници. Един от тези речници е написан от шумерски жреци върху глинени плочки. Всяка таблетка се разделя на две равни части. От една страна е написана шумерска дума, а от друга дума с подобно значение на друг език, понякога с кратко обяснение. Оттогава до наши дни структурата на речниците не се е променила много.
С появата на персоналния компютър започнаха да се създават електронни речници, които улесняваха намирането на правилната дума и предлагат много нови полезни функции (озвучаване на думата, търсене на синоними и др.).
Технологията за машинен превод постепенно се подобрява. И ако качеството и скоростта на превода на първите системи оставят много да се желае, сега компютърът наистина може да превежда текст от един език на друг по съгласуван начин. И още модерни системис приемливо качество преведете 1 страница текст за 1 секунда.
Кой се нуждае от машинен превод и защо?
Напоследък активно се обсъждат възможностите и перспективите на технологиите за машинен превод (MT). В дискусиите участват както професионални преводачи, така и производители на MT системи. Нека се опитаме да оценим възможностите на MT въз основа на опита от използването на реални системи.
Честно казано, трябва да се отбележи, че в обозримо бъдеще машинната технология няма да може напълно да замени човешкия преводач. По отношение на качеството на превода програмите за MT не могат да се конкурират с хората. Въпреки това, с помощта на такива програми е възможно значително да се увеличи ефективността на работата на преводача.
Въз основа на формалното описание на езиците, програмата анализира текст на един език и след това синтезира фраза на друг. Алгоритмите за анализ и синтез обикновено са доста сложни и се управляват от речникова информация, присвоена на лексикални единици в системните речници както за езика на изходния текст, така и за целевия език.
Къде е приложението на MP системата? Първо, програмите за превод могат да се използват за бърз превод на текст, за да се разбере значението му. Разбира се, качеството на машинния превод не може да се сравни с превода, направен от човек, но потребителят получава отговора „тук и сега“. Освен това с помощта на MT системите можете да прочетете информация, публикувана на чужди сайтове, както и да разберете текста на изпратено писмо, написано на френски, немски, японски или други езици.
В допълнение, MT системите могат да се използват за решаване на проблемите на професионалния превод и значително повишаване на ефективността на работата. Нека сравним двата метода - традиционния и машинния. Традиционният превод обикновено включва няколко етапа: превод, редакция, оформление, корекция. В същото време, за да се ускори преводът, като правило се изпълняват няколко преводачи. В резултат на това възниква проблемът с унифицираната терминология и унифициран стил на превод, което оскъпява редакционната редакция. Освен това трябва да се положат значителни усилия за повторно оформление на документа.
Какво дава използването на MP системи и къде е най-подходящо? MT системите, използващи обща речникова база за превод, до голяма степен минимизират разходите за поддържане на единна терминология и, следователно, редакционните корекции. В същото време техническият редактор получава от системата MT превод, направен в същия стил. По този начин използването на системи за машинен превод е най-ефективно за организиране на технологичния процес за превод на големи масиви от документи от един и същи тип за кратко време, като същевременно се гарантира единството на терминологията и стила в целия масив от документи.
Възможността за използване на системата MT се определя от способността й да се адаптира към превода на документи от различни теми. Качеството на получения превод зависи до голяма степен от настройката. В допълнение към общия лексикален речник трябва да се използват специализирани речници, които отразяват както тематиката на превода, така и спецификата на конкретни документи. В допълнение, качеството на преводите зависи от способността на преводача да създава свои собствени персонализирани речници, които трябва да включват терминология, специфична за тази документация, както и често срещани фрази/фрази/изрази (микросегменти), преводът на които не може да бъде формален. Такава настройка гарантира качеството, при което използването на MT става ефективно за решаване на проблемите на „промишления“ превод.
За да оцени ефективността на използването на системите за MT, PROMT предостави своята PROMT 2000 Translation Office система на Центъра за преводи LONIIS. Експериментът показа, че използването на MT може да намали общото време на проекта около 2 пъти.
Трябва да се отбележат и редица ограничения за използването на MP системи. Няма смисъл да превеждате литературни текстове, пословици и поговорки с помощта на програма за превод. Малките текстове на различни теми също се превеждат най-добре по традиционния начин.
PROMT Translation Office 2000
PROMT Translation Office 2000 (наричан по-долу - PROMT) на цена от $300 е набор от професионални инструменти, които осигуряват превод от основните европейски езици на руски и обратно. С негова помощ можете не само да превеждате, но и да редактирате превода и да работите с речници на всички езикови области едновременно.
PROMT включва следните колекции от речници:
- Лека промишленост ($180);
- "Тежка индустрия" ($180);
- Търговия ($99);
- "Наука" ($120);
- "Техника" ($199).
За да осигури високо качество на превода, системата PROMT предоставя възможност за персонализиране на превода на конкретен текст - чрез свързване на специализирани тематични речници, доставяни отделно, както и създаване на собствени потребителски речници. Удобен инструмент за настройка на системата е и възможността да изберете темата на документа: кои речници да включите, кои думи да оставите без превод и как да боравите със специални конструкции като имейл адрес, дата и час.
Системата PROMT включва следните модули:
- PROMT - професионална преводаческа среда;
- Редактор на речници - инструмент за попълване и редактиране на речници на системи за машинен превод от семейството PROMT;
- PROMT Electronic Dictionary е електронен речник, който предоставя на потребителя широк спектър от достъп до лексикална и граматична информация, събрана в специализирани речници от фамилията PROMT. Може да се използва при всякаква работа с текстове (например за бързо получаване на информация за преводните еквиваленти на дадена дума или фраза);
- WebView е браузър, който ви позволява да получавате симултанен превод на HTML страници, когато навигирате в Интернет. WebView съдържа два прозореца за показване на HTML страници: горният показва оригиналната страница, получена от Интернет, долният показва нейния превод със запазени връзки, снимки, вмъкнати обекти и др. Можете да следвате връзки както в горния прозорец, съдържащ изходния текст, така и в долния, съдържащ превода;
- SmarTool е инструмент, който реализира функции за превод в приложенията на Microsoft Office 97 (Word, Excel) и Microsoft Office 2000 (Word, Excel, PowerPoint, FrontPage, Outlook). Менюто за превод и лентата с инструменти са вградени във всички основни приложения на Microsoft Office 2000 и Microsoft Office 97, което ви позволява да получите превода на отворен документ директно в тези приложения;
- QTrans е програма, предназначена за бърз превод на неформатиран текст. С негова помощ можете лесно и бързо да превеждате текст, текстов файл или клипборд (Clipboard). За да подобрите качеството на превода, можете да изберете подходяща тема, да свържете специализирани речници и да запазите думи;
- Clipboard Translator е програма, предназначена за бърз превод на текст, който преди това е копиран в клипборда. Текстът може да се копира от всяко Windows приложение (Help, Notepad, Word, Word Perfect, PageMaker и др.);
- "Интегратор" - средство за достъп до всички приложения на пакета.
Превод на документ в системата PROMT
Етикетът маркира текущия абзац от изходния текст и превода на този абзац (текущият е този, в който в момента е позициониран курсорът).
Всички документи, с които работи програмата PROMT, се показват в прозорците на документи. Могат да се отварят няколко документа едновременно - всеки в свой прозорец (фиг. 4 , ).
Завършеният превод може да бъде прецизиран с помощта на електронни речници, разработени от други компании (ако те, разбира се, са инсталирани на вашия компютър). Могат да се използват електронни речници:
- Lingvo 6.0 (софтуер от ABBYY);
- "Контекст 3.0" (програма на фирма "Информатик");
- "MultiLex 1.0, 2.0, 3.0" (програма на компанията "MediaLingua");
- PROMT Electronic Dictionary 1.0 (PROMT софтуер).
При превод системата PROMT не използва електронни речници на други производители. Ето защо, ако някоя дума не е в речниците на системата PROMT или не сте доволни от превода на някоя дума или фраза, можете да се обадите на електронния речник и да го използвате като справка.
За превод на HTML документи в пакета е включен браузърът WebView.
Последователността на действията при извършване на превод
- Отворете изходния файл или създайте нов документ(новият текст може да бъде въведен директно в прозореца PROMT).
- Проверете разделянето на текста на абзаци (след превод форматирането на абзаца ще бъде запазено).
- Проверете правописа и редактирайте оригиналния текст, ако е необходимо.
- Изберете шаблон на тема, подходящ за превода на този текст (шаблонът на темата за дадена посока на превод е набор от речници и списък със запазени думи; той е настроен, за да подобри качеството на превода).
- Прецизирайте темата на документа, като персонализирате неговите компоненти:
- свържете речниците, които ще се използват при превода на текста. Ако няма свързан речник, за превод ще се използва само общият лексикален общ речник;
- запазване на думите, които в преводния текст трябва да останат на езика на изходния текст;
- свържете препроцесора, ако искате да отмените превода на някои структури, като имейл адреси, имена на файлове, и също така изберете формата за представяне на дати и часове в текста на превода;
- маркирайте абзаците, които не изискват превод.
- Преведете текста (целия документ наведнъж или параграф по параграф).
- Въведете непознати думи в персонализирания си речник, ако искате те да бъдат преведени по-късно.
- Използвайте електронен речник, за да изясните значението на думите.
- Запазете резултатите от превода.
Системни изисквания
- IBM PC-съвместим компютър с процесор P166 или по-висок;
- 32 MB RAM;
- приблизително 160 MB място на твърдия диск (за система с всички компоненти);
- SVGA видео адаптер или по-добра резолюция;
- CD-ROM устройство (за инсталация);
- мишка или съвместимо устройство;
- ОС: Windows 98 (руска версия или общоевропейска с поддръжка на руски език и руски регионални настройки), или Windows NT 4.0 SP3 (или по-висока) с поддръжка на руски език и руски регионални настройки, или Windows 2000 Professional (поддръжка на руски език и руски регионални настройки настройки) );
- Microsoft Internet Explorer 5.x (включен).
- IBM PC-съвместим компютър с процесор PII-300 или по-висок;
- 64 MB RAM
Превод на документ в системата Сократ Персонал
Изгледът на главния прозорец на програмата е показан на фиг. 6.
При първото стартиране главният прозорец на програмата по подразбиране се отваря в раздела "Преводач". Превод на текст, въведен в прозореца на програмата: като напишете текст в горния прозорец на раздела "Преводач" и натиснете бутона "Превод" от лентата с инструменти или в менюто "Превод", ще получите превод на текста в долния прозорец на раздела.
За да използвате речника (фиг. 7), просто щракнете върху съответния раздел. Освен това прозорецът на речника може да се извика с помощта на клавишни комбинации.
С помощта на речник можете да получите превода на търсената дума по следните начини:
- въведете дума в полето за въвеждане, разположено в горния десен прозорец на речника. Придвижването през речниковата база се извършва при въвеждане на букви, докато се получи максимално възможно съвпадение;
- поставете думата в полето за въвеждане от клипборда. В този случай ще бъде направен бърз преход към думата, която съвпада максимално с въведената;
- изберете предварително преведена дума от прозореца за история на полето за въвеждане, след което ще бъде направен бърз преход към думата, която има максимално възможно съвпадение с въведената;
- изберете дума в друго приложение и докато държите натиснат клавиша Shift, щракнете с десния бутон върху селекцията. Преводът на избраната дума ще се появи в изскачащ прозорец;
- използвайте комбинация от горещи клавиши, след като поставите желаната дума в клипборда.
Превод на думи или текст от други приложения
Системата "Socrates Personal 4.0" предоставя възможност за работа с преводач и речник в други приложения без излизане от тях. Преводът се извършва в изскачащ прозорец.
За да получите превод на текст от друго приложение (например текстов редактор), трябва да изберете текста за превод и докато държите натиснат клавиша Shift, щракнете с десния бутон върху селекцията. Ще се появи изскачащ прозорец, съдържащ превода на селекцията.
За да получите превода на дума от друго приложение, трябва да изберете думата, която ви интересува, и докато държите натиснат клавиша Shift, щракнете върху селекцията с десния бутон на мишката. Изскачащият прозорец, който се появява, ще съдържа превода на избраната дума.
Ако е необходимо, от този прозорец можете да отидете директно в раздела "Речник", като използвате хипервръзката в изскачащия прозорец.
Системни изисквания
Минимална компютърна конфигурация:
- IBM PC-съвместим компютър с процесор Pentium 90 или по-висок;
- Операционна система Windows 98/Me или Windows NT/2000;
- 32 MB RAM;
- 16 MB свободно пространство на твърдия диск.
Резултати от тестването на PROMT Translation Office 2000 и Socrates Personal 4.0
За да се сравни качеството и скоростта на превода на двете системи, бяха избрани няколко фрагмента от текстове на руски и английски: отделни фрази, новини от компании, пасажи от Библията, „законите на Мърфи“, технически, медицински, юридически текстове. Оценките бяха дадени по десетобална система. След това бяха сравнени резултатите от превода от английски на руски и обратно (Таблица 1).
Трябва да се отбележи, че PROMT Translation Office 2000 и Socrates Personal 4.0 са продукти, предназначени да решават различни задачи. PROMT Translation Office 2000 е професионална MT система, която прави много по-ефективно превеждането на големи обеми информация. Освен това системата PROMT правилно прилага граматическите правила на даден език. Следователно качеството на превода е много високо. Недостатъците на системата PROMT са високите изисквания за хардуерни ресурси и значително време за превод при свързване на няколко допълнителни речника.
"Socrates Personal 4.0" е система за автоматичен превод, която ви помага бързо и лесно да получите превод на неразбираема фраза или термин. Основната му цел е да е винаги под ръка.
Преводът на кратко писмо или фраза от текст с помощта на Socrates Personal 4.0 е много по-лесен и бърз от използването на системата PROMT. Въпреки това, за превод на голямо количество текст е препоръчително да използвате PROMT Translation Office 2000.
Lingvo 7.0
Lingvo 7.0 е мощен професионален речник, който е много удобен за потребителя. Натиснете горещия клавиш във всяко приложение на Windows и на екрана ще се появи най-пълният превод на думата от всички речници, свързани към системата. Граматически коментари за всяка дума, произношение на най-важните думи, проверка на правописа, възможност за създаване на собствени речници - всичко това предлага ABBYY Lingvo 7.0 (фиг. 9). Lingvo 7.0 съдържа над 1,2 милиона думи и изрази в 18 общи и специализирани речника.
Когато стартирате Lingvo, главният прозорец се появява на екрана (фиг. 10). В реда за въвеждане потребителят може да въведе желаната дума. Докато пишете, програмата ще търси най-подходящата дума. При натискане на клавиша enter или иконата "Превод на текст" потребителят ще види прозорец с карта, съдържащ речниковия запис на избраната (намерена по време на търсенето) дума (фиг. 11).
Ако четете раздела за помощ на програма, работите с текстов редактор, браузър или друго приложение на Windows, изберете дума или няколко думи в текста и натиснете Ctrl+Ins+Ins. Или просто плъзнете и пуснете думата в реда за въвеждане. Това активира главния прозорец на Lingvo и отваря карта с превода на избраната дума. Ако има много такива карти, ще се появи прозорецът "Превод", съдържащ думите и изразите от заявката.
За да вмъкнете превод в редактируем текст, изберете превода в картата и натиснете Ctrl+Ins. Превключете към прозореца на текстовия редактор и изпълнете операцията „Поставяне“. Можете също да плъзнете превода в прозореца на вашия текстов редактор.
Когато превеждаме от английски на руски, не винаги е очевидно дали имаме работа с думи, които могат да бъдат преведени самостоятелно, или с фраза, която се превежда като цяло. Функцията „Превод на текст от низ“ помага при решаването на този проблем, което ви позволява да намерите стабилни фрази в преведения фрагмент, за които има отделни записи в речника. Можете да опитате да намерите останалите непреведени фрагменти в примерите, като използвате функцията за търсене в пълен текст, като зададете необходимите опции (и / или, като вземете предвид реда или не и т.н.)
Когато превеждате от руски на английски, изборът на комбинации и граматически конструкции не е труден и ако тези комбинации не са в речника, можете веднага да се обърнете към функцията за търсене в пълен текст. Резултатите от търсенето ви позволяват да оцените как изразът, който ви интересува, е преведен в реални примери.
Основни характеристики на Lingvo:
- превод на 1,2 милиона думи и фрази;
- 18 общи и специализирани речници (2 медицински и 2 правни речника в Lingvo 7.0 са нови);
- съвременна лексика;
- извикване на речник от всяко Windows приложение;
- перфектна система за търсене;
- 5 хиляди английски думи бяха озвучени от диктор от Оксфорд;
- възможност за създаване на собствени персонализирани речници;
- 23 безплатни потребителски речника на http://www.lingvo.ru/;
- подробни тълкувания и обяснения на употребата на думи;
- съвременни лингвистични технологии;
- нови разширени версии на общи и специализирани речници.
Системни изисквания
Минимална компютърна конфигурация:
- IBM PC-съвместим компютър с процесор Pentium 133 или по-висок;
- операционна система Windows 95/98/Me, Windows 2000/Windows NT 4.0 (SP3 или по-висока);
- 16 MB RAM за Windows 95/98/Me, 32 MB RAM за Windows 2000/Windows NT 4.0;
- 85 до 265 MB свободно пространство на твърдия диск;
- 3.5” флопи устройство и CD-ROM устройство, мишка;
- Microsoft Internet Explorer 5.0 и по-нови версии (пакетът за разпространение на ABBYY Lingvo 7.0 включва Microsoft Internet Explorer 5.5 - за инсталирането му са необходими допълнителни 27 до 80 MB);
- звукова карта, съвместима с операционна система; слушалки или високоговорители (препоръчително).
Контекст 4.0
"Контекст 4.0" е система от електронни речници, която включва разработена софтуерна обвивка и обширен набор от речници - както общи, така и специализирани. Уникален имот"Контекст" - като се вземе предвид морфологията на поддържаните езици. Благодарение на това "Контекст" превежда думи и фрази във всякаква граматична форма. В "Контекст" най-пълно са представени английско-руските и руско-английските речници. Библиотеката "Контекст" на новата версия е разширена с английско-френски, английско-немски, английско-испански, английско-италиански, английско-португалски, английско-сръбски и английско-хърватски речници.
Речниците "Контекст" са двустранни. Програмата превежда от един език на друг и обратно без специални настройки. Търсенето на превод може да се извърши както във всички речници, включени в комплекта, така и в конкретен речник. В същото време наборът от активни (участващи в търсенето) речници, както и редът на търсене в тях, могат лесно да се променят.
Можете да работите с „Контекста“, като напишете думата или фразата, която представлява интерес за потребителя, в специално поле за въвеждане (фиг. 12).
Удобно е да работите с "Контекст" и от Windows приложения. Преводът се извършва по метода на плъзгане и пускане или чрез клипборда. В настройките можете да посочите горещ клавиш или да активирате опцията за стартиране на превод, когато текстът е поставен в клипборда.
За потребителите, работещи в редактора на MS Word, е въведена възможност за извикване на „Контекст“ от самия редактор. За да направите това, кликнете върху иконата "Контекст", разположена в лентата с инструменти на MS Word, и потребителят не трябва да избира дума или фраза в текста. „Контекст“ ще преведе думата, върху която се намира курсорът, и в същото време ще провери няколко думи отдясно и отляво дали са част от фразата.
„Контекст” се допълва с речници по желание на потребителя. Ако потребителят е закупил черупката и някои речници, той може да закупи всички други речници, от които се нуждае.
Четвъртата версия на "Контекст" има редица интересни функции, които не са били в предишните версии. Например, речник търси в частични фрази. В този случай всички фрази, чийто коефициент на релевантност по отношение на търсения низ е по-голям от зададената прагова стойност, се показват в прозореца за превод (фиг. 13, ).
Има нова функция за бързо набиране (Fast Typing). Когато въвежда дума, потребителят получава съвети за подобни думи от текущия речник, като се вземат предвид вече въведените знаци (фиг. 15). След това потребителят може да избере от списъка или да продължи да въвежда сам.
За съвместна работа на речници по различни езицизаедно с автоматичното откриване е добавена функция за избор на език (фиг. 16).
Новата версия има възможност за добавяне и редактиране на речникови записи, което прави работата на речниковата система по-гъвкава. В предишната версия на "Контекст" беше реализирана възможността за работа с речника на потребителя. Новата версия на програмата "Контекст" ви позволява да създавате няколко речника и да ги редактирате. Потребителските речници и стандартните речници и потребителските речници са равнопоставени в системата от речници "Контекст". Форматът на записа в речника на потребителя е близък до формата на стандартния речник, тоест до обичайния формат на книгата. Статията може да включва както думи и изрази, така и примери за употребата на думи като част от определени изрази и интерпретации (
MultiLex 3.5
"MultiLex 3.5" е електронен речник, който включва електронни версии на известни печатни речници. Разнообразие от англо-руски и руско-английски речници са публикувани в английската обвивка MultiLex 3.5 (нов англо-руски речник от V.K. Muller, англо-руски/руско-английски речник от O.S. Akhmanova, руско-английски речник под редакцията на A.I. Smirnitsky) . Предвижда се издаване на технически, биомедицински, икономико-правни и др.
"MultiLex 3.5 English" позволява на потребителя постепенно да избере оптималния набор от речници за себе си, които ще работят заедно.
Характеристики на речника "MultiLex":
- удобство и лекота на използване;
- озвучаване на голям брой речникови статии;
- бърз достъп до важни записи: с помощта на отметки можете да маркирате речникови записи, които са важни за вас, и след това да имате директен достъп до тях;
- функция „бързо набиране“ - при въвеждане на дума се появява списък с подобни думи, от които потребителят може да избере дума за превод, без да я въвежда цялата;
- превод на дума или фраза и прехвърляне на резултатите от превода в Windows приложение чрез клипборда или плъзгане и пускане;
- въвеждане на бележки: при работа в екип е важно да се поддържа единството на терминологията. Тук механизмът за бележки ще дойде на помощ - можете да пишете свои собствени бележки към всеки речников запис;
- потребителски речник.
Прозорецът "MultiLex" съдържа рамка на прозорец, лента с менюта, под която има панел с речник, лента с инструменти и лента за търсене. Под лентата за търсене е действителната работна зона на прозореца MultiLex.
Работната зона е вертикално разделена на две части: панел със заглавие на статия (вляво) и панел с текстови записи в речника (вдясно). Границите между панелите могат да се местят наляво и надясно.
Левият панел съдържа списък със заглавия на записи в речника, който се показва в панела на речника с икона под формата на отворена книга (използва се за преглед на заглавията на записи в речника). Десният панел винаги показва записа в речника, съответстващ на заглавието, маркирано в десния панел. Речников запис започва със заглавие, последвано от неговата транскрипция. Освен това се посочва частта на речта, дадени са възможни преводи, обяснения, примери.
Панелът на речника ви позволява да изберете желания речник. Всеки речник има своя собствена икона, която приема три различни състояния: затворена книга, полуотворена книга или отворена книга. Формата на иконите показва кой от речниците е отворен в момента и в кои речници е намерено нещо в резултат на последното търсене.
Ако иконата на речника изобразява отворена книга (бележник) - този речник вече е отворен, полуотворена книга (бележник) - този речник в момента не е отворен, но съдържа информация, която отговаря на вашата заявка, и ако иконата изобразява затворен книга (бележник) - този речник е затворен и необходимата информация не е в него.
През юли 2001 г. беше пусната нова версия на популярния английски речник MultiLex 3.5 (английско-руски, руско-английски речник на общата лексика, редактиран от O.S. Akhmanova и E.A.M. Wilson). Съдържа повече от 40 хиляди записа.
Версия 3.5 има редица предимства, които няма да намерите в предишната версия:
- възможност за инсталиране на речници. Като закупите всеки английски речник (версия 3.5 или по-нова), можете лесно да го вградите във вашия MultiLex. Предвижда се издаване на технически, биомедицински, икономико-правни и други колекции;
- изскачащ превод. MultiLex 3.5 осигурява поддръжка за превод чрез бързи клавиши от всяко приложение, което поддържа клипборда. За да направите това, просто маркирайте думата, натиснете съответния функционален клавиш (F10 по подразбиране) - и на екрана ще се появи прозорец с превода. Преводът в прозореца е хипервръзка. Ако имате нужда от по-пълна информация за думата, която ви интересува, като щракнете върху левия бутон на мишката, извикайте "MultiLex" с готови опции за превод на исканата дума. Изскачащият прозорец за превод може да бъде зададен върху всички прозорци, като изберете съответния елемент в контекстното меню, което става достъпно, когато щракнете с десния бутон върху иконата MultiLex (в долния десен ъгъл на екрана). Подобна функция се изпълнява от бутона от лявата страна на прозореца "изскачащ превод". С този бутон можете да "прикачите" получения превод навсякъде на вашия екран;
- звукова карта, съвместима с операционната система, слушалки или високоговорители (препоръчително).
Резюме
В заключение, няколко думи за личния опит от използването на системи за машинен превод и речници.
Преди три години използвах система за машинен превод, за да изготвя доклад за западен работодател. Няколко офшорни програмисти пишеха програмата за навигационен приемник. За съжаление малко хора от групата говореха достатъчно английски, за да опишат резултатите от работата си на езика на клиента. В тази връзка се наложи превод на доклади, съставени на руски език. Тогава ми хрумна идеята да изпробвам системата за машинен превод Stylus (първите версии на системите на PROMT се наричаха така). Този опит се оказа много успешен: преведох документ от 140 страници три пъти по-бързо от планираното. Разбира се, преводът, предоставен от програмата, не беше перфектен. Трябваше да го редактирам много и дълго време. Но има печалба.
От тогава, когато превеждам текстове над 10 страници, винаги използвам системи за машинен превод.
Разказах тази история на мой бизнес приятел. Тогава започва да търгува с обувки и установява контакти с немски доставчици. Той също купи подобна система и все още успешно си кореспондира с германците чрез електронна поща(не знае нито английски, нито немски). След като е написал писмо на руски, той го превежда на немски и го изпраща, а получения отговор превежда на руски. И всички са щастливи. В резултат на това онзи ден моят приятел отваря петия магазин за обувки в Москва.
С електронните речници се запознах още по-рано, когато имах нужда да чета чужди книги и списания по технически дисциплини със специфична лексика. Техническите електронни речници, речниците по телекомуникации и компютърни науки ми позволиха да спестя много време и усилия. Благодаря ти Lingvo!
Надяваме се, че моята история за новите системи за машинен превод и речници ще ви помогне да организирате работата си ефективно и в крайна сметка да успеете.
Редакторите благодарят за помощта при подготовката на статията: Александър Андреев, фирма ПРОМТ; Андрей Соколов, фирма Информатика; Анастасия Савина, ABBYY; Константин Конин и Наталия Талпа, компания MediaLingua; Алексей Буханов, компания Арсенал.
КомпютърПрес 9 „2001
През последните десетилетия компютърът, свързан с интернет, се превърна в най-важния инструмент за преводача. Наистина, благодарение на него се осигурява достъп до огромни количества информация, както и до електронни речници и преводачи. Машинният превод днес се превърна в ежедневие.
Терминът „машинен превод“ (MT, известен още като Machine Translation или MT) е действието, когато един естествен език се превежда на друг с помощта на специален софтуер. В този случай програмата може да бъде инсталирана директно на компютър (или) или да бъде достъпна само когато е свързана с интернет.
Малко история
Идеята за използване на изчислително устройство за превод се появява още през 1947 г. Но прилагането на това през онези години беше просто невъзможно, тъй като компютърните технологии бяха в начален стадий. Още през 1954 г. обаче е направен първият опит за машинен превод. Първият речник включва само 250 думи, а граматиката е ограничена до 6 правила. Това обаче се оказа достатъчно, за да сме сигурни, че машинният превод има страхотно бъдеще. Работата в тази посока започва в много страни, започват да се появяват първите системи за машинен превод (MTS), създават се специални теории.
В началото развитието на машинния превод беше възпрепятствано от ниското ниво на компютърните технологии, много високата им цена. Въпреки това, постепенното навлизане в живота ни, първо на персоналните компютри, а след това и на Интернет, доведе до бързото развитие на тази индустрия. Днес машинният превод се използва активно в различни области на човешката дейност.
Кому трябва
Развитието на машинния превод беше улеснено от разширяването на международните връзки. Хората започнаха да пътуват до други страни по-често, бизнесът в чужбина престана да бъде нещо изключително, дори по стандартите на малките компании. И ако е така, тогава възникват все повече трудности в комуникацията. В резултат на това машинният превод се използва все повече в бизнеса днес. Дори ако резултатът от преводите, предоставени от компютър, далеч не е идеален, той все още е по-добър от нищо.
С помощта на SMP става възможно много бързо разбиране на съдържанието на големи обеми текстове, което е просто невъзможно при традиционния подход. Това може да бъде много полезно, например, ако трябва да класифицирате голямо количество информация в чужд език. Или за лингвистичен анализ.
депутат също стана често срещано явлениекогато общувате в интернет, когато високата скорост на превод е много важна, разбирането на това, което ви е казал събеседникът. В този случай обаче можете спокойно да забравите за прехвърлянето на литературни образи, ако искате да бъдете разбрани правилно. Само "сухи" фрази, без никакви двусмислици.
Човешко участие
Въпреки създаването на различни подходи и решаването на проблеми с изчислителната мощност, качеството на машинния превод все още е далеч от идеалното. Дори ако успехът по този въпрос може да се нарече впечатляващ, но само в сравнение с първите системи.
Съвременните SMP вече са се научили как повече или по-малко адекватно да превеждат технически текстове, които, както знаете, не съдържат онези литературни свободи, които толкова често се срещат в литературните текстове. Качеството на превода е силно повлияно от афинитета на езиците. Например, когато превеждате от на, резултатът ще бъде много по-достоен, отколкото от на. Във втория случай полученият текст може да се окаже просто нечетлива глупост.
Поради тази причина машинният превод все още не може без човешко участие. Което или първоначално адаптира текста, елиминирайки всички възможни неясноти (предварителна редакция), или редактира готовия превод, премахвайки почти неизбежните грешки от него (постредактиране). Съществува и концепцията за вътрешно редактиране, когато човек се намесва директно в работата на системата, коригирайки неточностите, които възникват в движение.
Какво представляват SMP
Към днешна дата работата в областта на MP е разделена на две основни области:
- Статистически машинен превод (Статистически машинен превод, SMT);
- Машинен превод, базиран на правила (Машинен превод, базиран на правила, RBMT).
В първия случай имаме самообучаващи се системи. Преводът става възможен в резултат на постоянен анализ на огромен брой текстове с едно и също съдържание, но на различни езици. Системата намира и използва винаги съществуващи закономерности. Качеството на превода в случай на използване на SMT се счита за доста високо. Но само ако системата вече е успяла да анализира огромно количество информация. А за това са необходими не само самите тестове, но и впечатляваща изчислителна мощност. Това означава, че само големи компании могат да работят в тази посока. Примери за такива системи: Гугъл преводач, Yandex превод, и Бинг преводачот Microsoft.
В случая на RBMT системите, всички правила се създават от хора, които след това участват в тяхното непрекъснато „вкарване“. Съответно качеството на резултата зависи от това колко пълно лингвистите ще могат да опишат естествения език, с който работят. Именно необходимостта от постоянна поддръжка на създадената лингвистична база данни е основният недостатък на RBMT системите. Но за да се създаде преводач, който може да осигури задоволителен резултат, не е необходима впечатляваща изчислителна мощност, което позволява на малките компании да работят в тази посока. Примерите включват системи като Мултилект, LinguatecИ PROMT.
Можете също така да подчертаете трета опция: хибриден машинен превод (Хибриден машинен превод, HMT). Този метод съчетава двата подхода, SMT и RBMT. На теория този подход ви позволява да получите предимствата и на двете технологии. Това е, което компанията използва. Systran, основана през 1968 г. и считана за най-старото търговско предприятие, работещо в областта на МТ.