Разработка специализированных словарей
Структура словарей в системе ПРОМТ
Основные этапы создания специализированного словаря
Опыт реализации проектов
Отдел по внедрению лингвистических технологий выполняет заказные работы по созданию специализированных словарей, настроенных на предметную область (области) заказчика.
Использование подробного специализированного словаря, включающего терминологию сферы деятельности заказчика, значительно расширяет и уточняет словарный запас системы в данной предметной области, что является эффективным способом повышения качества перевода. Пример поможет проиллюстрировать эффективность применения словаря, настроенного на предметную область заказчика.
Отдельные пользователи и компании, которые только время от времени сталкиваются с задачей автоматизировнного перевода, создание и пополнение пользовательских словарей могут организовывать собственными силами. Специалисты отдела по внедрению лингвистических технологий готовы при необходимости проверить и откорректировать созданные пользователями словари, ответить на вопросы или предложить рекомендации по вводу информации в словарь (Подробнее в разделе Консультационные услуги и поддержка клиентов).
Для пользователей, которые постоянно сталкиваются с необходимостью оперативного перевода достаточно больших массивов документации определенной предметной области, очевидна потребность создания профессиональных дополнительных словарей, включающих терминологию этой области.
Создание подробного специализированного словаря - это значительная по объему работа, требующая больших временных затрат и привлечения широкого круга специалистов. Следует также учитывать, что в словарь вводится дополнительная грамматическая информация, выявленная при анализе больших объемов типовых текстов заказчика. Разработка словаря компанией-изготовителем - это не только гарантия его качества, но возможность получения квалифицированных консультаций по применению систем машинного перевода в отрасли заказчика. К настоящему моменту накоплен значительный опыт по созданию специализированных словарей.
Специалисты отдела по внедрению лингвистических технологий будут рады продемонстрировать заказчику эффективность разработки специализированного словаря путем создания пробного словаря на примерном тексте.
За дополнительной информацией просим обращаться по Е-mail: alexey.lyapunov@promt.ru
Основные этапы создания специализированного словаря
-
Предварительный этап. Изучение материалов заказчика. Формируется представление о типах документов, перевод которых требуется регулярно осуществлять заказчику. В качестве материалов для создания словаря могут быть использованы двуязычные документы, бумажные словари, глоссарии. Документы, не имеющие перевода, используются для извлечения терминологии с помощью специальных средств и для тестирования словаря на этапе машинного перевода. Подготовка и систематизация материала, приведение его в вид, необходимый для ввода в словарь.
-
Создание словаря. Ввод словарной информации, являющейся уникальной терминологией, извлеченной из обработанной группы материалов, в словарь. При вводе учитывается дополнительная грамматическая информация: особые функции вводимого слова или словосочетания в составе предложения, возможные случаи омографии. Скорость создания словаря оценивается в 4-5 тысяч словарных статей в месяц.
-
Этап тестирования готового словаря. Словарь проверяется на предмет корректности словарной информации. На этом этапе последовательно применяются следующие программы:
- программа проверки орфографии - для выявления опечаток или, например, некорректно определенного типа склонения или спряжения слова;
- программа сравнения готового словаря с Генеральным словарем данного языкового направления - для выявления возможных пересечений или неучтенной важной информации;
- программа проверки физического состояния словаря.
Корректность введенной информации фиксируется в специальных “листах тестирования”, согласно требованиям стандартных процедур контроля качества, принятым в компании ПРОМТ.
-
Этап первоначального машинного перевода с последующей настройкой словаря. Осуществляется машинный перевод больших объемов текстов заказчика. Проводится дополнительная настройка и коррекция готового словаря.
-
Заключительный этап. Тестовый машинный перевод и передача словаря заказчику. Этот этап предусматривает финальную проверку качества машинного перевода на всем объеме предоставленных заказчиком текстов. Разработчики словаря демонстрируют заказчику, что все возможные лексические единицы были учтены, проанализированы и введены в словарь в виде, дающем возможность задействовать максимальное количество алгоритмов, реализованных в программе машинного перевода ПРОМТ для данного языкового направления.
Если заказчик планирует в дальнейшем самостоятельно развивать созданный словарь, то предусматривается обучение его сотрудников особенностям создания словаря применительно к данной предметной области и данной группе текстов. Если заказчик заинтересован в сопровождении словаря специалистами отдела, может быть заключен договор на лингвистическую поддержку.
Структура словарей в системе ПРОМТ
В системах ПРОМТ поддерживается следующая структура словарей:
- Генеральный словарь cодержит общеупотребительную лексику, служебные слова и словосочетания, формирующие структуру предложения.
-
Специализированные словари предназначены для переводов текстов определенной тематики и ориентированы на конкретную предметную область.
-
Пользовательский словарь служит для пополнения словарного запаса системы пользователем.
Генеральные и специализированные словарные базы закрыты для коррекции, однако пользователь может "считать" словарную статью из этих словарей и отредактировать ее в своем собственном пользовательском словаре. Система словарей, организована таким образом, что самым высоким приоритетом обладает пользовательский словарь, затем идет специализированный и, наконец, низший приоритет у Генерального словаря. Следовательно, система ищет перевод слова или словосочетания сначала в пользовательском словаре, затем в специализированном словаре и, в последнюю очередь, в Генеральном словаре.
Создание и настройка пользовательского словаря рекомендуются даже при наличии соответствующего специализированного. Специализированные словари формируют терминологическую основу при переводе текстов определенной тематики, но они не могут содержать абсолютно всю лексику из всех областей и подобластей данной тематики, кроме того, важной составляющей пользовательского словаря является внутренняя информация компании (уникальная терминология, принятые обозначения, аббревиатуры). Наиболее эффективным является режим работы с подключением одного-двух специализированных словарей и одного пользовательского, в котором и происходит активная работа со словарной базой.
Если в рамках одной организации переводятся тексты различной тематической направленности, целесообразно для каждого направления создать свой пользовательский словарь.
Опыт реализации проектов
Путь решения проблемы повышения эффективности использования систем машинного перевода с помощью создания специализированный словарей был избран многими известными компаниями:
GMS - Реализация Интернет-проекта с использованием серверного Интернет-решения компании ПРОМТ - PROMT Internet Translation Server (PITS) и специально созданного словаря, включающего терминологию сайта заказчика. Был создан специализированный русско-английский словарь по тематике сайта GMS объемом более 5000 словарных единиц. Для оперативной коррекции содержимого словаря при изменении информации на сайте заключен договор на лингвистическую поддержку.
NASA - были разработаны англо-русский и русско-английский словари по «Аэрокосмической» тематике общим объемом около 30 тыс. лексических единиц; системы перевода STYLUS и PROMT с разработанными словарями активно используются как в NASA, так и в Lockheed Corp. и McDonnel Douglas в рамках совместных российско-американских проектов;
Inmarsat - разработаны англо-русский и русско-английский словари по тематике Inmarsat («Телекоммуникация и Связь») объемом около 10 тыс. лексических единиц каждый, созданы дополнительные словари аббревиатур Inmarsat;
Volvo - разработан англо-русский «Автомобильный» словарь объемом около 10 тыс. лексических единиц, в словарь включена специальная терминология по глоссариям Volvo;
SAP - создание и настройка англо-русских словарей объемом – около 40 тыс. единиц по более чем 30 направлениям для перевода документации компании SAP;
SCO- В течение 4 месяцев лингвистами компании ПРОМТ обработано более 500 документов, переданных компанией SCO. Указанные документы представляли собой двойные тексты с переводами и содержали оригинальную достоверную терминологию компании SCO. В результате работы над проектом создано 16 словарей ( 8 англо-русских и 8 русско-английских) общим объемом более 20 000 словарных единиц. Словари представлены в формате электронного словаря PROMT.
Разработан специальный конвертер, позволяющий подключать созданные словари к системе LINGVO.
Xerox - разработка англо-русского словаря объемом около 6 тыс. единиц, включающего терминологию компании, а также настройка специализированной системы машинного перевода для перевода сервисной документации компании;
Антриб-Мерседес-сервис - разработан немецко-русский «Автомобильный» словарь, общим объемом около 15 тыс. лексических единиц;
Госстандарт РФ - разработка комплекса специализированных англо-русских и русско-английских словарей по более чем 30 направлениям для переводов стандартов в рамках контракта, финансируемого World Bank (совокупный объем словарных статей – около 1 500 000);
Ленское речное пароходство - разработаны англо-русский и русско-английский «Морские» словари общим объемом около 80 тыс. лексических единиц;
Невская косметика - созданы три англо-русских словаря по тематикам «Косметическая промышленность», «Пищевая промышленность», «Политехнический» общим объемом около 150 тыс. лексических единиц. Разработанные словари используются при переводе документации на всех этапах технологического процесса;
ПОДОЛЬСККАБЕЛЬ- Для улучшения качества перевода документации по кабельному производству был создан специализированный англо-русский словарь «Кабельная промышленность» объемом более 4500 словарных единиц.
РОСИНФОРМАГРОТЕХ - Был создан специализированный англо-русский словарь объемом 5000 слов. Единиц. Словарь содержит основную терминологию механизации растениеводства. Была разработана методика создания и пополнения данного словаря.
Церковь Мормонов - разработаны специализированные англо-русский и русско-английский словари по тематике «Религия» общим объемом около 10 тыс. лексических единиц, предназначенные для перевода религиозной литературы.
|