Хабрахабр

[Из песочницы] Морковные модели, бутылочные горлышки и распознавание речи: об отсутствии словарей в сфере искусственного интеллекта

Языковой квест на просторах распознавания речи

Тогда я еще не знала, в какое глубокое теоретическое море мне придется погрузиться без спасательного круга в виде хоть какого-то терминологического словаря. Полгода назад я стала техническим писателем в научно-исследовательском департаменте ЦРТ.

Я их пишу и перевожу всю жизнь, даже люблю. Первый звонок от HR из ЦРТ содержал довольно странный для меня вопрос: «Вас не пугает, что придется переводить статьи с русского на английский и с английского на русский?» Меня это конечно не пугало — что ж страшного в статьях! Поэтому я без каких-либо тревог выполнила все тестовые задания, прошла ряд собеседований и, в конце концов, устроилась на работу в ЦРТ.

Получив на новом месте первое задание — перевести три статьи с английского на русский — я поинтересовалась:

— спросила я.
— Конечно! — А кто авторы текстов?
— Ребята из соседнего кабинета, — ответили мне коллеги.
— А на русском они говорят? На имена посмотри!

Планов, глоссариев или иных письменных источников, связанных со статьями, у авторов статей не оказалось, и я просто начала переводить. Иван, Алексей, Юрий – имена авторов и правда были русскими, поэтому я стала спрашивать у них черновики к статьям на великом и могучем. Меня радовал тот факт, что коллеги отлично знают английский и не нуждаются в русскоязычных заготовках.

"

Уже со второго абзаца первого текста началось самое интересное: погружение в терминологическую пучину распознавания речи. Но радость длилась недолго. Но их не было ни в одном известном мне словаре. Встречая термины, мне пока не знакомые, я конечно же искала их в словарях. Google-переводчик в этой ситуации оказался полностью негоден, правда он повеселил меня пару раз, выдав несколько бредовых фраз вроде “морковных моделей” (Markov models) или “горлышка бутылки” (bottleneck). Даже Multitran, пожалуй, самый полный онлайн-словарь профессиональных терминов и не только, молчал или выдавал откровенно не то.

Увидев в моих глазах вопрос «Ребята, вы вообще о чём?», коллега стал мне помогать формулировать корректные переводы понятий. Накопив пару десятков примеров такой непереводимой игры слов, я пошла к одному из авторов за разъяснениями. Журналы, в которых имеет смысл публиковаться, сплошь англоязычные, да и читатели этих статей английским владеют достаточно хорошо, чтобы обмениваться знаниями и двигать науку вперед. А еще он объяснил, что научные сотрудники ЦРТ не пишут научных статей на русском – это просто никому не нужно. Мне же перевод поручили для того, чтобы отчитаться по проекту перед заказчиком и сохранить в базе знаний ЦРТ.

Привлечение одного из светлых умов ЦРТ не положило конец языковому квесту. Ситуация накалялась. Во-первых, непереведенных терминов было слишком много, во-вторых, перевести словосочетание порой было возможно только текстом, размером со словарную статью.

Стало проще, работа закипела, и вскоре все три статьи были переведены на русский. Тогда в ход пошла тяжелая артиллерия – кандидатская диссертация коллеги, в которой ему также пришлось переводить термины распознавания речи на русский язык, да еще и так, чтобы собравшиеся на защите поняли, о чем идет речь.

Меня уже не пугают эмбеддинги, MFCC, MLP, bottleneck- признаки и т.п. За несколько месяцев я сделала для себя глоссарий из почти 400 терминов, который помогает мне переводить на русский и на английский любые тексты, созданные научными сотрудниками ЦРТ.

Книжный квест на просторах России

И дело здесь не в том, что мне поначалу было трудно. Задача (и даже не одна) по переводу статей была успешно решена, но осадок от языкового квеста остался. И такая пустота – огромное препятствие для тех, кто начинает свой путь в информационных технологиях. Просто в России полностью отсутствуют терминологические словари для сферы распознавания речи и искусственного интеллекта вообще. Из-за отсутствия элементарной опоры каждый, кто находится на старте IT-карьеры, чувствует неопределенность и тратит немало времени, чтобы научиться говорить с коллегами об искусственном интеллекте и читать о нем. И неважно, что английский — международный язык науки.

По нему и монографии пишут, и диссертации защищают. А ведь искусственный интеллект для науки не новость. И каждый ученый самостоятельно составляет глоссарий к своей работе, а иногда обходится и вовсе без него.

Что делают лексикографы и прочие гуманитарии, дабы помочь разобраться в хитросплетениях IT-терминов? А что филологи? Почти десять лет подряд меня всё устраивало (я работала в системной интеграции). Я много лет пользуюсь двуязычными бумажными и онлайн-словарями, в том числе такими, которые корректируют пользователи. Этот ресурс демонстрирует весьма скромную базу терминов, связанных с искусственным интеллектом. А потом я пришла в ЦРТ и поняла, что Abbyy lingvo убивает всякую надежду найти хоть сколько-нибудь адекватный перевод IT-термина, а Multitran радует слишком редко. Примерно такой же объем демонстрирует “океанология” (3267 терминов) и “зоология” (3625 терминов) — области хорошо изученные и давно обеспеченные литературой, в том числе терминологическими словарями. Их в Мультитране собрано ровно 3400. Для сравнения, прикладные IT-тематики на Мультитране проработаны лучше: “робототехника” содержит 9802 термина, “микроэлектроника” — почти 12000, “электроника” — 47640.

Вот только поле относится скорее к рубежу веков, ведь до сих пор в статьях обсуждаются расхожие и уже обрусевшие словечки вроде “софта”, “юзера” и “кликабельности”. Филологи-русисты без дела не сидят, они исследуют “семантическое поле информационных технологий”.

Она остается в стороне от озвученной проблемы. Что касается книжной индустрии. Доказательство тому — результаты поиска словарей по искусственному интеллекту.

Аверкин, М.Г. Озон (активный продавец как новых книг, так и букинистики) показывает, что в 1992 году был издан: “Толковый словарь по искусственному интеллекту”, авторы-составители: А.Н. Поспелов. Гаазе-Рапопорт, Д.А. И всё. В нем были собраны переводы 550 терминов с 5 европейских языков на русский. В остальных книжных всё ещё печальнее, там нет вообще ничего. Больше ни одного словаря среди 2000 изданий в разделе “Искусственный интеллект” этого магазина.

А вот результаты поиска в электронных каталогах трех крупнейших научных библиотек страны, которые получают обязательный экземпляр книг и покупают издания по всем отраслям знания.

Библиотека

Количество документов по запросу
“Искусственный интеллект”

(из них словарей)

Всего в фонде

Из них словарей

Государственная публичная
научно-техническая библиотека России

1136

А. Нашелся только 1 по смежной теме:
Словарь языка интернета.ru [Текст] / М. М. Кронгауз [и др.]; под ред. — Москва: Слов. А.
Кронгауза. — 288 с. XXI века, 2018.

Российская национальная библиотека

890

3 словаря:

  1. Винокурова
    Т. Н. Англо-русский словарь терминов искусственного интеллекта: [около
    2729 терминологических единиц] / Т.Н. Винокурова; Федер. агентство по
    образованию ГОУ ВПО. «Ом. гос. техн. ун-т». Ом. терминол.
    центр. — Омск: Полиграфический центр КАН, 2012. — 403 с.
  2. Панкин
    А. В. Немецко-русский словарь терминов и понятий высоких технологий =
    Deutsch-russisches wörterbuch der hightech-begriffe: [эфирное,
    кабельное и спутниковое телевидение, видео- и аудиотехника, нанотехнологии,
    электроника и электронная техника, телекоммуникации и связь,
    компьютерная техника, компьютерные сети и Интернет, программирование и
    информатика, автоматическое регулирование и управление, робототехника и
    искусственный интеллект, цифровая фотография и цифровой кинематограф и
    др.]: 35000 терминов / А. В. Панкин. — Москва: Книжный дом
    «ЛИБРОКОМ» URSS, 2009. — 745, [1] с.
  3. Толковый
    словарь по искусственному интеллекту / автор-составитель А.Н. Аверкин и
    др. — Москва: Радио и связь, 1992. — 254, [1] с.; 20 см. — Библиогр.:
    с. 254 (этот же словарь на Озоне нашелся)

Российская государственная библиотека

1524

4 Словаря: те же, что в РНБ (см.
предыдущую строку) + 1 на болгарском языке:

Тодоров Системи с изкуствен интелект: Терминол.
речник /Георги С.

Среди трех найденных словарей по искусственному интеллекту первый — немецко-русский, второй издан четверть века назад (он, кстати выложен в сети), третий — интересен, на первый взгляд, но очень редок, его невозможно купить, можно только в научной библиотеке почитать, и то не в каждой. В общем, картина со словарями печальная.

Буду искать словари дальше — среди источников на английском языке.

Теги
Показать больше

Похожие статьи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Закрыть