Недавно мы рассказывали, как Siri учит язык. Сегодня – подобрали статью, объясняющую, как работает один из самых крупных онлайн-переводчиков в мире – Google Translator.
У автоматического перевода есть две особенности. С одной стороны – у них невероятно большая база, тысячи людей каждый день пропускают через Google Переводчик кусочки текстов, и многие в случае отсутствия или некорректного перевода на их родной язык принимают участие в исправлении ошибок. С другой стороны – несмотря на огромную базу, ИИ всё ещё не переводит шутки, сарказм, цитаты и не может выучить все местечковые идиомы. Если все более или менее популярные фразы уже внесены в базу памяти, то использующиеся чуть реже отсутствуют. В результате даже перевод текста с одного на другой широко распространённый язык получается нескладным и не читаемым.
Изначально Google использовал механизм, разбивающий предложение на части, каждая из которых становилась переводческой единицей. Её перевод искался в интернете или запоминался после перевода пользователями. Чем больше база перевода одной переводческой единицы, тем больше вероятность точного перевода. В ноябре прошлого года Google перешёл на новый алгоритм, определяющий одно предложение как переводческую единицу, что улучшает точность перевода, но повышает необходимый объем памяти.
Google Translate не всегда полезен
Статья целиком (на английском): http://www.livemint.com/Technology/y5q0KKvINHd7R6zEQfL3MK/How-Google-translations-are-getting-more-natural.html
Еще одна статья для технарей и интересующихся (на русском): https://geektimes.ru/post/280912/