Нейросеть умеет практически всё: искать информацию, рисовать, генерировать тексты и даже копировать голоса. Но есть ли то, чего она еще не знает и не умеет?
Пройдите за 3 минуты короткий квиз в нашем телеграм-боте и получите бесплатный тестовый перевод и скидку 10%!
Ответ: да. По данным компании Meta*, на сейчас нейросети знают чуть больше 1100 языков, из 7000 возможных. Так, если предложить искусственному интеллекту перевести текст на язык монголов Внутренней Монголии, то, скорее всего, он не сможет этого сделать. Всё потому, что большая часть мировых систем письменности была оцифрована с использованием стандартного кода. Но монгольское письмо было закодировано не совсем аккуратно, и нейросеть не пока не смогла расшифровать его и обучиться этому языку.
Также несмотря на постоянное совершенствование машинного перевода, искусственный интеллект по-прежнему не научился переводить с учетом социокультурных особенностей языка и менталитета его носителей.
До недавнего времени искусственный интеллект (ИИ) обучался только тем исчезающим языкам, на которых есть достаточный для этого объем текстов.
Но в прошлом году Google и Meta объявили о проектах по разработке новых технологий искусственного интеллекта для исчезающих и редких языков. Новые модели ИИ смогут переводить с и на многие исчезающие языки, однако пока нет методики, которая бы контролировала качество такого перевода.
Кстати, если вам интересно узнать о плюсах и минусах машинных переводчиков, посмотрите это видео на Youtube-канале нашего бюро переводов:
Внутренняя Монголия
Около 5 миллиардов жителей планеты являются активными пользователями интернета. По данным Internet World Stats, английский язык используют 25% пользователей для общения в интернете. Далее идет китайский язык — его применяют 19% от общего количества пользователей в мире. Десятку самых популярных языков завершает немецкий язык 2,1% пользователей, которые говорят на этом языке.
Однако на данный момент есть языки, которые используются в сети крайне мало, несмотря на большое количество потенциальных пользователей. Язык Внутренней Монголии, на котором говорят 3,5 миллиона человек этого региона Китая, принадлежит к их числу. Искусственный интеллект пока не располагает достаточными ресурсами для обучения этому языку.
Жители Внутренней Монголии пытаются препятствовать обучению нейросетей их родному языку. Они считают, что если ИИ обучится ему, то государство будет следить за населением и вводить цензуру.
Негативное отношение к нейросетям появилось в 2020 году. Власти Внутренней Монголии объявили, что местный диалект больше не будет использоваться для обучения в школах. Этнические монголы (на территории Китая проживает 7,5 млн монголов) стали бояться утраты своей языковой идентичности. Население начало строить планы протеста, распространяя их по WeChat, крупнейшему мессенджеру Китая. Тысячи родителей школьников договаривались в сети о забастовках и маршировали по местным улицам, требуя отменить решение властей.
Чтобы распространять информацию на монгольском языке, люди использовали разные ухищрения. Одно из них: в WeChat есть раскладка на внутреннем монгольском языке, но вместо того, чтобы набирать текст в чате и давать обучающую информацию нейросетям, пользователи стали отправлять друг другу скриншоты текста.
Алгоритмы нейросетей не могли понять распознать jpeg-файлы с монгольским курсивом — рассказал Сойонбо Борджгин, местный журналист, освещавший протесты. Изображения и длинные голосовые сообщения, которыми обменивались протестующие, сложно было быстро оцифровать и расшифровать. Этим жители Внутренней Монголии не только закрыли доступ к обучению ИИ, но и получили весомое преимущество при организации протестов. Полиция просто не успевала проследить за всеми планами митингующих. В итоге усилия Китая по подавлению монгольского языка внутри своих границ только обострили конфликт с местным населением.
Сойонбо Боржгин заинтересовался технологическими аспектами этого конфликта и начал изучать систему машинного обучения — она разрабатывается в университете Внутренней Монголии. Оказывается, новая система должна научить ИИ читать изображения монгольского письма, которое было оцифровано еще во времена, когда внутренний язык поддерживали власти Китая. Эта разработка финансируется в том числе государством и носит статус важного проекта, отвечающего за госбезопасность.
Хотите короче? Смотрите минутные видео и полные ролики о языках, реальной жизни бюро переводов и бизнесе на Youtube-канале iTrex.
Азербайджан
Азербайджанский журналист Арзу Гейбулла глубоко изучает вопросы цифровой цензуры. Она считает, что одна из главных проблем применения ИИ для модерации контента в соцсетях снова связана с «отсутствием понимания культурных, исторических и политических нюансов в контексте».
В Азербайджане антиармянский настрой регулярно фиксируется в интернете. Слово «армянин» часто используется как оскорбление для нападок на диссидентов. Однако это слово нейтрально в большинстве других контекстов, поэтому нейросеть легко упускает из виду его использование.
Арзу Гейбулла считает, что обучение искусственного интеллекта для мониторинга разжигания ненависти и подстрекательства на азербайджанском языке может поставить в тупик ИИ. По ее мнению, модерация контента должна осуществляться людьми.
Сейчас в Азербайджане работает старая система наблюдения. Учитывая ужесточение наказания за экстремизм, улучшение автоматического распознавания азербайджанского языка может только усугубить ситуацию. Журналист утверждает, что вместо развития технологий искусственного интеллекта, стоит инвестировать в найм и обучение живых модераторов.
США
Основатель инициативы First Languages AI Reality Майкл Раннинг Вульф, считает, что разработчики искусственного интеллекта недооценивают проблемы американских языков. Работая исследователем в этой области, он задался вопросом: что же мешает ИИ распознать, например, шайенский язык, который распространен в некоторых штатах Северной Америки.
Майкл пришел к выводу, что основная проблема кроется в том, что современные алгоритмы пока не могут понять редкие американские языки, ведь ИИ рассматривает их через призму английского. Исследователь считает, что в данной ситуации виноват англоцентризм.
Американские языки были поставлены в такое положение давно. До начала 20-го века позиция Правительства США в отношении языков коренных американцев заключалась в их уничтожении. С 1860 по 1978 год десятки тысяч детей были насильно разлучены со своими родителями и содержались в школах-интернатах, где общение на родном языке было запрещено и жестоко каралось. Сегодня почти все языки коренных американцев находятся под угрозой исчезновения.
Майкл также считает, что, с другой стороны, инструменты искусственного интеллекта, могут облегчить освоение языков коренных народов и компенсировать сегодняшнюю нехватку материалов и учителей. Это потенциально может уберечь редкий язык от полного вымирания.
Что касается виртуальной слежки, которой так боятся носители языка Внутренней Монголии, Майкл более оптимистичен. Он считает, что эта проблема не настолько масштабна. Ведь в случае с языками коренных американцев, их носителей слишком мало, чтобы государству вкладываться в организацию такого надзора.
А вот сама нация шайенов, например, не хочет иметь ничего общего с чужаками. В настоящее время они не заинтересованы в использовании систем, которые развивает и практикует Майкл Раннинг Вульф.
Нужен большой объем перевода — техническая документация, корпоративный сайт, книга? Много — не всегда дорого. Мы умеем снижать расходы клиентов до 80%. Расскажите о вашей задаче, и мы расскажем, как можно сэкономить. Пишите на client@itrex.ru или в WhatsApp/Telegram +7 (925) 801-7821.
*В статье упоминается корпорация Meta, деятельность которой запрещена на территории Российской Федерации.
Часто задаваемые вопросы
Какие языки не умеет переводить нейросеть?
По данным компании Meta, сейчас нейросети знают чуть больше 1100 языков, из 7000 возможных. Это означает, что нейросеть не сможет перевести текст на язык, на котором нет достаточного объема текстов для обучения. Например, нейросеть не сможет перевести текст на язык Внутренней Монголии, который используется всего 3,5 миллиона человек.
Почему нейросеть не может переводить с учетом социокультурных особенностей языка?
Нейросеть обучается на массиве данных, который состоит из текстов и переводов. Этот массив данных отражает социокультурные особенности языка, с учетом которых написаны исходные тексты. Однако нейросеть не всегда может понять эти особенности и передать их в переводе. Например, нейросеть может не понять разницу между формальным и неформальным стилем речи, или между прямым и косвенным значением слова.
Какие перспективы развития у нейросетей в области перевода?
Нейросети имеют большие перспективы развития в области перевода. Они могут быть использованы для перевода текстов на языки, на которых нет достаточного объема текстов для обучения человека.
Пройдите за 3 минуты короткий квиз в нашем телеграм-боте и получите бесплатный тестовый перевод и скидку 10%!