Так уж получается, что искусственный интеллект (ИИ) прочно связан с лингвистикой. Споры о том, сможет ли машина заменить человека не утихают ни на миг. Мы в Бюро переводов iTrex не верим, что это произойдет, но отлично знаем, что машинный перевод уже вовсю шагает по планете. Но это, если речь идет об известных и распространенных языках. Сможет ли ИИ когда-нибудь расшифровать языки, которые остаются для нас загадкой?
Пройдите за 3 минуты короткий квиз в нашем телеграм-боте и получите бесплатный тестовый перевод и скидку 10%!
В 2019 году Цзямин Луо и его коллеги из Массачусетского технологического института разработали алгоритм, основанный на закономерностях изменения языков с течением времени. Они загрузили в программу слова на древнем языке и на родственном ему современном. Задача алгоритма состояла в том, чтобы согласовать слова из двух языков. Исследователи проверили свою модель на древних письменностях, которые уже были расшифрованы: угаритской, родственной ивриту, и линейном письме Б, впервые обнаруженном среди руин бронзового века на греческом острове Крит.
Профессионалам и любителям-эпиграфистам – людям, изучающим древнюю письменность, – потребовалось почти шесть десятилетий умственной борьбы, чтобы расшифровать линейный шрифт Б. Официально главная заслуга в расшифровке принадлежит 30-летнему британскому архитектору Майклу Вентрису, хотя частные усилия классициста Элис Кобер заложили основу для его работы. Сидя ночь за ночью за обеденным столом в Бруклине, Кобер составила импровизированную базу данных символов линейного письма Б, состоящую из 180 000 бумажных листков, и использовала их для того, чтобы сделать важные выводы о природе письма. Она умерла в 1950 году, за два года до того, как Вентрис разгадал код. В настоящее время линейное письмо Б признано самой ранней формой греческого языка.
Луо и его команда хотели проверить, сможет ли их модель машинного обучения прийти к тому же ответу, но быстрее. Алгоритм показал, что называется, «поразительную точность»: он смог правильно соотнести 67,3% слов линейного языка Б с современным греческим лексиконом. По словам Луо, процесс занял от двух до трех часов. Это позволило сократить время, необходимое для ручной проверки теории путем перевода символов один за другим, на несколько дней или недель, месяцев или лет. Результаты для угаритского языка были аналогичными. Это, конечно, замечательно! Но, если быть честными, то эксперимент стал в принципе возможен только потому, что древняя письменность уже была расшифрована.
Работа вызвала живой интерес среди исследователей древних языков. Возник закономерный вопрос: «Может ли подобный алгоритм помочь исследователям разгадать еще не расшифрованные письмена – те, которые до сих пор не поддавались любым попыткам перевода?»
Британская Индия, 1872-1873 гг. Александр Каннингем, инженер английской армии, ставший археологом, шагал по руинам города Хараппа в провинции Пенджаб. На первый взгляд исследовать было нечего: примерно за два десятилетия до этого инженеры, работавшие над соединением городов Лахор и Мултан, использовали найденные здесь кирпичи – к слову, прекрасно сохранившиеся – в качестве фундамента для почти 160 км железнодорожного полотна, искренне не подозревая, что это остатки одной из древнейших мировых цивилизаций.
Каннингем тоже этого не знал – цивилизация долины Инда была официально «открыта» только в 1920-х годах, – но он подозревал, что это место имеет определенную историческую ценность. Копаясь в руинах, он и его команда наткнулись на каменные орудия, которые, по их предположению, использовались для обработки дерева или кожи. Но самой поразительной находкой стала крошечная каменная табличка размером примерно 40 на 40 мм. «На ней выгравирован бык, без горба, смотрящий вправо, с двумя звездами под шеей», – написал Каннингем в своем отчете. «Над быком имеется надпись из шести знаков, которые мне совершенно неизвестны. Это, конечно, не индийские буквы; и поскольку бык, который сопровождает их, без горба, скорее всего, печать была сделана не индусами».
За полтора века после обнаружения первой печати были найдены тысячи других: 90% из них – вдоль реки Инд на территории современного Пакистана, остальные – в Индии или далеко за пределами современного Ирака. Теперь мы знаем, что эти таблички являются «коренными жителями» Индийского субконтинента: исследователи считают, что они, вероятно, использовались для закрытия документов и маркировки упаковок товаров, поэтому их называют печатями. Отчасти из-за того, что символы в надписях скученны слева, как будто у писавшего заканчивалось место для письма, исследователи пришли к выводу, что надписи предназначались для чтения справа налево. Но до сих пор никто не знает, что на них написано.
И это не потому, что никто не пытался расшифровать эти печати. Ученые часто отмечают, что индская письменность, известная как коллекция из 4000 надписей (содержат от 400 до 700 уникальных символов), возможно, является одной из самых популярных среди «дешифровшиков». С 1920-х годов было предпринято более сотни попыток. Одна теория связывает символы Инда с письмом ронго-ронго на острове Пасхи, которое тоже до сих пор не расшифровано; другая, предложенная немецким тантрическим гуру, который, по его словам, достиг решения путем медитации, – с клинописью, использовавшейся для записи шумерского языка.
Возможно, такое стремление расшифровать письменность Инда связано с тем, что Индия и Пакистан, все больше раздираемые религиозным национализмом, по-разному относятся к своему общему древнему прошлому. Индусы хотят найти оправдание утверждению, что Индия всегда была индуистской нацией (и расшифровка языка, если он окажется родственным хинди позволит это подтвердить), в то время как пакистанцы, глубоко привязанные к идее о себе как о родине мусульманства, в значительной степени игнорирует свое доисламское наследие, и для них было бы предпочтительно, чтобы древний язык не имел ничего общего с современным.
Поэтому малейшие успехи в исследовании долины Инда имеют резонанс далеко за пределами академических кругов. Попытки доказать, что жители Инда поклонялись индуистским богам и говорили на более ранней форме санскрита, не прекращаются и сегодня. В 2020 году один исследователь даже исказил изображение индской печати цифровым способом, чтобы животное на ней стало похоже на лошадь, которая занимает видное место в санскритской литературе.
Поразительно, как мало мы знаем о коренных жителях долины Инда, которые в свое время составляли почти 10% населения Земли! Это особенно обидно, учитывая, насколько больше у нас информации об их современниках, таких как люди египетской и месопотамской цивилизаций. Отчасти это объясняется тем, что письменность Инда по-прежнему остается загадкой.
Пройдите за 3 минуты короткий квиз в нашем телеграм-боте и получите бесплатный тестовый перевод и скидку 10%!
Исследователи понимают, что задействовать машины для работы над письмом Инда сложнее, чем использовать их для реверс-инжиниринга линейного письма Б. К сожалению, о первом гораздо меньше данных. Самое главное – ученые не знают, с какими другими языками оно может быть связано. В результате модель, подобная модели Луо, не будет работать для индской письменности, так как она построена на аналогии. Однако это не означает, что технологии вовсе не могут помочь. В некотором смысле компьютерное моделирование уже сыграло решающую роль: благодаря специально созданной программе удалось убедительно доказать, что письменность Инда в принципе является языком.
О том, как это произошло, мы расскажем в следующем посте, поэтому не переключайтесь! Будет интересно! А если вам нужен перевод с любого известного языка, не стесняйтесь, пишите нам на info@itrex.ru или звоните по телефону +7 495 739-5696.
Мы всегда рады помочь!