Site icon Полезные статьи от iTrex

Древний язык, который не поддается переводу уже 100 лет. Сможет ли машина взломать код? Заключение

Древний язык, который не поддается переводу уже 100 лет

Мы в Бюро переводов iTrex не любим незаконченных дел, поэтому все, что начинаем доводим до конца! Так и с историей про печати Инда: нельзя же взять и не рассказать, что в итоге? Смог ли искусственный интеллект расшифровать древнюю письменность?

Первую часть статьи можно прочитать здесь >>>

Вторую часть статьи можно прочитать здесь >>>

Бахата Ансумали Мукхопадхьяйя подключилась к эксперименту Адхикари уже после того, как он убедительно доказал, что письменность Инда является языком. Она продолжила работу над расшифровкой загадочных печатей и очень быстро поняла, что компьютерное моделирование – подход, основанный на анализе большого массивах данных, не особенно полезен, если эти самые данные ограничены.

Вместо кодирования она довольно долго разбирала месопотамские, аккадские, шумерские и древнеперсидские словари, училась читать египетские иероглифы. «Я осознала, насколько тонким может быть символизм, – поделилась исследовательница. – Например, у бога Гора, глаз разделен на несколько частей. Скорее всего, на основании этого деления египтяне разработали универсальную систему дробей».

В тот момент, когда она помогала создавать программное обеспечение для исследования индской письменности, у нее зародились сомнения по поводу этого подхода. «Понимаете, если бы письменность Инда была альфа-слоговой системой (система письма, состоящая из согласных и гласных букв, как в урду/хинди), то искусственный интеллект был бы очень кстати, – объяснила она. – Но поскольку надписи, по-видимому, имеют пиктографическую природу, они представляют собой более сложную задачу. Здесь необходимо понять исторический символизм. Как ИИ справится с этим? Как ИИ узнает, что эти символы представляют собой фрагменты глаза Гора?»

Последние несколько лет Мухопадхьяйя самостоятельно изучает надписи Инда, уделяя особое внимание отдельным символам. Теория Мукхопадхьяй, заключается в том, что печати использовались для налогообложения и контроля торговли, – например, сборщик мог носить с собой одну печать в качестве своего рода лицензии. В последующей работе, изучив слова, обозначающие “слона” – piri, piru, pilu – и “слоновую кость” – pirus – в ближневосточных языках времен цивилизации Инда, она пришла к выводу, что жители Инда говорили на более ранней форме дравидийского языка, лингвистического предка современных языков, таких как телугу, тамильский и каннада. Если исследователи смогут успешно определить связь этих языков с письмом Инда, это может стать ключом к его расшифровке.

Современные итерации ИИ не рассчитаны на применение подхода, как у Мухопадхьяйи. «Машина очень хорошо понимает один, два, три. Два плюс два равно четыре. Но то, что закат напоминает пылающий костер, – она оценить не сможет. А я уверена, что именно абстракция является ключом к разгадке письменности Инда», – добавляет Мухопадхьяйя.

ИИ зависит от наличия высококачественных данных в машиночитаемом формате. Это остается ключевой проблемой, когда речь идет о древних текстах, поскольку они часто доходят до нас в неполном виде. Ученые могут десятилетиями спорить об уникальности символов: например, что означает какой-либо штрих? Это просто царапина рядом с известным символом или собственно новый символ? Учитывая, как мало материала, с которым можно работать, когда речь идет о давно исчезнувших языках, зашумленные или неполные данные могут серьезно затруднить работу по расшифровке.

Изображение Unsplash

Недавно Брайан К. Уэллс из Ванкувера и Андреас Фулс из Берлина закончили оцифровку всех известных печатей Инда. В базу данных они добавили контекстуальную информацию – где были раскопаны печати, когда и вместе с какими артефактами. Интерактивный корпус текстов Инда в настоящее время содержит информацию о 4 537 артефактах, 5 509 текстах и 19 616 повторяющихся знаков.

Несмотря на все проведенные исследования, пока что тайны индской письменности продолжают ускользать от расшифровки. В прошлом году в продолжении своей работы по автоматизации дешифровки угаритского письма и линейного письма Б, Луо и его команда сделали небольшой, но крайне важный шаг вперед. Они разработали алгоритм, направленный на выявление возможных родственных языков нерасшифрованных систем письма. Когда исследователи проверили свою модель на иберийском языке, исторически связанном с баскским, их результаты показали, что эти два языка на самом деле недостаточно близки, чтобы быть родственными – вывод, который подтверждает недавние научные исследования по этому вопросу.

Но если иберийский язык, по словам Луо, содержит не менее 80 уникальных символов, то письменность Инда – не менее 400, что делает задачу в геометрической прогрессии более сложной. Тем не менее, теоретически современные машины могут справиться с таким уровнем вычислений. Однако Луо считает, что расшифровка утраченных языков не будет полностью автоматизирована. «Я думаю, что программа должна производить первичные сравнения и предлагать экспертам наиболее правдоподобные варианты. Но именно эксперты будут решать, какая теория более вероятна, – добавляет Луо. – Преимущество такого подхода в том, что он позволяет существенно сократить количество человеко-часов”.

Не все готовы принять помощь ИИ. Прежде чем остановиться на иберийском, Луо и его коллеги рассматривали возможность заняться этрусским языком, нерасшифрованным письмом из доримской Италии. «Мы отправили электронные письма десяткам исследователей, специализирующимся на этрусском, – вспоминает Луо, усмехаясь. – И получили только один довольно сердитый ответ: машины никогда не смогут конкурировать с людьми!»

Изображение Unsplash

Мы в Бюро переводов iTrex тоже так считаем: машина никогда не сможет превзойти живого человека! Поэтому если вам нужен перевод с любого известного языка, не стесняйтесь, пишите нам на info@itrex.ru или звоните по телефону +7 495 739-5696.

Мы всегда рады помочь!

Exit mobile version