Вы сейчас просматриваете Древний язык, который не поддается переводу уже 100 лет. Сможет ли машина взломать код? Продолжение

Древний язык, который не поддается переводу уже 100 лет. Сможет ли машина взломать код? Продолжение

Мы в Бюро переводов iTrex подумали, а что, если письменность Инда не могут расшифровать потому, что это вовсе не язык? Может быть, это просто произвольные рисунки, которые не несут никакой смысловой нагрузки? И как оказалось, подобное мнение разделяют даже некоторые ученые.


Первую часть статьи можно прочитать здесь >>>

На протяжении большей части 20-го века печати, обнаруженные в Инде, воспринимались как изображения нерасшифрованного языка. Затем, в 2004 году, группа гарвардских исследователей – культурный нейробиолог и сравнительный историк Стив Фармер, теоретик вычислений Ричард Спроат и филолог Майкл Витцель – опубликовали работу, по сути, опровергающую почти все существующие исследования по этому вопросу. Они утверждали, что печати Инда были не более чем набором религиозных или политических символов – подобно, скажем, дорожным знакам – и все попытки расшифровать их как язык были пустой тратой времени. Фармер даже предложил награду в 10 000 долларов тому, кто сможет найти надпись на языке Инда, содержащую не менее 50 символов. Весьма самонадеянно, неправда ли?!

Большинство индологов отвергли эти аргументы. Роноджой Адхикари, профессор статистической физики Кембриджского университета, был одним из них. Он решил использовать компьютерное моделирование, чтобы убедительно опровергнуть утверждения гарвардских ученых. Намечалась битва титанов!

До Кембриджа Адхикари работал в Институте математических наук в Ченнаи. В 2009 году он присутствовал на выступлении Ираватхама Махадевана, индийского государственного служащего, ставшего эпиграфистом. Махадеван уже разгадал тамильский язык брахми, еще одну нерасшифрованную письменность, а затем обратил свое внимание на печати Инда.

Адхикари вспоминает, что был заинтригован. «Махадеван использовал количественный, почти научный, подход. Он выяснял, сколько раз встречается тот или иной символ? С какими символами он соседствует? Каков контекст, в котором он встречается? Таким образом, уже набралось достаточное количество статистических данных». И тогда Адхикари решил применить формальный математический анализ.

Изображение Unsplash

Несколько других ученых присоединились к Адхикари. Они понимали, что не смогут расшифровать письменность. Но, возможно, получится определить, передают ли печати какую-то лингвистическую информацию? «Вы можете дать мне любую последовательность символов, мне все равно, что это – иероглифы, письменность, ноты, компьютерный код, – и я посмотрю на них с точки зрения математика, – объяснял Адхикари. – Я буду просто считать, сколько раз один знак встречается рядом с другим».

Программа, разработанная учеными, опиралась на работу Клода Э. Шеннона, американского математика середины века, инженера и дешифровщика военных кодов, который сформулировал понятие информационной энтропии – по сути, математической меры беспорядка. В лингвистических системах символы встречаются с определенной фиксированной частотой. «Например, я не могу просто взять букву, соединить ее с другой буквой из алфавита и ожидать, что получится английское слово, – рассказывал Адхикари. – В английском языке, например, за буквой «q» почти всегда следует «u». Эта полугибкость является признаком всех лингвистических систем. Компьютерный же код абсолютно жесткий: малейшее отклонение, и он рассыпается».

Исследователи загрузили в свою программу 4 000 надписей, составляющих всю письменность Инда. В качестве эксперимента они также загрузили «другие лингвистические образцы» (английские слова, санскрит, тамильский, шумерский и тагальский языки) и некоторые нелингвистические – формулу ДНК, соната Бетховена №32 и компьютерный код Fortran. Обработка данных длилась около 45 минут.

Изображение Unsplash

«Я помню, как впервые был сгенерирован график, – вспоминал Адхикари. – На графике кривые, изображающие музыку и последовательности ДНК, висели высоко, близко к максимальному уровню энтропии, указывая на высокий уровень случайности. Далее – все известные языки, которые ожидаемо разместились в тесном кластере. Кривая кода Fortran была расположена ниже всех остальных».Что касается индской письменности, то она появляется вместе с другими языками, чуть ниже санскрита и почти полностью совпадает с тамильским. «Это было фантастическое ощущение! Предполагать что-то – это одно, но иметь возможность доказать это – особое удовольствие. Я помню, что подумал, да, у нас действительно что-то получилось!»

Конечно, есть большая разница между демонстрацией того, что скрипт кодирует язык, и расшифровкой самого языка.


На этом пути также предпринимались попытки. Но об этом мы расскажем уже в нашем новом посте! Если вам интересно узнать, чем закончится история и сможет ли искусственный интеллект помочь в расшифровке письменности Инда, не пропустите нашу следующую публикацию. А пока, если вам нужен перевод с любого известного языка, не стесняйтесь, пишите нам на info@itrex.ru!

Первая версия этой статьи опубликована 24 мая, 2022 @ 13:42

Добавить комментарий