Зимняя Олимпиада в Пекине в полном разгаре. И мы в Бюро переводов iTrex конечно же с интересом следим за всеми спортивными свершениями, но не забываем и про свою основную деятельность. Переводы наше все! И сегодня история о переводе китайских иероглифов в цифровой формат.
1968 год. Всего несколько лет назад Чжи Биньи каждый день ходил на работу. Он был директором Шанхайского муниципального управления электроприборов и исследований при Первом министерстве машиностроения. Еще он преподавал в двух китайских университетах, а также помог разработать знаменательный 12-летний план развития науки и техники Китая (1956 год).
Теперь же Чжи сидел в тюрьме за “реакционную академическую деятельность”. Престижная интеллектуальная работа и положение в обществе остались в прошлом и все, что у него теперь было – восемь символов на стене камеры: «Снисхождение к тем, кто признается, суровость к тем, кто отказывается». Грустная история!
Но настоящий ученый всегда найдет себе занятие. Однажды Чжи увидел не зловещее послание, а штрихи и знаки, из которых оно состояло. Он понял, что каждый символ, по сути, повторял комбинации одних и тех же абстрактных штрихов и точек. Это открытие заставило его задуматься: а можно ли перевести китайский язык в цифровой формат – нули и единицы двоичного кода?
Основная трудность – в своеобразии китайского языка для оцифровки: много символов, замысловатые начертания, тоны и омофоны, сложность сегментации. Как с этим справиться?
Задача была многогранной: разработать код китайского языка, который легко использовать людям и который можно ввести в вычислительную машину с помощью перфоленты или клавиатуры; найти способ хранения информации в самой машине; и иметь возможность с высокой точностью извлекать и восстанавливать шрифт на бумаге или на экране.
Чжи знал, что сможет справиться с первым шагом: ввести китайский язык в машину. Для этого необходимо было найти способ представить каждый иероглиф на языке, понятном и человеку-оператору, и машине: в виде конечного набора нулей и единиц, вводимых непосредственно в машину, или в виде букв алфавита, на которых уже построены языки компьютерного программирования. Последний вариант казался более перспективным. Но сразу возникали вопросы: сколько букв алфавита потребуется для уникального кодирования одного иероглифа? Следует ли сокращать написание иероглифов до аббревиатуры? И что должно лежать в основе аббревиатур – иероглифы, компоненты или штрихи?
Чтобы проверить разные гипотезы, Чжи нужно было на чем-то писать, но охранники не давали ему даже туалетной бумаги! Единственное, что можно было использовать для письма в его камере, – чайная чашка. Ручку он украл. Мы привыкли, что обычно узники используют стены, но, скорее всего, Чжи боялся, что это вызовет новые подозрения и не хотел рисковать.
Каждый день он наносил на чашку столько иероглифов, сколько мог, проверяя каждый символ набором возможных римских букв, а затем вытирал ее. Все проверенные комбинации он старался запомнить. Представляете, какая у него феноменальная память?
Чжи стремился к тому, чтобы каждый иероглиф имел некую интуитивную, но уникальную связь с алфавитным кодом. Было два известных способа добиться этого: звук или форма. Предшественники Чжи предпочитали анализ по форме: они брали штрихи и компоненты и перестраивали их в классифицируемые категории. Но из-за недавней стандартизации китайского языка была принята система латинизации пиньинь, и фонетический подход стал доминирующим.
Если вы хотите разобраться во всех тонкостях, или просто интересуетесь изучением китайского, предлагаем вам небольшой гайд, где более подробно рассказано об этом языке. Читать здесь >>>
Ученый решил использовать лучшее из фонетической латинизации и предшествующих разработок, основанных на форме, чтобы его собственный процесс кодирования был максимально предсказуемым и логичным. Удивительно, но идея Чжи не канула в Лету под сводами тюремной камеры и он добился своего!
Продолжение истории читайте в следующем посте.
А если вам потребуется перевод, вы знаете, куда можно обратиться. Напишите нам на почту info@itrex.com или позвоните по телефону +7 495 739-5696.
И обязательно подписывайтесь на нас, чтобы не пропустить продолжение!