К 18 годам англоговорящий человек выучивает полтора мегабайта данных о своем родном языке. Представляете, если бы все эти знания можно было просто скинуть другому человеку по почте?..
Информацию об окружающем мире, которую человек получает и хранит у себя в голове, можно представить в виде набора нолей и единиц (ну а чем мы хуже компьютера?)
Возьмем шоколадную пироженку (мысленно – вы же знаете, мы на диете). Все, что мы знаем о ней – как она выглядит, какого она вкуса, сколько в ней калорий и так далее – представить в виде одного бита невозможно. Поэтому эти данные приходится хранить в виде своеобразных ответов на разные вопросы. Например: «Выглядит аппетитно?» – «Да», «Она из клубники?» – «Нет». Кластер информации о пироженке может выглядеть как 1 0, то есть занимать два бита.
Но не все, что нас окружает, это пироженки – есть еще огромное количество информации.
Американские психологи с коллегами из других отраслей подсчитали, что объем имеющихся у человека данных о языке составляет около 12,5 миллиона бит (= 1,49 Мб), при этом бóльшая часть хранимой информации посвящена лексической семантике.
В своей новой работе Фрэнсис Моллика из Рочестерского университета и Стивен Пьянтадоси из Калифорнийского института в Беркли решили подсчитать, какой объем занимает языковая информация, которую получает человек с рождения до наступления совершеннолетия. Ученые сосредоточились на англоговорящих людях, а информацию о языке разбили на несколько категорий: фонемы, словоформы, лексическая семантика, частотность слов и синтаксис.
О ходе и результатах исследования – ниже.
Для расчета объема информации в каждой категории ученые воспользовались теорией сокращения информационной энтропии, в соответствии с которой для каждой репрезентации R есть некоторое количество неопределенности H. То есть любой объект, который можно познать, сначала представляется в виде неопределенности H(R). При этом есть некоторая информация D: она относится к R и может сократить информационную энтропию. Далее информацию о каком-то объекте можно перевести в биты с помощью разницы в неопределенности до обучения H(R) и неопределенности после обучения H(R|D).
В качестве трех основных параметров получения информации о фонемах ученые приняли время начала озвончения в миллисекундах (количественный параметр, который, к примеру, помогает разграничить [п] и [б]), частота фрикации в барках (артикуляционные особенности, помогающие разграничить фрикативные согласные, например, отличить [с] и [з]) и частоты формант гласных звуков в мелах.
На основе известных границ длительности озвончения и воспринимаемых человеком частот, ученые выяснили, что время для начала озвончения звонких и глухих (для глухих — отрицательное число, так как озвончения нет) согласных нужно 5 и 3 бита соответственно, для частоты фрикации — 3 бита, а для определения частоты формант гласных — 15 бит. Учитывая количество фонем в английском языке (50) и в зависимости от того, сколько бит информации каждая из них требует, всю фонетическую систему языка можно, по оценкам ученых, уместить в 375–1500 битах.
Вторая категория — словоформы — в понимании ученых содержит только оболочку слова, то есть набор фонем, которые нужны, чтобы это слово произнести или распознать при прослушивании. Они ограничили средний объем лексикона взрослого англоговорящего человека 40 тысячью словами. Воспользовавшись базой лингвистических данных CELEX, ученые выяснили среднее количество фонов (фонетических единиц речи) для каждого слова, а затем рассчитали на основе этого, сколько битов необходимо для одного слова. Получилось, по разным моделям, 5, 10 и 16, что соответствует объему от 200 до 640 тысяч бит для хранения словоформ.
Для того, чтобы рассчитать объем информации, относящейся к лексической семантике слов, ученые представили все значения всех слов в многомерном векторном пространстве R. В нем есть определенное слово — например, слово «яблоко», — которое попадает не только в пространство R, но и в пространство r чуть поменьше. При этом R содержит r, но неизвестно, где именно это r находится. И, хотя R содержит информацию о фруктах, овощах, коровах, глобальном потеплении и всех других объектах, нужно именно пространство r — потому что в нем содержится только релевантная информация: для сокращения информационной энтропии, поэтому, необходимо сократить R до r.
Чтобы это оценить, ученые проанализировали векторное представления 10 тысяч существительных в WordNet. В качестве r для каждого слова взяли расстояние до ближайших точек в пространстве, а в качестве R — расстояние до самых дальних. По расчетам ученых, процесс сокращения R до r, то есть нахождение того самого меньшего пространства для каждого слова может занимать до 2 бит. При этом семантическое пространство не одномерно, а многомерно, и количество измерений в нем, по разным оценкам, варьируется от 100 до 500. Объем информации о лексической семантике, таким образом, по подсчетам ученых занимает от 500 тысяч до 40 миллионов бит, учитывая лексикон в 40 тысяч слов.
Для оценки объема памяти, необходимого для хранения информации о частотности слов, ученые воспользовались помощью 251 добровольца, каждого из которых попросили сравнить два слова по частотности: то есть решить, какое из них в речи встречается чаще всего. Они выяснили, что точность участников составляет около 76,6 процента — то есть где-то в трех случаях из четырех они правильно угадывали, насколько слово частотное. Смоделировав точность участников при выполнении задания в виде того, сколько частот всего они могут определить (оценив недостающие 23,4 процента как вероятность того, что два слова попадут в одну категорию), они выяснили, что люди примерно распределяют частотность по четырем категориям. Для определения частоты слова, таким образом, необходимо где-то от 1 до 3 бит информации: то есть для всех слов — от 40 до 120 тысяч бит.
Наконец, для синтаксиса ученые решили подсчитать количество предложений с уникальной синтаксической структурой вне контекста и необходимый объем памяти, который позволяет отличить одну структуру от другой. У ученых вышло 134, 697 и 1394 бита в зависимости от того, сколько уникальных синтаксических конструкций может распознать человек.
Авторы, таким образом, подсчитали, что вся информация, которую англоговорящий человек получает о своем языке с раннего детства до 18 лет, можно поместить в достаточно небольшом объеме памяти: от 794 тысяч до 40 миллионов бит. При этом средний показатель (best guess по всем категориям) равняется 12,48 миллиона бит или около 1,5 мегабайта. При этом ученые уточняют, что их расчеты очень грубые и примерные, и скорее годятся для какого-либо теоретического обоснования, а не для применения в информационных технологиях. К примеру, их расчеты показали, что самым затратным по занимаемому объему памяти является лексическая семантика, а вот синтаксис, наоборот, места занимает очень мало.
Источник: https://nplus1.ru/news/2019/03/29/language-storage
У нас нет данных по объему имеющейся в наших айтрексных головах информации, но все эти знания мы с удовольствием применяем на практике!
Убедитесь в этом сами – закажите у нас перевод! https://itrex.ru/purchase
Первая версия этой статьи опубликована 14 мая, 2019 @ 07:39