Вы сейчас просматриваете Модель «Посмотри-и-скажи»

Модель «Посмотри-и-скажи»

Время новостей о достижениях искусственного интеллекта – перевели с английского статью о модели «Посмотри-и-скажи», название которой, в принципе, говорит само за себя («See-and-Tell AI Machine Can Describe Objects It Observes», Dan Falk)!


Мы спокойно можем описать то, что находится перед нами, но для систем с ИИ задача эта довольно сложная. Здесь требуется два отдельных навыка – распознавать объекты и воспроизводить предложения, описывающие увиденное. Основываясь на достижениях в области распознавания объектов, машинного перевода и нейронных сетей, ученые из Университета Торонто и Университета Монреаля разработали ПО, которое, по их словам, способно распознать изображение и сгенерировать описание. Это ПО основано на работе клеток мозга и преобразует изображения в предложения.

Подход ученых основывается на более ранней их работе, связанной с обработкой естественного языка и возможностью извлекать смысл из слов и предложений. «Речь идет о комбинировании информации об изображении и естественного языка», – говорит Ричард Земел, ученый-программист из Университета Торонто. «Главная инновация – сочетание изображения и текста. Мы смотрим на это как на проблему перевода», – отмечает он. «Когда вы пытаетесь перевести предложение с английского на французский, вы должны сначала понять значение предложения на английском языке, а затем преобразовать его на французский язык. Таким образом, сначала вам нужно значение, то есть содержание изображения, а затем вы можете перевести его в текст».

Но откуда модель ПО «знает», что на картинке имеет первостепенное значение? Прежде, чем система сможет обработать неизвестную картинку, она тренируется на огромном наборе данных. Точнее, на целых трех системах данных, содержащих 120 000 картинок с уже готовыми описаниями. Модель также должна иметь некоторое представление о том, какие слова могут стоять по соседству в предложениях. Например, изображение, которое заставляет модель генерировать слово «лодка», скорее всего, также будет использовать слово «вода», потому что эти слова обычно идут вместе. Более того, модель «примерно представляет», что важно в изображении: если в изображении есть человек, то она обычно упоминает об этом в описании.

Часто результаты попадают в точку. Для одного изображения система создала надпись: «Знак остановки на дороге с горой на заднем плане» – как и было показано на рисунке; также она точно описала: «Женщина бросает фриcби в парке» и «Жираф стоит в лесу с деревьями на заднем плане». Но иногда система ошибается. Когда на картинке было изображено два жирафа, но располагались они далеко от камеры, она идентифицировала рисунок как «большую белую птицу». А продавец за прилавком с овощами был описан как «Женщина сидит за столом с большой пиццей». Иногда похожие объекты могут просто быть приняты друг за друга – например, сэндвич, обернутый в фольгу, может быть ошибочно идентифицирован как сотовый телефон (особенно, если кто-то держит его возле лица). При прохождении тестов, модель создавала подписи, в которых «ошибочно принимала что-то за человека» примерно в 70% случаев (кажется, ИИ страдает от парейдолии).

По словам Ричарда Земела, одной из сфер применения потенциального приложения может стать помощь слабовидящим. Слепой человек может сделать фотографию того, что перед ним, и попросить систему подготовить предложение, описывающее это. Также приложение может помочь в кропотливом занятии маркировки изображений. (Возможно, медиа-магазин захочет мгновенно найти все архивные изображения, например, детей, играющих в хоккей или автомобили, которые собираются на заводе. Сложная задача, особенно если тысячи изображений на жестком диске не были никак подписаны.)

Думает ли модель?.. «Можно провести аналогию между тем, что делает ИИ, и тем, что делает мозг, особенно в плане представления внешнего мира и того, сколько «внимания» уделяется конкретным частям сцены. Эта модель приближается к тому, чего мы пытаемся достичь, а это значит, что машина сможет построить представление о нашем повседневном мире, отражающем понимание».

iTrex

Этот блог ведем мы, команда Бюро переводов iTrex. У нас замечательные переводчики и редакторы по самым разным и сложным тематикам – от IT и энергетики до философии и экономики. Ну и, конечно, у нас самые крутые переводчики-юристы. А еще наши переводы легко и приятно читаются – прямо как статьи в этом блоге :)

Добавить комментарий