Человеко-машинное совместное обучение

Вадим Чернезки, Мойн Наби и Тассило Кляйн (ML Research Berlin)

Мы вступили в новую эру, где мы постоянно и сильно улучшаем вычислительную мощность, хранение и доступность больших данных. Глубокое обучение оказалось идеальной техникой, позволяющей извлечь выгоду из этих тенденций и утвердиться в качестве фактического стандарта в контролируемом обучении. Однако этот тип обучения требует маркировки данных, что обычно влечет за собой значительные затраты на обработку данных. Поэтому появляются альтернативные парадигмы, которые позволяют максимизировать потенциал огромных объемов информации новым и особым образом. В этом посте мы представляем концепцию, которая объединяет в себе сильные стороны людей и машин. Но прежде чем углубляться в детали, давайте начнем с истории, демонстрирующей преимущества этого подхода.

В 1997 году Гарри Каспаров был побежден суперкомпьютером (Deep Blue) в шахматном матче по правилам турнира. Это было знаковое событие, когда действующий чемпион мира по шахматам был побежден машиной. Пока Каспаров все еще приходил в себя после этого опыта, он также черпал вдохновение в Deep Blue. Он спросил себя: «Что если бы я мог играть против компьютера - с другим компьютером рядом со мной - сочетая наши сильные стороны, человеческую интуицию плюс вычисления машины, человеческую стратегию, машинную тактику, человеческий опыт, память машины?»

Идея Каспарова о человеко-машинном взаимодействии в шахматах была успешно реализована в 2005 году на компьютерном шахматном онлайн-турнире, где гроссмейстеры объединились с суперкомпьютерами. Результат оказался довольно неожиданным: победителями стала пара американских шахматистов-любителей, которые одновременно работали с тремя обычными ПК. По-видимому, в этом случае умение игроков управлять компьютерами сыграло очень важную роль. В связи с этим возникает вопрос, можно ли такое сотрудничество использовать и для других задач. Следующие параграфы пролят свет на новые подходы в этом контексте.

Подходы и тенденции

Машины как сотрудники, а не только инструменты

При сравнении людей и машин очевидно, что обе стороны обладают уникальными характеристиками и сильными сторонами. Люди умеют принимать интуитивные и творческие решения на основе своих знаний. Компьютеры хорошо умеют обрабатывать огромные объемы данных, чтобы получать сжатую значимую информацию для получения новых знаний и принятия лучших решений. Использование синергии этих отличительных преимуществ представляется естественным следующим шагом.

В исследованиях такие комбинации были изучены более глубоко в последние годы и постепенно набирают обороты. Один подход был предложен Mintz et al. использование немеченых данных для улучшения моделей извлечения отношений посредством дистанционного наблюдения. В частности, они используют базу данных, созданную человеком, для разработки функции эвристической маркировки и включения ее в процедуру обучения классификатора. Классификатор затем может извлекать высокоточные шаблоны для достаточно большого числа отношений. Поскольку исследователи разрабатывают функцию маркировки, которая приближает поведение маркировки человеческого аннотатора, это делает надзор «отдаленным».

Другой метод, разработанный Wang et al. в области компьютерного зрения улучшает обнаружение объектов по немеченым изображениям с помощью самоконтроля отбора проб. Важная часть этого метода основана на автоматическом обнаружении и псевдомаркировке надежных предложений области для улучшения детектора объектов. Это достигается путем вставки этих предложений в различные помеченные изображения для всесторонней оценки их значений согласованности в разных контекстах изображения. Хотя эти изображения имеют псевдо-маркировку, они эффективно способствуют повышению точности обнаружения и устойчивости к шумным образцам. В конце концов, оба описанных подхода автоматически аннотируют немаркированные данные и, таким образом, уменьшают количество человеческого контроля в процессе обучения.

Включение человеческого руководства в активное обучение

По сравнению с предыдущей концепцией, когда набор данных расширяется данными, аннотированными машиной, мы также можем позволить учащемуся выбрать сложные образцы и попросить инструктора-человека их аннотировать, отсюда и название «активное обучение». Этот метод оказывается очень эффективным, особенно в ситуациях с ограниченным бюджетом для обучения образцов - эксперты могут сосредоточиться на сложных случаях, в то время как машина отбирает большинство образцов, которые обычно легко разрешить.

Чтобы объяснить интуицию, лежащую в основе активного обучения, рассмотрим простую задачу маркировки изображений собак по отношению к породам. Мы начнем с базового набора данных, который содержит помеченные изображения собак. Этот набор данных может представлять проблему для обучения несколькими способами: он может в основном содержать изображения собак, обращенных к камере, что делает обученную модель инвариантной для собак, отображаемых сбоку. Он также может содержать несбалансированное количество образцов для каждой породы. Или это могут быть похожие породы, такие как бельгийская малинуа и немецкая овчарка. В таких случаях и людям, и машинам потребуется больше примеров каждой породы, чтобы научиться правильно классифицировать собак. Активное обучение помогает решать проблемы такого рода.

Представьте, что мы сможем достичь точности 80% с моделью, обученной на определенном базовом наборе данных. Нам дают бюджет на маркировку до 100 новых изображений из 1000 без маркировки, и мы стремимся использовать этот бюджет разумно, поскольку экспертная поддержка маркировки обходится дорого. Следовательно, вместо случайного выбора 100 выборок, мы должны позволить нашему обучающемуся выбирать самые сложные выборки или те, которые наилучшим образом отражают базовое распределение данных и минимизируют избыточность. Мы позволили модели предложить эти 100 образцов эксперту для маркировки, для которого она назначит этикетки с низкой достоверностью или высокой неопределенностью. Таким образом, точность обучения нашего машинного обучаемого может возрасти до 95% после обучения вместо 90% в установке, где использовались случайно помеченные образцы. В качестве альтернативы, мы могли бы также просто уменьшить количество помеченных данных и, следовательно, обучить модель с той же точностью 90%, но с меньшими затратами.

Соревновательная тренировка: объединяя лучшее из обоих

Чтобы объединить активное обучение и постепенное усовершенствование автоматической маркировки, нам нужен машинный учащийся, который состоит из двух моделей. Во-первых, дискриминационная модель для измерения неопределенности в отношении точности прогнозирования для заданных выборок (активное обучение), а во-вторых, генеративная модель для прогнозирования псевдоосновной истинности для выборок (автоматическая маркировка). Чтобы повысить эффективность обучения учащегося, мы стремимся совместно оптимизировать обе модели посредством состязательного обучения. Таким образом, дискриминационная модель также может использоваться для присвоения неопределенностей прогнозам порождающей модели и, в свою очередь, для повышения точности прогнозов. Современная модель, которая завоевала прочную репутацию в исследовательском сообществе и удовлетворяет заявленным требованиям, называется Generative Adversarial Network (GAN).

Человеко-машинное совместное обучение с GAN

Рассматривая структуру, показанную на рисунке выше, мы сначала используем генератор (G), чтобы предсказать псевдоосновную правду для неаннотированных данных. Поскольку дискриминатор (D) может назначать не только неопределенности реальной истинной земли, но и предсказанную G, мы можем отсортировать немеченые выборки по сложности или неопределенности D. Мы определяем выборки, распределение которых не было полностью охвачено Модель пока что сложная, и пусть D предложит их человеку-аннотатору. Мы используем другие простые образцы с низкой неопределенностью для создания автоматически аннотируемых данных с G. Руководство человека приводит к более сильному D, который адаптирован к требованиям задачи, указанной учителем (активное обучение). В свою очередь, улучшенный D подтолкнет G к предсказанию псевдоосновной истины более высокого качества (автоматическая аннотация). Благодаря этому итеративному улучшению, GAN представляют собой естественную основу для объединения человека и машины в одну совместно оптимизированную процедуру обучения.

В то время как научная фантастика полна машин и роботов, которые угрожают человечеству и тем самым создают атмосферу подозрений, концепция совместного обучения человека и состязательной подготовки показывает, как машины могут разумно дополнять нашу работу и жизнь в позитивном ключе. Фактически, описанный подход имеет большой потенциал для преобразования множества приложений, например, в секторе здравоохранения. В частности, наша команда в настоящее время разрабатывает подход для сегментации трехмерных изображений сердечно-сосудистого магнитного резонанса (МР), что является важной предпосылкой для создания моделей сердца для конкретного пациента и, следовательно, для лечения сложных заболеваний сердца. Наша цель состоит в том, чтобы создать модель, которая обучается на основе самогенерируемой сегментации и активно предлагает экспертам сложные МР-изображения для ручной сегментации. Это может значительно сократить затраты и время, затрачиваемое на эту сложную процедуру, так что радиологи могут посвятить больше времени уходу за пациентом. Хотя этот конкретный пример наглядно демонстрирует положительное влияние концепции на общество, за сектором здравоохранения существует множество областей применения, которые получат пользу от результатов исследований в этой области.

Найдите полную исследовательскую работу для MIDL 2019 здесь: Семантическая сегментация, управляемая неопределенностью, через совместное обучение человек-машина