IT-NEWS: Глубокое обучение, глубокое развлечение

понедельник, 14 сентября 2015 г.

Глубокое обучение, глубокое развлечение

Побывал сегодня на тусовке Data Fest #1 (meetup) в хакспейсе "Сталь" на ВДНХ (http://www.meetup.com/Moscow-Data-Fest/events/224856462/). Дата, бигдата и deep learning в количестве. Доклады на уровне veteran, о чём честно предупреждали.

Удивительно, но некоторые присутствующие говорили мне о том, что уже через пару лет мы сможем наблюдать deep learning в работе. Мой тезис был в том, что наблюдаем уже сейчас. Контртезис: так никакой революции не произошло ведь? Мой тезис: уже революция произошла, просто мы так привыкли к чудесам, что революций не замечаем. Мобильная связь безо всякой революции пришла. И фотоаппарат/видеокамера (в том числе в виде телефона) у каждого в руках безо всякой революции. И интернет тоже в каждый дом пришёл. Революция во всех этих случаях и несомненна, и вроде как задним числом её нет. Так и в случае deep learning -- революция задним числом незаметна, но она уже есть. Распознавание речи, лиц, изображений, перевод с языка на язык -- это уже революция, она уже с нами. Но это так мило и удобно, настолько "под капотом", что даже незаметно. И возникает ложное впечатление, что вот через пару лет и случится "положительный кабум". Ан нет, через пару лет будет много-много таких же крутых кабумов (с точки зрения специалистов), что происходят прямо сейчас, и таких же незаметных (с точки зрения потребительских масс), как и происходящих сейчас.

Обсудили там модификацию возможного следующего deephack в МФТИ:

1. Нужно иметь на входе некоторое количество девушек (например, подогнать к конкурсу мисс МФТИ).

2. Иметь фотографов, пусть их снимают.

3. Иметь наборы картин современных художников (от нескольких до сотни для каждого).

4. Иметь хакатонщиков, которые будут учиться снимать художественный стиль с ряда картин и переносить их на фотографии -- "рисовать в стиле художника".

5. Иметь профессиональное жюри (искусствоведов, зрителей), которые будут оценивать качество создания "глубокого плагиатора художественного стиля".

6. В каждом раунде даётся новый набор картин (художественный стиль очередного художника) и новый набор фотографий очередного фотографа -- попарно для программ оценивается качество переноса стиля, олимпийская система на выбывание.

Вариант хакатона по обратной задаче: на входе у нас картины, по ним нужно изготовить фотографии -- то есть "убрать стиль", восстановить реальность. И даже, вроде, понятно как такую задачу решать (синтез изображений ведь по сетке LeCunn уже делал, хотя и малой размерности). Но можно легко промахнуться с трудоёмкостью для хакатона. Лучше на хакатоне делать модификации какой-то задачи.

Версию cuDNN поменяли на третью, вдвое более быструю, т.е. тренировать сетки можно вдвое быстрее, это значит, что хакатоны будут вдвое более эффективными за то же время ;)

Оригинальную работу (где не ряд картин, замечу, а одна штука) не привожу ввиду её общеизвестности (за последний месяц только очень ленивый не попытался её повторить). Фишка хакатона -- съем художественного стиля по ряду картин, а не по одной картине, как в оригинальной работе. Ну, или фишка в решении обратной задачи (синтез фотореалистического изображения по материалам творческого видения художника).

Поговорили про стартапы в области deep learning. Я всё-таки думаю, что самое надёжное сейчас -- это плотно садиться на какое-то приложение с понятными данными. Задачи общего вида, "инструментальные", сейчас решать нужно (и в них самый смак), но они пока смогут продаваться только в составе какого-то крутого приложения. Грубо говоря, продадутся не лучшие в мире патефоны, а лучшие в мире пластинки -- и если на них будет записываться плохая музыка, то патефоны останутся незамеченными. Лучший в мире игровой движок для игры, в которую никто не играет, не имеет шансов выжить. Лучший в мире мозг, который решает никому не нужные задачи, не будет признан. Так что я бы настаивал на примате приложения над инструментом.

Задал вопрос Илье Суцкеверу (он тоже сегодня был в докладчиках -- повторил свою презентацию с митапа в Сан-Франциско) про мультимодальные тексты. Он считает, что нужно тупо перегонять в LaTeX, и не мучиться. Ничем не отличается от того, что я предлагал в http://ailev.livejournal.com/1212453.html (я там так и писал -- "Математические и прочие технические тексты должны быть для машинной обработки, например, в LaTeX. Для надёжного перевода STEM-учебников в такой (или аналогичный по выразительности) формат нужны спецусилия и платный спецсофт (типаhttp://www.inftyreader.org/?p=166 )".

Ещё я его спросил про память -- почему он о ней не говорил (ибо он хвалил только внимание). Ответ был, что память сейчас не получает state-of-the-art результатов, но очень перспективна. А внимание получает супер-пупер результаты уже сейчас. Поэтому он говорит только о том, что уже сейчас успешно.

Рассказ про Theano в Juputer я слушал с изумлением -- никак не мог понять, что же это за такой kernel 3, когда на экране показывался обычный kernel. После доклада поинтересовался у докладчика, что он имел ввиду. Выяснилось, что это либо моя глухота, либо произношение докладчика (мы так и не определились с тем, что это было). Да, это был kernel trick! Всё стало на свои места, ура. Докладчик Julia пробовал, но не рискует на неё переходить в production. Theano же для него выделяется тем, что новинки там (типа cuDNN 3) появляются в срок менее суток после опубликования. Но в кулуарах я услышал, что есть группа в России, которая давно, много и успешно работает на Julia -- и довольны. Так что расцветают сто цветов, пышным цветом.

По пути в метро обсудили, чем отличаются Digital October и хакспейс. В Digital October более офисная атмосфера. В хакспейсе -- более домашняя, "кухня", "мастерская", мейкерская. В Digital October больше вендоры в костюмах, а в хакспейсе больше разработчики в свитерках. Наверно, я скучаю по тем временам, когда я сам был "в свитерках". Ибо что-то я в этот хакспейс зачастил: не могу припомнить, чтобы я так часто куда-то в последние годы ходил. А тут прям как в дом культуры, бегаю чуть ли не каждую неделю туда, то на лекцию, то на танцы (сегодня там и танцы были -- но я танцевал совсем чуть-чуть. Никто почти не заметил. Огромные колонки, профессиональный микшерский пульт и айфон в качестве источника музыки -- вот они, реалии 21 века). Ах да, disclaimer: я (по крайней мере, пока) никак с этим хакспейсом не аффилирован, так что это реклама от чистого сердца. Для меня это глубокое обучение, глубокое развлечение.

ailev