Содержание

все про блогера, его машины и тест-драйвы


  • 26.07.2021
  • /


  • Звездное авто,
    Биографии
  • /



  • Данил Кузнецов

Теги:

  • Автоблогер

  • Иван Зенкевич



Юность и работа

Родился Зенкевич Иван Сергеевич 19 ноября 1974 года в Москве. Как и у большинства мальчишек, любовь к технике появилась у пионера с детства: он собирал вырезки из газет и некоторые модельки авто. В 1993 году Иван получает права, и отец покупает ему ВАЗ-2105 из ГДР цвета «Белая ночь». К тому же, абитуриент поступает заочно на журфак в Московский Экстерный гуманитарный университет. В это же время Дядя Ваня вступает в брак и, чтобы прокормить семью, устраивается ночным развозчиком в программу «Времечко», а позже он успел поработать там же корреспондентом, и через 10 лет перешел уже в автомобильную программу. Так, спустя годы он начал вести все больше телевизионных проектов. На сегодняшний день Иван ведет программу про машины на «Утро России». Также Иван Сергеевич известен среди любителей радиостанции «Маяк», где он отвечал за «Ассамблею автомобилистов» с 2015 по 2019 год. Известно также, что его материалы выходят на телевизионной передаче «Автоплюс».



Создание канала

В 2010-2011 году приятели посоветовали создать Дяде Ване собственный сайт. Так и появился Zenkevich.ru. В это же время появляется YouTube-канал, который служит в качестве хранилища видеосюжетов с телевидения. Со временем подписчиков становилось все больше и больше, поэтому уже в 2012 году была подключена монетизация.


Эфирные обзоры

Поскольку изначально канал служил «складом» для эфира, ролики были небольшими: примерно по 2,5 минуты. Однако информативности в них было хоть отбавляй. Притом там были обзоры на технику разного периода и типа: от первого советского трамвая до Rolls-Royce Ghost. По словам самого Дяди Вани, увидев рост подписчиков, он решил сделать упор на современные машины. Но обстоятельства были против: сначала на телевидении начала выходить передача про ретро-автомобили, а потом Зенкевич понял, что нынешние однообразные «мыльницы» ему не по нраву.


Тест-драйвы

Основа всех основ автожурналистики. И Иван Сергеевич бесспорно тут даст фору хоть кому, ведь наш герой радует подписчиков обзором техники от «А» до «Я»:


Автомобили

  • Военная техника (пушки, танки…)
  • Автобусы
  • Тракторы и грузовики
  • Мотоциклы
  • Поезда
  • Охотник за динозаврами

Рубрика, которая покорила сердца тысяч людей, живших еще при СССР. Неспроста, стоит отметить. Ведь в этих роликах журналист повествует о раритетной технике советского и досоветского периода.

  • Реставрация РАФ-2203

Как и любой ценитель классики Иван Сергеевич хотел себе в гараж что-то старенькое, необычное… Вот ему и подарили РАФ-2203 в ужасном состоянии. И наш герой воспользовался шансом, сделав собственный олдтаймер.

  • Volvoтрон

«Олдтаймер в коллекции есть, пришло время и для янгтаймера» — подумал Дядя Ваня и купил Volvo 760 GLE за 130 тысяч. Интересно, что желание было совершенно спонтанным. Денег, конечно, автолюбитель не жалел, поэтому реставрация была практически в идеал.

  • Копейка на прокачку

К первой модели ВАЗа Зенкевич питает особую любовь, так как в юности ездил на 2101 и 21013. И это была не очередная реставрация, это модернизация! Из невзрачного седана «копейка» превратилась в трекового монстра. Только вот выехать на Moscow Raceway Зенкевичу было не суждено… Проект обменяли на спортивный болид «Эстония-21М». А что было дальше, история умалчивает.

  • BMW для сына

С РАФом сын помогал отцу, с немецким автопромом все поменялось: тут уже отец поддержал сына с восстановлением его E34 525 за 60 тысяч. Рубрика идеально отображает то, что случается с иномарками 90-ых, и в какую сумму обходится их содержание на сегодняшний день.


Коллекционные машинки

Для настоящих ценителей миниатюрных раритетов Зенкевич может предложить обзоры коллекционных моделей автопрома разных лет. Притом рассматриваются в выпусках как экземпляры советской сборки, так и современной. Особенно частые гости — продукты фирмы Hachette.


Влоги

Наш герой, как и многие блогеры, имеет второй канал — «Иван Зенкевич IZ ли лайф». В роликах журналист рассказывает о музеях, поездках и даже про дачу.


Хобби

Иван Сергеевич имеет неожиданное увлечение. Он участвует в исторических реконструкциях Отечественной Войны 1812 года. В боях предпочитает выступать за французов. Такое хобби возникло совершенно случайно: выйдя из леса, Дядя Ваня увидел сражение вживую и проникся. А остался, потому что люди интересные: говорят о политике и истории.


Личная жизнь

Про личную жизнь, как и у большинства блогеров, известно совсем немного. Был женат (сейчас в разводе) и имеет двух детей: сына и дочь.


Личные автомобили

Помимо Volvo 760 GLE, у Зенкевича в коллекции есть Range Rover 3-го поколения, а также коллекционный вариант Москвич-408 с прицепом «Скиф». А для дачи у него есть ГАЗ-69.


Интересные факты

Иван Сергеевич не жалует «Формулу-1», зато с радостью смотрит DTM.

Часто пользуется общественным транспортом и никуда никогда не опаздывает.

В его конкурсе автообзоров участвовал AcademeG.

Кстати, AcademeG придумал называть Ивана Сергеевича Дядей Ваней.

У Зенкевича есть медаль «За сохранение культурного и исторического наследия России».


Четыре ведущих: тест-драйв опередившего время «тяни-толкая»

07 октября 2022
14:44

Иван Зенкевич

Утро России

Опередивший свое время, не понятый чиновниками и рожденный не вовремя. И все это не про космический корабль или спортивной автомобиль. Все это про трактор.

ЛТЗ-155 был разработан в конце 1980-х годов на Липецком тракторном заводе имени XXIII съезда КПСС. Перед нами уникальный по своей конструкции универсально-пропашной трактор, в основе которого положена интегральная схема. Что это такое, сейчас объясню.

Первое, но не самое главное условие – центральное расположение кабины между осями и круговой обзор для тракториста.

Передний мост закреплен жестко, а вот задний с балансирным качением относительно корпуса. Все четыре колеса ведущие, одинакового диаметра, а не как на «Белорусах», к примеру.

Еще критерий – разветвленная система валов отбора мощности. Сегодня только два – передний и задний. Но в идеале – четыре! Передний, задний, боковой и верхний задний.

А значит, вы только вдумайтесь, на трактор можно установить сразу три сельскохозяйственных оборудования. Разных! За кабиной тракториста есть площадка, можно поставить, например, цистерну для опрыскивателя.

Двигатель тут алтайский Д-442-47. И опять без выкрутасов не обошлось: у него два уровня мощности, переключаться между которыми можно прямо на ходу.

Мощность первого уровня 150 лошадиных сил, второго – 120. Объем движка – 7,5 литра. А теперь пора в кабину, где точно станет понятно, что такое интегральный трактор.

Итак, главный признак – это реверсный ход. То есть за пару минут вы можете сесть задом наперед… и ехать вперед задом.

В топовой комплектации 155-й имел четыре варианта поворота колес. Можно было ехать по старинке только передними, можно только задними – тут уметь надо. Можно четырьмя сразу, а если очень надо, то и крабиком поедет, повернув все колеса. Радиус разворота всего 4,5 метра – на Lada Vesta больше!

Почему многие про такой трактор и не слышали? В серию машина пошла в середине 1990-х, в непростое для страны время, и производство прекратилось уже через несколько лет. Да и в министерстве его не поняли, и это было недальновидно. Зато немецкие сельхозработники были в восторге и хотели закупать больше тысячи машин в год, но после стали сами разрабатывать такие трактора.

В любом случае, Липецкий тракторный завод был первым, кто смог создать такую технику. И мы теперь с вами это знаем.

авто
Советский Союз/СССР
Германия
тест-драйв
Иван Зенкевич
Лада Веста
трактор
общество
новости

Ранее по теме

  • Почти не кренится, но на бездорожье путь заказан: тест-драйв Changan CS35 Plus
  • «Альтерна» – пример импортозамещения из 90-х
  • У Sollers Argo разные колеса, зверская тяга, завидная маневренность
  • Тест-драйв редкого и очень интересного «Бьюика»
  • Haval Dargo X – добротный автомобиль для тех, кто не спешит
  • Строгий, роскошный, «кроссоверный»: тройка разных минивэнов

Маленький театр все о сообществе

Слева направо: Марк Брантон, Стасия Зинкевич, Т. Дж. Ларсен и Дачи Оверби должны исполнить «God of Carnage» до 22 сентября в «Черном ящике Фишера» в Маленьком театре Лас-Вегаса, 3920 Schiff Drive.

Маленький театр Лас-Вегаса, 3920 Schiff Drive, премьера сезона 2013-2014 запланирована на 13 сентября. Спустя почти 36 лет театр продолжает миссию основателей по повышению осведомленности о театральном искусстве в Южной Неваде, обеспечению качественных постановок и предоставлению образовательных возможностей во всех аспектах театра.

«Мы хотим охватить как можно больше людей, — сказал Вальтер Ниядлик, президент театра. «Мы предлагаем действительно качественную продукцию по действительно разумной цене».

У организации есть три площадки для выступлений — Основная сцена, Черный ящик Фишера и Театр-студия.

На главной сцене, вмещающей 154 человека, в этом сезоне будут представлены шесть крупных спектаклей, в том числе «И никого не стало» и «Босиком в парке».

Каждая постановка рассчитана на три недели с выступлениями в 20:00. каждый четверг, пятницу и субботу и в 14:00. каждое воскресенье. Выступление также запланировано на 14:00. вторая суббота каждой постановки.

Разовые билеты на спектакли Главной сцены стоят 24 доллара для взрослых и 21 доллар для пенсионеров и студентов. Сезонные пакеты, которые предлагают один билет на шоу, стоят 114 долларов для взрослых и 102 доллара для пожилых людей и студентов.

«На главной сцене мы обычно показываем немного более традиционные произведения, — сказал Неядлик. «Шоу немного больше, потому что сцена больше».

«Черный ящик Фишера» позволяет актерам более тесно общаться со зрителями, поскольку вмещает всего 45 человек, по словам Неядлика. В этом сезоне запланировано пять постановок, в том числе «Бог резни» и «Охотники-собиратели».

Каждая постановка в «Черном ящике Фишера» рассчитана на три недели с выступлениями в 20:00. каждый четверг, пятницу и субботу и в 14:00. каждое воскресенье.

Билет в один конец стоит 15 долларов США для взрослых, 14 долларов США для пенсионеров и студентов и 13 долларов США для подписчиков Las Vegas Little Theater. Сезонные билеты стоят 50 долларов для подписчиков или 65 долларов для неподписчиков.

«Актеры могут протянуть руку и коснуться публики во время выступлений на сцене Black Box», — сказал Неядлик. «Работы немного острее и больше ориентированы на более молодую аудиторию».

Театр-студия — это небольшое помещение, расположенное в нескольких дверях от основного помещения.

Представления в Театре-студии запланированы на три недели в 20:00. каждую пятницу и субботу и в 14:00. каждое воскресенье. Билеты стоят 12 долларов для взрослых и 11 долларов для пенсионеров и студентов.

«Пространство используется для очень скромных постановок, потому что оно вмещает от 30 до 35 человек», — сказал Неядлик. «Мы также проводим там занятия и репетиции».

Неядлик сказал, что гости должны бронировать билеты заранее, потому что некоторые постановки и время могут быть распроданы быстрее, чем другие.

«Как правило, наши самые загруженные дни — субботние вечера и воскресные дни», — сказал он. «Мы просто не хотим, чтобы кто-то пришел и был разочарован тем, что у нас нет места для них».

Прослушивания для съемочной группы и актеров обычно проводятся за шесть-восемь недель до выступления и публикуются в Интернете. Любой, кто заинтересован в прослушивании для постановки, также может подписаться на уведомления по электронной почте.

По словам Нежадлика, для прохождения прослушивания не требуется предварительный опыт. Он сказал, что большинство прослушиваний просто требуют, чтобы люди пришли и сделали все возможное.

«Что бы мы ни делали, мы стараемся сделать это как можно более доступным для всех, кто хочет быть частью этого», — сказал Неядлик. «У нас есть люди, у которых есть опыт и которые были в постановках, а есть люди, которые никогда раньше не были на сцене».

В то время как возрастные требования зависят от роли персонажа, Нежадлик сказал, что организация обычно ищет людей, которым не менее 18 лет. Однако она выбрала детей в возрасте 14 лет с согласия родителей.

«У нас есть детская компания, которая больше ориентирована на детей 15 лет и младше, — сказал Неядлик, — но мы делаем исключения, если роли подходят».

Дочерняя компания театра Star Arts Productions круглый год предлагает занятия, мастер-классы и постановки для детей. В Маленьком театре Лас-Вегаса также проводятся занятия для взрослых и детей.

«Если вам интересно, но у вас нет опыта, все равно приходите, и мы поможем вам получить опыт», — сказал Неядлик. «У нас много замечательных людей с большим профессиональным опытом, которые всегда готовы учить».

Организация также ищет добровольцев, которые будут сопровождать посетителей, управлять торговыми точками и помогать за кулисами.

22-летняя Ами Мейерс начала работать волонтером в качестве швейцара и работника закусочной в 2009 году.

«Мой друг был на одном из шоу, и я спросил персонал, могу ли я чем-нибудь помочь», — сказал Мейерс. «Волонтерство дало мне возможность познакомиться с таким количеством разных постановок и талантливых людей. Это было действительно захватывающе».

Мейерс, которая также работает в кассе, сказала, что познакомилась со своими лучшими друзьями в театре.

«Это отличный способ познакомиться с людьми и принять участие, если вы впервые в городе или ищете новых друзей», — сказал Неядлик. «Нас также посещают некоторые известные люди, с которыми вы также можете встретиться».

Ниядлик сказал, что Тони Шей, генеральный директор Zappos, оказывает финансовую поддержку организации и часто посещает ее.

«Он очень поддерживал наш театр, и не только выписывая чеки. Он действительно появляется, смотрит постановки и приводит своих друзей», — сказал Нежадлик. «Нам повезло получить его поддержку в последние пару лет».

Комик и сценарист Рита Руднер и комедийные иллюзионисты Пенн Джиллетт и Теллер также были замечены в театре.

«Все, кого вы видите в театре, — это люди из сообщества, которые добровольно жертвуют своим временем и талантами», — сказал Неядлик. «Я думаю, что люди будут приятно удивлены, когда спустятся вниз».

Свяжитесь с корреспондентом Southwest/Spring Valley View Кейтлин Белчер по адресу [email protected] или по телефону 702-383-0403.

Как платформы, ориентированные на данные, решают самые большие проблемы для MLOps

Этот блог является первым в серии, посвященной MLOps и управлению моделями. Следующий блог будет вести Джозеф Брэдли, и он расскажет, как выбрать правильные технологии для науки о данных и машинного обучения, основываясь на своем опыте работы с клиентами.

Введение

Недавно я узнал, что количество отказов в проектах машинного обучения по-прежнему поразительно велико. Исследования показывают, что между 85-96% проектов никогда не доходят до производства. Эти цифры еще более примечательны, учитывая рост машинного обучения (МО) и науки о данных за последние пять лет. Чем объясняется этот процент отказов?

Для того чтобы предприятия были успешными с инициативами ML, им необходимо всестороннее понимание рисков и способов их устранения. В этом посте мы попытаемся пролить свет на то, как этого добиться, отойдя от модельно-ориентированного представления систем машинного обучения к ориентированному на данные представлению. Мы также рассмотрим MLOps и управление моделями, а также важность использования ориентированных на данные платформ машинного обучения, таких как Databricks.

Данные приложений машинного обучения

Конечно, все знают, что данные являются самым важным компонентом машинного обучения. Почти каждый специалист по данным слышал: «мусор на входе, мусор на выходе» и «80% времени специалиста по данным тратится на очистку данных». Эти афоризмы сегодня так же верны, как и пять лет назад, но оба относятся к данным исключительно в контексте успешного обучения моделей. Если входные обучающие данные являются мусором, то и выходные данные модели будут мусором, поэтому мы тратим 80% нашего времени на то, чтобы наши данные были чистыми, а наша модель делала полезные прогнозы. Тем не менее, обучение модели — это только один компонент производственной системы машинного обучения.

В Rules of Machine Learning ученый-исследователь Мартин Зинкевич уделяет особое внимание внедрению надежных конвейеров данных и инфраструктуры для всех бизнес-показателей и телеметрии до обучения вашей первой модели. Он также выступает за тестирование конвейеров на простой модели или эвристике, чтобы убедиться, что данные передаются должным образом до любого производственного развертывания. По словам Зинкевича, успешный дизайн приложения ML в первую очередь учитывает более широкие требования системы и не слишком сосредотачивается на данных обучения и логического вывода.

Зинкевич не один так видит мир. Команда Tensorflow Extended (TFX) в Google цитирует Зинкевича и повторяет, что создание реальных приложений машинного обучения «требует некоторых изменений ментальной модели (или, возможно, дополнений)».

Выдающийся исследователь искусственного интеллекта Эндрю Нг также недавно говорил о необходимости использования подхода , ориентированного на данные, к системам машинного обучения, в отличие от исторически преобладающего подхода , ориентированного на модели . Нг говорил об этом в контексте улучшения моделей за счет более качественных обучающих данных, но я думаю, что он затрагивает нечто более глубокое. Сообщение от обоих этих лидеров заключается в том, что для развертывания успешных приложений машинного обучения необходимо сместить акцент. Вместо того, чтобы спросить, Какие данные мне нужны для обучения полезной модели? , вопрос должен быть таким: Какие данные мне нужны для измерения и поддержания успеха моего приложения ML?

Чтобы уверенно измерять и поддерживать успех, необходимо собирать множество данных, чтобы удовлетворить бизнес-требованиям и инженерным требованиям. Например, как узнать, достигаем ли мы бизнес-KPI для этого проекта? Или где задокументирована наша модель и ее данные? Кто отвечает за модель и как мы можем проследить ее происхождение? Просмотр потока данных в приложении ML может пролить свет на то, где находятся эти точки данных.

На приведенной ниже диаграмме показан один из возможных потоков данных в вымышленном веб-приложении, использующем машинное обучение для рекомендации растений покупателям и персонажам, владеющим каждым этапом.

На этой схеме исходные данные передаются из веб-приложения в промежуточное хранилище, а затем в производные таблицы. Они используются для мониторинга, составления отчетов, разработки функций и обучения моделей. Извлекаются дополнительные метаданные о модели, а журналы тестирования и обслуживания собираются для аудита и соответствия требованиям. Проект, который пренебрегает этими данными или не может управлять ими, рискует оказаться неэффективным или полностью провалиться, независимо от того, насколько хорошо модель машинного обучения справляется со своей конкретной задачей.

ML-инжиниринг, MLOps и управление моделями

Подобно тому, как DevOps и управление данными снизили риски и стали самостоятельными дисциплинами, ML-инжиниринг стал дисциплиной для управления операциями (также известной как MLOps ) и управления приложениями ML. . В этом контексте необходимо управлять двумя видами риска: риском, присущим прикладной системе машинного обучения, и риском несоблюдения требований внешних систем. Если отсутствует инфраструктура конвейера данных, ключевые показатели эффективности, мониторинг моделей и документация, возрастает риск дестабилизации или неэффективности вашей системы. С другой стороны, хорошо спроектированное приложение, которое не соответствует корпоративным, нормативным и этическим требованиям, рискует потерять финансирование, получить штраф или нанести ущерб репутации.

Как организации могут справиться с этим риском? MLOps и управление моделями все еще находятся на ранних стадиях, и для них нет официальных стандартов или определений. Поэтому, основываясь на нашем опыте работы с клиентами, мы предлагаем полезные определения, которые помогут вам задуматься.

MLOps (операции машинного обучения) — это активное управление производственной моделью и ее задачей, включая ее стабильность и эффективность. Другими словами, MLOps в первую очередь заботится о поддержании функции приложения ML за счет улучшения данных, моделей и операций разработчика. Проще говоря, MLOps = ModelOps + DataOps + DevOps.

Управление моделью, с другой стороны, представляет собой контроль и регулирование модели, ее задачи и ее влияние на окружающие системы . В первую очередь это связано с более широкими последствиями того, как приложение ML функционирует в реальном мире.

Чтобы проиллюстрировать это различие, представьте крайний случай, когда кто-то создает высокофункциональное приложение машинного обучения, которое используется для тайного майнинга биткойнов на ваших устройствах. Это было бы очень эффективно, но отсутствие управления имеет негативные последствия для общества. В то же время вы могли бы написать 400-страничные отчеты о соответствии и аудите для модели кредитного риска, чтобы соответствовать федеральным нормам, но если приложение не является стабильным или эффективным, то ему не хватает оперативного измерения.

Итак, чтобы построить функциональную систему, уважающую человеческие ценности, нам нужны и то, и другое. Как минимум, операции несут ответственность за поддержание бесперебойной работы и стабильности, и каждая организация берет на себя юридическую и финансовую ответственность за создаваемые ими приложения ML. Сегодня эта ответственность относительно ограничена, поскольку нормативно-правовая база для ИИ находится в зачаточном состоянии. Тем не менее, ведущие корпорации и академические институты в космосе работают над тем, чтобы определить его будущее. Подобно тому, как GDPR вызвал большие волнения в области управления данными, кажется, что подобное регулирование неизбежно для ML.

Essential Capabilities

Проведя различие между эксплуатацией и управлением, мы теперь можем задать вопрос: какие конкретные возможности необходимы для их поддержки? Ответы делятся примерно на шесть категорий:

Обработка данных и управление ими

Поскольку основная часть инноваций в машинном обучении происходит в открытом исходном коде, обязательным условием является поддержка структурированных и неструктурированных типов данных с открытыми форматами и API. Система также должна обрабатывать и управлять конвейерами для KPI, обучения/вывода моделей, отклонения от цели, тестирования и регистрации. Обратите внимание, что не все конвейеры обрабатывают данные одинаково или с одинаковым соглашением об уровне обслуживания. В зависимости от варианта использования для конвейера обучения могут потребоваться графические процессоры, для конвейера мониторинга может потребоваться потоковая передача, а для конвейера логического вывода может потребоваться онлайн-обслуживание с малой задержкой. Функции должны быть согласованы между обучающей (автономной) и обслуживающей (онлайн) средами, что заставляет многих рассматривать хранилища функций как решение. Насколько легко инженерам управлять функциями, повторять невыполненные задания, понимать происхождение данных и соблюдать нормативные требования, такие как GDPR? Выбор, сделанный для предоставления этих возможностей, может привести к значительным колебаниям рентабельности инвестиций.

Безопасная совместная работа

Реальное проектирование машинного обучения — это межфункциональная работа. Тщательное управление проектом и постоянное сотрудничество между группой обработки данных и заинтересованными сторонами имеют решающее значение для успеха. Контроль доступа играет здесь большую роль, позволяя нужным группам работать вместе над данными, кодом и моделями в одном месте, ограничивая при этом риск человеческой ошибки или неправомерных действий. Это понятие распространяется и на разделение сред разработки и производства.

Тестирование

Чтобы убедиться, что система соответствует ожиданиям по качеству, необходимо выполнить тесты кода, данных и моделей. Это включает в себя модульные тесты для конвейерного кода, охватывающие разработку функций, обучение, обслуживание и метрики, а также сквозное интеграционное тестирование. Модели должны быть проверены на базовую точность в демографических и географических сегментах, важность характеристик, предвзятость, конфликты входных схем и вычислительную эффективность. Данные должны быть проверены на наличие конфиденциальных данных PII или HIPAA и перекоса обучения/обслуживания, а также порогов проверки для отклонений функций и целей. В идеале автоматизированные тесты снижают вероятность человеческой ошибки и помогают обеспечить соответствие требованиям.

Мониторинг

Регулярный надзор за системой помогает выявлять и реагировать на события, которые представляют риск для ее стабильности и эффективности. Как быстро можно обнаружить сбой ключевого конвейера, устаревание модели или появление новой версии, вызывающей утечку памяти в рабочей среде? Когда в последний раз обновлялись все таблицы входных объектов или кто-то пытался получить доступ к данным с ограниченным доступом? Для ответов на эти вопросы может потребоваться сочетание оперативных (потоковых), периодических (пакетных) и событийных обновлений.

Воспроизводимость

Это относится к возможности проверки выходных данных модели путем воссоздания ее определения (кода), входных данных (данных) и системной среды (зависимостей). Если новая модель показывает неожиданно низкую производительность или содержит предвзятость в отношении сегмента населения, организации должны иметь возможность проверять код и данные, используемые для разработки функций и обучения, воспроизводить альтернативную версию и повторно развертывать. Кроме того, если модель в производстве ведет себя странно, как мы сможем отладить ее, не воспроизводя?

Документация

Документирование приложения машинного обучения расширяет операционные знания, снижает риск технического долга и выступает в качестве защиты от нарушений нормативных требований. Сюда входит учет и визуализация архитектуры системы; схемы, параметры и зависимости признаков, моделей и показателей; и отчеты о каждой модели в производстве и сопутствующие требования к управлению.

Потребность в платформе машинного обучения, ориентированной на данные

На недавнем вебинаре Матей Захария перечислил простота принятия группами данных наряду с интеграцией с инфраструктурой данных и функциями совместной работы в качестве желательных функций на платформе машинного обучения.

В этом отношении инструменты науки о данных, появившиеся на основе модельно-ориентированного подхода, принципиально ограничены. Они предлагают расширенные функции управления моделями в программном обеспечении, которое отделено от важных конвейеров данных и производственных сред. Эта разрозненная архитектура опирается на другие сервисы для обработки наиболее важного компонента инфраструктуры — 9.0085 данные .

В результате контроль доступа, тестирование и документирование всего потока данных распределены по нескольким платформам. Разделение их на данный момент кажется произвольным и, как было установлено, излишне увеличивает сложность и риск сбоя для любого приложения ML.

Платформа машинного обучения, ориентированная на данные, предоставляет модели и функции наряду с данными для бизнес-показателей, мониторинга и соответствия требованиям. Он объединяет их и при этом принципиально проще. Введите домик у озера архитектура .

Lakehouse по определению ориентированы на данные и сочетают в себе гибкость и масштабируемость озер данных с производительностью и управлением данными хранилища данных. Их открытый исходный код позволяет легко интегрировать машинное обучение там, где хранятся данные. Нет необходимости экспортировать данные из проприетарной системы, чтобы использовать фреймворки машинного обучения, такие как Tensorflow, PyTorch или scikit-learn. Это также значительно облегчает их усваивание.

Машинное обучение Databricks построено на архитектуре Lakehouse и поддерживает критические MLOps и потребности в управлении, включая безопасную совместную работу, управление моделями, тестирование и документирование.

Обработка данных и управление ими

Для управления и обработки разнообразных и объемных источников данных, необходимых для приложения машинного обучения, Databricks использует высокопроизводительную комбинацию Apache Spark и Delta Lake. Они объединяют пакетные и потоковые рабочие нагрузки, работают в петабайтном масштабе и используются для мониторинга, метрик, ведения журналов и конвейеров обучения/выводов, построенных с использованием графических процессоров или без них. Возможности управления данными Delta Lake упрощают соблюдение нормативных требований. Магазин функций тесно интегрирован с Delta, Spark и MLflow, что упрощает обнаружение и обслуживание функций для обучения и создания логических выводов. Многошаговые конвейеры могут выполняться как запланированные задания или вызываться через API с повторными попытками и уведомлениями по электронной почте. Для онлайн-обслуживания с низкой задержкой Databricks предлагает размещенную модель MLflow для тестирования, публикации функций в интернет-магазине и интеграции со средами Kubernetes или управляемыми облачными службами, такими как Azure ML и Sagemaker, для производства.

Безопасная совместная работа

Помимо определения привилегий доступа к данным на уровне таблиц, облачных ресурсов или пользователей, Databricks также поддерживает управление доступом к моделям, коду, вычислениям и учетным данным. Это позволяет пользователям совместно редактировать и просматривать записные книжки в рабочей области в соответствии с политиками безопасности. Административные функции, которые ограничивают доступ к производственной среде и конфиденциальным данным, используются клиентами в сфере финансовых услуг, здравоохранения и правительства по всему миру.

Тестирование

Репозитории Databricks позволяют пользователям интегрировать свой проект с системами контроля версий и автоматизированными серверами сборки и тестирования, такими как Jenkins или Azure DevOps. Их можно использовать для модульных и интеграционных тестов всякий раз, когда код фиксируется. Databricks также предлагает веб-перехватчики MLflow, которые можно активировать на ключевых этапах жизненного цикла модели, например, при переходе к промежуточной или рабочей среде. Эти события могут привести к оценке модели на предмет базовой точности, важности функций, предвзятости и эффективности вычислений, отбрасывая кандидатов, которые не прошли проверку, или предлагая проверку кода и соответствующую маркировку моделей. Подпись или входная схема модели MLflow также может быть предоставлена ​​во время регистрации и протестирована на совместимость с контрактом данных рабочей среды.

Мониторинг

Для постоянного наблюдения можно использовать Structured Streaming и Delta Lake в сочетании с Databricks SQL для визуализации системной телеметрии, ключевых показателей эффективности и распространения функций среди заинтересованных лиц на информационных панелях в режиме реального времени. Периодические запланированные пакетные задания поддерживают актуальность статических исторических таблиц и журналов аудита для анализа. Чтобы быть в курсе важных событий, команды могут получать уведомления по электронной почте или в Slack о сбоях в работе. Чтобы поддерживать достоверность входных признаков, следует выполнять рутинное статистическое тестирование распределений признаков и регистрировать их с помощью MLflow. Сравнение прогонов позволяет легко определить, меняется ли форма признаков и целевых распределений. Если метрика задержки распространения или приложения превышает пороговое значение, предупреждение от SQL Analytics может инициировать задание обучения с использованием веб-перехватчиков для автоматического повторного развертывания новой версии. Изменения состояния модели в реестре моделей MLflow можно отслеживать с помощью тех же веб-перехватчиков, которые упоминались для тестирования. Эти оповещения имеют решающее значение для поддержания эффективности модели в производственной среде.

Воспроизводимость

MLflow — это общая структура для отслеживания и управления моделями от экспериментов до развертывания. Код, источник данных, зависимости библиотек, инфраструктура и модель могут регистрироваться (или автоматически регистрироваться) во время обучения наряду с другими произвольными артефактами, такими как объяснения SHAP или профилирование панд. Это позволяет воспроизводить тренировочный забег одним нажатием кнопки. Эти данные сохраняются, когда модели перемещаются в централизованный реестр моделей, что служит контрольным следом их дизайна, происхождения данных и авторства. Хранение версий модели в реестре упрощает быстрый откат критических изменений, пока инженеры отслеживают артефакт модели до его источника для отладки и исследования.

Документация

Следуя представлению о том, что документацию должно быть легко найти, блоки Databricks Notebook идеально подходят для документирования конвейеров, работающих на платформе и архитектуре системы. В дополнение к блокнотам, модели также могут быть прояснены путем удобной регистрации соответствующих артефактов вместе с ними на сервере отслеживания MLflow, как описано выше. Сервер отслеживания и реестр также поддерживают аннотацию модели и описание переходов между этапами ее жизненного цикла через пользовательский интерфейс и API. Это важные функции, которые привносят человеческое суждение и обратную связь в систему ИИ.

Собираем все вместе

Чтобы проиллюстрировать, как выглядит опыт разработки приложения машинного обучения на ориентированной на данные платформе машинного обучения, такой как Databricks, рассмотрим следующий сценарий.

Команде из трех практиков (инженер данных, ученый, инженер по машинному обучению) поручено создать рекомендательную программу для повышения продаж в интернет-магазине plantly.shop.

Сначала команда встречается с заинтересованными сторонами до определяет требования к ключевым показателям производительности и метрикам для модели, приложения и соответствующих конвейеров данных, заранее определяя любой доступ к данным и нормативные проблемы.  Инженер данных запускает проект в системе управления версиями, синхронизирует свой код с репозиторием Databricks, затем приступает к работе с помощью Apache Spark для загрузки данных о продажах и журналах приложений в Delta Lake из базы данных OLTP и Apache Kafka. Все конвейеры построены с использованием Spark Structured Streaming и TriggerOnce , чтобы в будущем обеспечить потоковую передачу «под ключ». Ожидаемые данные определяются в таблицах для обеспечения качества, а модульные и интеграционные тесты пишутся с помощью Spark в локальном режиме в их IDE. Определения таблиц задокументированы с уценкой в ​​общих записных книжках на Databricks и скопированы во внутреннюю вики.

Исследователь данных получает доступ к таблицам с помощью SQL, и они используют Databricks AutoML , коалы и блокноты для разработки простой базовой модели, предсказывающей, будет ли пользователь покупать показанные им растения. Системная среда, код, двоичный файл модели, происхождение данных и важность функций этого базового уровня автоматически регистрируются на сервере отслеживания MLflow, что упрощает аудит и воспроизводимость.

Стремясь протестировать производственный конвейер, специалист по данным продвигает модель в реестр моделей MLflow. Это запускает веб-перехватчик, который, в свою очередь, запускает серию проверочных тестов, написанных инженером по машинному обучению. После прохождения проверок на точность прогнозов, совместимость с производственной средой, вычислительную производительность и любые проблемы с соответствием обучающим данным или прогнозам (не можем рекомендовать инвазивные виды, не так ли!), инженер машинного обучения утверждает переход к производственной среде. Обслуживание модели MLflow используется для предоставления модели приложению через REST API.

В следующем выпуске модель тестируется путем отправки подмножества производственного трафика на конечную точку API, и система мониторинга оживает! Журналы передаются в Delta Lake, анализируются и обрабатываются на информационных панелях SQL Analytics, которые визуализируют коэффициенты конверсии, использование вычислений, скользящее распределение прогнозов и любые выбросы. Это дает заинтересованным сторонам бизнеса прямую видимость того, как выполняется их проект.

Тем временем ученый занят работой над версией 2 модели, рекомендателем, использующим глубокое обучение. Они раскручивают один узел, экземпляр с поддержкой графического процессора с ML Runtime и разработайте решение с помощью PyTorch, которое автоматически отслеживается MLflow. Эта модель работает намного лучше, чем базовая модель, но использует совершенно другие функции. Они сохраняют их в Delta Lake, документируя каждую функцию, ее исходные таблицы и код, используемый для ее создания. После прохождения всех испытаний модель регистрируется заводом-рекомендателем версии 2.

Пандемия, безусловно, привела к резкому росту продаж растений, и чтобы справиться с более высоким, чем ожидалось, трафиком, команда использует mlflow.pyfunc.spark_udf для создания прогнозов с помощью новой модели почти в реальном времени с помощью Spark Structured Streaming. В следующем выпуске всем рекомендуется пестролистный фикус эластика, который тут же раскупается. Ничего удивительного! Команда празднует свой успех, но в тишине слышно, как специалист по данным бормочет что-то о «переоснащении»…

платформа машинного обучения, ориентированная на данные.

Заключение

В этом блоге мы попытались понять, почему инициативы по машинному обучению по-прежнему терпят неудачу. Мы обнаружили, что модельно-ориентированный подход к приложениям машинного обучения может непреднамеренно стать огромным источником риска. Переход к подходу, ориентированному на данные, проясняет природу этого риска как связанного с самой функцией приложения или с соответствием внешним системам. MLOps и управление — это новые дисциплины, которые стремятся завоевать доверие и снизить риски ML-инициатив, чего они достигают с помощью набора основных возможностей. Databricks Lakehouse — это проверенная платформа машинного обучения, ориентированная на данные, которая предоставляет эти возможности, оставаясь при этом открытой и простой в использовании.

Возможно, мы все еще находимся на раннем этапе машинного обучения, но не похоже, что так будет долго. ИИ продолжит изменять каждый сектор экономики и нашу жизнь. Организации, которые используют платформу машинного обучения, ориентированную на данные, с надежными многооперативными операциями и методами управления, будут играть определенную роль в этой трансформации.

Следующие шаги

Чтобы увидеть живую демонстрацию многих из этих концепций, см. сеанс DAIS 2021 Обучение использованию блоков данных для полного жизненного цикла машинного обучения.

В будущих сообщениях мы надеемся глубже изучить, как Databricks реализует эти возможности для своих клиентов. А пока вот некоторые ресурсы, чтобы узнать больше:

  • Масштабное масштабирование машинного обучения с участием Матея Захарии, Дж. Б. Ханта, H&M (2021)
  • Технический доклад: MLOps на Azure Databricks с помощью MLflow (2021)

  • 1. Большинство проектов по науке о данных терпят неудачу, но ваш — нет ‘t Have To , Датанами, октябрь 2020 г.
  • 2.  Rules of Machine Learning: Best Practices for ML Engineering , Zinkevich, M. 2017
  • 3. Towards ML Engineering: A Brief History of Tensorflow Extended (TFX) , Katsiapis et al., стр. 3, 2020.
  • 4. См. обсуждение Эндрю Нг по ML Ops
  • 5. Более подробное обсуждение снижения рисков в приложениях ML см. в документе ML Engineering in Action , Wilson, B., 2021
  •  6. В ЕС изложены амбициозные правила ИИ, ориентированные на рискованное использование, Associated Press 2021
  • 7. См. «Зависимости от данных стоят больше, чем зависимости от кода», Скрытый технический долг в системах машинного обучения , Скалли и др., 2015.
  • 8. См. «Зависимости от данных стоят больше, чем зависимости от кода», Скрытый Technical Debt in Machine Learning Systems , Scully, et al., 2015.
  • 9.