Наука о данных: как соревнования программистов помогают телеком-отрасли

Подведены итоги чемпионата программистов по улучшению качества связи

29.12.2018 в 07:36, просмотров: 27176

Компании «МегаФон» и Mail.Ru Group подводят итоги недавно завершившегося чемпионата по машинному обучению и анализу данных — хакатона Telecom Data Cup. Абсолютный победитель, занявший 1 место, выиграл 400 тыс. pублей, приз за 2-е место составил 200 тыс. pублей, а за 3-е место – 100 тыс. pублей. Кроме того, все топ-200 участников получили футболки с символикой чемпионата, а лучшие из лучших смогут стать специалистами по Data Science в «МегаФоне» и Mail.Ru Group. Но главное то, что решение задачи хакатона направлено на улучшение качества связи, что не так просто в условиях постоянно растущих нагрузок на сеть и объема интернет-трафика. По условиям конкурса главной задачей участников было построить модель предсказания удовлетворенности клиентов качеством связи.

Наука о данных: как соревнования программистов помогают телеком-отрасли

Что такое хакатон

В переводе на разговорную русскую речь, непонятное многим людям слово «хакатон» означает соревнование программистов – оно произошло от слияния слов «хакер» и «марафон». Сегодня хакатоны проводят не только по хакерству, а вообще по программированию. Под этим углом зрения и надо рассматривать Telecom Data Cup – чемпионат по машинному обучению и анализу данных.

Идея такого чемпионата, по словам руководителя по аналитическим сервисам «МегаФона» Андрея Уварова, началась с партнерства:

Руководитель по аналитическим сервисам компании «МегаФон» Андрей Уваров

- Мы поняли, что есть большой потенциал сотрудничества в области образовательных проектов и ИТ-чемпионатов. У Mail.Ru есть платформа ML Boot Camp для проведения чемпионатов по анализу данных, а у нас накоплен большой объем данных и есть много интересных задач. Мы видим, что в сообществе Data Science (наука о данных) не многие имеют представление о задачах в телекоммуникационной сфере и обладают соответствующими компетенциями. Поэтому мы преследовали две цели. С одной стороны, мы хотели внести вклад в развитие сообщества аналитиков данных используя нашу телеком-экспертизу и те задачи, которые не только интересны программистам, но решение которых затрагивает десятки миллионов людей. С другой стороны, через такие профильные чемпионаты мы привлекаем новых сильных специалистов в свою компанию. Ведь МегаФон уже не просто оператор связи, а цифровая компания.

Прошедший хакатон для нас не первый. От всех предшествующих, Telecom Data Cup отличается прежде всего масштабом – он собрал более 2100 участников из 15 стран мира и 79 городов. Соревнование было посвящено анализу данных: построению математической модели предсказания удовлетворенности абонента качеством связи.

В итоге победило решение с наиболее точным результатом, подчеркивают в компании. Вот, как это было.

Telecom Data Cup... для потребителей

Telecom Data Cup входит в серию федеральных хакатонов MegaDataHack, который включает в себя офлайн- и онлайн-соревнования для более чем 5000 участников. В этом году участникам Telecom Data Cup была поставлена конкретная и очень важная задача – проанализировать набор данных от оператора и, применив технологии машинного обучения, предсказать удовлетворенность абонентов качеством связи. Чемпионат проходил на платформе ML Boot Camp, которую в Mail.Ru разработали специально для соревнований по машинному обучению.

Чемпионат начался 9 ноября 2018 года и проходил в течение месяца в режиме онлайн. На старте участники получили обезличенный набор данных: агрегированную информацию о поведении абонентов, технические характеристики базовых станций, объем потребления голосовых услуг, данные интернет-сервисов оператора и др. – всего 130 признаков. В соревновании использовались анонимизированные пользовательские данные, предоставленные и полученные в ходе опросов клиентов. Всего в датасет (набор данных) входило 9443 из опрошенных абонентов, по результатам которых был выявлен индекс удовлетворенности. Главной задачей было определение довольных и недовольных качеством связи абонентов, только исходя из анализа предоставленных данных и не зная результаты их опроса.

По данным организаторов, в соревновании Telecom Data Cup зарегистрировалось более 2100 пользователей из 15 стран, 79 городов, из них 525 дошли до финала, а по итогам чемпионата было разработано и загружено на платформу 13 278 решений. Полученные разработки позволят компании по-новому взглянуть на решение задачи повышения качества связи, связанной с растущими нагрузками на сеть и объемом интернет-трафика, а также найти цифровые способы совершенствования услуг.

- Мы не хотели повторяться по задачам с другими чемпионатами и в то же время заметили, что в data science сообществе мало кто знаком с задачами телеком индустрии. Так родилась идея Telecom Data Cup, как соревнования знакомящего специалистов по анализу данных с задачами телеком отрасли и ее спецификой. Наше подразделение, аналитических сервисов корпоративного хранилища данных, разрабатывает аналитические инструменты на основе технологий машинного обучения, помогающие другим департаментам оптимизировать свою работу.  Задача этого хакатона возникла в результате одного из наших проектов. Чуть более года назад команда качества сервисов инфраструктуры выразила интерес в разработке подобной модели в связи с заботой о предоставлении связи высокого качества, - подытожил Уваров.

Анализ и синтез

Анализировать большие массивы данных (75 млн абонентов сегодня это 30% российского телеком рынка) необходимо для понимания потребностей конкретного абонента и создания конкурентных преимуществ телеком оператора на фоне других компаний, ведь речь идет о сложнейшем трудноуправляемом механизме с огромным количеством параметров и переменных, которые нуждаются в адекватной интерпретации. «МегаФон» анализирует голосовой и интернет-трафик в разные временные периоды и геолокациях. Это важно для умного развития собственной сети: необходимо понимать, где именно нужно добавлять мощность, где строить базовую станцию, расширять или наоборот сокращать.

Участники Telecom Data Cup взяли на себя систематизацию данных о мнениях потребителей. И по итогам мероприятия, эта миссия увенчалась успехом.

Трудная победа

Не все 535 участников выбирали идеальные решения, но авторы 200 лучших решений получили призы от компании, рассказывают организаторы. Топ-200 выиграли футболки, тройка лучших – главные призы 400, 200 и 100 тыс. руб. А лучшие участники смогут стать специалистами по Data Science в «Мегафоне» и Mail.Ru Group.

Примечательно, что трое победителей нынешнего конкурса внесли в сумме более 200 коммитов.

Занявший 3-е место Сергей Лавриков предложил 49 решений, позволивших довести ему свои показатели регрессии до весьма высоких и ценных для компании 0.578 соответственно.

«Серебряный» призер Михаил Новиков достиг более высокого результата использовав при этом значительно меньшее количество попыток, всего 16.

Абсолютным же лидером Telecom Data Cup стал Сергей Старицын, который использовал для победы 149 попыток и был в группе лидеров на протяжении всего чемпионата. Победитель уже признался, что первый приз он потратит на отдых.

Андрей Уваров подчеркнул, что для «МегаФона» хакатон - это отличный способ генерации и проверки большого количества идей и гипотез целым data science сообществом:

- Мы можем проанализировать множество решений, сгенерированных большим количеством специалистов. К тому же мы привлекаем самых крутых и талантливых программистов к решению наших задач, показывая, что в телекоме есть задачи, влияющие на удовлетворение десятков миллионов клиентов. Хакатон – это проверка и нас, в том числе, насколько совершенны наши подходы. Бывает, ты смотришь на задачу замыленным глазом и не замечаешь какие-то решения, которые в состоянии реализовать сотни и даже тысячи Data Scientists со стороны. Результаты конкретно этого хакатона принесли несколько интересных инсайтов, а также подтвердили правильность наших разработок, поскольку были очень близки к тем, что выработали наши специалисты».

Компания постоянно работает с талантливыми IT-специалистами:

«Участие в хакатоне – это отличная возможность усовершенствовать свои профессиональные навыки, работая над решением реальных задач и сотрудничая с действующими экспертами из крупнейших компаний на IT рынке. После подобных хакатонов и мастер-классов к нам приходят устраиваться на работу ребята, которые уже понимают специфику задач, с которыми им придется столкнуться. Они мотивированы и вовлечены в телеком-отрасль. В этом году мы провели более 100 различный мероприятий, по итогам которых на работу пригласили 47 специалистов», – отметила директор по корпоративному развитию и управлению персоналом компании «МегаФон» Валентина Ватрак.

Впрочем, «нехватка Data Scientist наблюдается не только в телеком-отрасли и не только в России, но и во всем мире, - добавляет Андрей Уваров. - И если сравнивать ребят, которых готовят наши вузы, с их коллегами из Европы и Америки, то наши выпускники ничуть им не уступают, что не может не радовать. Обучать новых data scientist-ов и развивать скиллы анализа данных на реальных бизнес-задачах и призваны наши хакатоны».