Data Scientist

Data Scientist специализируется на обработке, анализе и хранении больших объемов данных, называемых «большими данными».
Адекватная профессия для тех, кто интересуется физикой, математикой и информатикой.

Наука о данных: наука о данных при пересечении нескольких дисциплин: математика и статистика; информатика и информатика; Бизнес и экономика (С.Мальцев, В.Корнилов, НИУ ВШЭ) Профессия новая, важная и чрезвычайно перспективная. Термин «большие данные» зарекомендовал себя в 2008 году.

Профессия ученого данных, Data Scientist, была официально зарегистрирована как академическая и междисциплинарная дисциплина в начале 2010 года. Хотя первое упоминание о термине «наука о данных» было отмечено в книге Питера Наура 1974 года, контекст отличается , Потребность в такой профессии была продиктована тем фактом, что когда речь идет об Ультра больших данных, массивы данных слишком велики для обработки стандартными математическими статистическими инструментами. Ежедневно тысячи петабайт (10 15 байтов = 1024 терабайт) информации проходят через корпоративные серверы по всему миру. В дополнение к этим объемам данных проблема осложняется ее неоднородностью и высокой частотой обновления. Массивы данных делятся на 3 типа: структурированные (например, данные кассовых аппаратов на рынке); полуструктурированные (сообщения электронной почты); не структурирован (видео файлы, изображения, фотографии). Большинство больших данных данных не структурированы, что делает процесс очень сложным. Индивидуально статистик, системный аналитик или бизнес-аналитик не может решить проблемы с такими данными. Это требует человека с междисциплинарным опытом, знатоком математики и статистики, экономики и бизнеса, информатики и информатики.  Основной задачей Data Scientist является возможность получения необходимой информации из множества различных источников, используя поток информации в режиме реального времени; устанавливать скрытые шаблоны в таблицах данных и анализировать их статистически, чтобы принимать правильные бизнес-решения. Работа этого специалиста - не 1 компьютер или 1 сервер, а группа серверов.

Характеристика профессии При работе с данными Data Scientist использует несколько методов: статистические методы; моделирование баз данных; методы добычи; приложения искусственного интеллекта для работы с данными; Проектирование баз данных и методы разработки. Должностные обязанности data scientist зависят от сферы его деятельности, но общий перечень функций выглядит следующим образом: сбор данных из разных источников для последующей оперативной обработки; анализ поведения потребителей; моделирование клиентской базы и персонализация продуктов; анализ эффективности внутренних процессов базы; анализ различных рисков; выявление возможного мошенничества по изучению сомнительных операций; составление периодических отчетов с прогнозами и презентацией данных. Data Scientist, как настоящий учёный, занимается не только сбором и анализом данных, но и изучает их в разных контекстах и под разными углами, подвергая сомнению любые предположения. Ключевым качеством компьютерного эксперта является способность видеть логические связи в системе собираемой информации и разрабатывать эффективные бизнес-решения на основе количественного анализа. В современном конкурентном и ускоряющемся мире, в растущем потоке информации, Data Scientist незаменим для управления, чтобы принимать правильные бизнес-решения. Преимущества и недостатки профессии  По данным McKinsey Global Institute к 2018 г. только в США потребуется более 190 тысяч Data Scientist. Поэтому такие быстрые и широко финансируемые и развитые факультеты в самых престижных университетах для подготовки специалистов по данным. Запрос на Data Scientist также растет в России.

Высокая профессия Необходимость постоянного развития, не отставая от развития информационных технологий, создания новых методов обработки, анализа и хранения данных. Потребители Не каждый сможет освоить этот курс, вам нужно особое мышление. При этом общеизвестные методы и более 60% идей могут не сработать. Многие решения неустойчивы, и вы должны быть очень терпеливы, чтобы получить удовлетворительные результаты. Ученый не имеет права говорить «НЕТ!». Он должен найти способ решить проблему. Место работы Data Scientist занимают ключевые позиции в: технологических отраслях (системы автонавигации, производство лекарств и т.д.); Сфера IT (оптимизация результатов поиска, спам-фильтр, систематизация новостей, автоматический перевод текстов и многое другое); медицина (автоматическая диагностика заболеваний); (принятие решения о кредитовании) и т.д .; телекомпании; крупные торговые сети; кампания.  Ключевые особенности аналитического мышления; тяжелая работа; выносливость; точность, аккуратность, способность внимания к завершению исследования, несмотря на неудавшиеся навыки межличностного общения; умение объяснять сложные вещи простыми словами бизнес-интуиции. Профессиональные знания и навыки: знание математики, матанализа, математической статистики, теории вероятностей; знание английского языка; владение основными языками программирования, у которых имеются компоненты для работы с большими массивами данных: Java (Hadoop), C ++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy); владение статистическими инструментами — SPSS, R, MATLAB, SAS Data Miner, Tableau; основательное знание отрасли, в которой работает data scientist; если это фармацевтическая отрасль, то необходимо знание основных процессов производства, компонентов лекарств; главный базовый навык специалиста по data scientist - организация и администрация кластерных систем хранения больших массивов данных; знание законов развития бизнеса; экономические знания. Как и в любой профессии, самообразование важно, несомненные преимущества получат такие ресурсы, как: интернет-курсы ведущих университетов мира COURSERA; МАШИНСКИЙ УЧЕБНЫЙ канал машинного обучения; составление курсов edX; Курсы Udacity;

Курсы данных, где вы можете стать настоящим профессионалом в области науки о данных; 6-ступенчатые курсы Datacamp; O'Reilly Обучающие видео; кадры для начинающих и продвинутых данных оригами; трехмесячная конференция специалистов для встреч участников московских данных; Конкурс на анализ данных Kaggle.som Зарплата Профессия Data Scientist - одна из самых высоких зарплат. Информация с сайта hh.ru - ежемесячная оплата варьируется от 8,5 до 9000 долларов. В США зарплата этого специалиста колеблется от 110 000 до 140 000 долларов в год. Согласно опросу исследовательского центра Superjob, специалисты Data Scientists получают зарплату в зависимости от опыта работы, ответственности и региона. Начинающего специалиста можно ожидать 70 тысяч рублей. В москве и 57 тыс. Руб. в питере. При профессиональном опыте до 3 лет зарплата увеличивается до 110 000 руб. в москве и 90000 рублей. в питере. Для опытных специалистов с научными публикациями вознаграждение может достигать 220 000 рублей. в Москве и 180 000 рублей. в питере. Карьерные шаги и перспективы Профессия Data Scientist сама по себе является большим успехом, который требует серьезных теоретических знаний и практического опыта работы с разными профессиями. В каждой организации такой специалист является ключевой фигурой. Для достижения этого роста, необходимо упорно трудиться и целенаправленное и непрерывное улучшение во всех областях, которые являются основой профессии. Интересные факты о шутливой профессии Data Scientist: это программа, которая работает лучше любого статистика и знает статистику лучше, чем любой программист. И в бизнес-процессах вы понимаете лучше, чем руководитель компании. ЧТО ТАКОЕ «БОЛЬШИЕ ДАННЫЕ» в реальных числах? Каждые два дня объем данных увеличивается на объем информации, созданной человечеством с рождения Христа до 2003 года. За последние 2 года отображалось 90% всех существующих данных. К 2020 году объем информации увеличится с 3,2 до 40 зетабайт. 1 байт = 10 21 байт. За одну минуту в Facebook было отправлено 200 000 фотографий, отправлено 205 миллионов писем и опубликовано 1,8 миллиона.

В секунду Google обрабатывает 40 000 поисковых запросов. Общий объем данных в каждом секторе удваивается каждые 1,2 года. К 2020 году рынок услуг Hadoop увеличится до 50 миллиардов долларов. К 2015 году в США было создано 1,9 миллиона рабочих мест для профессионалов, работающих над крупными проектами. Технологии больших данных увеличивают выгоду розничных сетей на 60% в год. Прогнозируется, что объем рынка больших данных в 2020 году увеличится до 68,7 млрд долларов против 28,5 млрд долларов в 2014 году. Несмотря на такие положительные темпы роста, в прогнозах также есть ошибки. Например, одна из самых паршивых ошибок 2016 года: прогнозы о президентских выборах в США не оправдались. Прогнозы были представлены знаменитыми Data Scientist США Нейт Сильвером, Керк Борном и Биллом Шмарзо в пользу Хиллари Клинтон. В предыдущих избирательных кампаниях они давали точные прогнозы и никогда не допускали ошибок. Например, в этом году Нейт Сильвер дала точный прогноз на 41 штат, но ошиблась для 9 штатов, что привело к победе Трампа. Проанализировав причины ошибок 2016 года, они пришли к выводу, что: Математические модели объективно отображают изображение во время их создания. Но у них есть период полураспада, в конце которого ситуация может кардинально измениться. Предсказанные свойства модели со временем уменьшаются. В этом случае, например, служебные проступки, неравенство в доходах и другие социальные нарушения играли важную роль.

Поэтому модель должна регулярно корректироваться, чтобы отражать новые данные. Это не сделано. Вы должны искать и учитывать дополнительные данные, которые могут оказать существенное влияние на прогнозы. Таким образом, при просмотре видеороликов о митингах в кампании Клинтона и Трампа общее количество собраний не учитывалось. Там было около ста человек. Оказалось, что было 400-600 человек в пользу Трампа, и только 150-200 в пользу Клинтона, что повлияло на результаты.

Математические модели в избирательных кампаниях основаны на демографических данных: возраст, раса, пол, доход, социальный статус и т. Д. Вес каждой группы зависит от того, как они проголосовали на последних выборах. Этот прогноз точен на 3-4% и надежно работает с большим разрывом между кандидатами. Но в этом случае разница между Клинтоном и Трампом была небольшой, и эта ошибка оказала значительное влияние на результаты выборов. Нерациональное поведение людей не учитывалось. Опросы общественного мнения создают иллюзию, что люди будут голосовать, когда они ответили на выборы. Но иногда они делают наоборот. В данном случае следовало бы дополнительно провести аналитику лица и речи, чтобы выявить недобросовестное отношение к голосованию. Таким образом, в целом ошибочный прогноз был обусловлен небольшой разницей между кандидатами. В случае большой дыры эти ошибки не будут столь критичными. Видео: Новая специализация больших данных - Михаил Левин

Цель этого ресурса
– помочь вам
сделать выбор.