Шерлок холмс в массиве данных: все о профессии аналитика big data
Содержание:
- The big benefits of big data analytics
- 19 бесплатных материалов
- «Анализ данных в R» — Stepik
- «Математика и Python для анализа данных» — Coursera
- «Как стать специалистом по Data Science» — Яндекс.Практикум
- «Машинное обучение и анализ данных» — Coursera
- «Введение в науку о данных» — Coursera
- «Что такое наука о данных» — Coursera
- 7 полезных видео на YouTube
- Полезные статьи: ТОП-6
- Структура и объем рынка больших данных
- Как стать аналитиком данных и где этому учат
- 4 вида аналитики данных для эффективного управления на практическом IIoT-примере
- Примеры использования Big Data
- Какие используются инструменты и технологии big data
- Что такое Big data?
- С чего начать?
- Примеры задач, эффективно решаемых при помощи MapReduce
- Какую роль играют личные качества в работе аналитика данных
- Самые важные инструменты аналитика
- Полезные ссылки
- Идеальный Data Scientist: кто он и как им стать
- Сколько зарабатывает дата аналитик
The big benefits of big data analytics
The ability to analyze more data at a faster rate can provide big benefits to an organization, allowing it to more efficiently use data to answer important questions. Big data analytics is important because it lets organizations use colossal amounts of data in multiple formats from multiple sources to identify opportunities and risks, helping organizations move quickly and improve their bottom lines. Some benefits of big data analytics include:
- Cost savings. Helping organizations identify ways to do business more efficiently
- Product development. Providing a better understanding of customer needs
- Market insights. Tracking purchase behavior and market trends
Read more about how real organizations reap the benefits of big data.
19 бесплатных материалов
Теперь перейдем к бесплатным материалам по аналитике данных, Machine Learning, Data Science и Big Data. Мы собрали лучшие курсы, статьи и видеоролики на YouTube.
С помощью бесплатных материалов вы освоите азы аналитики и поймете, подходит вам эта профессия или нет.
«Анализ данных в R» — Stepik
Трехнедельный курс в рамках которого вы узнаете основные этапы статистического анализа R, считывания данных, предобработки данных, визуализации результатов и применения основных статистических методов.
После завершения курса вы получите сертификат Stepik.
«Математика и Python для анализа данных» — Coursera
Обучающий курс на платформе Coursera. Проводится от партнеров: Московский физико-технический институт, E-Learning Development Fund и Яндекс.
После прохождения обучения вы получите сертификат. Примерное время прохождения: 29 часов.
«Как стать специалистом по Data Science» — Яндекс.Практикум
Обучающая программа от Яндекс.Практикум. Вы станете специалистом по Data Science: вы освоите основы Python и анализа данных, предобработку данных, статистический анализ данных.
Бесплатно доступен вводный курс. Стоимость полного обучения: 104 000 руб.
«Машинное обучение и анализ данных» — Coursera
Курс о машинном обучении и анализе данных. Типовые задачи Machine Learning и анализа данных и методы их решения.
Курс проводят партнеры Coursera: Яндекс, Московский физико-технический институт и E-Learning Development Fund.
После успешного прохождения курса вы получите сертификат.
«Введение в науку о данных» — Coursera
Курс, который поможет стать исследователем данных. Проводится от партнера Coursera компании IBM.
Приблизительное время прохождения: 4 месяца. Язык: английский. Есть русские субтитры.
«Что такое наука о данных» — Coursera
Курс на Coursera в партнерстве с IBM. Вы узнаете, что такое наука о данных.
Приблизительное время прохождения: 10 часов. В итоге вы получите сертификат.
7 полезных видео на YouTube
Также мы подготовили для вас подборку бесплатных видео на YouTube по Big Data, анализу данных и Data Science. Нашли полезных 7 роликов.
1) Видео от GeekBrains о том, что такое аналитика Big Data:
2) Все о Data Science: интервью со специалистом в этой области:
3) Интервью с создателем главного российского BigData-алгоритма Артуром Хачуяном:
4) Видео про зарплаты в Big Data:
5) Первый урок курса «Введение в Анализ Данных»:
6) Основы Python для Data Science — видео от Skillbox:
7) Видео о том, что такое Data Science:
Полезные статьи: ТОП-6
Подборка статей для самостоятельного изучения:
- Как стать экспертом в Data Science — Tproger.
- Обзор профессии Data Scientist — Блог компании «Нетология» на Habr.
- Что такое Big Data — Rusbase
- Big Data от А до Я — Habr
- Что такое аналитика данных — Oracle
- Можно без опыта: что нужно знать начинающему дата-аналитику — VC
Структура и объем рынка больших данных
В 2018 году объем глобального рынка Big Data и бизнес-аналитики (global big data and business analytics market) достиг 168,8 млрд долл. В соответствии с оценкой IDC, по итогам 2019 года объем глобального рынка больших данных увеличился на 12%, по сравнению с показателями предыдущего года, и достиг 189,1 млрд долл. Кроме того, в период 2018-2022 гг. предполагается рост рынка со среднегодовым темпом (CAGR) на уровне 13,2%. Таким образом, объем рынка может увеличиться до 274,3 млрд долл. к 2022 году.
ResearchAndMarkets прогнозирует возможные темпы роста глобального рынка Big data на уровне 19,7% ежегодно на период 2019-2025 гг.
Рис. 2. Динамика роста рынка больших данных, млрд долл.
В 2018 году выручка на рынке программного обеспечения больших данных составила 60,7 млрд долл. На конец 2019 года более половины выручки BDA обеспечили доходы, полученные от IT- и бизнес-сервисов – 77,5 млрд долл. и 20,7 млрд долл. соответственно. Размер выручки в сегменте аппаратного обеспечения составил около 23,7 млрд долл. Доход от программного обеспечения больших данных достиг 67,2 млрд долл. По данным IDC, ожидаемые темпы роста (CAGR) в период с 2018-2023 гг. в этом сегменте поднимутся до отметки в 12,5%.
Согласно исследованию Fortune Business Insights, объем глобального рынка технологий Big Datа, оцененный в 2018 году в 38,6 млрд долл., увеличится к 2026 году до 104,3 млрд долл., демонстрируя темпы роста (CAGR) на уровне 14% в период с 2019 по 2026 гг.
Рис. 3. Доля сегментов рынка в общем объеме выручки, %
По данным Grand View Research, к 2025 году глобальный рынок Big Data как услуги (global big data as a service (BDaaS)) достигнет 51,9 млрд долл., при этом CAGR составит 38,7% в период 2019-2025 гг.
География рынка Big Data
С географической точки зрения по результатам 2019 года наиболее крупным стал рынок США с объемом доходов в 100 млрд долл. Второе и третье место по объему заняли Япония (9,6 млрд долл.) и Великобритания (9,2 млрд долл). Также в пятерку крупнейших рынков вошли КНР (8,6 млрд долл.) и Германия (7,9 млрд долл.).
В Аргентине и Вьетнаме наблюдаются наиболее высокие показатели прироста за пятилетний период (CAGRs – 23,1% и 19,4%). Третье место по уровню CAGR занял Китай (19,2%), что к 2022 году может обеспечить выход этой страны на второе место по уровню доходов.
Рис. 4. Доля стран-лидеров в общем объеме рынка больших данных, %
Драйверами рынка больших данных и бизнес-аналитики выступают 5 отраслей, на которые, по оценке IDC, приходится около половины инвестиций (91,4 млрд долл.):
-
банковская сфера,
-
дискретное производство,
-
специализированные услуги,
-
непрерывное производство,
-
федеральное/центральное правительство.
При этом наибольший рост рынка в будущем обеспечат такие направления, как розничная торговля (15,2% CAGR), а также операции с ценными бумагами и инвестиционные услуги (15,3% CAGR).
Рис. 5. Инвестиции в технологии больших данных по отраслям, %
Крупнейшие поставщики на рынке больших данных
Согласно отчету Wikibon (2018 Big Data and Analytics Market Share Report), в 2018 году (по данным 2017 года) в пятерку крупнейших поставщиков решений на рынке Big Data вошли такие компании, как IBM, Splunk, Dell, Oracle и AWS. И, по данным исследования Global Big Data Market Forecast 2019-2027, проведенного Inkwoodresearch, в 2019 году эти компании сохранили свои позиции в качестве лидеров рынка.
Как стать аналитиком данных и где этому учат
67% специалистов по аналитике пришли в Data Science из других сфер. В основном это разработчики и маркетологи, но есть и неожиданные профессиональные бэкграунды: геммологи, звукорежиссеры и даже ядерные физики.
Чаще всего изучать аналитику начинают с профессиональной литературы, тематических статей, авторитетных блогов и профильных каналов в мессенджерах. В открытом доступе много теоретической информации, где можно собрать базовый пул теории и практики. И все же для первых самостоятельных шагов нужна система. Проще и быстрее погрузиться в практическую аналитику на образовательных курсах.
Роман Крапивинруководитель проектов, компания ООО «ИНТЭК»:
«В 2020 я задумался о смене профессии, поскольку пандемия коронавируса серьезно ударила по строительному бизнесу, где я работал руководителем проектов последние три года. Долго выбирал онлайн-курсы, хотел прокачать свои скилы в проектном управлении и пошел на курс Project Manager.
Поэтому я начал изучать Power BI, на котором научился визуализировать данные и получил первые знания для дальнейшей работы с аналитическими данными. Но тогда я понял, что для меня мало базовых основ аналитики. Поэтому для себя я открыл профессию Аналитик BI. И в настоящее время изучаю программу визуализации данных Tableau, программу для работы с базами данных SQL, прошел курс по аналитике больших данных (Big Data). К сожалению, на настоящем месте работы я не могу в полной мере применять аналитические знания и программы, которые я освоил. Поэтому задумался о смене профессии: хотел бы попробовать себя в финансовом секторе или крупном ритейле, чтобы погрузиться в мир аналитики».
Иван Натаровконсультант отдела развития предпринимательства Министерства экономического развития Приморского края:
«Будучи студентом магистратуры, проводил исследование инновационной экосистемы Приморского края, тогда познакомился с нейросетями и Data Science. Суть исследования заключалась в разработке алгоритма, основанного на нейросетях и теории нечеткого множества и нечеткой логики, который позволял бы давать объективную оценку инновационного развития региона. У нас это получилось, даже научную статью написали.
Параллельно я изучал Data Science и посетил форум «Открытые инновации» в 2019 году. Послушав экспертов, я понял, что влюбился в эту сферу.
Я люблю узнавать истории из данных, поэтому и выбрал направление аналитики данных.
Я все еще учусь, но почти за год прокачался в этом направлении довольно неплохо. Из инструментов, что я изучил, любимыми стали Python и Power BI, они смогли автоматизировать многие процессы в работе, активно чекаю их. Python больше использую для написания парсеров XML и HTML, Power BI — для предобработки данных и визуализации».
4 вида аналитики данных для эффективного управления на практическом IIoT-примере
Начнем с практического определения: аналитика данных – это процесс поиска системных закономерностей в массивах информации и интерпретации найденных фактов с целью получения важных для бизнеса сведений (инсайтов, insights), которые позволят оптимизировать деятельность: увеличить доход, сократить затраты или достичь других важных результатов .
Принято выделять 4 вида аналитики данных, отличающихся уровнем сложности работы с информацией и степенью человеческого участия :
- Описательная (дескриптивная), которая отвечает на вопрос «Что случилось?», создавая сводку исторических данных для их дальнейшего анализа. Например, непрерывный сбор информации с производственного оборудования с помощью smart-датчиков и других IoT/IIoT-устройств позволит точно идентифицировать момент сбоя в технологическом процессе.
- Диагностическая, которая анализирует информацию, чтобы ответить на вопрос «Почему это случилось?». Здесь используются статистические методы анализа данных с целью их кластеризации, классификации, детализации и обнаружения корреляции, чтобы выявить основные факторы влияния на результаты. В рассмотренном выше примере с промышленным интернетом вещей (Industrial Internet of Things, IIoT) диагностическая аналитика покажет, что авария случилась по причине выхода из строя модуля приемки сырья.
- Предписывающая (предписательная), которая отвечает на, пожалуй, главный управленческий вопрос «Что делать?». Здесь машинное обучение и другие методы искусственного интеллекта анализируют все накопленные и обработанные данные, чтобы найти наилучшие решения для конкретной ситуации. В рассматриваемом примере модуль предписывающей аналитики подскажет, какая именно деталь производственного оборудования больше всего износилась и как это исправить наиболее оптимальным с точки зрения экономики образом: заменить на новую или отремонтировать.
Аналитическая пирамида: от описательной к предписывающей аналитики данных
Примеры использования Big Data
Активное внедрение технологий Big Data на рынок и в современную жизнь началось как раз после того, как ими стали пользоваться всемирно известные компании, имеющие клиентов практически в каждой точке земного шара.
Это такие социальные гиганты, как Facebook и Google, IBM., а также финансовые структуры вроде Master Card, VISA и Bank of America.
К примеру, IBM применяет методы больших данных к проводимым денежным транзакциям. С их помощью было выявлено на 15% больше мошеннических транзакций, что позволило увеличить сумму защищенных средств на 60%. Также были решены проблемы с ложными срабатываниями системы – их число сократилось более, чем наполовину.
Компания VISA аналогично использовала Big Data, отслеживая мошеннические попытки произвести ту или иную операцию. Благодаря этому ежегодно они спасают от утечки более 2 млрд долларов США.
Министерство труда Германии сумело сократить расходы на 10 млрд евро, внедрив систему больших данных в работу по выдаче пособий по безработице. При этом было выявлено, что пятая часть граждан данные пособия получает безосновательно.
Big Data не обошли стороной и игровую индустрию. Так, разработчики World of Tanks провели исследование информации обо всех игроках и сравнили имеющиеся показатели их активности. Это помогло спрогнозировать возможный будущий отток игроков – опираясь на сделанные предположения, представители организации смогли более эффективно взаимодействовать с пользователями.
К числу известных организаций, использующих большие данные, можно также отнести HSBC, Nasdaq, Coca-Cola, Starbucks и AT&T.
Какие используются инструменты и технологии big data
Поскольку данные хранятся на кластере, для работы с ними нужна особая инфраструктура. Самая популярная экосистема — это Hadoop. В ней может работать очень много разных систем: специальных библиотек, планировщиков, инструментов для машинного обучения и многого другое. Но в первую очередь эта система нужна, чтобы анализировать большие объемы данных за счет распределенных вычислений.
Например, мы ищем самый популярный твит среди данных разбитых на тысяче серверов. На одном сервере мы бы просто сделали таблицу и все. Здесь мы можем притащить все данные к себе и пересчитать. Но это не правильно, потому что очень долго.
Поэтому есть Hadoop с парадигмами Map Reduce и фреймворком Spark. Вместо того, чтобы тянуть данные к себе, они отправляют к этим данным участки программы. Работа идет параллельно, в тысячу потоков. Потом получается выборка из тысячи серверов на основе которой можно выбрать самый популярный твит.
Map Reduce более старая парадигма, Spark — новее. С его помощью достают данные из кластеров, и в нем же строят модели машинного обучения.
Что такое Big data?
Большие данные — технология обработки информации, которая превосходит сотни терабайт и со временем растет в геометрической прогрессии.
Такие данные настолько велики и сложны, что ни один из традиционных инструментов управления данными не может их хранить или эффективно обрабатывать. Проанализировать этот объем человек не способен. Для этого разработаны специальные алгоритмы, которые после анализа больших данных дают человеку понятные результаты.
В Big Data входят петабайты (1024 терабайта) или эксабайты (1024 петабайта) информации, из которых состоят миллиарды или триллионы записей миллионов людей и все из разных источников (Интернет, продажи, контакт-центр, социальные сети, мобильные устройства). Как правило, информация слабо структурирована и часто неполная и недоступная.
С чего начать?
Если вы понимаете, что специалист по анализу данных — это профессия вашей мечты, стоит подробнее изучить путь, который придется проделать.
Для начала обучения вам достаточно изучить Excel: знать, что такое сводные таблицы и как работают функции. Полезно также подтянуть знания по статистике, SQL и Python. Это можно сделать с помощью бесплатных курсов или тренажеров.
Курс
Профессия «Аналитик данных»
Освойте перспективную профессию с нуля: научитесь собирать и организовывать данные, делать выводы на основе их анализа и помогать бизнесу работать эффективнее.
- 20% теории и 80% практики
- Постоянный контакт с преподавателями
- Подготовка к трудоустройству
Узнать больше
Промокод “BLOG” +5% скидки
Примеры задач, эффективно решаемых при помощи MapReduce
Word Count
Начнём с классической задачи – Word Count. Задача формулируется следующим образом: имеется большой корпус документов. Задача – для каждого слова, хотя бы один раз встречающегося в корпусе, посчитать суммарное количество раз, которое оно встретилось в корпусе.
Решение:
Раз имеем большой корпус документов – пусть один документ будет одной входной записью для MapRreduce–задачи. В MapReduce мы можем только задавать пользовательские функции, что мы и сделаем (будем использовать python-like псевдокод):
Функция map превращает входной документ в набор пар (слово, 1), shuffle прозрачно для нас превращает это в пары (слово, ), reduce суммирует эти единички, возвращая финальный ответ для слова.
Обработка логов рекламной системы
Задача: имеется csv-лог рекламной системы вида:
Решение:
Функция map проверяет, нужна ли нам данная запись – и если нужна, оставляет только нужную информацию (город и размер платежа). Функция reduce вычисляет финальный ответ по городу, имея список всех платежей в этом городе.
Какую роль играют личные качества в работе аналитика данных
Сегодня профессия аналитика данных предусматривает не только наличие способностей к таким наукам, как математика, логика и программирование. Не менее важным в этой профессии считается наличие личных качеств:
- аналитического склада ума;
- внимательности;
- терпеливости;
- настойчивости;
- целеустремленности;
- готовности к преодолению препятствий;
- умения просто излагать сложные вещи;
- интуиции.
Аналитику важно уметь видеть поставленную задачу с разных сторон, особенно тех, которые не видны при традиционном подходе. Понимать влияние человеческого и бизнес факторов на внедрение новых решений
Самые важные инструменты аналитика
Достичь всего этого можно с помощью инструментов, которыми должен владеть каждый аналитик.
Ключевые инструменты: языки программирования, умение работать с базами данных, математической статистикой и средствами визуализации.
Среди языков программирования самые популярные Python и SQL. SQL — это не совсем язык программирования, это язык структурированных запросов. Но знать его просто необходимо, так как в 80% случаев информация, с которой приходится работать аналитикам, находится в базах данных. Достать её оттуда можно как с помощью SQL.
Python же — более универсальное средство, которое позволяет вам оперировать данными и делать с ними вообще всё, что угодно. Знание Python не является обязательным для того, чтобы начать работать аналитиком, но оно очень сильно повышает ваши возможности в анализе данных, поэтому я убежден, что знать этот язык просто необходимо, чтобы конкурировать на рынке труда.
Самое популярное средство визуализации — Tableau. Но он очень дорогой и позволить его себе могут только крупные столичные или международные компании.
Доступный аналог табло — Power BI. Это бесплатный продукт Microsoft, похожий на Excel. Его мы тоже изучаем на наших курсах. Существуют и другие системы визуализации. Мы в Skyeng используем не одну, а сразу несколько. Чем больше инструментов у аналитика, тем лучше.
Кроме того, аналитику потребуются математические и статистические инструменты. Очень многое из статистики придумали психологи: если нужно доказать какой-то психологический эффект, требуется собрать выборку, провести тест и математически доказать эффект.
При работе с людьми измерения проводить сложно, приходится прибегать к методам математического моделирования и статистике. Так что аналитикам, как и психологам, нужно хорошо разбираться в том, как понять, можно ли считать наблюдаемый эффект случайным, или всё же можно говорить о какой-то закономерности.
Полезные ссылки
- бесплатные курсы: Основы статистики;
- тренажеры: SQL;
- полезные материалы по продуктовой аналитике от команды МатеМаркетинга;
- чат с вакансиями в сфере анализа данных;
- канал с полезными материалами про работу с данными.
Артем Боровой: На мой взгляд, самый удобный путь — начать применять инструменты аналитика в своей текущей работе. Можно постепенно изучать языки и программы, а потом использовать их для своих задач. Конечно, не у всех может быть доступ к данным по месту работы, но для таких случаев есть площадки для самостоятельного обучения. Онлайн-курсы в этом плане проще и удобнее, так как человеку не нужно самому отбирать информацию, они помогают пройти по всем важным пунктам, дают материал в нужном темпе, погружают в комьюнити.
Идеальный Data Scientist: кто он и как им стать
Специалист по анализу данных может работать в отраслях, где актуальны принятие решений на основе данных, оцифровка и моделирование бизнес-процессов. То есть практически в любой отрасли. Активнее других этих специалистов ищут ИТ-компании, предприятия финансового сектора и сферы услуг для бизнеса.
Освоить базовые навыки работы с данными может практически любой человек, обладающий минимальными знаниями в высшей математике и программировании. При этом для новичков появляется все больше средств автоматического машинного обучения и конструирования архитектур, которые можно использовать без специализированных знаний в отрасли. Все, что нужно, — правильно настроить готовую модель для решения конкретной задачи и применения ее не специалистами машинного обучения. Она сама будет определять функцию потерь и визуализировать метрики качества, параметры производительности и другие показатели. На выходе получается обученная модель с анализом ее производительности на представленных данных.
Но чтобы стать действительно высококлассным специалистом, нужно копать глубже.
Знания и умения
Основы математической статистики, линейной алгебры, математического анализа и программирования — необходимая база для того, чтобы вырасти в хорошего специалиста по анализу данных. Так что если человек задумался о карьере в этой области до поступления в вуз, стоит выбрать университет, где можно получить эти знания.
Экономика образования
Как выбрать профессию, когда ее сменить и почему это важно
Также важно понимать, как устроена сфера, какие задачи и модели сегодня особенно актуальны, определиться, с каким типом данных интереснее работать, оценить ситуацию на рынке — выяснить, какие специалисты нужны бизнесу. Например, не так давно больше всего вакансий было в области компьютерного зрения, а сегодня уже на пике популярности обработка текстов
Завтра, вероятно, лидерство захватят графовые нейронные сети и рекомендательные системы. Все меняется очень быстро, поэтому идеальный вариант — не зацикливаться на одной области, ведь чем больше разнообразных задач способен решать специалист по работе с данными, тем больше он востребован.
Компетенции, необходимые специалисту в области больших данных, можно разделить на две большие группы: профессиональные и надпрофессиональные. К первым относятся такие навыки, как:
- инжиниринг данных (Data Engineering);
- поддержка инфраструктуры;
- внедрение моделей и поддержание их жизненного цикла;
- оценка рисков;
- понимание целей внедрения продукта;
- оценка экономического эффекта от внедрения продукта;
- умение быстро прототипировать решения.
Помимо этого, хорошего специалиста отличают: стремление постоянно углублять и актуализировать свои знания в соответствии с потребностями бизнеса и способность переключаться на новые задачи и методы.
Экономика образования
Пять ключевых soft skills для программиста
Часто переквалифицироваться на работу с большими данными хотят специалисты с опытом работы в других областях ИТ. Для них кратчайшим путем будут образовательные проекты крупных компаний.
Совет тем, кто мечтает о карьере специалиста по анализу данных: помните, что от вашей активности и организованности зависит гораздо больше, чем от выбора места обучения. Необходимы желание достигать результат, любопытство и целеустремленность, а также объединяющая всех специалистов по искусственному интеллекту вера в то, что вы меняете жизнь к лучшему.
Сколько зарабатывает дата аналитик
Профессия биг дата аналитик сегодня востребована. Управленцы для развития бизнеса все чаще прибегают новым технологиям, а для их применения нужны соответствующие специалисты. Еще в 2017 году профессия аналитика (Data Scientist и Data Analyst) вошла в десятку лучших профессий по версии агентства Glassdoor.
По данным компании Mail.ru Group, месячный оклад такого специалиста в РФ варьируется в диапазоне от 73 000 (начинающего) до 200 000 рублей (профи). Аналитик в США в среднем зарабатывает от $100 000 за год. Это зависит от опыта и уровня квалификации.
По прогнозам кадровиков, спрос на аналитиков Big Data в ближайшем будущем только возрастет. Чтобы стать такого уровня аналитиком, придется много учиться и усердно работать над улучшением выше перечисленных навыков и приобретением новых.