Курс "20775 Обработка данных с Microsoft HDInsight (20775 Performing Data Engineering on Microsoft HD Insight)"

Код: 20775
Специализация: Microsoft SQL Server 2016

Продолжительность - 5 дней

Расписание:
30 сентября 2024 года (Москва)        

Стоимость:  37 500 руб.  

Курс «20775 Обработка данных с Microsoft HDInsight» даст слушателям знания и навыки, необходимые для работы с массивами больших данных, планирования и внедрения рабочих потоков с помощью HDInsight.

Аудитория: Курс ориентирован на инженеров, архитекторов, специалистов по подготовке данных, а также разработчиков, желающих использовать HDInsight и язык R в своих проектах.

Рекомендуемый уровень подготовки:

Успешное окончание курсов 20774 Облачная аналитика больших данных (Big Data) при помощи машинного обучения в Azure и 20767 Разработка и эксплуатация хранилищ данных на SQL Server 2016

Прослушав данный курс, Вы научитесь:

  • описывать Hadoop, MapReduce, HDInsight;
  • описывать типы кластеров HDInsight;
  • описывать создание, управление и удаление кластеров HDInsight с помощью PowerShell;
  • описывать, как разрешать доступ пользователей к объектам;
  • описывать конфигурации и архитектуру хранилища HDInsight;
  • проводить мониторинг ресурсов с Operations management suite;
  • выполнять запросы с Hive и Pig;
  • описывать использование ETL и Spark;
  • внедрять интерактивные запросы;
  • выполнять интерактивную обработку данных с помощью Apache Phoenix;
  • управлять задачами потоковой аналитики;
  • создавать приложения для обработки структурированных потоков в Spark;
  • использовать потоковые данные в Storm;
  • объяснять, как работает язык R;
  • преобразовывать и очищать наборы данных.

Программа курса

Модуль 1. Начало работы с HDInsight

  • Большие данные
  • Hadoop
  • MapReduce
  • HDInsight
  • Лабораторная работа: Запросы к большим данным

Модуль 2. Развертывание кластеров HDInsight

  • Типы кластеров HDInsight
  • Управление кластерами HDInsight
  • Управление кластерами HDInsight с помощью PowerShell
  • Лабораторная работа: Управление кластерами HDInsight в Azure

Модуль 3. Авторизация пользователей для доступа к ресурсам

  • Недоменные кластеры
  • Настройка кластера HDInsight, подключенного к домену
  • Управление подключенным к домену кластером HDInsight
  • Лабораторная работа: Авторизация пользователей для доступа к ресурсам

Модуль 4. Загрузка данных в HDInsight

  • Хранилище HDInsigh
  • Средства загрузки данных
  • Производительность и надёжность
  • Лабораторная работа: Загрузка данных в HDInsight

Модуль 5. Поиск и устранение неисправностей в HDInsight

  • Анализ журналов
  • Журналы YARN
  • Дампы кучи (Heap)
  • Operations management suite
  • Лабораторная работа: Поиск и устранение неисправностей в HDInsight

Модуль 6. Внедрение пакетных решений

  • Хранилище Apache Hive
  • Запросы с Hive и Pig
  • Подключение HDInsight
  • Лабораторная работа: Резервное копирование баз данных SQL Server

Модуль 7. Проектирование пакетных решений ETL для больших данных с помощью Spark

  • Что такое Spark?
  • ETL и Spark
  • Производительность Spark
  • Лабораторная работа: Проектирование пакетных решений ETL для больших данных с помощью Spark

Модуль 8. Анализ данных со Spark SQL

  • Внедрение интерактивных запросов
  • Проведение исследовательского анализа данных
  • Лабораторная работа: Анализ данных со Spark SQL

Модуль 9. Анализ данных с помощью Hive и Phoenix

  • Внедрение интерактивных запросов для больших данных с помощью Hive
  • Проведение исследовательского анализа данных с помощью Hive
  • Выполнение интерактивной обработки данных с помощью Apache Phoenix
  • Лабораторная работа: Анализ данных с помощью Hive и Phoenix

Модуль 10. Потоковая аналитика

  • Потоковая аналитика
  • Обработка потоковых данных из потоковой аналитики
  • Управление задачами потоковой аналитики
  • Лабораторная работа: Внедрение потоковой аналитики

Модуль 11. Spark Streaming и DStream API

  • Обзор когнитивных служб
  • DStream
  • Создание приложений для обработки структурированных потоков в Spark
  • Стабильность и визуализация
  • Лабораторная работа: Использование DStream API для создания приложений Spark Streaming

Модуль 12. Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm

  • Долгохранимые данные
  • Потоковые данные в Storm
  • Создание топологии Storm
  • Настройка Apache Storm
  • Лабораторная работа: Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm

Модуль 13. Анализ данных с помощью Spark SQL

  • Внедрение интерактивных запросов
  • Проведение исследовательского анализа данных
  • Лабораторная работа: Использование R-сервисов машинного обучения

В конце обучения на курсе проводится итоговая аттестация в виде теста или на основании оценок за практические работы, выполненных в процессе обучения


Microsoft SQL Server 2016 — мощная и безопасная система управления базами данных, готовая к работе в самых важных и бизнес-приложениях, высокого уровня, позволяющая сокращать финансовые затраты на сервис систем и производство новых приложений.

SQL Server 2016 обеспечивает рекордную производительность благодаря новым технологиям работы с памятью, что поможет заказчикам ускорить свой бизнес и реализовать новые сценарии работы.

Кроме того, SQL Server 2016 позволяет использовать новые гибридные облачные решения. Это позволит воспользоваться новыми преимуществами облачных вычислений. Например в таких сценариях как резервное копирование в облако и аварийное восстановление локально установленного SQL Server.

SQL Server 2016 предлагает лучшие возможности в отрасли бизнес-аналитики благодаря интеграции с такими привычными инструментами, как Excel и Power BI для Office 365.

Основные нововведения включают:

  • Поддержка in-memory OLTP (Hekaton). SQL Server 2016 обладает возможностью размещения таблиц и хранимых процедур в оперативной памяти, что позволит добиться существенного выигрыша в производительности транзакционных приложений.
  • Обновляемые колоночные индексы. Колоночные индексы используются, в основном, в аналитических приложениях. Они позволяют значительно ускорить выполнение запросов по схемам данных, характерных для OLAP (звезда, снежинка). В версии 2016 это ограничение снято, и колоночные индексы получат возможность обновляться при внесении изменений в данные, как традиционные индексы.
  • Новый тип управляемого ресурса в Resource Governor. Регулятор ресурсов используется для разделения вычислительных мощностей компьютера между различными приложениями, обращающимися к SQL Server, что дает возможность приоритезировать нагрузку, а также гарантирует, что приложение не выйдет за пределы назначенных ему ресурсов, забирая на себя все, что выделено серверу баз данных. Это позволяет обеспечить предсказуемую работоспособность. В предыдущих версиях к ресурсам относились память и процессорное время, ввод-вывод.
  • Улучшенная отказоустойчивость. Группа высокой доступности AlwaysOn теперь включает 8 вторичных реплик (против 4-х в предыдущей версии).
  • Интеграция с Облаком. Возможность размещать в Windows Azure файлы БД большого размера для on-premise SQL Server, а также выполнять в Windows Azure резервное копирование, в том числе с новыми возможностями шифрования.

Страница сайта http://185.71.96.61
Оригинал находится по адресу http://185.71.96.61/iservices/training.asp?iId=385968