Курс "20775 Обработка данных с Microsoft HDInsight (20775 Performing Data Engineering on Microsoft HD Insight)"

Код: 20775
Специализация: Microsoft SQL Server 2016

Продолжительность - 5 дней

Производится набор группы

Стоимость:

45 000 руб.

Курс «20775 Обработка данных с Microsoft HDInsight» даст слушателям знания и навыки, необходимые для работы с массивами больших данных, планирования и внедрения рабочих потоков с помощью HDInsight.

Аудитория: Курс ориентирован на инженеров, архитекторов, специалистов по подготовке данных, а также разработчиков, желающих использовать HDInsight и язык R в своих проектах.

Рекомендуемый уровень подготовки:

Успешное окончание курсов 20774 Облачная аналитика больших данных (Big Data) при помощи машинного обучения в Azure и 20767 Разработка и эксплуатация хранилищ данных на SQL Server 2016

Прослушав данный курс, Вы научитесь:

описывать Hadoop, MapReduce, HDInsight;
описывать типы кластеров HDInsight;
описывать создание, управление и удаление кластеров HDInsight с помощью PowerShell;
описывать, как разрешать доступ пользователей к объектам;
описывать конфигурации и архитектуру хранилища HDInsight;
проводить мониторинг ресурсов с Operations management suite;
выполнять запросы с Hive и Pig;
описывать использование ETL и Spark;
внедрять интерактивные запросы;
выполнять интерактивную обработку данных с помощью Apache Phoenix;
управлять задачами потоковой аналитики;
создавать приложения для обработки структурированных потоков в Spark;
использовать потоковые данные в Storm;
объяснять, как работает язык R;
преобразовывать и очищать наборы данных.

Программа курса

Модуль 1. Начало работы с HDInsight

Большие данные
Hadoop
MapReduce
HDInsight
Лабораторная работа: Запросы к большим данным

Модуль 2. Развертывание кластеров HDInsight

Типы кластеров HDInsight
Управление кластерами HDInsight
Управление кластерами HDInsight с помощью PowerShell
Лабораторная работа: Управление кластерами HDInsight в Azure

Модуль 3. Авторизация пользователей для доступа к ресурсам

Недоменные кластеры
Настройка кластера HDInsight, подключенного к домену
Управление подключенным к домену кластером HDInsight
Лабораторная работа: Авторизация пользователей для доступа к ресурсам

Модуль 4. Загрузка данных в HDInsight

Хранилище HDInsigh
Средства загрузки данных
Производительность и надёжность
Лабораторная работа: Загрузка данных в HDInsight

Модуль 5. Поиск и устранение неисправностей в HDInsight

Анализ журналов
Журналы YARN
Дампы кучи (Heap)
Operations management suite
Лабораторная работа: Поиск и устранение неисправностей в HDInsight

Модуль 6. Внедрение пакетных решений

Хранилище Apache Hive
Запросы с Hive и Pig
Подключение HDInsight
Лабораторная работа: Резервное копирование баз данных SQL Server

Модуль 7. Проектирование пакетных решений ETL для больших данных с помощью Spark

Что такое Spark?
ETL и Spark
Производительность Spark
Лабораторная работа: Проектирование пакетных решений ETL для больших данных с помощью Spark

Модуль 8. Анализ данных со Spark SQL

Внедрение интерактивных запросов
Проведение исследовательского анализа данных
Лабораторная работа: Анализ данных со Spark SQL

Модуль 9. Анализ данных с помощью Hive и Phoenix

Внедрение интерактивных запросов для больших данных с помощью Hive
Проведение исследовательского анализа данных с помощью Hive
Выполнение интерактивной обработки данных с помощью Apache Phoenix
Лабораторная работа: Анализ данных с помощью Hive и Phoenix

Модуль 10. Потоковая аналитика

Потоковая аналитика
Обработка потоковых данных из потоковой аналитики
Управление задачами потоковой аналитики
Лабораторная работа: Внедрение потоковой аналитики

Модуль 11. Spark Streaming и DStream API

Обзор когнитивных служб
DStream
Создание приложений для обработки структурированных потоков в Spark
Стабильность и визуализация
Лабораторная работа: Использование DStream API для создания приложений Spark Streaming

Модуль 12. Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm

Долгохранимые данные
Потоковые данные в Storm
Создание топологии Storm
Настройка Apache Storm
Лабораторная работа: Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm

Модуль 13. Анализ данных с помощью Spark SQL

Внедрение интерактивных запросов
Проведение исследовательского анализа данных
Лабораторная работа: Использование R-сервисов машинного обучения

В конце обучения на курсе проводится итоговая аттестация в виде теста или на основании оценок за практические работы, выполненных в процессе обучения

Microsoft SQL Server 2016 — мощная и безопасная система управления базами данных, готовая к работе в самых важных и бизнес-приложениях, высокого уровня, позволяющая сокращать финансовые затраты на сервис систем и производство новых приложений.

SQL Server 2016 обеспечивает рекордную производительность благодаря новым технологиям работы с памятью, что поможет заказчикам ускорить свой бизнес и реализовать новые сценарии работы.

Кроме того, SQL Server 2016 позволяет использовать новые гибридные облачные решения. Это позволит воспользоваться новыми преимуществами облачных вычислений. Например в таких сценариях как резервное копирование в облако и аварийное восстановление локально установленного SQL Server.

SQL Server 2016 предлагает лучшие возможности в отрасли бизнес-аналитики благодаря интеграции с такими привычными инструментами, как Excel и Power BI для Office 365.

Основные нововведения включают:

Поддержка in-memory OLTP (Hekaton). SQL Server 2016 обладает возможностью размещения таблиц и хранимых процедур в оперативной памяти, что позволит добиться существенного выигрыша в производительности транзакционных приложений.
Обновляемые колоночные индексы. Колоночные индексы используются, в основном, в аналитических приложениях. Они позволяют значительно ускорить выполнение запросов по схемам данных, характерных для OLAP (звезда, снежинка). В версии 2016 это ограничение снято, и колоночные индексы получат возможность обновляться при внесении изменений в данные, как традиционные индексы.
Новый тип управляемого ресурса в Resource Governor. Регулятор ресурсов используется для разделения вычислительных мощностей компьютера между различными приложениями, обращающимися к SQL Server, что дает возможность приоритезировать нагрузку, а также гарантирует, что приложение не выйдет за пределы назначенных ему ресурсов, забирая на себя все, что выделено серверу баз данных. Это позволяет обеспечить предсказуемую работоспособность. В предыдущих версиях к ресурсам относились память и процессорное время, ввод-вывод.
Улучшенная отказоустойчивость. Группа высокой доступности AlwaysOn теперь включает 8 вторичных реплик (против 4-х в предыдущей версии).
Интеграция с Облаком. Возможность размещать в Windows Azure файлы БД большого размера для on-premise SQL Server, а также выполнять в Windows Azure резервное копирование, в том числе с новыми возможностями шифрования.

Страница сайта http://185.71.96.61
Оригинал находится по адресу http://185.71.96.61/iservices/training.asp?iId=385968