Данный курс знакомит слушателей с понятием больших данных (Big Data), технологиями, используемыми для обработки больших данных и решениями Oracle в этой области. Слушатели научатся использовать платформу Oracle Big Data Appliance для обработки больших данных и получат практический опыт использования Oracle Big Data Lite VM, узнают, как получать необработанные («сырые») данные из различных источников и использовать HDFS и базу данных Oracle NoSQL для хранения данных. Слушатели познакомятся с опциями интеграции данных, доступных в Oracle Big Data. Эти опции включают коннекторы для перемещения данных из и в базу данных Oracle, Oracle Data Integrator и Oracle GoldenGate для Big Data, которые обеспечивают возможность синхронизации и интеграции для объединения реляционных данных и данных в Hadoop, а также Oracle Big Data SQL, который предоставляет динамический доступ ко всем большим данным, хранимым в HDFS, NoSQL или Oracle DataBase.Кроме этого, слушатели узнают, как анализировать большие данные с помощью Oracle Big Data SQL, Oracle Advance Analytics и Oracle Big Data Spatial and Graph
Категория Слушателей: Разработчики приложений, Разработчики баз данных, Администраторы баз данных, Аналитики хранилищ данных, Менеджеры проектов
Предварительная подготовка: Знание основ базы данных Oracle и базового администрирования Oracle Databa
ТЕМЫ КУРСА
- Понятие больших данных
- Решение Oracle для интеграции больших данных и их компоненты
- Знакомство с дистрибутивом Cloudera для Hadoop, компонентами его ядра и экосистемой Hadoop
- Использование распределенной файловой системы - Hadoop Distributed File System (HDFS)
- Получение больших данных с помощью интерфейса командной строки, Flume, и Oracle NoSQL Database.
- Обработка больших данных с помощью MapReduce, YARN, Hive, Oracle XQuery for Hadoop, Solr и Spark.
- Интеграция больших данных и хранилищ данных с помощью Sqoop, Oracle Big Data Connectors, Copy to Hadoop, Oracle Data Integrator и Oracle GoldenGate для Big Data, и Oracle Big Data SQL.
- Анализ больших данных с помощью технологий Oracle Big Data SQL, Oracle Big Data Spatial and Graph и Oracle Advanced Analytics.
- Использование и управление Oracle Big Data Appliance.
- Ключевые возможности и преимущества Oracle Big Data Cloud Service.
ПРОГРАММА КУРСА
Урок 1. Введение в курс
- Обзор документации по Big Data, учебных материалов и других ресурсов
- Запуск Oracle BDLite VM и настройка доступа к файлам практики
- Домашняя страница Oracle Big Data Lite (BDLite) Virtual Machine (VM)
Урок 2. Стратегия Big Data
- Важность больших данных
- Характеристики больших данных
- Проблемы больших данных
- Возможности больших данных: примеры
- Стратегия Oracle для Big Data: объединение Big Data Processing Engines: Hadoop / NoSQL / RDBMS
- Примеры реализации больших данных
Урок 3. Использование Oracle Big Data Lite Virtual Machine и Movieplex Application
- Oracle Big Data Lite VM, используемая в данном курсе
- Руководство по развертыванию
- Загрузка и инсталляция Oracle VM VirtualBox и ее Extension Pack
- Загрузка и запуск 7-zip файлов для создания файла Virtual Box Appliance
- Запуск Big Data Lite VM и запуск и остановка служб
- Разделы Домашней страницы Oracle Big Data Lite VM
- Введение в Oracle Movieplex
Урок 4. Введение в экосистему Big Data
- Экосистема Apache Hadoop
- Типы анализа, используемые в Hadoop
- Вычислительные кластеры и распределенные вычисления
- Типы генерируемых данных
- Apache Hadoop
- Дистрибутив Cloudera, включающий Apache Hadoop (CDH)
- Архитектура и компоненты CDH
- Компоненты ядра Apache Hadoop Core: HDFS, MapReduce (MR1) и YARN (MR2)
Урок 5. Введение в распределенную файловую систему Hadoop
- Принципы проектирования, характеристики и ключевые определения распределенных файловых систем Hadoop (HDFS)
- Файлы и блоки HDFS
- Пример кластера высокой доступности Hadoop
- Взаимодействие с данными, хранящимися в HDFS: Hue, Hadoop Client, WebHDFS, и HttpFS
- Запись файла в HDFS: Пример
- Функции DataNodes (DN) Daemons
- Функции активных и резервных служб
Урок 6. Получение данных с помощью CLI, Fuse, Flume и Kafka
- Обзор интерфейса командной строки - Command Line Interface (CLI)
- Просмотр содержимого файловой системы с помощью CLI
- Загрузка данных с помощью CLI
- Что такое Flume?
- Обзор FuseDFS
- Команды FS Shell
- Топики Kafka
- Дополнительные ресурсы
Урок 7. Получение и доступ к данным с помощью Oracle NoSQL Database
- Что такое база данных NoSQL
- Определение базы данных Oracle NoSQL
- Модели Oracle NoSQL: Ключ-значение и Таблица
- Получение и доступ к данным в базе данных NoSQL
- Доступ к KVStore
- Доступ к CLI (Data, Admin, SQL)
- HDFS по сравнению с NoSQL
- Реляционная СУБД по сравнению с NoSQL
Урок 8. Introduction to MapReduce and YARN Processing Frameworks
- Параллельная обработка в MapReduce
- Оптимизация местоположения данных в Hadoop
- Возможности, преимущества и задания MapReduce
- Создание и мониторинг задания MapReduce Архитектура, возможности и службы YARN
- Базовый кластер Hadoop: MapReduce 1 против YARN (MR 2)
- Рабочий процесс приложения YARN
- Примеры Подсчета Слов
Урок 9. Управление ресурсами с помощью YARN
- Возможности Cloudera Manager Resource Management
- Cloudera Manager Dynamic Resource Management: Пример
- Статические Пулы Служб
- Работа с Fair Scheduler
- Планировщик First In, First Out (FIFO), Capacity Scheduler и Fair Scheduler
- Создание и мониторинг заданий MapReduce с помощью YARN
- Планирование заданий в YARN
- Использование команд приложения YARN
Урок 10. Обзор Apache Spark
- Архитектура Spark
- Преимущества использования Spark
- Запуск приложения Spark в YARN (режим yarn-cluster)
- Интерактивные оболочки Spark: spark-shell и pyspark
- Компоненты приложения Spark: Driver, Master, Cluster Manager и Executors
- Мониторинг заданий Spark с помощью веб-интерфейса YARN Resource Manager
- Пример подсчета слов с помощью Interactive Scala
- Resilient Distributed Dataset (RDD)
Урок 11. Обзор Apache Hive
- Архитектура Hadoop
- Что такое Hive?
- Как хранятся данные вHDFS?
- Организация и описание данных в Hive
- Определение таблиц в HDFS
- Запросы Hive
- Big Data SQL поверх данных Hive
- Вариант использования: Хранение данных маршрутов передвижения
Урок 12. Обзор Cloudera Impala
- Обзор Cloudera Impala
- Как Impala вписывается в экосистему Hadoop
- Cloudera Impala: Ключевые возможности
- Cloudera Impala: Поддерживаемые форматы данных
- Cloudera Impala: Программные интерфейсы
- Как Impala работает с Hive
- Hadoop: Некоторые параметры доступа/обработки данных
Урок 13. Использование Oracle XQuery для Hadoop
- Oracle XQuery для Hadoop (OXH)
- Возможности OXH
- Обзор XML
- Выполнение запроса OXH
- Потоки данных OXH
- Преобразование XQuery и базовая фильтрация
- Просмотр завершенного запроса в Yarn Resource Manager
- Использование OXH: Инсталляция, функции, адаптеры и параметры конфигурации
Урок 14. Обзор Solr
- Apache Solr (Cloudera Search)
- Обзор Solr
- Задачи Cloudera Search
- Cloudera Search: Ключевые возможности
- Cloudera Search: Функциональные возможности
- Типы индексации
- Индексация в Cloudera Search
- Команда solrctl
Урок 15. Интеграция больших данных
- Сравнение движков обработки больших данных
- Унификация данных: типовые требования
- Знакомство с опциями унификации данных
- Когда использовать эти опции?
Урок 16. Опции пакетной загрузки
- Копирование данных из Oracle в Hadoop
- Oracle Loader для Hadoop
- Apache Sqoop
Урок 17. Использование Oracle SQL Connector для HDFS
- Загрузка: выбор коннектора
- Параллелизм и производительность
- Пакетная и динамическая загрузка: Oracle SQL Connector для HDFS
- Архитектура OSCH
- Функциональные возможности
- Ключевые преимущества
- Использование OSCH
- Настройка производительности
Урок 18. Использование Oracle Data Integrator и Oracle GoldenGate для больших данных
- ETL и синхронизация: Oracle Data Integrator
- Декларативный дизайн ODI
- Использование ODI Studio
- Компоненты ODI Studio: Обзор
- ODI Studio: Модули знаний Big Data
- Использование ODI для гетерогенной интеграции больших данных с окружением Hadoop
- Oracle GoldenGate для Big Data
Урок 19. Использование Oracle Big Data SQL
- Препятствия для эффективного внедрения больших данных
- Преодоление существующих препятствий в больших данных
- Oracle Big Data SQL: гибридное решение
- Обзор производительности запросов
- Преимущества: виртуализированный доступ к данным в базах данных Oracle, Hadoop и NoSQL
- Использование Oracle Big Data SQL
- Опции развертывания
Урок 20. Использование Oracle Big Data Spatial и диаграмм
- Что такое Oracle Big Data Spatial and Graph (BDSG)?
- Опции развертывания для Oracle BDSG
- Стратегия (поддерживаемые платформы и т.д.)
- BDSG: графический анализ
- Мультимедийная аналитика
- Oracle BDSG: пространственный анализ
- Графический и пространственный анализ: Все о взаимосвязях
- Дополнительные ресурсы
Урок 21. Использование Oracle Advanced Analytics
- Oracle Advanced Analytics (OAA)
- OAA: Oracle Data Mining
- OAA: Oracle R Enterprise
Урок 22. Опции развертывания Oracle Big Data
- Аппаратное обеспечение BDA и интегрированное и опционное программное обеспечение
- Введение в Oracle Big Data Cloud Service – Compute Edition
- Запуск утилиты создания конфигурации Oracle BDA
- Администрирование и безопасности Oracle BDA
- Введение в Oracle Big Data Appliance
- Комплект развертывания программного обеспечения Oracle BDA Mammoth
- Введение в Oracle Big Data Cloud Service
- Использование утилиты Oracle BDA mammoth