OBIBigData
Oracle Big Data Fundamentals Ed2Код образовательной программы: Базы данных
OBIBigData
#Очно — В учебном центре.
#Дистанционно — Дистанционно с инструктором.
111 750
5 дней
По запросу

Данный курс знакомит слушателей с понятием больших данных (Big Data), технологиями, используемыми для обработки больших данных и решениями Oracle в этой области. Слушатели научатся использовать платформу Oracle Big Data Appliance для обработки больших данных и получат практический опыт использования Oracle Big Data Lite VM, узнают, как получать необработанные («сырые») данные из различных источников и использовать HDFS и базу данных Oracle NoSQL для хранения данных. Слушатели познакомятся с опциями интеграции данных, доступных в Oracle Big Data. Эти опции включают коннекторы для перемещения данных из и в базу данных Oracle, Oracle Data Integrator и Oracle GoldenGate для Big Data, которые обеспечивают возможность синхронизации и интеграции для объединения реляционных данных и данных в Hadoop, а также Oracle Big Data SQL, который предоставляет динамический доступ ко всем большим данным, хранимым в HDFS, NoSQL или Oracle DataBase.Кроме этого, слушатели узнают, как анализировать большие данные с помощью Oracle Big Data SQL, Oracle Advance Analytics и Oracle Big Data Spatial and Graph

Категория Слушателей: Разработчики приложений, Разработчики баз данных, Администраторы баз данных, Аналитики хранилищ данных, Менеджеры проектов

Предварительная подготовка: Знание основ базы данных Oracle и базового администрирования Oracle Databa

ТЕМЫ КУРСА

  • Понятие больших данных
  • Решение Oracle для интеграции больших данных и их компоненты
  • Знакомство с дистрибутивом Cloudera для Hadoop, компонентами его ядра и экосистемой Hadoop
  • Использование распределенной файловой системы - Hadoop Distributed File System (HDFS)
  • Получение больших данных с помощью интерфейса командной строки, Flume, и Oracle NoSQL Database.
  • Обработка больших данных с помощью MapReduce, YARN, Hive, Oracle XQuery for Hadoop, Solr и Spark.
  • Интеграция больших данных и хранилищ данных с помощью Sqoop, Oracle Big Data Connectors, Copy to Hadoop, Oracle Data Integrator и Oracle GoldenGate для Big Data, и Oracle Big Data SQL.
  • Анализ больших данных с помощью технологий Oracle Big Data SQL, Oracle Big Data Spatial and Graph и Oracle Advanced Analytics.
  • Использование и управление Oracle Big Data Appliance.
  • Ключевые возможности и преимущества Oracle Big Data Cloud Service.


ПРОГРАММА КУРСА

Урок 1. Введение в курс

  • Обзор документации по Big Data, учебных материалов и других ресурсов
  • Запуск Oracle BDLite VM и настройка доступа к файлам практики
  • Домашняя страница Oracle Big Data Lite (BDLite) Virtual Machine (VM)

Урок 2. Стратегия Big Data

  • Важность больших данных
  • Характеристики больших данных
  • Проблемы больших данных
  • Возможности больших данных: примеры
  • Стратегия Oracle для Big Data: объединение Big Data Processing Engines: Hadoop / NoSQL / RDBMS
  • Примеры реализации больших данных

Урок 3. Использование Oracle Big Data Lite Virtual Machine и Movieplex Application

  • Oracle Big Data Lite VM, используемая в данном курсе
  • Руководство по развертыванию
  • Загрузка и инсталляция Oracle VM VirtualBox и ее Extension Pack
  • Загрузка и запуск 7-zip файлов для создания файла Virtual Box Appliance
  • Запуск Big Data Lite VM и запуск и остановка служб
  • Разделы Домашней страницы Oracle Big Data Lite VM
  • Введение в Oracle Movieplex

Урок 4. Введение в экосистему Big Data

  • Экосистема Apache Hadoop
  • Типы анализа, используемые в Hadoop
  • Вычислительные кластеры и распределенные вычисления
  • Типы генерируемых данных
  • Apache Hadoop
  • Дистрибутив Cloudera, включающий Apache Hadoop (CDH)
  • Архитектура и компоненты CDH
  • Компоненты ядра Apache Hadoop Core: HDFS, MapReduce (MR1) и YARN (MR2)

Урок 5. Введение в распределенную файловую систему Hadoop

  • Принципы проектирования, характеристики и ключевые определения распределенных файловых систем Hadoop (HDFS)
  • Файлы и блоки HDFS
  • Пример кластера высокой доступности Hadoop
  • Взаимодействие с данными, хранящимися в HDFS: Hue, Hadoop Client, WebHDFS, и HttpFS
  • Запись файла в HDFS: Пример
  • Функции DataNodes (DN) Daemons
  • Функции активных и резервных служб

Урок 6. Получение данных с помощью CLI, Fuse, Flume и Kafka

  • Обзор интерфейса командной строки - Command Line Interface (CLI)
  • Просмотр содержимого файловой системы с помощью CLI
  • Загрузка данных с помощью CLI
  • Что такое Flume?
  • Обзор FuseDFS
  • Команды FS Shell
  • Топики Kafka
  • Дополнительные ресурсы

Урок 7. Получение и доступ к данным с помощью Oracle NoSQL Database

  • Что такое база данных NoSQL
  • Определение базы данных Oracle NoSQL
  • Модели Oracle NoSQL: Ключ-значение и Таблица
  • Получение и доступ к данным в базе данных NoSQL
  • Доступ к KVStore
  • Доступ к CLI (Data, Admin, SQL)
  • HDFS по сравнению с NoSQL
  • Реляционная СУБД по сравнению с NoSQL

Урок 8. Introduction to MapReduce and YARN Processing Frameworks

  • Параллельная обработка в MapReduce
  • Оптимизация местоположения данных в Hadoop
  • Возможности, преимущества и задания MapReduce
  • Создание и мониторинг задания MapReduce Архитектура, возможности и службы YARN
  • Базовый кластер Hadoop: MapReduce 1 против YARN (MR 2)
  • Рабочий процесс приложения YARN
  • Примеры Подсчета Слов

Урок 9. Управление ресурсами с помощью YARN

  • Возможности Cloudera Manager Resource Management
  • Cloudera Manager Dynamic Resource Management: Пример
  • Статические Пулы Служб
  • Работа с Fair Scheduler
  • Планировщик First In, First Out (FIFO), Capacity Scheduler и Fair Scheduler
  • Создание и мониторинг заданий MapReduce с помощью YARN
  • Планирование заданий в YARN
  • Использование команд приложения YARN

Урок 10. Обзор Apache Spark

  • Архитектура Spark
  • Преимущества использования Spark
  • Запуск приложения Spark в YARN (режим yarn-cluster)
  • Интерактивные оболочки Spark: spark-shell и pyspark
  • Компоненты приложения Spark: Driver, Master, Cluster Manager и Executors
  • Мониторинг заданий Spark с помощью веб-интерфейса YARN Resource Manager
  • Пример подсчета слов с помощью Interactive Scala
  • Resilient Distributed Dataset (RDD)

Урок 11. Обзор Apache Hive

  • Архитектура Hadoop
  • Что такое Hive?
  • Как хранятся данные вHDFS?
  • Организация и описание данных в Hive
  • Определение таблиц в HDFS
  • Запросы Hive
  • Big Data SQL поверх данных Hive
  • Вариант использования: Хранение данных маршрутов передвижения

Урок 12. Обзор Cloudera Impala

  • Обзор Cloudera Impala
  • Как Impala вписывается в экосистему Hadoop
  • Cloudera Impala: Ключевые возможности
  • Cloudera Impala: Поддерживаемые форматы данных
  • Cloudera Impala: Программные интерфейсы
  • Как Impala работает с Hive
  • Hadoop: Некоторые параметры доступа/обработки данных

Урок 13. Использование Oracle XQuery для Hadoop

  • Oracle XQuery для Hadoop (OXH)
  • Возможности OXH
  • Обзор XML
  • Выполнение запроса OXH
  • Потоки данных OXH
  • Преобразование XQuery и базовая фильтрация
  • Просмотр завершенного запроса в Yarn Resource Manager
  • Использование OXH: Инсталляция, функции, адаптеры и параметры конфигурации

Урок 14. Обзор Solr

  • Apache Solr (Cloudera Search)
  • Обзор Solr
  • Задачи Cloudera Search
  • Cloudera Search: Ключевые возможности
  • Cloudera Search: Функциональные возможности
  • Типы индексации
  • Индексация в Cloudera Search
  • Команда solrctl

Урок 15. Интеграция больших данных

  • Сравнение движков обработки больших данных
  • Унификация данных: типовые требования
  • Знакомство с опциями унификации данных
  • Когда использовать эти опции?

Урок 16. Опции пакетной загрузки

  • Копирование данных из Oracle в Hadoop
  • Oracle Loader для Hadoop
  • Apache Sqoop

Урок 17. Использование Oracle SQL Connector для HDFS

  • Загрузка: выбор коннектора
  • Параллелизм и производительность
  • Пакетная и динамическая загрузка: Oracle SQL Connector для HDFS
  • Архитектура OSCH
  • Функциональные возможности
  • Ключевые преимущества
  • Использование OSCH
  • Настройка производительности

Урок 18. Использование Oracle Data Integrator и Oracle GoldenGate для больших данных

  • ETL и синхронизация: Oracle Data Integrator
  • Декларативный дизайн ODI
  • Использование ODI Studio
  • Компоненты ODI Studio: Обзор
  • ODI Studio: Модули знаний Big Data
  • Использование ODI для гетерогенной интеграции больших данных с окружением Hadoop
  • Oracle GoldenGate для Big Data

Урок 19. Использование Oracle Big Data SQL

  • Препятствия для эффективного внедрения больших данных
  • Преодоление существующих препятствий в больших данных
  • Oracle Big Data SQL: гибридное решение
  • Обзор производительности запросов
  • Преимущества: виртуализированный доступ к данным в базах данных Oracle, Hadoop и NoSQL
  • Использование Oracle Big Data SQL
  • Опции развертывания

Урок 20. Использование Oracle Big Data Spatial и диаграмм

  • Что такое Oracle Big Data Spatial and Graph (BDSG)?
  • Опции развертывания для Oracle BDSG
  • Стратегия (поддерживаемые платформы и т.д.)
  • BDSG: графический анализ
  • Мультимедийная аналитика
  • Oracle BDSG: пространственный анализ
  • Графический и пространственный анализ: Все о взаимосвязях
  • Дополнительные ресурсы

Урок 21. Использование Oracle Advanced Analytics

  • Oracle Advanced Analytics (OAA)
  • OAA: Oracle Data Mining
  • OAA: Oracle R Enterprise

Урок 22. Опции развертывания Oracle Big Data

  • Аппаратное обеспечение BDA и интегрированное и опционное программное обеспечение
  • Введение в Oracle Big Data Cloud Service – Compute Edition
  • Запуск утилиты создания конфигурации Oracle BDA
  • Администрирование и безопасности Oracle BDA
  • Введение в Oracle Big Data Appliance
  • Комплект развертывания программного обеспечения Oracle BDA Mammoth
  • Введение в Oracle Big Data Cloud Service
  • Использование утилиты Oracle BDA mammoth


Описание курса от вендора
Преподаватели: