Если вы занимаетесь в сфере больших данных или работаете с серьезными проектами, вам определенно нужно очень надежное решение. Кроме создания обычных СУБД типа Cassandra и Kafka, организация Apache занимается разработкой более профессиональных и серьезных инструментов. Одним из них является небезызвестный Hadoop. Сегодня мы расскажем о том, что это такое, зачем он нужен, как с ним работать, и как освоить его в максимально короткий срок.
Это набор специальных утилит и библиотек, а также каркас для разработки и выполнения программ, работающих распределенно на кластерах, состоящих из сотен тысяч узлов. Язык, на котором он реализован, это Java, а модель MapReduce разработана компанией Google для параллельных вычислений очень больших данных, объем которых измеряется петабайтами. Кстати, ее в той или иной мере используют такие крупные компании, как Facebook, eBay, LinkedIn, Twitter, IBM и New York Times!
Преимущества и особенности:
— Фундаментальная технология для больших данных
— Пользуется популярностью среди крупных компаний
— Содержит экосистему, в которую входят обособленные связанные технологии и проекты
— Надежная файловая система HDFS, не требующая RAID
— Инструменты TaskTracker и Job Tracker исключают выход системы из строя
— Модуль YARN для параллельного выполнения задач в кластере и их изоляции
— Высокоэффективная масштабируемость для добавления реальной вычислительной мощности
Освойте Hadoop вместе с нашими курсами и становитесь настоящим экспертом в области серьезных решений для больших данных.
Курсы Hadoop для уверенной работы с большими данными
-
Полный практический курс по Hadoop – Справьтесь с большими данными!
Преподаватель: Френк Кейн (специалист и автор патентов в области распределенных вычислений, добычи данных и машинного обучения)
Стоимость: 180$
Количество студентов: 7 305+
Объем программы: 95 лекций; 14,5 часов
Уровень подготовки (требования для курса): небольшой опыт программирования (желательно на Python или Scala); знакомство с командной строкой Linux
Чему вы научитесь?
— Использовать HDFS и MapReduce для хранения и анализа данных с масштабированием
— Проектировать распределенные системы, работающие с большими данными на базе Hadoop и других смежных технологий
— Писать скрипты на Pig и Spark для обработки данных в кластере
— Анализировать реляционные данные с помощью Hive и MySQL
— Анализировать нереляционные данные с помощью HBase, Cassandra и MongoDB
— Интерактивно отправлять запросы с помощью Drill, Phoenix и Presto
— Выбирать подходящую технологию хранения данных для своих приложений
— Понимать принцип управления кластерами с помощью YARN, Tez, Mesos, Zookeeper, Zeppelin, Hue и Oozie
— Публиковать данные на кластере с помощью Sqoop и Flume
— Использовать потоковые данные с помощью Spark, Streaming, Flink и Storm
В программе курса кроме 14 часов интерактивных видеолекций, рассматривающих более 25 технологий, содержится множество практических заданий и упражнений, чтобы вы получили действительно качественные знания, подтвержденные опытом. Курс больше рассчитан на разработку приложений, хотя основы администрирования здесь тоже рассматриваются.
Даже если у вас нет опыта работы с командной строкой, можете смело записываться, ведь для многих заданий предусмотрен удобный веб-интерфейс. Записывайтесь!
-
Освойте большие данные – Мастер-класс по экосистеме Hadoop
Преподаватель: Эдвард Виаене (специалист по большим данным, Full-Stack-девелопер, системный администратор)
Стоимость: 40$
Количество студентов: 3 221+
Объем программы: 97 лекций; 6 часов
Уровень подготовки (требования для курса): опыт работы в сфере IT, знание любого языка программирования
Чему вы научитесь?
— Знакомство с технологиями в стеке Hadoop
— Обрабатывать большие данные с помощью batch-подхода
— Обрабатывать большие данные в режиме реального времени
— Устанавливать и настраивать Hortonworks Data Platform
Изучив основные концепции, рассматриваемые на протяжении шести часов видеоуроков, вы освоите навыки, пользующиеся большим спросом среди крупных компаний, а значит вам будут открыты большие карьерные возможности и выгодные предложения. Преподаватель отвечает на любые ваши вопросы по мере обучения, в том числе и в своей группе Facebook.
Курс в первую очередь рассчитан на инженеров программного обеспечения, системных администраторов и администраторов баз данных, которые хотят узнать больше о больших данных. Так что уровень подготовки здесь повыше.
-
Учитесь на примерах – Hadoop и MarReduce для больших данных
Преподаватель: команда из четырех разработчиков и аналитиков, выпускников Стенфорда, имеющих опыт работы в Google и Microsoft
Стоимость: 50$
Количество студентов: 1 907+
Объем программы: 73 лекции; 13,5 часов
Уровень подготовки (требования для курса): установленная среда разработки (IntelliJ или Eclipse), опыт в ООП (желательно на Java), желательно знать немного о написании сценариев в оболочке Linux/Unix
Чему вы научитесь?
— Разрабатывать продвинутые приложения на MapReduce для обработки больших данных
— Разбивать задачи на трансформации Map/Reduce
— Самостоятельно разворачивать собственный мини-кластер Hadoop
— Использовать Hadoop+MapReduce для решения разнообразных задач: НЛП, инвертированный индекс и рекомендации
— Принцип работы и взаимодействие HDFS, MapReduce и YARN
— Основы настройки производительности и управления кластером
Это подробный курс с большим количеством практических заданий, посвященный Hadoop, MapReduce и освоению мастерства параллельного мышления. Вы детально изучите каждый компонент Hadoop, а также научитесь разворачивать собственный кластер с помощью виртуальных машин и облака. В курсе рассматриваются ключевые функции MapReduce, в том числе основная и второстепенная сортировка.
Среди практических заданий есть реализация функции рекомендации друзей в социальной сети, создание инвертированного индекса для поисковых систем и создание биграммов из текста. Если вы хотите выучить теорию, закрепив ее на практике, выберите именно этот курс!
Если вы не нашли среди этих курсов подходящий, полный список курсов Hadoop есть здесь. Подумайте о дополнительном образовании сейчас, чтобы обеспечить себе достойную карьеру.
Comments