Skip to content

Latest commit

 

History

History
26 lines (20 loc) · 2.36 KB

README.md

File metadata and controls

26 lines (20 loc) · 2.36 KB

stepik_VK_Hadoop

About the course

BigData, MapReduce, облачные вычисления, NoSQL. Все эти понятия стали популярными в последние годы. И все они связаны с распределенной обработкой больших объемов данных. Hadoop - одна из самых популярных open-source систем для обработки больших объемов данных. Необходимость в таких системах растет с каждым годом - все больше компаний сталкиваются с проблемой растущего объема данных. Facebook, Twitter, Yahoo!, Bing, Mail.ru - это далеко не полный список компаний, которые используют Hadoop. Многие из них, при этом, активно участвуют в его развитии. И это неслучайно, т.к. именно большие интернет-компании первыми столкнулись с проблемой обработки больших объемов данных: как их надежно хранить, как обрабатывать, как получать быстрый доступ на их изменение. Сейчас Hadoop используется не только в интернет-компаниях, но и во многих других сферах, где возникает проблема с объемом данных (экономика, астрономия, биология, физика и т.д.) Записывайтесь на наш курс и вы узнаете современные методы хранения и обработки больших объемов данных на примере системы Hadoop.

Instructors

Евгений Чернов

Offered by

VK Team

Syllabus

  • MapReduce. Введение
    • Hadoop Streaming
  • Решение задач с помощью MapReduce
    • Алгоритмы на MapReduce
    • Реляционные функции
    • Расчет TF-IDF
  • Алгоритмы на графах в MapReduce
    • Поиск кратчайшего пути в графе
    • PageRank