Что такое Big data?

Большие данные. Вот как дословно переводится Big data, и это вам скажет даже школьник, который только-только начал изучение английского языка. Если, конечно, этот язык не является для него родным. Но что же такое “большие данные”, и почему им уделяется настолько огромное внимание. Если вы следите за развитием технологий в мире, то наверняка знаете ответ на этот вопрос. Ну а если нет, сейчас мы постараемся прояснить все важные моменты, рассказав обо всем буквально на пальцах – просто и понятно.

большие данные

Итак, начнем с определения: Big data – это разнообразные инструменты, методы и подходы обработки структурированной либо неструктурированной информации, которая в дальнейшем даст возможность применить эту информацию для решения конкретных задач. Но что же такое неструктурированная информация? Из названия очевидно, что это информация, не имеющая четкой структуры. Она не организована в каком-либо конкретном порядке.

Впервые определение “большие данные” было дано еще в 2008 году, и сделал это К. Линч, редактор журнала Nature. Сделал он это в специальном выпуске журнала, который был посвящен невероятному росту объемов информации в мире. Но не стоит полагать, что именно он является создателем больших данных, просто он первый, кто использовал данный термин. Сами же данные в больших объемах существовали до него, и под ними подразумевалась информация, объемы которой превышают 100 Гб в сутки.

Обработка и хранение данных – вот те слова, которые нужно знать, чтобы понимать термин Big data.

О Big data простыми словами

Big data представляет собой не то экономический, не то социальный феномен, а может, и первое, и второе. Их связывают с формированием новейших технологических возможностей, которые используются для анализа больших объемов информации.

Для лучшего понимания, можно рассмотреть пример с супермаркетом. Когда вы заходите в супермаркет, то ожидаете увидеть все товары, сгруппированные по нескольким видам. Вы знаете, что хлебобулочные изделия лежат на том конце супермаркета, а вот там всегда стоит полочка с холодильником, а в нем – газированные напитки. Но вдруг вы заходите в супермаркет, чтобы купить йогурт, а рядом с ним лежит селедка. Еще в паре шагов – женское белье, а пройдя чуть дальше, в этом же ряду, вы найдете садовые инструменты. Big data дают возможность расставить все по своим местам, и вы не просто легко сможете найти интересующий вас товар, но и узнать его стоимость, сроки годности, а также то, кто чаще всего приобретает данный товар.

Возможности и использование Big data

Для каких целей человеку понадобилось обрабатывать огромные массивы данных? На рассмотренном выше примере с супермаркетом вы могли узнать ответ на этот вопрос – чтобы получить только нужные и ценные для него данные, которые этот человек сможет в дальнейшем использовать. Если вам понадобится составить отчет об изменении цен на золото, вряд ли вы станете отслеживать, как изменилась в динамике цена на муку или сахар, верно? Вы будете наблюдать исключительно за ценой золота.

Проблема заключается в том, что поддать обработке поступающую со стремительной быстротой огромные массивы данных очень сложно, и вы точно не сделаете этого, задействуя классические инструменты. Проводя анализ Big data, стоит использовать такие методы и аналитические техники, как краудсорсинг, Data Mining, искусственные нейронные сети, имитационное моделирование, статистический и пространственный анализ, визуализация аналитической информации, прогнозная аналитика и т.д. Все перечисленные методы анализа данных дадут нам возможность распознать скрытые или явные закономерности, незаметные человеческому глазу. В свою очередь, это даст отличную возможность провести оптимизацию любой области жизни – телекоммуникации, производства и даже управления государством.

Как большие данные используются в Билайн и Сбербанке?

Как известно, у Билайна имеется огромная база с данными абонентов, которая применяется как для работы с самими клиентами, так и с целью создания продуктов для аналитики - IPTV-аналитики, внешнего консалтинга и т.д. Благодаря качественной и грамотной работе с Big data, в Билайне добились практических результатов, защитив своих клиентов от огромного разнообразия вирусов и финансовых махинаций, а также сегментировав базу клиентов. С целью хранения информации в компании использовали HDFS и Apache Spark, а для ее последующей обработки - Rapidminer и Python.

Побороть мошенничество смогли и в Сбербанке, использовав уже ставшую традиционной систему АС САФИ. С помощью данной системы стало возможным оперативно проводить анализ фото с целью идентификации клиентов, что сводило вероятность мошенничеству к нулю. Внедрение данной системы произошло еще в 2014 году, а ее основу составляло сравнение фото, содержащихся в базе и сделанных при помощи веб-камер, установленных на стойках. В базе данной системы лежит биометрическая платформа. Да, у системы имелись и скептики, но факт остается фактом – только за счет ее внедрения случаи мошенничества удалось уменьшить в 10 раз.

Использование Big data в банках

В стратегии Сбербанка на 2014-2018 год идет речь не только о АС САФИ, но и о том, насколько важно качественно анализировать огромные массивы с данными, ведь это позволит более эффективно управлять рисками, бороться с мошенничеством, оптимизировать расходы и обслуживать всех клиентов на самом высоком уровне.

Помимо вышеупомянутых целей, в Сбербанке проводят активную работу с огромными массивами информации, что помогает оценить кредитоспособность клиентов, сегментировать их, эффективнее управлять персоналом, рассчитывать премии для каждого сотрудника и прогнозировать очереди в отделениях.

В ВТБ24 стараются не отставать от главного банка страны, по крайней мере, по части работы с Big data. Здесь большие данные применяют с целью управления оттоком клиентов и сегментации, анализа отзывов о работе банка и создание финансовых отчетов. В Альфа-Банке работают с большими данными, в первую очередь, для оценки кредитоспособности, анализа действий клиентов в социальных сетях и прогноза возможного оттока клиентов. Причем с Big data в этом банке работают еще с 2013 года. Еще дальше остальных пошли в Тинькофф-банке. Здесь EMC Greenplum, SAS Visual Analytics и Hadoop используют не только для оценки рисков, но и для определения основных потребностей клиентов банка. Продажи, маркетинг и скоринг – вот где работа с большими массивами данных является наиболее актуальной.

Но не стоит полагать, что с Big data работают исключительно в банках. Бизнес и маркетинг также нуждаются в задействовании самых современных и эффективных инструментов обработки данных, в особенности, представленных в больших объемах.

Но имеем ли мы право полагать, что Big data изменит мир? Да, причем это произойдет не в отдаленном, и даже не в ближайшем будущем – это происходит уже сейчас, прямо на наших глазах. Технология используется повсеместно, и не только в крупномасштабных проектах, но и в гаджетах, которые есть в каждом доме, у каждого из нас. И весь вопрос в том, когда же технология захватит целый мир.

Остались вопросы? Оставьте свои контакты и наши специалисты свяжутся с вами

Нажимая на кнопку "Заказать консультацию", вы даете согласие на обработку своих персональных данных.