Главная > Статьи > Электронное делопроизводство > Большие данные, или Что мы знаем о лисе?

Большие данные, или Что мы знаем о лисе?

Прочитать позже   Отправить по e-mail

Большие данные, или Что мы знаем о лисе?
Что мы знаем о лисе? Ничего! И то – не все!... Это афористическое двустишие Бориса Заходера прекрасно иллюстрирует термин «большие данные». Между тем сам феномен проникает во все сферы нашей жизни, включая бытовую. Что же это такое? Каковы его объективные характеристики и как применять большие данные для пользы дела?

Само понятие «большие данные» появилось относительно недавно и до сегодняшнего дня остается довольно расплывчатым. Прежде всего, запутывает слово «данные», казалось бы, вполне понятное даже неподготовленным пользователям: данные, под которыми большинство из нас понимают файлы на жестком диске своего компьютера или в интернете, данные, которые мы копируем на флешку или отправляем по электронной почте. Поэтому, когда мы слышим «большие данные», автоматически возникают ассоциации с огромными объемами информации. И это отчасти верно, но лишь отчасти...

Немного истории

Обложка журнала Nature за 4 сентября 2008 г.jpg

В академической среде термин «большие данные» ввел Клиффорд Линч, редактор журнала Nature, подготовив в сентябре 2008 года специальный номер с темой «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объемами данных?». В этом номере журнала были собраны материалы о феномене взрывного роста объемов и многообразия обрабатываемых данных, а также технологических перспективах в сфере обработки и хранения информации. Термин был подхвачен и широко распространился в деловой среде. Уже в 2009 году появляются первые продукты и решения, относящиеся к проблеме обработки больших данных.

Что такое большие данные

В сущности, понятие больших данных подразумевает работу с информацией огромного объема и разнообразного состава, причем очень часто обновляемой и находящейся в разных источниках. Т.е. большие данные объединяют техники и технологии, совокупность которых позволяет эффективно обрабатывать, хранить и использовать информацию, технологии, которые «извлекают смысл из данных на экстремальном пределе практичности».

Давайте попробуем разобраться с основными характеристиками больших данных: огромным объемом, высокой скоростью обновления и разнообразием входной информации.

Объем

Объем для больших данных измеряется петабайтами (1015 байт) и эксабайтами (1018 байт). Давайте попробуем разобраться, насколько велики эти числа. Рассмотрим несколько примеров.

Один петабайт в миллион раз больше одного гигабайта (109 байт). DVD-диск, на который записан один фильм в хорошем качестве, имеет объем 4,7 гигабайта. Таким образом, в хранилище объемом один петабайт поместятся более двухсот тысяч фильмов (точнее - 212 766 фильмов). 

Для сравнения: на жесткий диск самого современного домашнего компьютера удастся записать 850 фильмов в DVD-качестве (для диска объемом 4 терабайта (1012 байт), на сегодняшний день это самые емкие диски из представленных в продаже).

Но так ли это много на самом деле? 

Возьмем, скажем, популярный в сети ресурс «Инстаграм» (Instagram). Он насчитывает порядка 30 миллионов пользователей, которые активно обмениваются друг с другом фотографиями. Объем одной фотографии примерно 0,5-1 мегабайт (106 байт).

Если предположить, что каждый пользователь выкладывает ежедневно по одной-две фотографии, то получаем 30 000 000 * 1 мегабайт = 30 000 000 мегабайт или 30 терабайт в сутки. То есть пользователи «Инстаграм» закачивают в сеть приблизительно 1 петабайт информации в месяц.

Рассмотрим в качестве следующего примера корпоративный сегмент. Датчики, установленные на одном двигателе Боинг-737, за полчаса полета генерируют примерно 10 терабайт данных. Получается, что за перелет Москва-Новосибирск подобного рода конструкция принесет нам 160 терабайт данных и всего за шесть перелетов накапливается один петабайт информации.

На сегодняшний день уже существует множество прикладных задач и областей, требующих хранения и обработки огромных объемов информации (активность пользователей социальных сетей, транзакции на финансовых рынках, мультимедийные библиотеки и многое другое). Отсюда можно сделать выводы, что объемы данных, которые сложно себе даже вообразить, уже являются, можно сказать, обыденными и накапливаются за очень короткий промежуток времени.

Скорость

Собрать и сохранить большие данные недостаточно. Конечной целью является дальнейшее обращение к информации с целью просмотра или какого-либо анализа. Под скоростью в больших данных понимается, прежде всего, скорость их обработки.

Самый простой пример: если пользователь захотел посмотреть фильм. В этом случае необходимо найти файл в хранилище, извлечь его и передать данные пользователю. Но что, если необходимо найти определенного человека по записям видеонаблюдения за некоторый период времени или, скажем, сделать прогноз погоды? В случае с поиском по записям можно посадить одного или нескольких человек за просмотр видеоархива и ждать пока они просмотрят все материалы.

Вместе с тем, существуют и успешно применяются алгоритмы поиска информации, которые, пусть и обладая меньшей точностью, анализируют данные на порядки быстрее человека. Скорость поиска при таком подходе можно увеличивать практически произвольно, увеличивая вычислительные мощности, производящие обработку данных.

Другим примером, когда необходима скорость, является специальная предварительная обработка данных перед помещением их в хранилище. Такая обработка позволяет либо увеличивать скорость последующего поиска, либо уменьшать объем сохраняемых данных. 

Примером предварительной обработки можно считать, например, построение индексов, которые позволяют впоследствии выполнять быстрый поиск по данным (упрощенно индекс можно рассматривать как алфавитный указатель в справочнике или оглавление в книге), либо же, например, сжатие данных с целью уменьшения физического объема, требуемого для их хранения.

Разнообразие

Под разнообразием подразумевается, что данные поступают постоянно, и, как правило, в неудобном для последующего анализа виде. Все эти данные нужно сопоставить, упорядочить, проанализировать.

Возьмем социальную сеть. Пользователи обмениваются между собой текстовыми сообщениями, документами в самых разнообразных форматах, музыкой, фильмами, фотографиями...

Например, пользователь загружает отсканированную книгу. Можно непосредственно сохранить изображение, но в этом случае при последующем поиске не будет возможности искать по тексту. Современные алгоритмы обработки данных позволяют автоматически проанализировать сохраняемое изображение, распознать содержащийся в нем текст и проиндексировать его, в результате чего появляется возможность поиска по отсканированным изображениям. 

Или, скажем, мы хотим выводить в результаты пользовательского запроса не только текст, но и изображения (скажем, найти все фотографии с кошками). Возможно? Во многом – да, существуют алгоритмы, способные классифицировать графическую информацию и создавать описание для фотографий, по которому впоследствии их можно искать.

Хранение и обработка больших данных

Очевидно, что для работы с большими данными необходимы особые подходы и технические решения. Хранение и обработка данных осуществляются в специально спроектированных для этого дата-центрах, представляющих собой сложные инженерно-технические сооружения, при создании которых решается целый комплекс задач, связанных с энергообеспечением, вентиляцией и кондиционированием, а также обеспечением безопасности.

При обработке используются специальные методы и алгоритмы. Например, параллельная распределенная обработка данных позволяет многократно, и, главное, без остановки работающей системы увеличивать объемы хранилища и скорость обработки данных, а также заменять вышедшие из строя компоненты системы. 

Дата-центр представляет собой не единый суперкомпьтер, а сотни или даже тысячи компьютеров, сравнимых по мощности с домашними ПК и объединенными между собой высокоскоростными линиями связи. При поиске анализируемые данные разбиваются на максимально возможное количество небольших порций, каждая из которых пересылается на отдельный компьютер, где и происходит их обработка. Результат работы пересылается в единую точку сбора, которая объединяет результаты и производит их вывод пользователю.

Для сбора и анализа данных также используется множество разнообразных классов алгоритмов, например, краудсорсинг (алгоритмы поиска и сбора данных из открытых источников), смешение и интеграция данных, статистический анализ, распознавание образов, искусственный интеллект, визуализация аналитических данных и многие другие.

***

Следует обратить внимание на то, что если вы не являетесь сотрудником крупной компании, генерирующей огромные потоки информации, то едва ли столкнетесь с большими данными «лицом к лицу». На практике с ними сталкивается лишь очень узкий круг специалистов. Гораздо чаще можно встретить данный термин в рекламных материалах, где он используется для достижения коммерческой цели в качестве не рационального, а эмоционального аргумента.

Олег Ступин
специалист по информационной безопасности 
компании «Инфосистемы Джет»
Полезная статья?
Да / Нет
Прочитать позже В избранное Отправить по e-mail
  • Поделиться в соцсетях:
Только зарегистрированные участники могут оставлять комментарии. Авторизуйтесь или зарегистрируйтесь

Материалы по теме:

Сервисы

Все сервисы

Ваши идеи

Знаете как сделать портал лучше? Поделитесь идеей.