Прогнозная аналитика в интернет-индустрии
14 августа
Статьи

Перспективы больших данных

Благодаря облачным вычислениям и постоянному технологическому прогрессу, большие данные, представляющие собой настолько огромные и сложные массивы данных, постоянно требующие новых инструменты для работы с ними, останутся с нами навсегда.

Так, пожалуй, будет лучше:

  • Обработка естественного языка позволила начать анализировать неструктурированные данные (например, электронные письма, документы и записи в социальных сетях).
  • Облачные системы хранения данных, а также низкая стоимость и высокая скорость обработки данных стали максимально доступными с точки зрения цены.
  • Сложное аналитическое программное обеспечение получило повсеместное распространение.

У компаний, работающих в сфере телекоммуникаций и Интернета, особенно сильные позиции для того, чтобы воспользоваться преимуществами больших данных. В 2009 году:

  • Google обрабатывала приблизительно 24 петабайт данных в день
  • AT&T ежедневно передавала по своим сетям около 30 петабайт данных
  • пользователи Facebook загрузили более 15 миллиардов фотографий

Все это увеличивает потребность в специалистах по обработке данных, а их профессия становится самой сексуальной в XXI веке. Помимо того, что они занимаются аналитикой, специалисты по данным - это свободные люди, хакеры и устранители проблем, которые обрабатывают и анализируют информацию. Компании предлагают им решать головоломки. А специалисты по данным находят ответы, скрытые в больших данных.

Как вам такая реклама?

Самой известной чашкой Петри для специалистов по данным стал Facebook. В 2005 году молодой финансовый гений отказался от легкой жизни и дорогих коктейлей на Уолл-стрит и бежал в Силиконовую долину.

Укрывшись в Facebook, Джеффри Хаммербахер собрал команду гуру для того, чтобы погрузиться в недра данных социальной сети, провести расчеты, определить закономерности и использовать эти открытия для улучшения сервиса и запуска целевой рекламы. (Два года спустя Хаммербахер отправился дальше и устроился в Cloudera.)

В это время в LinkedIn Дж. Патил с коллегами трудился над разработкой схожего решения. Их работа привела к созданию множества инструментов, с рядом которых пользователи уже знакомы – технология рекомендаций, такая как «Группы, которые вам могут понравиться», или такие функции, как «Исследователь карьеры» (Career Explorer) и «Рекомендация вакансий» (Jobs Recommendation).

Потребители - это мы

Несомненно, большой спрос на специалистов по данным формирует электронная торговля. Бизнес-аналитика и розничная торговля имеют долгую совместную историю (AC Nielsen начала задавать свои вопросы еще в 1923 году), и их партнерство сильно укрепилось с появлением Интернета.

Сейчас ритейлеры обращаются к специалистам по данным с просьбами объединить огромные массивы данных для разработки:

  • Персональных рекомендаций, основанных на погоде, сезонных тенденциях, отчетах о загруженности дорог, последнем списке покупок и любимых игрушек вашей собаки...
  • Углубленного анализа покупательских настроений
  • Идей продуктов на основе данных RFID-чипов и датчиков
  • Подробного анализа потребительской корзины и видео анализа
  • Маркетинга на базе геотаргетинга
  • Ценообразования и управления запасами в режиме реального времени

Список пожеланий можно продолжать еще. И еще. И еще.

Google, SAS и IBM уже здесь, чтобы помочь. В последние годы эти акулы бизнеса занимались ловлей рыбок поменьше, покупая компании, владеющие полезными технологиями в области аналитики.

Например:

  • В 2013 году Google за 125 миллионов долларов купила Channel Intelligence, специализирующуюся на электронной торговле. Благодаря этой сделке она приобрела платформу CI для сбора данных по продажам и событиям (TrueTag) - технологии, которая, по утверждению CI, в режиме реального времени отслеживает почти 15 процентов транзакций в США.
  • В том же году IBM выпустила ряд аналитических приложений для ритейлеров, в которые были включены разработки компании Tealeaf Technology, специализирующейся на анализе потребительских предпочтений.

Народ, у нас проблема

Хотя многие специалисты по работе с данными используют Интернет в качестве источника данных, они не ограничены этим источником. В реальности самые успешные компании, работающие в сфере бизнес-информации и аналитики, получают данные из всех источников, к которым только у них есть доступ.

Возьмите, к примеру, компанию Splunk, проведшую первое IPO в области больших данных. Компания специализируется на получении больших данных от машин. К последним относятся веб-серверы, мобильные устройства и даже более прозаическая техника типа кондиционеров.

  • Как только машина создает фрагмент данных, Splunk получает его и сохраняет в облачной базе данных.
  • Цель – отследить регулярные модели работы машин, сбои и диагностировать проблемы.
  • После того, как проблема выявлена, программа создает немедленные оповещения (а также менее срочные графики и отчеты) для клиента.

Работа подобного рода привела к появлению ряда приложений. К примеру, MetroPCS и T-Mobile использовали Splunk для контроля своих сетей, а правительственные учреждения отслеживали атаки на свои сети.

Splunk - это не единственный проект, в котором можно разглядеть огромный потенциал. В 2013 году Loggly – облачной службе управления журналами на базе архитектуры SaaS – удалось получить 20,9 млн долларов от таких инвесторов, как Cisco, Trinity Ventures, Matrix Partners и другие.

Спасая мир

Но, пожалуй, самая позитивная тенденция, возникшая в рамках науки об Интернет-данных, не имеет какого-либо отношения к гонке за прибылью. Как пишут Майер-Шенбергер и Кукьер в своей книге, большие данные могут помочь спасти мир.

В 2008 году группа специалистов по данным из Google всерьез занялись изучением гриппа. Они собрали 50 миллионов наиболее распространенных поисковых терминов в своей американской базе данных и сравнили их с данными Центра заболеваемости США по распространению гриппа с 2003 по 2008 год.

Они не пытались доказать какие-либо предположения. Они просто разработали систему, которая искала бы корреляции между зафиксированным распространением гриппа и частоте конкретных поисковых запросов. Чтобы проверить свой прогноз по гриппу, они использовали 450 миллионов математических моделей.

И они нашли связь. Комбинация из 45 поисковых терминов, совместно используемых в математической модели, смогла в режиме реального времени показать, как распространялись эпидемии гриппа.

Этот мониторинг в реальном времени во много раз превосходил любой правительственный доклад на тот день. Поэтому, когда в 2009 году появился вирус H1N1, чиновники здравоохранения оказались на высоте.

Риски и правила работы с данными

Вы настолько хороши, насколько хороши ваши данные

Несмотря на весь свой потенциал, большие данные - это не панацея. Как пишут Лей Яо и Чэнь Вэй в своей статье "Законодательство[а] должны приспосабливаться к революции больших данных", большие данные:

  • Не исключают неправильного толкования или предвзятого отношения
  • Не преодолевают разрыв между корреляцией и причинно-следственными связями
  • Страдают от выборочного и неполного охвата (например, пользователи соцсетей в подавляющем большинстве - это молодые жители городов)

Более того, объем, скорость и разнообразие больших данных будут только увеличиваться. Рост использования мобильных устройств поражает воображение. Развивающиеся страны переходят в онлайн. Интернет вещей создает совершенно новый мир информации.

Интернет-компаниям, которым уже сейчас приходится работать с астрономическими цифрами, нужно быть готовыми справиться с еще большей нагрузкой. Специалистам по данным необходимо научиться понимать, где можно искать.

Частная собственность! Вход воспрещен!

Или вообще определиться, будут ли они заниматься поиском. Ничто не вызывает сегодня больше споров, когда говорят о данных, как конфиденциальность информации. Потребители обоснованно встревожены, например, следующими сообщениями:

  • В 2013 году исследование на основе анонимных мобильных данных от 1,5 миллионов европейских пользователей мобильных устройств, показало, что до 95% из них могут быть идентифицированы на основе всего четырех категорий данных.
  • Медицинские страховые компании покупают гигантские базы данных для идентификации покупателей одежды большого размера, т.к. они подвержены риску ожирения.
  • Цифровые рекламные щиты могут анализировать черты вашего лица или получать доступ к данным вашего смартфона, чтобы воздействовать на вас при помощи кастомизированной рекламы.

Не будем лишним упомянуть ежедневные подборки новостей от Google и Facebook, которые они предлагают своим пользователям.

В условиях глобальной экономики с учетом растущего спроса со стороны правительства к информации о своих гражданах, интернет-индустрия должна ответить на ряд сложных вопросов:

  • Кто владеет правами на персональные данные? Существуют ли исключения из правил?
  • Теперь, когда появились облачные технологии, какие гарантии необходимы для защиты персональной информации?
  • Т.к. сотрудничество в области работы с данными усиливается, в каких объемах интернет-компании могут делиться информацией со своими коммерческими партнерами, поставщиками средств бизнес-аналитики и некоммерческими организациями?
  • Что означает конфиденциальность в XXI веке?

К сожалению, как и во всем, что имеет отношение к науке о данных, простых ответов на подобные вопросы не существует.

История науки о данных и Интернета

«У меня есть мечта об Интернете [в котором компьютеры] будут способны анализировать весь веб-контент, ссылки и взаимодействия между людьми и компьютерами» — Тим Бернерс-Ли

В начале октября 1957 заголовок каждой газеты в мире выглядел примерно так:

  • «КРАСНАЯ «ЛУНА» НАД ЛОНДОНОМ!»
  • «РОССИЯ ВЫИГРЫВАЕТ ГОНКУ В КОСМИЧЕСКОМ ПРОСТРАНСТВЕ!»
  • «КОСМИЧЕСКИЙ ВЕК УЖЕ НАСТУПИЛ!»

Был запущен Спутник, первый искусственный спутник Земли.

Несколько месяцев спустя Министерство обороны США спешно приняло директиву 5105.15, касающуюся учреждения Агентства перспективных исследовательских разработок (ARPA). Агентство укомплектовали лучшими и умнейшими людьми страны, и шестидесятые годы организация посвятила решению коммуникационной проблемы. Решение проблемы получило название ARPANET и навсегда изменило мир.

Вы видите L?

В 1962 году Джозеф Карл Робнетт Ликлайдер (известный как «вычислитель Джонни-яблочное-зернышко») стал директором Бюро вычислительных расчетов и обработки информации (IPTO) в составе DARPA. Что же у него была за работа? Найти способ объединить главные компьютеры Агентства в центре на горе Шайен со штаб-квартирами Пентагона и Стратегического авиационного командования (SAC) в широкомасштабную сеть.

Его идея была ясной и простой:

«Сеть этих [компьютеров], соединенных друг с другом широкополосными коммуникационными линиями».

Эта мечта стала на один шаг ближе к реальности, когда у Пола Бэрана, Дональда Дэвиса и других появилась концепция коммутации пакетов. Путем объединения данных в произвольные пакеты и маршрутизации этих «цифровых конвертов», компьютерные инженеры могли сэкономить драгоценную пропускную способность линий связи.

В конце 1960-х Ликлайдер занялся другими проектами, а главой IPTO стал Роберт Тейлор. Работая с такими гениями, как Ларри Робертс и Леонард Клейнрок из Массачусэтского технологического института, он задействовал в проекте еще больше ресурсов.

29 октября 1969 года Клейнрок из Калифорнийского университета в Лос-Анджелесе разговаривал по телефону с коллегами из Стэнфордского исследовательского института. Их компьютеры были соединены; системы были запущены:

«Мы напечатали L, и мы спросили по телефону: «Вы видите L?»

«Да, мы видим L», - пришел ответ.

«Мы ввели O, и мы спросили: «Вы видите, O»?

«Да, мы видим O.»

Затем мы ввели G, и система накрылась».

Так из LO родился Интернет.

Следуя протоколу

После того, как IPTO оправилось после первого сбоя, события стали нарастать со скоростью снежного кома:

  • 1971: Абхай Бхушан пишет исходный протокол передачи файлов (FTP).
  • 1971: В Мичигане зарегистрирована Merit Network.
  • 1972: Ларри Робертс проводит публичную презентацию ARPANET на международной конференции по компьютерной связи.
  • 1972: Появляется первый полный протокол TELNET.
  • 1974: Винтон Серф, Далал Йогени Карл Саншайн пишут спецификацию TCP (управляющего протокола передачи).
  • 1976: Роберт Меткалф с коллегами запускают Ethernet, семейство технологий для локальных вычислительных сетей (ЛВС)

К 1980-м электронная почта, новостные группы и ЛВС становятся обычным явлением в университетах и исследовательских организациях. В 1985 году Сеть национального научного фонда (NSFnet) соединили пять национальных суперкомпьютерных центров, которые, в конечном итоге, заменили ARPANET в качестве де-факто образовательной сети.

Это означало данные. Много-много данных.

Ревущие 90-е

На протяжении 1980-х и в начале 90-х годов несколько групп было занято разработкой способов организации этих данных, чтобы подготовиться к прогнозируемому росту. В 1989 году Тим Бернерс-Ли предложил простую, но многообещающую идею: Почему бы не использовать Интернет как платформу для создания глобальной гипертекстовой доступной для всех системы? Несколько лет спустя всемирная компьютерная сеть стала общедоступной.

С самого начала было важно, чтобы Интернет был доступен для обычных пользователей. Браузеры типа Mosaic (1993) и Netscape (1994) помогли понять, как с ним работать. Yahoo! (1994) и AltaVista (1995) упростили процедуру поиска. Компании, занимающиеся электронной торговлей, такие, как Book Stacks Unlimited (1992) и Amazon (1995) использовали сеть для создания новой парадигмы бизнеса.

К концу века Интернет был на пути к тому, чтобы стать основным информационным механизмом на базе двусторонних телекоммуникационных сетей.

Google Googol

Затем появилась Google. Название - это преднамеренно искаженное слово «googol», обозначающее очень большое число: единицу, за которой следует

В конце 1990 и начале 2000-х, Google:

  • Улучшила существующие алгоритмы поиска путем присвоения гиперссылки каждой веб-странице (для оценки ее популярности), а также начала анализировать текст на странице (процедуру, получившую название PageRank в честь соучредителя Ларри Пейджа)
  • Начала продавать рекламу, ассоциируемую с поиском ключевых слов
  • Разработала MapReduce, модель программирования для обработки больших массивов данных (свободно распространяемый набор инструментов Apache Hadoop)
  • Запустила Gmail, Google Translate, Google Maps, Google News, Google Books, а также множество других экспериментальных сервисов
  • Выкупила YouTube

Google буквально поедала и переваривала данные.

И подход Google работал. Как пишут Виктор Майер-Шенбергер и Кеннет Кукьер в своей книге 2013, Большие данные: Революция, которая изменит нашу жизнь, работу и способ мышления:

«Причина, по которой система перевода Google работает хорошо, не заключается в том, что они используют более продвинутые алгоритмы. Система хорошо работает, потому что ее создатели Банко и Брилл из корпорации Майкрософт, скармливали ей больше данных, не обязательно высокого качества. Google была в состоянии использовать наборы данных, которые по своему объему были в десятки тысяч раз больше информации, использовавшейся в Candide компании IBM, т.к. она могла справляться с хаосом».

Хаотичные данные? Неструктурированные данные? Это не имело значения. В своей статье от 2009 Необоснованная эффективность данных, эксперт по искусственному интеллекту в Google Питер Норвиг и его коллеги отмечали:

«Простые модели и множество данных выигрывают в сравнении с более сложными моделями, которые используют меньше данных».