Що саме таке "великі дані"?

І чому це велика угода?

"Великі дані" - це нова наука про розуміння та прогнозування поведінки людини шляхом вивчення великих обсягів неструктурованих даних. Великі дані також відомі як "прогностична аналітика".

Аналіз публікацій у Твіттері, каналів Facebook, пошуку на eBay, GPS-трекерів та банкоматів - кілька прикладів великих даних. Вивчення відеозахисту про безпеку, дані про дорожній рух, схеми погоди, прибуття рейсів, журнали вежі стільникового телефону та відстежувачі серцевих скорочень - це інші форми. Великі дані - це безладна нова наука, яка змінюється щотижня, і лише деякі фахівці це розуміють.

Які є приклади великих даних у звичайному житті?

project.wnyc.org/transit-time

Хоча більшість проектів великих даних дуже незрозумілі, є вдалі приклади великих даних, що впливають на повсякденне життя людей, компаній та урядів:

Прогнозуючи спалахи вірусу: вивчаючи соціально-політичні дані, дані про погоду та клімат та дані лікарні / клініки, тепер вчені прогнозують спалахи лихоманки денге з попереднім повідомленням за 4 тижні.

Убивство вахтів: цей великий проект даних про профілі жертв, підозрюваних та злочинців у вбивстві у Вашингтоні, округ Колумбія. Цей великий проект даних як спосіб вшанувати покійних, так і як інформаційний ресурс для людей.

Транзитне планування подорожей, Нью-Йорк: Радіопрограміст WNYC Стів Мелендес поєднав онлайн-графік метро з програмним забезпеченням маршруту подорожі. Його створення дозволяє нью-йоркчанам клацати місце розташування на карті, і з'явиться прогноз часу подорожі для поїздів та метро.

Xerox зменшив втрату робочої сили: робота в телефонному центрі емоційно виснажлива. Xerox вивчав потоки даних за допомогою професійних аналітиків, і тепер вони можуть передбачити, які наймачі центрів телефонного зв’язку, швидше за все, залишаться у компанії найдовше.

Підтримка боротьби з тероризмом: вивчаючи соціальні медіа, фінансові записи, бронювання польотів та дані про безпеку, правоохоронні органи можуть передбачати та знаходити підозрюваних у тероризмі до того, як вони зроблять свої злі вчинки.

Коригування маркетингу бренда на основі оглядів соціальних медіа: люди прямо і швидко діляться своїми думками в Інтернеті про паб, ресторан чи фітнес-клуб. Можна вивчити ці мільйони публікацій у соціальних медіа та надати відгуки компанії про те, що люди думають про їхні послуги.

Хто використовує великі дані? Що вони з цим роблять?

alexsl / Гетті Зображення

Багато монолітних корпорацій використовують великі дані для коригування своїх пропозицій та цін, щоб максимально задовольнити клієнтів.

  • Macy універмаг, наприклад, використовує великі дані , щоб скорегувати свої ціни на льоту більше 70 мільйонів одиниць продукції. Вони навіть надсилають своїм клієнтам спеціалізовані електронні листи на основі того, що Macy вважає, що їх цікавить.
  • Відповідь поліції на вибух Бостонського марафону : використовуючи великі дані для вивчення відео- та відеоспостережень, поліція змогла швидко звузити пошук підозрюваних.
  • Morton's Steakhouse використовує Twitter, щоб зняти маркетингові трюки, включаючи знамениту в аеропорт Нью-Джерсі доставку стейк з портерхауса та вечерю з креветок.
  • Visa використовує великі дані для ідентифікації та вилову шахраїв. Одиночні транзакції тут і там легко можуть приховати нечесного користувача кредитної картки, але уважно спостерігаючи за мільйонами транзакцій, можна виявити закономірності шахрайства.
  • Facebook використовує великі дані для адаптації реклами . Уважно вивчаючи свої пристрасті до ФБ та переглядаючи звички, гігант соціальних медіа отримав чудове розуміння ваших смаків. Ті оголошення на бічній панелі, які ви бачите на своєму каналі Facebook, вибрані дуже обдуманими та складними алгоритмами, які стежать за вашими звичками у Facebook.

Чому великі дані такі великі?

LeoWolfert / Getty Images

4 речі роблять великі дані вагомими:

1. Дані є масовими. Він не поміститься на одному жорсткому диску, тим більше на USB-накопичувачі. Обсяг даних набагато перевищує те, що може сприймати людський розум (подумайте про мільярд мільярдів мегабайт, а потім помножте на більше мільярдів).

2. Дані безладні та неструктуровані. 50% до 80% роботи з великими даними - це перетворення та очищення інформації, щоб її можна було шукати та сортувати. Лише кілька тисяч фахівців на нашій планеті повністю знають, як зробити цю очистку даних. Ці фахівці також потребують дуже спеціалізованих інструментів, таких як HPE та Hadoop, щоб займатися своєю справою. Можливо, через 10 років фахівці з великих даних стануть десятки десятки, але поки що вони є дуже рідкісним видом аналітика, і їхня робота все ще дуже незрозуміла і стомлива.

3. Дані стали товаром **, який можна продати та купити. Існують ринки даних, де компанії та фізичні особи можуть купувати терабайти соціальних медіа та інші дані. Більшість даних базується на хмарі, оскільки вона занадто велика для розміщення на будь-якому одному жорсткому диску. Придбання даних зазвичай включає плату за підписку, коли ви підключаєтесь до ферми хмарних серверів.

** Лідерами інструментів та ідей великих даних є Amazon, Google, Facebook та Yahoo. Оскільки ці компанії обслуговують стільки мільйонів людей за допомогою своїх онлайн-сервісів, то є сенс, що вони стануть точкою збору та провидцями, що стоїть за аналітиками великих даних.

4. Можливості великих даних нескінченні. Можливо, лікарі одного разу передбачать інфаркти та інсульти для людей за тиждень до того, як вони трапляться. Аварії літака та автомобіля можуть бути зменшені за допомогою прогнозного аналізу їхніх механічних даних, структури руху та погоди. Інтернет-знайомства можуть бути покращені, якщо мати великі передбачувачі даних про те, хто для вас сумісні особистості. Музиканти можуть отримати уявлення про те, який музичний твір найбільше сподобається мінливим смакам цільової аудиторії. Дієтологи, можливо, зможуть передбачити, яке поєднання куплених у магазині продуктів погіршить стан здоров'я або допоможе допомогти йому. Поверхня лише подряпана, і відкриття великих даних відбуваються щотижня.

Великі дані безладні

Монті Ракусен / Гетті

Великі дані - це прогностична аналітика: перетворення масивних неструктурованих даних у щось, що можна шукати і сортувати. Це безладний і хаотичний простір, який вимагає особливого роду знань і терпіння.

Візьмемо для прикладу монолітну службу доставки ДБЖ. Програмісти UPS вивчають дані з GPS та смартфонів своїх водіїв для аналізу найбільш ефективних способів адаптації до заторів. Ці дані GPS та смартфонів є загальними, але не готові автоматично до аналізу. Ці дані поширюються з різних баз даних GPS та карт через різні апаратні пристрої смартфонів. Аналітики ДБЖ витратили місяці на перетворення всіх цих даних у формат, який можна легко шукати та сортувати. Але зусилля того варті. Сьогодні компанія UPS зекономила понад 8 мільйонів галонів палива з тих пір, як почала використовувати цю велику аналітику даних.

Оскільки великі дані безладні і вимагають стільки зусиль, щоб очистити та підготувати до використання, вчені отримали прізвисько «двірники даних» за всю копітку роботу, яку вони роблять. Сігналы абмеркавання

Наука про великі дані та прогностичну аналітику щотижня вдосконалюється. Очікуйте, що великі дані стануть легкодоступними для всіх до 2025 року.

Чи не великі дані - нав'язлива загроза конфіденційності?

Пінгерш / Гетті

Так, якщо наші закони та захист конфіденційності не ретельно керуються, то великі дані втручаються в особисте приватне життя. В даний час Google і YouTube і Facebook вже відстежують ваші щоденні звички в Інтернеті. Ваш смартфон та обчислювальне життя залишають цифрові сліди щодня, і складні компанії вивчають ці сліди.

Закони навколо великих даних змінюються. Конфіденційність - це стан, за який тепер ви повинні взяти на себе особисту відповідальність, оскільки ви більше не можете очікувати цього як права за замовчуванням.

Що ви можете зробити для захисту своєї конфіденційності:

Найбільший крок, який ви можете зробити - це приховувати свої щоденні звички за допомогою мережевого підключення VPN. Служба VPN скремгує ваш сигнал, щоб ваша особа та місцезнаходження хоча б частково маскувалися від трекерів. Це не зробить вас 100% анонімними, але VPN істотно зменшить, наскільки світ може спостерігати ваші звички в Інтернеті.

Де я можу дізнатися більше про великі дані?

Монті Раскусен / Гетті

Великі дані - це захоплююча річ для людей з аналітичним розумом та любов'ю до технологій. Якщо ви це, то обов'язково відвідайте цю сторінку цікавих великих даних проектів.