Компанія IBM оголосила, що направить 3500 дослідників працювати над проектом Apache Spark, який є проектом з відкритим кодом, призначеним для обробки "великих даних".
Для посилення компоненти машинного навчання "блакитний гігант" передасть у вільне користування свою технологію SystemML. Саму систему Apache Spark фахівці IBM проголошують операційною системою для аналітики.
Леонід Деліцин, аналітик інвестиційного холдингу ФИНАМ.
IBM ще з часів Луіса Герстнера розгорнулася від виробництва високотехнологічних закритих рішень до сервісів. Врешті-решт продукт (включаючи і "залізо") завжди вигідніше робитиме там, де концентрується дешева робоча сила. Зараз це Східна і Південно-східна Азія. А будь-який цінний софтвер з досить широким колом користувачів сьогодні відтворюється і покращується ентузіастами-програмістами під тією або іншою відкритою ліцензією. З іншого боку, заробляти на сервісах можна глобально, навчаючи інженерів-винахідців або надаючи ліцензії.
Сервіс Apache Spark (sparc.apache.org) ставить метою перевершити популярну технологію MapReduce за швидкістю в десятки разів. На сайті демонструється 100-кратна перевага над MapReduce при обчисленні логістичної регресії на кластерах з використанням тільки оперативної пам'яті, і 10-кратне при використанні жорстких дисків. У проекті бере участь більше 400 розробників з 50 компаній.
Під аналітикою при роботі з великими даними сьогодні мають на увазі переважно операції, на кшталт обчислення різного роду описової статистики (обчислення середніх, максимальних і мінімальних значень і інш.).
Розраховувати що-небудь більше на велетенських об'ємах даних - це вже конкретне застосування, яке розробляється для конкретних випадків дослідниками, а потім реалізується за допомогою технологій обробки великих даних. Логістична регресія заслужила звання "робочого коня" машинного навчання, оскільки теоретично досить проста і використовується вже декілька десятиліть, так що звична, і її результати викликають довіру замовників з найрізноманітніших індустрій.
Поки неясно, що мається на увазі під напрямом в колгоспи великих даних 3500 дослідників. Неясно, чи йде мова про вже працюючих співробітників, або компанія має намір навчити тисячі таких фахівців. Принаймні на сторінці проекту SystemML знаходяться тільки сім фотографій співробітників робочої групи проекту. На сторінці, присвяченій усьому напряму Knowledge Discovery and Data Mining більше трьохсот фотографій, але і це - лише десята частина необхідної кількості. Швидше за все, йдеться про те, що і ці, і інші співробітники IBM повинні будуть тепер орієнтуватися на Apache Spark, як на основну платформу для рішень в області Big Data.
Крім того, IBM має намір навчити ще тисячі фахівців з компаній-клієнтів розробляти рішення для обробки Big Data, з прицілом на дані, що поступають від m2m (тобто виміряні в реальному часі мільйонами пристроїв, на кшталт лічильників гарячої і холодної води) на платформі Apache Spark. При цьому компанія взаємодіятиме з Databrics - комерційною структурою, вже впроваджувальною Apache Spark.