Наука о данных
Data Science
Наука о данных (Data Science) — профессиональная деятельность, связанная с эффективным и максимально достоверным поиском закономерностей в данных, извлечение знаний из данных в обобщённой форме, а также их оформление в виде, пригодном для обработки заинтересованными сторонами (людьми, программными системами, управляющими устройствами) в целях принятия обоснованных решений.
Что такое Data Science?
Математические и алгоритмические методы, оптимизированные для эффективного выявления сложных закономерностей. Наука о методах анализа данных, сформировавшаяся на стыке математики, компьютерных наук и бизнеса, включающая в себя построение сложных аналитических моделей на основе данных для извлечения новых знаний.
Data Science — это набор конкретных дисциплин из разных направлений, отвечающих за анализ данных и поиск оптимальных решений на их основе. Раньше этим занималась только математическая статистика, затем начали использовать машинное обучение и искусственный интеллект, которые в качестве методов анализа данных к матстатистике добавили оптимизацию и computer science (то есть информатику, но в более широком смысле, чем это принято понимать в России)[1].
Data Science - как это работает?
[2]Традиционные риски Data Science проектов
- Высокая стоимость реализации проекта приведет к финансовым потерям (не окупится)
- Отсутствие подробной отчетности по проекту не позволит отчитаться о потраченных средствах или принять правильное решение о продолжении проекта
- Внедрение закрытого алгоритма или программы («Черный ящик») сделает невозможным дальнейшее изменение или модернизацию проекта внешними или внутренними ресурсами
Big Data≠Data Science
Big Data – это:
- ETL\ELT
- Технологии хранения больших объемов структурированных и не структурированных данных
- Технологии обработки таких данных
- Управление качеством данных
- Технологии предоставления данных потребителю
Data Science – это:
- Распознавание видео
- Распознавание текстов
- Распознавание речи
- Построение рекомендательных моделей
- Сегментация
- Кластеризация и т.д.
Data Science в реалиях производства
- Сложный и длительный во времени процесс
- Требуется глубокое понимание предметной области
- Разная частота съема данных и не все оцифровано
- Нет сквозного контроля и фиксации событий тех.процесса
- Доверие к модели со стороны технологов и операторов
- Для проверок модели требуются эксперименты с данными реального времени на производстве
Новости и основные тенденции в области данных
2023
«Искусственный интеллект от боли до эффектов» - взгляд Data-экспертов
«Рексофт Консалтинг», подразделение трансформационного и стратегического консалтинга группы «Рексофт», выпустил исследование по проблематике, с которой сталкиваются Data-специалисты российских компаний в ходе разработки и внедрения цифровых решений на базе технологий искусственного интеллекта (ИИ). Материал также содержит обзор возможных путей преодоления возникающих трудностей. Об этом «Рексофт» сообщил 28 ноября 2023 года.
Компания «Рексофт Консалтинг» провела глубинные интервью с экспертами, а именно с техническими директорами, CDO, руководителями направлений и команд Data Science, Data Science специалистами, разрабатывающими и внедряющими цифровые решения на базе ИИ в различных отраслях экономики, чтобы понять с какими проблемами они сталкиваются сегодня. В опросе приняли участие представители промышленности, медицины, финансового сектора, ритейла и ИТ-компаний.
По результатам интервью были выделены 5 ключевых областей, в которых сосредоточены основные трудности, не позволяющие эффективно внедрять ИИ-решения в российских компаниях:
- Взаимодействие Data-специалистов с бизнес-заказчиком
- Данные
- Управление разработкой и технологии
- Передача в эксплуатацию и поддержка ИИ-решений
- Поиск, удержание и развитие Data Science специалистов
Среди наиболее частых причин возникновения трудностей при взаимодействии Data-специалистов с бизнес-заказчиком называются такие как: завышенные ожидания бизнеса, нежелание бизнеса трансформироваться, неадаптированная корпоративная культура. Наиболее остро они проявляются в случае, если бизнес инвестирует в ИИ, но не достигает эффекта и испытывает затруднения с приживаемостью решений. Для их успешного внедрения бизнес-заказчикам необходимо быть готовыми трансформировать свою операционную модель.
В блоке данные фигурируют такие корневые причины как недостаточный уровень автоматизации бизнес-процессов, низкий уровень зрелости инфраструктуры данных, низкое качество исходных данных и длительный процесс их получения, неадаптированные для цифровых решений на базе ИИ процессы сбора и управления данными. Трудности, связанные с данными, всегда охватывают не только ИИ-разработку, но и всю компанию из-за отсутствия единых требований и настроенных процессов. Проблематика в части данных характеризуется тезисом «новые проблемы, старые решения» – прежде чем приступать к Data Science, необходимо отладить и адаптировать процессы, связанные с управлением данными.Известный писатель-фантаст Сергей Лукьяненко выступит на TAdviser SummIT 28 ноября. Регистрация
Технологический стек для разработки решений на базе ИИ постоянно меняется и развивается. Здесь Data-специалисты выделяют отсутствие стандартов ИИ-разработки и гибкого подхода при прототипировании ИИ-решений, а также отсутствие сформированного подхода к работе с внешними разработчиками ИИ-решений.
В сегменте передачи в эксплуатацию и поддержки ИИ-решений специалисты отмечают отсутствие выстроенного процесса передачи в эксплуатацию и четких критериев приемки решений, а также то, что подходы ИБ не адаптированы к внедрению решений ИИ и оценке его рисков. Для минимизации барьеров, с которыми сталкиваются компании при масштабировании пилотных ИИ-решений, необходимо заранее договариваться о критериях успеха и продумывать модель поддержки. Критически важно до старта проекта определить и согласовать подход к оценке экономического эффекта со всеми заинтересованными сторонами, а также выстроить долгосрочную систему мотивации вовлеченных сотрудников, чтобы избежать трудностей с приживаемостью решений.
Особенную озабоченность у опрошенных экспертов вызывает задача поиска, удержания и развития Data Science специалистов. Существующие во многих российских компаниях HR-процессы поиска, найма, адаптации и удержания персонала не адаптированы для Data-специалистов. Недостаток Т-shape специалистов обостряет разрыв между бизнесом и Data Science. HR в сложившейся ситуации не понимает, как развивать последних и адаптировать первых. Организационные структуры и функционально-ролевые модели ИТ во многих российских компаниях не успели адаптироваться к системному внедрению решений на базе ИИ, что размывает распределение ответственности и роль Data-специалистов.
ИИ часто воспринимается как «модная игрушка», при этом упускается самое главное – ИИ должен давать компании системный трансформационный эффект. Необходимо создание технологической и организационной базы для системного развития цифровых продуктов от прототипирования до получения эффекта. Здесь стоит задуматься над созданием «цифрового конвейера» в купе с бизнес-трансформацией самой компании. В результате ИИ должен стать понятной и привычной технологией для бизнеса – повседневным рабочим инструментом, интегрированным в текущие бизнес-системы такие как ERP м CRM-системы и аналитику, сказал Алексей Богомолов, директор практики «Стратегия трансформации» «Рексофт Консалтинг».
|
Названы 5 трендов на рынке Data Science
Значительное влияние на мировую отрасль наук о данных и машинного обучения (Data Science and Machine Learning, DSML) окажут системы генеративного искусственного интеллекта. Об этом говорится в отчете Gartner, опубликованном 1 августа 2023 года.
На фоне активного внедрения средств машинного обучения в разных отраслях происходит трансформация рынка — фокус смещается с обычных прогностических моделей к более демократизированному и динамичному подходу, ориентированному на данные. Этому способствует развитие платформ генеративного ИИ. Наряду с потенциальными рисками появляется множество новых возможностей и вариантов использования ИИ в сфере Data Science, — говорит Питер Кренски (Peter Krensky), директор-аналитик Gartner. |
Опрос Gartner, в котором приняли участие более 2500 руководителей различных организаций, показал, что 45% компаний увеличили инвестиции в ИИ после появления чат-бота ChatGPT. При этом 70% респондентов сообщили, что изучают возможность использования средств генеративного ИИ, тогда как 19% уже экспериментируют с такими системами. Gartner выделяет пять ключевых тенденций, которые определят дальнейшее развитие отрасли DSML.
Тренд 1. Экосистемы облачных данных
Решения по обработке данных преобразуются из автономного программного обеспечения или смешанных развертываний в полноценные облачные платформы. К 2024 году, полагает Gartner, 50% новых приложений в облаке будут основаны на целостной экосистеме данных, а не на точечных массивах, интегрированных вручную.
Тренд 2. Искусственный интеллект на периферии
Растет потребность в ИИ-средствах на периферии (Edge AI). Такие инструменты позволяют обрабатывать данные в момент их создания, что помогает организациям получать ценную информацию в режиме реального времени и соблюдать строгие требования к конфиденциальности. Gartner прогнозирует, что к 2025 году более 55% всего анализа данных с помощью глубоких нейронных сетей будет происходить на периферии. Для сравнения: в 2021 году этот показатель составлял менее 10%.
Тренд 3. Ответственный ИИ
Подход, основанный на ответственном использовании, позволяет извлечь максимальную выгоду от внедрения технологий ИИ и обойти возможные проблемы, связанные с доверием и общественными рисками. Концепция ответственного ИИ охватывает многие деловые и этические аспекты. Gartner рекомендует организациям соблюдать осторожность при внедрении нейросетевых моделей и применять бизнес-стратегию на основе оценки рисков для обеспечения ценности ИИ. Это поможет защититься от финансовых потерь, судебных исков и репутационного ущерба.
Тренд 4. Искусственный интеллект, ориентированный на данные
Применение подхода, ориентированного на данные, обеспечит возможность создания более совершенных ИИ-приложений и сервисов. Использование генеративного ИИ для формирования синтетических данных — это одна из быстрорастущих областей, способствующих эффективной тренировке моделей машинного обучения. Gartner прогнозирует, что к 2024 году 60% данных для моделирования реальности, новых сценариев применения ИИ и снижения рисков будут синтетическими. В 2021 году этот показатель равнялся только 1%.
Тренд 5. Ускорение инвестиций в ИИ
Финансовые вливания в технологии ИИ продолжат увеличиваться, чему будет способствовать расширение использования соответствующих инструментов. К 2026-му, полагают эксперты Gartner, более $10 млрд будет инвестировано в стартапы, которые применяют масштабные модели ИИ, обученные на огромных объемах данных.[3]
2020: Наука о данных: пять ключевых тенденций
1. Ускорение внедрения ИИ в бизнесе
В течение последних нескольких лет ИИ постепенно становится одной из основных технологий как для малых, так и для крупных предприятий, и есть все основания полагать, что это будет продолжаться в течение следующих нескольких лет. Сегодня мы находимся на начальных этапах применения ИИ, но вполне вероятно, что уже к концу 2020 г. мы увидим новые и более прогрессивные методы его задействования в научных областях и бизнесе. Движущей силой такого быстрого роста является тот факт, что ИИ позволяет компаниям любых размеров значительно повысить эффективность и результативность своих бизнес-процессов и операций. С его помощью можно также достичь огромных успехов в управлении клиентскими и пользовательскими данными[4].
Многие предприятия столкнутся со сложностями при внедрении ИИ, что связано с ограниченными финансовыми ресурсами или недостатком квалифицированного персонала, но те, кто инвестирует в него средства, получат ощутимую отдачу в виде продвинутых приложений, разработанных с использованием ИИ, МО и других технологий, которые значительным образом изменят те методы работы, которые приняты сегодня.
Еще одна тенденция, которая в ближайшие месяцы примет видимые очертания — автоматизированное МО, которое помогает трансформировать науку о данных при помощи улучшенного управления данными. Это приведет к тому, что начинающим специалистам по данным потребуется пройти специализированные курсы, чтобы изучить методы глубокого обучения.
2. Быстрый рост IoT
Согласно IDC, к концу 2020 года инвестиции в технологии Интернета вещей достигнут 1 трлн. долл., что является очевидным свидетельством ожидаемого роста числа «умных» и подключенных устройств. Многие люди уже применяют приложения и устройства, чтобы с их помощью управлять своими бытовыми приборами — электропечами, холодильниками, кондиционерами и телевизорами. Все это примеры базовой технологии IoT, и пользователи часто могут не знать, что за ней скрывается. Смарт-устройства типа Google Assistant, Amazon Alexa и Microsoft Cortana позволяют людям легко автоматизировать повседневные задачи в домашних условиях. Это только вопрос времени, когда компании задействуют их в комбинации с бизнес-приложениями и начнут активнее инвестировать в эту технологию. Наиболее заметный прогресс от применения IoT ожидается на производстве — там она поможет оптимизировать работу заводских цехов.
3. Эволюция аналитики больших данных
Эффективный анализ больших данных, несомненно, помогает предприятиям получить значительное конкурентное преимущество и достичь основных целей. Сегодня они применяют для анализа своих скоплений данных различные инструменты и технологии, такие как Python. Все больше компаний сосредоточились на выявлении причин, стоящих за определенными событиями, которые происходят в настоящее время, и в этом случае на помощь приходит прогнозная аналитика — она позволяет выявлять тенденции и прогнозировать, что может произойти в будущем. К примеру, она пригодится для того, чтобы определить пользовательские привычки отталкиваясь от истории просмотров или покупок. Специалисты по продажам и маркетингу могут проанализировать эти модели, чтобы создать более целенаправленные стратегии для привлечения новых клиентов и удержания уже имеющихся. Amazon применяет прогностические модели для наполнения складских запасов исходя из спроса в том или ином регионе продаж.
4. Edge Computing на подъеме
Периферийные вычисления набирают популярность, и ответственность за это несут датчики. Наступление этой технологии продолжится в значительной степени благодаря популяризации IoT, которая захватывает основные вычислительные системы. Edge Computing предоставляет компаниям возможность хранить потоковые данные рядом с источниками и анализировать их в режиме реального времени. Периферийные вычисления также являются альтернативой аналитике больших данных, которая требует высокопроизводительных устройств хранения данных и гораздо большей пропускной способности сети. Число устройств и датчиков, собирающих данные, растет экспоненциально, поэтому все больше компаний внедряют Edge Computing благодаря его возможностям в плане решения проблем, связанных с пропускной способностью, задержкой и связью. Кроме того, сочетание периферийных и облачных технологий формирует синхронизированную инфраструктуру, которая может минимизировать риски, связанные с анализом и управлением данными.
5. Растущий спрос на специалистов по безопасности данных
Без сомнений, внедрение ИИ и МО приведет к появлению многих новых специальностей в ИТ- и высокотехнологичных отраслях. Одной из самых востребованных станет специалист в области безопасности данных. На рынке труда уже в достаточном количестве имеются эксперты в области ИИ, МО и специалисты по данным, но помимо них существует потребность в специалистах по безопасности данных, которые умеют так анализировать и обрабатывать данные, чтобы передавать их клиентам в безопасном виде. Для выполнения этих функций они должны хорошо разбираться в новейших технологиях, таких как Python и другие популярные языки, которые применяются в науке о данных и аналитике. Четкое понимание концепций Python поможет решить проблемы, связанные с безопасностью данных.
Обучение Data Science
2024: «Наносемантика» объявила о начале партнерства со школой ИТ-профессий Skillfactory
Компания «Наносемантика» выступит технологическим партнером онлайн-программы «Data Science в медицине» школы ИТ-профессий Skillfactory. Сотрудничество направлено на подготовку квалифицированных специалистов в области Data Science для медицинской индустрии. Об этом Наносемантика сообщила 11 марта 2024 года. Подробнее здесь.
2020: НИТУ «МИСиС», SkillFactory и Mail.ru Group запускают русскоязычную онлайн-магистратуру по Data Science
28 мая 2020 года компания VK (ранее Mail.ru Group) сообщила, что НИТУ «МИСиС» и образовательная платформа в области Data Science – SkillFactory – заключили соглашение о создании совместной онлайн-магистратуры «Наука о данных» и сотрудничестве в области развития образовательных технологий в высшем образовании. Это партнерство частной образовательной компании с государственным вузом по модели OPM (Online Program Management). Индустриальным партнером программы выступает Mail.ru Group. Программу также поддерживают Nvidia, Ростелеком и Университет НТИ «20.35».
Выпускники программы смогут работать в областях Big Data Engineering, Machine Learning Development и Artificial Intelligence Development. Цель программы – вовлечь в сферу науки о данных более 1 000 молодых специалистов к 2025 году в рамках федерального проекта «Кадры для цифровой экономики», задача которого подготовить не менее 120 000 выпускников вузов по ИТ-направлениям.
Занятия будут вести профессора НИТУ «МИСиС» и практикующие специалисты из Mail.ru Group, Яндекса, банков Тинькофф и ВТБ, компаний Lamoda, BIOCAD, АльфаСтрахование и др. Интенсивная программа онлайн-магистратуры позволит студентам овладеть знаниями и навыками, востребованными работодателями, получить фундамент для дальнейшего развития и построения карьеры, пройти стажировку в компаниях-партнерах программы.
«Междисциплинарная магистерская программа Data Science создана НИТУ «МИСиС» совместно SkillFactory и компаниями - Mail.ru Group, Ростелеком и NVidia. Её выпускники будут владеть знаниями и компетенциями в области больших данных, искусственного интеллекта и машинного обучения. Эти навыки актуальны на рынке труда и востребованы работодателями», |
Ещё одна особенность программы – работа с менторами. Кроме преподавателей со студентами будет работать команда менторов – специалистов в области Data Science. Они будут помогать студентам с возникающими во время обучения сложностями, давать содержательную обратную связь по выполненным работам, делиться опытом и знаниями по профессии. Поддержка менторов будет доступна студентам в чате в режиме реального времени.
Технологическим партнером программы стала компания SkillFactory, обеспечивающая сопровождение образовательного процесса. Для каждого студента будет сформирован индивидуальный план обучения, что позволит управлять его образовательным опытом и мотивацией, что, в свою очередь, повышает результативность обучения. Студенты будут учиться на интерактивных тренажерах и решать практические задачи на реальных данных. Среди дисциплин в рамках программы: язык программирования Python, Machine Learning, Deep Learning, Big Data, Computer Vision.
«Мы верим в модель OPM (Online Program Manager) - взаимодействие вузов и образовательных компаний в создании и реализации образовательных программ. Эта модель уже больше 10 лет работает в США и Европе, и мы уверены, что в ближайшие годы она хорошо покажет себя и в российских вузах», |
«Подготовка специалистов по Data Science — одно из основных направлений в рамках образовательной деятельности Mail.ru Group. Мы реализуем разные форматы, среди них в том числе развитие компетенций профессионалов, которые уже работают в этой сфере. В этом направлении тесно сотрудничаем с НИТУ «МИСиС» — в 2019 году открыли Академию больших данных MADE, где уже по данным на май 2020 года учатся 200 студентов со всей страны — и готовы поделиться опытом в рамках поддержки онлайн-магистратуры вуза. У онлайн-формата много преимуществ, но главное — доступность. Получить степень магистра московского вуза смогут жители любых регионов», |
Поступить в магистратуру смогут выпускники бакалавриата любого направления подготовки по результатам онлайн-экзамена.
Директор по данным - Chief Data Officer, CDO
Основная статья: Директор по данным (Chief Data Officer, CDO)
Специалист по изучению данных (data scientist)
Основная статья - здесь
Почему Data Scientist сексуальнее, чем BI-аналитик
В связи с ростом популярности data science (DS) возникает два совершенно очевидных вопроса. Первый – в чем состоит качественное отличие этого недавно сформировавшегося научного направления от существующего несколько десятков лет и активно используемого в индустрии направления business intelligence (BI)? Второй - возможно более важный с практической точки зрения - чем различаются функции специалистов двух родственных специальностей data scientist и BI analyst? В материале, подготовленном специально для TAdviser, на эти вопросы отвечает журналист Леонид Черняк.
Робототехника
- Роботы (робототехника)
- Робототехника (мировой рынок)
- Обзор: Российский рынок промышленной робототехники 2019
- Карта российского рынка промышленной робототехники
- Промышленные роботы в России
- Каталог систем и проектов Роботы Промышленные
- Топ-30 интеграторов промышленных роботов в России
- Карта российского рынка промышленной робототехники: 4 ключевых сегмента, 170 компаний
- Технологические тенденции развития промышленных роботов
- В промышленности, медицине, боевые (Кибервойны)
- Сервисные роботы
- Каталог систем и проектов Роботы Сервисные
- Collaborative robot, cobot (Коллаборативный робот, кобот)
- IoT - IIoT - Цифровой двойник (Digital Twin)
- Компьютерное зрение (машинное зрение)
- Компьютерное зрение: технологии, рынок, перспективы
- Как роботы заменяют людей
- Секс-роботы
- Роботы-пылесосы
- Искусственный интеллект (ИИ, Artificial intelligence, AI)
- Обзор: Искусственный интеллект 2018
- Искусственный интеллект (рынок России)
- Искусственный интеллект (мировой рынок)
- Искусственный интеллект (рынок Украины)
- В банках, медицине, радиологии, ритейле, ВПК, производственной сфере, образовании, Автопилот, транспорте, логистике, спорте, СМИ и литература, видео (DeepFake, FakeApp), музыке
- Национальная стратегия развития искусственного интеллекта
- Национальная Ассоциация участников рынка робототехники (НАУРР)
- Российская ассоциация искусственного интеллекта
- Национальный центр развития технологий и базовых элементов робототехники
- Международный Центр по робототехнике (IRC) на базе НИТУ МИСиС
- Машинное обучение, Вредоносное машинное обучение, Разметка данных (data labeling)
- RPA - Роботизированная автоматизация процессов
- Видеоаналитика (машинное зрение)
- Машинный интеллект
- Когнитивный компьютинг
- Наука о данных (Data Science)
- DataLake (Озеро данных)
- BigData
- Нейросети
- Чатботы
- Умные колонки Голосовые помощники
- Безэкипажное судовождение (БЭС)
- Автопилот (беспилотный автомобиль)
- Беспилотные грузовики
- Беспилотные грузовики в России
- В мире и России
- Летающие автомобили
- Электромобили
Управление данными
- Интернет вещей Internet of Things (IoT)
- Интернет вещей, IoT, M2M (мировой рынок)
- Интернет вещей, IoT, M2M (рынок России)
- Интернет вещей: успеть нельзя остаться
- Что такое интернет вещей (Internet of Things, IoT)
- IIoT - Industrial Internet of Things (Промышленный интернет вещей)
- Большие данные (Big Data)
- Большие данные (Big Data) в России
- Большие данные (Big Data) мировой рынок
- Специалист по работе с большими данными (big data)
- Data Mining
- Data Quality - Качество данных
- Master Data Management (Управление основными мастер-данными) Каталог систем и проектов
- Системы управления нормативно-справочной информацией в России.
Ведущие игроки и главные тренды - Директор по данным (Chief Data Officer, CDO)
- Управление данными (Data management)
- Наука о данных (Data Science)
- Специалист по изучению данных (data scientist)
- Директор по цифровым технологиям Chief Digital Officer, CDO
- ИТ-директор (CIO - Chief Information Officer)
- Директор по информационной безопасности (Chief information security officer, CISO)
- Финансовый директор (CFO - Chief Financial Officer)
Примечания
- ↑ Data Science — это вообще работает?
- ↑ [http://research.cs.tamu.edu/prism/lectures/pr/ Иллюстрация взята с Ricardo Gutierrez-Osuna]
- ↑ Gartner Identifies Top Trends Shaping the Future of Data Science and Machine Learning
- ↑ Наука о данных: пять ключевых тенденций