Свершилось то, чего так все долго ждали — в металлургии наконец-таки появилась своя нейросеть, собственная доменная языковая модель (Domain-Specific Language Models, DSLMs), которую запустил «Норникель». С названием не заморачивались, чтобы было понятно всем — MetalGPT-1.
Ключевым конкурентным преимуществом MetalGPT-1 в компании считают уникальное качество данных, ведь для обучения модели использовали документы из закрытых источников. Со слов создателей, модель обучили на миллионе внутренних документов — от технологических протоколов до проектной документации. Ещё 500 тысяч пар вопросов и ответов позволили нейросети научиться распознавать причинно-следственные связи в технологических процессах и выдавать точные решения. Она изначально спроектирована для работы со сложными технологическими цепочками. Как говорят в «Норникеле», у неё нет «глюков», что повышает качество решений, принимаемых на основе рекомендаций ИИ.
Модель находится в открытом доступе: на её основе могут создавать ассистентов и другие предприятия отрасли. В дальнейшем MetalGPT-1 планируют научить подключаться к внешним инструментам и выполнять сложные производственные команды.
Так как модель открытая, нельзя забывать о конфиденциальность данных. Многое в этой отрасли не должно выходить за стены компаний (например, данные об эффективности производственных процессов, геологические данные и т.д.), что ограничивает их доступность для обучения публичной нейросети. Поэтому будет интересно, чем в «Норникеле» в итоге были готовы поделиться.
ИИ активно внедряется в металлургию уже около 5 лет для повышения эффективности процессов и безопасности
Разработка заняла около года: полгода на сбор и подготовку данных, два месяца — на базовое обучение, ещё два — на доменную адаптацию и тонкую настройку модели. Понятно, что модель ещё сырая, но в любом случае, если её обучать дальше, то результаты будут. Тут важно понимать, каким типом данных её «кормили». Как говорят в «Норникеле», в ИИ грузили технологические протоколы, регламенты, НИОКР, строй- и проектную документацию, научно-техническую литературу. Нужно отметить, что это не тексты в привычном ML-смысле. Это формализованные фрагменты производственного мира: язык процессов, цепочек, ограничений, рисков.
В пресс-службе компании заявляют, что «разработанная модель формирует единый языковый слой для инженерных, технологических, производственных и корпоративных задач». На её основе «Норникель» создаёт персональных ИИ-ассистентов и автономных агентов, которые внедряются в операционные процессы компании.
Языковая модель включает 32 млрд параметров и обучена на 10 гигабайтах профильных текстов по металлургии и горнодобывающей промышленности — объёме, сопоставимом с половиной англоязычной «Википедии». Ключевое конкурентное преимущество модели — это уникальное качество данных: обучение проведено на более чем миллионе документов, недоступных в открытых источниках. Все данные прошли многоступенчатую очистку и анонимизацию, что позволило использовать отраслевые знания без раскрытия коммерческой тайны.
Ценность в том, что наконец-то появляется новая парадигма: не «адаптируем GPT под домен», а строим ИИ вокруг индустриального мира как первичного источника данных.
Примеры задач, которые могла бы решать такая модель:
- Оптимизация производственных процессов: анализ данных датчиков и выявление возможностей для повышения эффективности.
- Прогнозирование поломок оборудования: анализ истории работы оборудования и выявление признаков приближающейся поломки.
- Автоматизация технической поддержки: ответы на вопросы инженеров и рабочих.
- Поиск информации в технических документах.
- Анализ геологических данных, выявление перспективных месторождений.
- Контроль безопасности: анализ журналов происшествий и выявление потенциальных рисков.
До этого скептики говорили, что искусственный интеллект ещё не готов работать так узкоспециализированно. Так недостаточно большой и специфичный набор данных, а обучение языковой модели требует огромного количества информации. Ко всему прочему, контент сам по себе специфичный, рассеянный и не структурированный в едином, достаточно большом формате для обучения.
Есть ещё вопрос рентабельности: спрос на такой узкоспециализированый сервис, скорее всего, будет ниже, чем на модели общего назначения. Это делает разработку и поддержание нейросети менее привлекательной с коммерческой точки зрения. Но в «Норникеле» уверены в успехе своей нейронки.
Если для металлургии это прецедент, то в других сферах уже существуют похожие продукты. Да, доменные языковые модели — это развивающееся направление в области искусственного интеллекта, и они уже активно используются в различных отраслях промышленности:
- Медицина и фармацевтика: модели для анализа медицинских записей, помощи в диагностике, разработки лекарств и исследований.
- Юриспруденция: модели для анализа юридических документов, помощи в составлении договоров, поиска прецедентов.
- Финансы: модели для анализа финансовых данных, прогнозирования рынков, выявления мошеннических операций.
- Нефтегазовая промышленность: модели для анализа данных с датчиков, оптимизации добычи, прогнозирования поломок оборудования.
- Сельское хозяйство: модели для анализа данных с полей, прогнозирования урожайности, оптимизации использования удобрений и пестицидов.
- Автомобилестроение: модели для анализа данных с датчиков автомобилей, диагностики неисправностей, разработки систем автономного вождения.
- Информационная безопасность: модели для обнаружения киберугроз, анализа журналов безопасности, выявления уязвимостей.
ИИ-ассистенты — программные системы, которые используют технологии ИИ для взаимодействия с пользователями, помощи в выполнении задач и принятии решений
У каждой отрасли — собственный язык, собственный датасет, собственная реальность. И это значит, что доменные модели перестают быть экспериментом. Они становятся инфраструктурой. Но в металлургии ещё ничего подобного создано не было. А скорее всего, просто не покидало компании, используясь для внутренних целей, «Норникель» решил опубликовать свою разработку и, видимо, со временем превратить это в бизнес.
В любом случае, MetalGPT-1 — всего лишь первая ласточка, вслед за которой полетят другие. В будущем, с развитием технологий и увеличением объёма доступных данных, можно ожидать появления более специализированных моделей и в разных сферах металлургии.
Егор Петров


