![](https://imagesratel.kz/cdn/innermain/i/2025/February/07/bd364560c7b5701efadbb9a8d97dd25d19ca9bb3.jpg)
Почему создатели ChatGPT не любят DeepSeek, а создатели казахского ИИ любят всех, особенно Meta, который коверкает в ФБ казахский язык
В начале января 2025 года в магазинах приложений App Store и Google Play появился новый китайский чат-бот DeepSeek. К концу месяца его популярность выросла настолько, что привела к панике на американском фондовом рынке. Чат-ботом восхитились ТРАМП с ТОКАЕВЫМ. Однако последние дни оказались для DeepSeek не самыми простыми. Стартап привлек внимание регуляторов из разных стран (в Италии чат-бот даже запретили), а разработчиков подозревают в преувеличении достижений. Особенно нервно отреагировали на появление конкурента создатели ChatGPT, который разработала компания OpenAI (её в 2015 году основал Илон МАСК, но затем отошёл от дел) в сотрудничестве с Microsoft.
Заместитель директора по продукту и внешним связям и старший аналитик данных в институте умных систем и искусственного интеллекта (ISSAI) при Назарбаев университете Мадина АБДРАХМАНОВА объясняет суть этой нервной реакции.
- Мы привыкли, что Америка у нас – это про открытый рынок, открытое общение, перенос из одного места в другое, а Китай такое место, где все закрыто. А сейчас мы видим, что Америка все больше закрывается, а Китай все больше делится информацией. И пример DeepSeek – Китай очень много выкладывает рецептуры, моделей, данных для развития искусственного интеллекта, гораздо больше, чем это делают американцы. Хотя в Америке аутлайер в этой среде – компания Facebook Meta, у них очень сильная лаборатория, директор которой - один из основателей глубокого машинного обучения Янн ЛЕКУН - считает, что все должно быть в открытом доступе, чтобы развивалась не только индустрия, но и наука и была демократизация знания про ИИ по всему миру. Это вот такой интересный спор. С одной стороны, кажется, что спор идёт между китайцами и американцами. Потом мы копаем глубже и понимаем, что спор не между странами и не между организациями, а между подходами в нашей большой среде, которая развивает искусственный интеллект. Знаете, когда последний раз такое происходило? Когда была холодная война и разработка ядерной бомбы.
- Такие компании, как Anthropic, OpenAI, вложили в развитие ИИ миллиарды долларов, полученные от инвесторов, поэтому понятно, что сейчас они не готовы никому дарить информацию о своих разработках.
- И никто из них не зарабатывает. Вернее, ChatGPT OpenAI получает определенный доход, но тратят они гораздо больше. Это стартап, который не является устойчивой компанией, его ценность пока держится на том, сколько вкладывают инвесторы. И для них выгодно держать свою технологию втайне, потому что это увеличивает их ценность на рынке. И для них такие игроки, как DeepSeek – это очень болезненная заноза, потому что китайцы, по сути, раскрыли – что такое ChatGPT. Теперь все желающие могут получить доступ к главному ядру и потенциально могут разбирать эту модель, тренировать ее дальше и делать продукты на уровне ChatGPT. А кроме того, китайцы показали, что тренировать можно гораздо более оптимизировано, то есть нужны гораздо меньшие затраты, чем у OpenAI.
- Что из себя представляет это ядро и как его тренируют?
- Это огромная математическая формула, которая самостоятельно принимает решения, но только такие, которым она была обучена. То есть человек контролирует процесс её обучения. Для того, чтобы её развивать, к ней нужно добавлять новые эти функции. Китайцы выложили эту формулу в открытом доступе, и теперь каждый может её дальше обучать чему-то новому, усовершенствовать, добавлять дополнительные прибамбасы. Вот был собран сложный кораблик, какой-нибудь там из звёздных войн, дорогой лего-конструктор, но он полностью запечатан. Есть только картинка, как он примерно получается. Выглядит классно, но вам хочется понять – что там внутри. И китайцы раскрыли упаковку, вытащили все блоки и ещё показали, как они их собрали. Но не объяснили, как они к этому пришли. И как вам с этим корабликом теперь жить дальше, решать вам. Вы можете перестроить его в какое-то еще большее судно, авианосец. И в этом получается самый интерес - как дальше работать с этим корабликом, чтобы он мог уметь плыть в различные стороны. Искусственный интеллект это, по сути, алгоритм, состоящий из различных цифр, и в начале эти параметры инициализированы рандомно, то есть не имеют никакого смысла, но в процессе обучения, закачки данных, построения задач перед алгоритмом он все лучше и лучше понимает, что от него требуется. И таких операций-тренировок требуется очень много, чтобы найти самый лучший рецепт. Есть определённая методология для того, чтобы найти те самые лучшие параметры для построения этого рецепта. Целые конференции изучают различные методы, над этим работают тысячи самых лучших умов по искусственному интеллекту по всему миру.
- Китайцы заявили, что им хватило шести миллионов долларов на тренировку своего DeepSeek. Судя по всему, именно эта сумма больше всего расстроила Трампа.
- Да, все мы слышали, что Трамп объявил о запуске проекта по развитию инфраструктуры искусственного интеллекта стоимостью 500 миллиардов долларов и OpenAI будет одним из бенефициаров этой программы. И теперь, соответственно, вопрос, а насколько действительно им нужны эти деньги, которые переходят в мощности? Потому что по опыту разработки большой языковой модели для Казахстана мы поняли, что большинство ресурсов уходит на аренду серверов либо оплаты их использования. Вот это - очень дорогое удовольствие. Китайцы заявили, что можно делать все более оптимизировано, и сейчас идёт очень много разговоров о том – насколько достоверна их информация. У определённой группы людей скепсис по тому, какие цифры они показали. Они заявили, что потратили не более шести миллионов долларов на один цикл тренировки. Мы не знаем, сколько таких циклов у них было. Но шесть миллионов на цикл – это гораздо дешевле, чем тренировки от OpenAI.
Скепсис состоит в том, что бОльшая часть мира сейчас находится под санкциями, а Китай и Россия – под самыми жёсткими санкциями. Официально они не могут покупать и завозить к себе чипы, графические карты, из которых состоят серверы для тренировки моделей машинного обучения. И, соответственно, вопрос - на чем тогда китайцы тренируют? Да, возможно, завозят через серый рынок, но мы не знаем ничего достоверно. У них есть своя компания Huawei, которая производит и телефоны, и телекоммуникационное оборудование, и подобные чипы и серверы, но они отстают от главного производителя по всему миру - Nvidia. Еще есть определённые, скажем так, обрезанные, неполные версии чипов и графических карт от Nvidia, которые могут официально приходить в Китай. И те, кто испытывает скепсис, говорят, что на самом деле Китай тратит на тренировки гораздо больше денег, но просто не может об этом сказать официально, потому что у них будут проблемы из-за санкций. Но тем не менее они предоставили очень развёрнутую информацию, выложили саму модель, но никакой рецептуры, как её тренировать. И теперь перед многими институтами и компаниями, в том числе и нами, стоит задача это разобрать, дальше работать с этой моделью, чтоб довести её до другого уровня.
- К примеру, чтобы она работала на казахском языке?
- Да, ведущие модели, такие как GPT-4 от OpenAI, Gemini от Google и Qwen от Alibaba Cloud, подняли планку, демонстрируя беспрецедентные уровни сложности и возможностей. Однако подобные достижения в основном охватывают языки с высоким уровнем доступности, такие как английский, китайский, японский и русский, оставляя значительный разрыв в языковом разнообразии. Осознавая это неравенство, многие страны в настоящее время разрабатывают собственные национальные LLM, адаптируя данные технологии к своим уникальным языковым и культурным контекстам.
До создания большой языковой модели для Казахстана мы работали с моделями по переводу текста на одном языке в другой, по переводу из текста в голос и обратно. Получив финансирование от Astana Hub, мы в 2024 году, то есть до того, как вышел DeepSeek, разработали KAZ-LLM. Это не ChatGPT. ChatGPT – это оболочка, внутри которой есть какое-то ядро искусственного интеллекта. Мы создавали ядро. У KAZ-LLM нет интерфейса, чтобы вы могли с ним поговорить, но мы выложили модель в открытый доступ, ее можно скачать и, если вам серверы позволяют, запустить у себя на компьютере, для того чтобы изучить, что такое большая языковая модель, и потенциально создать другие продукты и сервисы на его основе.
Наша модель основана на архитектуре Meta от Facebook. Если бы общество, которое развивает искусственный интеллект, не выкладывало свои рецепты в открытый доступ, нам было бы гораздо тяжелее. В Казахстане нет мощностей, официально, по крайней мере, для того чтобы запускать модели с такой сложной архитектурой, как DeepSeek, поэтому проект национального суперкомпьютера очень важен. Если мы хотим запускать чат-боты, нужен "сервак" с определенными графическими картами, на которых можно разогнать искусственный интеллект. От того, какие у тебя технические мощности, зависит – что ты можешь запустить. Убедить американцев, что мы должны получить доступ к такому оборудованию, сейчас нетривиальная проблема, потому что наши главные соседи Китай и Россия – это самые последние страны, кому можно давать доступ. Вернее, им его вообще нельзя давать. Соответственно, учитывая нашу геополитическую ситуацию, к нам очень много вопросов. У нас было старое оборудование, которое мы покупали четыре года назад, оно устаревшее. Мы работали с конфигурациями, которые имеют восемь миллиардов параметров и 70 миллиардов параметров. Эти модели, которые наиболее удобны, чтобы делать чат-боты с ограниченными ресурсами, плохо вели себя на казахском языке: понимание вопросов на казахском языке, понимание культуры. Например, если вы что-то спрашиваете про какие-то обычаи Казахстана, модель ничего не поймет, потому что она знает только то, на чем она обучилась. У нее был какое-то базовое понимание казахского языка, но не на том уровне, который бы понравился носителям казахского языка.
- Поэтому в Facebook такой ужасный перевод?
- Да. Поэтому мы модель улучшали, дообучали ее на данных на казахском языке. Смысл был именно создать относительно небольшую модель, для того чтобы она могла лучше понимать, генерировать текст на казахском языке, генерировать текст и понимать текст на других языках, которые в Казахстане релевантны – русский и английский, чтобы потом потенциально из этого ядра уже можно было создать продукты и сервисы, когда проблема с оборудованием уже решена. Еще мы добавили турецкий язык, потому что хотели посмотреть – как тренировка модели на языках одной группы помогает ей понимать оба языка, потому что до этого строились определённые работы. Потому что, когда до этого модель тренировалась на испанском и португальском языках, это было для нее полезно, она понимала связь между этими языками. И нам было интересно посмотреть, как повлияет на поведение модели, когда мы предоставляем два тюркских языка, один из которых имеет кириллицу, а другой латиницу. И еще мы хотели понять - можем ли масштабировать потенциальный проект на другие тюркские языки. В чем была сложность тренировки – чтобы удержать хорошее поведение модели на всех языках. Поэтому, например, изначально модель Meta Llama проседала на казахском языке, потому что они фокусировались на множестве других языков. Казахский язык для них был не важен.
- Где сейчас эта ваша модель?
- 10 декабря мы выложили ее в открытый доступ для некоммерческих научных и академических целей. Этот проект является интеллектуальной собственностью Назарбаев университета, и также модель и рецептура, как она построена, были переданы Astana Hub, чтобы они могли развивать проект дальше. И теперь они занимаются развитием этого проекта.
Для дальнейшей тренировки модели нужен суперкомпьютер. Как я понимаю, сейчас министерство цифровизации решает эту проблему с оборудованием. Эту проблему решают различные частные компании, такие как Kaspi, Freedom, Beeline, для того чтобы они могли взять это ядро и внедрить его уже в свои сервисы. Мы же идем в другую сторону. Потому что наша стратегия в том, что просто текста не хватает для того, чтобы строить действительно аналог ChatGPT. В ChatGPT вы сможете отправить, например, какую-то диаграмму, таблицу, и он вам ответит, что там находится. Вы также можете у других моделей машинного обучения попросить, чтобы они создали вам какую-то картинку, что очень удобно для контентмейкера. А KAZ-LLM это модель, которая понимает, генерирует только текст. Да, это не только переводчик. Например, у вас есть текст на три страницы, вы хотите сократить его до одной. Или вы задаёте какой-то вопрос из области математики, физики и тому подобное либо какой-то личный вопрос, и она вам предоставляет ответ.
Но что мы поняли, когда собирали данные на казахском языке? Было очень тяжело, потому что очень мало информации в текстовом варианте напечатано. И это выглядело так, будто язык исчезает. А потом до нас дошло, что просто сейчас главный способ общения это не текст, это голос. Он всегда был, просто сейчас уже большинство предпочитают общаться через запись голоса. Иногда у нас фотография может сказать больше тысячи слов. Поэтому мы хотим создавать модели, которые могут работать не просто с текстом, а с изображением и аудио, они называются мультимодальные.
Мы приостановили KAZ-LLM, его жизнь уже не наша забота, а мы выбиваем финансирование, чтобы создавать модели и продукты, которые гораздо ближе к ChatGPT, и уже разработали одну такую - Oylan. Она состоит из гораздо более сложной архитектуры, чем KAZ-LLM. Это модель языкового зрения. Здесь уже есть платформа на общение. То есть, если вы зайдете на сайт Oylan, вы сможете пообщаться с ней. Но я сразу предупреждаю, что ее поведение вам может не сильно понравиться. Вам покажется, что она что-то отвечает неправильно, либо вам хочется большего. Потому что прошла только одна итерация тренировки, она занимала свыше 40 дней. Для обучения Oylan исследователи ISSAI разработали крупнейший набор данных в истории Казахстана. Массивный набор данных включает более 10 миллионов изображений и 50 миллионов вопросно-ответных пар, тщательно адаптированных к языковым, культурным и экономическим особенностям страны. В области применения Oylan входят образование, здравоохранение, промышленность и финансы. Повторюсь, тренировать модели – это дорого и долго, а тренировок нужно много. Мы бы хотели, чтобы она понимала любой документ, банковскую выписку. Чтобы любую информацию в виде изображения вы могли залить и она бы вам представила какую-то аналитику, которую вы хотите вытащить из этого документа. Хотим эволюционировать ее архитектуру, чтобы она могла генерировать изображение. И чтобы она была удобна казахстанцам. И если вы тот представитель нашей страны, который владеет и казахским, и русским, и часто использует два языка, а то и три, чтобы у вас был продукт, модель, которая могла отождествлять именно вас как носителей языка. Проект не только о том, чтобы улучшить казахский язык, проект больше о том, чтобы у наших граждан была модель, которая разделяла их многоязычный мир, и все языки, которые для них важны, поддерживались на должном уровне.
Иллюстративное фото: istockphoto.com.
ПОДЕЛИТЬСЯ СВОИМ МНЕНИЕМ И ОБСУДИТЬ СТАТЬЮ ВЫ МОЖЕТЕ НА НАШЕМ КАНАЛЕ В TELEGRAM!