Открыто

Курс LLM Pro [DeepSchool] [Дмитрий Калашников, Сергей Трубецкой]

Тема в разделе "Курсы по программированию", создана пользователем Топикстартер, 12 ноя 2025.

Основной список: 36 участников

  1. 12 ноя 2025
    #1
    Топикстартер
    Топикстартер ЧКЧлен клуба

    Складчина: Курс LLM Pro [DeepSchool] [Дмитрий Калашников, Сергей Трубецкой]

    2025-11-13_031512.png

    Соберёте полноценные LLM-системы с учётом требований к качеству и нагрузке, разберёте сложные кейсы и дизайны NLP-решений

    Этот курс для тех, кто:
    • Работает с текстами - вы NLP-инженер, дата-сайентист или разработчик
    • Хочет расти, решать более сложные задачи, уверенно проходить интервью
    • Умеет обучать моделии, но не собирал из них полноценные системы
    • Делает продукт или стартап и хочет быстро запустить надёжное NLP-решение
    • Понимает: prompt-инженерии и API уже недостаточно, пора строить своё
    Что вы получите от курса:
    • Научитесь проектировать и запускать NLP-системы под реальные продуктовые задачи
    • Освоите адаптацию LLM и эмбеддингов под специфичный домен и «живые» данные
    • Построите AI-агентов с нуля — на основе сценариев, функций и взаимодействия с внешней средой
    • Поймёте, как собирать и размечать датасеты, даже если данных почти нет
    • Сможете собрать свою RAG-систему: от ретривера и реранкера до генератора и оценки качества
    • Разберёте реальные кейсы и научитесь применять похожие подходы в своих проектах
    • Получите фундамент для уверенного прохождения NLP system design интервью и перехода на следующий грейд
    • Разберётесь, как решать задачи классификации, поиска, кластеризации и NER — с ограничениями продакшн-среды
    Программа

    01. Архитектура систем текстовой классификации
    Разберём ключевые архитектурные паттерны современных систем текстовой классификации. Вспомним, как использовать BERT и его альтернативы, обсудим подходы с дообучаемыми головами и дистилляцией больших моделей. Поговорим о способах работы с меняющимся распределением данных и техниках, которые помогают строить более устойчивые модели
    Эвристики и итеративное улучшение
    Работа с данными при их дефиците
    Генеративный классификатор с reasoning
    Дистилляция LLM в компактную модель
    Дообучаемые головы
    BERT и альтернативы

    02. Построение доменных текстовых эмбеддингов
    Углубимся в работу с эмбеддингами: от дообучения собственного BERT под специфичный домен до использования triplet loss и contrastive learning. Рассмотрим практики, как строить эмбеддинги для сложных структур. Обсудим, когда и как адаптировать эмбеддеры к новым распределениям данных
    Существующие открытые эмбеддеры
    Доменная адаптация эмбеддеров
    Matching задач через эмбеддинги
    Профили и последовательности
    Triplet loss, contrastive learning
    BERT и альтернативы

    03. Кластеризация текстов: в офлайне и в реальном времени
    Изучим, как кластеризовать тексты в офлайне и в потоке. Обсудим популярные методы визуализации и алгоритмы кластеризации, включая нейросетевые. Разберём решения на примере кейсов
    Архитектура и инфраструктура онлайн-кластеризации
    Бинарные автоэнкодеры
    Онлайн кластеризация
    UMAP, T-SNE, LSH

    04. Сбор данных и разметка: от формулировки задачи до крауда
    Разберёмся, как правильно ставить задачи и собирать датасеты под реальные задачи. Поговорим про активное обучение, разметку через кластеризацию и LLM, а также про лучшие практики работы с краудплатформами
    Крауд: Toloka, MTurk
    Инструкции, ханипоты, проверка качества
    Selfinstruct, LIMA
    Active learning
    Разметка через LLM и кластеризацию
    Критичность и массовость ошибок
    Постановка задач и требования к данным

    05. Named Entity Recognition: от BERT до генеративных моделей
    Рассмотрим подходы к извлечению сущностей из текста: от эвристик до BERT и генеративных моделей. Научимся мерить качество, решать проблемы со смещением данных и использовать LLM как инструмент для разметки и обучения
    Разбор кейсов
    Метрики качества
    LLM в разметке и дообучении
    Дообучение и адаптация под домен
    BERT vs генеративные подходы
    Постановка задачи и проблемы NER

    06. Адаптация LLM под домен
    Углубимся в методы адаптации LLM под специфические задачи и домены. Обсудим посттрейнинг, SFT, настройку токенизатора, а также принципы alignment’а. На реальных кейсах разберём, как подходить к адаптации системно
    Работа с галлюцинациями
    Разбор кейсов
    Чистка и генерация датасетов
    Alignment через данные
    Supervised Fine-tuning (SFT)
    Токенизаторы и continious pretrain
    Посттрейнинг на домен

    07. Проектирование систем текстового поиска
    Научимся проектировать поисковые системы от базовых принципов до продвинутых техник. Обсудим dense retrieval, hybrid search, построение индексов, персонализацию и мультимодальный поиск
    Мультимодальный поиск
    Фактчекинг
    Персонализация, расширение запросов
    Elasticsearch, FAISS
    Sentence-BERT, DPR
    TF-IDF, BM25

    08. Advanced RAG: создание и тюнинг продакшн-систем
    Разберём продвинутые подходы к созданию и улучшению RAG-систем. От ретривера и реранкера до генератора и архитектуры всего пайплайна. Покажем, как бороться с галлюцинациями, ускорять работу и планировать нагрузку
    Предсказание качества до генерации
    Оптимизация под железо
    Достоверность, краткость, ссылки
    Кэш, дистилляция, стриминг
    Память и сложные базы знаний
    Генерация ответов, SFT, posttraining
    Подстройка эмбеддера и реранкера
    RAG: структура и этапы

    09. AI-агенты: как построить рабочего ассистента с нуля
    Разберёмся, как построить AI-агента, даже если вначале нет ничего. Поговорим про сбор данных, дообучение моделей под function calls, использование text2sql, а также alignment и обучение через среду с критериями успеха
    Alignment для агентов
    Кейсы и подходы к обучению
    Критерии успешности
    Генерация траекторий через среду
    Сценарии взаимодействия
    Text2SQL
    Function calls
    Основные темы:

    Кто будет преподавать
    Опытные инженеры будут вести Zoom-лекции и семинары, отвечать на ваши вопросы и ревьюить код

    Стоимость: 137000 руб.
    Скрытая ссылка
     
    3 пользователям это понравилось.
  2. Последние события

    1. Technorobot
      Technorobot участвует.
      20 дек 2025
    2. Phoenix_burn
      Phoenix_burn не участвует.
      11 дек 2025
    3. Phoenix_burn
      Phoenix_burn участвует.
      11 дек 2025
    4. wildcad
      wildcad участвует.
      10 дек 2025