Название: Машинное обучение в Python. Модуль 1. Предварительная подготовка данных в Python (1-я часть) Автор: Артем Груздев Издательство: ИЦ "Гевисста" Год: 2021 (версия 7.5 PRO) Страниц: 584 Язык: русский Формат: pdf Размер: 22,7 MB
Python стал одним из самых популярных языков, применяемых в машинном обучении для выполнения научных и коммерческих проектов. Он объединяет в себе возможности языков программирования общего назначения с простотой использования скриптовых предметно-ориентированных языков типа R. Python предлагает библиотеки для cбора данных из Интернета, построения графиков, статистической обработки и многого другого. Одно из основных преимуществ использования Python - возможность напрямую работать с программным кодом с помощью терминала или других инструментов типа Jupyter Notebook.
Для предварительной подготовки данных и построения моделей в Python нам потребуется ряд библиотек: NumPy, SciPy, Matplotlib, Pandas, IPython и scikit-learn. Настоятельно рекомендуем воспользоваться дистрибутивом Anaconda, который уже включает все необходимые библиотеки. Есть версии для Mac OS, Windows и Linux.
Об авторе: Артем Груздев - заместитель директора по научной работе ИЦ «Гевисста», переводчик бестселлеров – книги Райан Митчелл «Скрапинг веб-сайтов с помощью Python» и книги Андреаса Мюллера и Сары Гвидо «Введение в машинное обучение с помощью Python», автор книг «Прогнозное моделирование в IBM SPSS Statistics, R и Python. Деревья решений и случайный лес» и «Изучаем pandas», автор более трех десятков статей по прогнозному моделированию.
Содержание:
I. Вводная часть I.1. Типы данных I.2. Типы переменных I.3. Функция, производная, частная производная, градиент, градиентный спуск II. Знакомство с Python II.1. Введение II.2. IPython и Jupyter Notebook II.3. NumPy II.3a. Numba II.4. SciPy II.5. pandas II.5.1. Создание объекта DataFrame II.5.2. Доступ к данным внутри объекта DataFrame II.5.3. Типы переменных II.5.4. Неверное определение типа из-за неправильного десятичного разделителя II.5.5. Чтение больших файлов данных чанками II.5a. datatable II.6. matplotlib II.7. scikit-learn II.7.1. Загрузка данных II.7.2. Валидация II.7.3. Классы, строящие модели предварительной подготовки данных, и классы, строящие модели машинного обучения II.7.4. Работа с классами, строящими модели предварительной подготовки данных II.7.5. Работа с классами, строящими модели машинного обучения II.7.6. Наиболее часто используемые классы и функции II.7.6.1. Классы MissingIndicator и SimpleImputer II.7.6.2. Класс OneHotEncoder, функция get_dummies(), ускорение вычислений с помощью разреженных матриц в CSR-формат II.7.6.3. Класс Pipeline II.7.6.4. Класс ColumnTransformer II.7.6.5. Функции cross_val_score(), cross_val_predict() и cross_validate() II.7.6.6. Классы GridSearchCV и RandomizedSearchCV II.7.6.6.1. Обычный поиск оптимальных значений гиперпараметров моделей предварительной подготовки и модели машинного обучения II.7.6.6.2. Обычный поиск оптимальных значений гиперпараметров моделей предварительной подготовки и модели машинного обучения с добавлением строки прогресса II.7.6.6.3. Случайный поиск оптимальных значений гиперпараметров моделей предварительной подготовки и модели машинного обучения II.7.6.6.4. Классический перебор значений гиперпараметров для CatBoost при обработке категориальных признаков «как есть» (заданы индексы категориальных признаков) II.7.6.6.5. Отбор оптимальной модели предварительной подготовки данных в рамках отдельного трансформера II.7.6.6.6. Отбор оптимального метода машинного обучения среди разных методов машинного обучения (перебор значений гиперпараметров с отдельной предобработкой данных под каждый метод машинного обучения) II.7.6.6.7. Решаем задачу с Kaggle II.7.6.6a. Байесовская оптимизация гиперпараметров: библиотеки hyperopt, skopt и optuna II.7.6.6a.1. Недостатки обычного поиска и случайного поиска II.7.6.6a.2. Знакомство с байесовской оптимизацией II.7.6.6a.3. Последовательная оптимизация по модели (Sequential model-based optimization – SMBO) II.7.6.6a.4. Реализации последовательной оптимизации по модели II.7.6.6a.5. Библиотека hyperopt II.7.6.6a.6. Библиотека skopt II.7.6.6a.7. Библиотека optuna II.7.6.7. Классы PowerTransformer, KBinsDiscretizer и FunctionTransformer II.7.6.8. Написание собственных классов для применения в конвейере II.7.6.9. Модификация классов библиотеки scikit-learn для работы с датафреймами II.7.6.10. Классы CountVectorizer и TfidfVectorizer II.8. Dask II.8.1. Общее знакомство II.8.1.1. Массив Dask (Dask Array) II.8.1.2. Датафрейм Dask (Dask DataFrame) II.8.1.3. Мешок Dask (Dask Bag) II.8.1.4. Интерфейс Delayed II.8.2. Машинное обучение II.8.2.1. Машинное обучение с помощью библиотеки dask-ml II.8.2.2. Построение конвейера в Dask II.9. Docker II.9.1. Введение II.9.2. Запуск контейнера Docker II.9.3. Создание контейнера Docker с помощью Dockerfile III. H2O III.1. Установка пакета h2o для Python III.2. Запуск кластера H2O III.3. Преобразование данных во фреймы H2O III.4. Знакомство с содержимым фрейма III.5. Определение имени зависимой переменной и списка имен предикторов III.6. Построение модели машинного обучения III.7. Вывод модели III.8. Получение прогнозов III.9. Поиск оптимальных значений гиперпараметров по сетке III.10. Извлечение наилучшеи? модели по итогам поиска по сетке III.11. Класс H2OAutoML IV. Google Colab IV.1. Общее знакомство IV.2. Регистрация и создание папки проекта IV.3. Подготовка блокнота Colab
Скачать Машинное обучение в Python. Модуль 1. Предварительная подготовка данных в Python (1-я часть)
|