Название: Парсинг с помощью Python. Веб-скрапинг в действии. 3-е межд. изд. Автор: Райан Митчелл Издательство: Спринт Бук Год: 2025 Страниц: 353 Язык: русский Формат: pdf Размер: 35.0 MB
Если программирование — магия, то веб-скрапинг — настоящее колдовство. Написав простую автоматизированную программу, можно отправлять запросы веб-серверам, получать ответы с данными, а затем анализировать эти данные и извлекать необходимую информацию. Это обновленное третье издание книги не только познакомит вас с веб-скрапингом, но и послужит исчерпывающим руководством по сбору практически любых видов данных в современном Интернете. В части I основное внимание уделено механике веб-скрапинга: как с помощью Python отправлять запросы веб-серверам, обрабатывать ответы и автоматизировать взаимодействие с сайтами. В части II исследуются более конкретные инструменты и приложения, которые пригодятся при любом сценарии веб-скрапинга. Книга покажет, как: • анализировать сложные HTML-страницы; • разрабатывать веб-сканеры с помощью фреймворка Scrapy; • хранить данные, полученные с помощью скрапинга; • читать и извлекать данные из документов; • очищать и нормализовывать плохо отформатированные данные; • читать и записывать информацию на естественных языках; • выполнять поиск по формам и страницам входа; • выполнять скрапинг javascript-кода и работать с API; • писать и использовать программы для преобразования изображений в текст; • обходить противоскрапинговые ловушки и блокаторы ботов; • тестировать свои веб-сайты с помощью скрапинга.
Теоретически веб-скрапинг - это сбор данных с помощью любых средств, кроме программ, использующих API (или через браузер пользователя). Чаще всего для этого пишут программу, которая автоматически отправляет запрос на веб-сервер, получает данные ( обычно в формате HTML или других форматах веб-страниц), а затем парсирует их для извлечения полезной информации.
На практике веб-скрапинг и парсинг включают в себя широкий спектр методов и технологий программирования, таких как анализ данных, синтаксический анализ естественного языка и информационная безопасность. Поскольку эта область очень широка, в первой части книги будут рассмотрены фундаментальные основы веб-скрапинга и краулинга, а во второй - более углубленные темы. Я рекомендую всем читателям внимательно изучить первую часть и по мере необходимости погружаться в более специализированные разделы второй части.
Скачать Парсинг с помощью Python. Веб-скрапинг в действии. 3-е межд. изд.
|