парсинг контента

  • ХабрахабрФото 19,6 млн рублей за 2022 год. Парсинг сайтов. 25 советов желающим заняться

    19,6 млн рублей за 2022 год. Парсинг сайтов. 25 советов желающим заняться

    Меня зовут Максим Кульгин, моя компания xmldatafeed занимается парсингом сайтов в России порядка четырёх лет. По итогам прошедшего 2022 года поделюсь советами для тех, кто думает о подобном бизнесе. Бизнес очень интересный, но наполнен нюансами, которые и расскажу в статье. Я ранее рассказывал про наш опыт развития бизнеса на парсинге сайтов в двух статьях (часть 1 и часть 2). Теперь хочу подвести итоги 2022…

    Читать далее »
  • ХабрахабрФото 20 млн рублей в год на парсинге сайтов

    20 млн рублей в год на парсинге сайтов

    Так как тема парсинга часто привлекает внимание и вызывает эмоции (в массе негативные), подготовил статью, где ответил на основные вопросы (их получилось 43) с которыми сталкивались в процессе работы и, надеюсь, развеял некоторые мифы. 1. Можно ли зарабатывать на парсинге? Да. Мы стали активно заниматься этим бизнесом в 2018 году и с тех пор к счастью растем. Привожу открытые налоговые данные.…

    Читать далее »
  • ХабрахабрФото Telegramm-habr-бот. Долгий путь к совершенству

    Telegramm-habr-бот. Долгий путь к совершенству

    Каждый день мы просматриваем habr. Каждый день заходим на главную ленту и просматриваем её. Что, если автоматизировать этот просмотр? В статье я расскажу, как я писал telegram-бота на python3, который вытаскивает заголовки статей с habr и пишет их в telegram. Как это реализовать? У python3 есть библиотека – beautiful soap 4. С помощью этой библиотеки можно парсить сайты.  Парсинг (parsing) — это сбор информации из сторонних источников и сайтов для использования…

    Читать далее »
  • ХабрахабрФото Как я заработал 30$ на ставках на спорт

    Как я заработал 30$ на ставках на спорт

    Привет, Хабр! В этой статье я расскажу как я заработал на ставках на спорт, используя Python и базовую математику. Кому интересно, добро пожаловать под кат! Букмекерская вилка Есть такой термин в ставках на спорт как букмекерская вилка. Букмекерская вилка — это такая ситуация, когда разница коэффициентов в двух или более конторах позволяет сделать по ставке на каждый взаимоисключающий исход у…

    Читать далее »
  • ХабрахабрФото [Из песочницы] Парсинг YouTube, включая подгружаемые данные, без YouTube API

    [Из песочницы] Парсинг YouTube, включая подгружаемые данные, без YouTube API

    Вступление Чтобы подгрузить данные контента на ютубе, обычно используют либо Selenium, либо YouTube API. Однако везде есть свои минусы. Selenium слишком медленный для парсинга. Представьте себе парсинг плейлиста из ~1000 роликов селениумом. YouTube API, конечно, наилучший вариант, если у вас какое-то свое приложение или проект, но там требуется зарегистрировать приложение и т.д. В «пробной» версии вам нужно постоянно авторизовываться для…

    Читать далее »
  • ХабрахабрФото [Из песочницы] Весь Хабр в одной базе

    [Из песочницы] Весь Хабр в одной базе

    Добрый день. Прошло уже 2 года с момента написания последней статьи про парсинг Хабра, и некоторые моменты изменились. Когда я захотел иметь у себя копию хабра, я решил написать парсер, который бы сохранил весь контент авторов в базу данных. Как это вышло и с какими ошибками я встретился — можете прочитать под катом. TL;DR — ссылка на базу данных Первая…

    Читать далее »
  • ХабрахабрФото Правда про парсинг сайтов, или «все интернет-магазины делают это»

    Правда про парсинг сайтов, или «все интернет-магазины делают это»

    В этой статье я постараюсь наиболее просто рассказать о парсинге сайтов и его основных нюансах. Моя компания занимается парсингом сайтов уже более трёх лет и ежедневно мы парсим около 300 сайтов. Я обычно открыто пишу об этом в соц.сетях (плюс мы много чего из итогов парсинга крупнейших магазинов России выкладываем бесплатно — публично), что вызывает бурные обсуждения и неодобрение со…

    Читать далее »
  • ХабрахабрФото Хабраутилита для сбора хабрастатистики в хабраблогах

    Хабраутилита для сбора хабрастатистики в хабраблогах

    Новый год — время подводить итоги. И если вы ведёте блог на хабре, или вам интересно посмотреть статистику по чьему-нибудь чужому блогу — то вам может пригодиться моя опенсорсная утилитка. Какую статистику выдаёт? CSV-файл с базовой информацией о всех статьях: название рейтинг статьи число добавлений в закладки число просмотров число комментариев автор ссылка на статью (более крупная версия скриншота доступна…

    Читать далее »


Кнопка «Наверх»