Пример кода парсера на python с Beautiful Soup

Информация о материале: Автор: Геннадий Едиг; Категория: Web, Python, Ubuntu, Joomla, Virtuemart; Опубликовано: 11 марта 2025; Просмотров: 155

import logging
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin

logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

def fetch_page(url):
try:
response = requests.get(url, timeout=10) # Устанавливаем таймаут 10 секунд
response.raise_for_status() # Проверяем, что запрос успешен
return response.text
except requests.exceptions.RequestException as e:
logger.error(f"Ошибка при запросе страницы: {e}")
return None

def get_headers(html):
soup = BeautifulSoup(html, "html.parser")
headers = soup.find_all("h1") # Ищем все заголовки h1
for header in headers:
print(header.text.strip()) # Выводим текст заголовка
return bool(headers) # Возвращаем True, если заголовки найдены

def main():
url = "https://jedig.ru"
html = fetch_page(url)

if html:
if get_headers(html):
logger.info("Заголовки успешно извлечены и выведены")
else:
logger.error("Не удалось извлечь заголовки")
else:
logger.error("Не удалось загрузить страницу")

if __name__ == "__main__":
main()