Парсер недвижимости avito + proxy (версия 1.0)

Всего продано 0
Возвратов 0
Хороших отзывов 0
Плохих отзывов 0

Парсер недвижимости с сайта avito (версия 1.0):
- поддержка списка прокси серверов (для корректной работы нужно указать свой список прокси)
- возможность парсить несколько страниц раздела недвижимости
- PHP код парсера содержит качественные комментарии и будет понятен большинству программистов и администраторов
Парсер недвижимости с сайта avito (версия 1.0)

Скрипт реализован строго в соответствии со следующим техническим заданием:

1. Задача:
Написать парсер для сайта «Avito» для раздела «Недвижимость – Жилая – Покупка»:
http://www.avito.ru/novosibirsk/kvartiry/prodam

2. Требования:
Парсер должен быть написан на PHP5.

3. Прокси:
Необходимо парсинг проводить через прокси сервера, адреса которых будут считываться из файла proxies.txt.
Выбор прокси осуществлять по порядку.
Формат прокси адресов: [IP-адрес]:[Порт].
Пример:
187.85.3.3:3128
123.129.240.172:8081
122.96.59.102:81
222.180.173.2:8080

4. Ссылки:
Парсить сайт нужно после сбора ссылок и выявления новинок.
Необходимо ссылки хранить в файле avito.txt, куда постоянно добавлять новые, обнаруженные на сайте ссылки. Выявление новинок происходит путем сравнения найденных ссылок с уже существующими в файле avito.txt. Новые ссылки должны парсится, а уже повторяющиеся пропускаться. После парсинга ссылка должна записываться в файл avito.txt, для дальнейшего сравнения.
Формат файла avito.txt:
[ссылка];[дата обнаружения ссылки на сайте]
Пример:
http://www.avito.ru/novosibirsk/kvartiry/1-k_kvartira_38_m_2424_et._286887052;26.02.2014
http://www.avito.ru/novosibirsk/kvartiry/1-k_kvartira_39_m_1010_et._286885150;26.02.2014
http://www.avito.ru/novosibirsk/kvartiry/1-k_kvartira_34_m_910_et._286885518;25.02.2014

5. Формат распарсенной информации:
Распарсенные объявления должны хранится в текстовом в фале в формате:
[источник];[Агенстсво или Частное];[телефон];[район];[улица];[номер дома];[количество комнат];[общая площадь];[жилая площадь];[площадь кухни];[этаж];[этажность];[материал];[цена];[контактное лицо];[комментарий];[ссылка]
Пример:
avito;Частное;83482743;Ленинский;Ватутина;12;2;54;35;8;2;5;кирпич;2700;Игорь Петров;с ремонтом;http://www.avito.ru/novosibirsk/kvartiry/…

Примечание: во всех объявлениях первое поле всегда будет «avito».
В случае, если информация отсутствует (к примеру, нет номера дома), то необходимо оставить поле пустым, т.е. оставить точку с запятой.

6. Отчет о работе парсера:
После завершения работы парсера необходимо сформировать отчет о количестве распарсенной информации в следующем виде (отчет – это текстовый файл с одной строкой):
[количество ссылок на момент парсинга];[количество собранных ссылок];[количество новинок];[количество распрасенных новинок]
Пример:
22437;22421;146;145
Отчет лучше формировть в отдельную папку «Reports», а его имя должно соответствовать дате и времени формирования отчета таким образом (к примеру, время формирования отчета 2014 год 12 марта, время – 14 часов 30 минут 15 секунд): 20140312_143015
Формат:
[год][месяц][день]_[часы][минуты][секунды]