КризисСбер мутит

Чистенький и полненький rss-поток новостей от НТА

Давно хотел сделать, да руки не доходили.

Вот сделал сегодня, а то надоело ходить за полным текстом на ихний сайт, тратить время.

//pipes.yahoo.com/pipes/p...hGnCahFggSecQ&_render=rss

Пользуйтесь.

Преимущества и плюсы:
1. Убрана полностью категория "криминал, происшествия".
2. Обрезка заголовка до примерно 65 символов (на границе слова)
3. Полный текст новости без повторений вначале типа "Нижний Новгород. 20 июля. НТА-Приволжье - "

Возможности, которые можно реализовать, если нужно будет - фильтрацию по словам как в заголовке, так и в тексте.


1. Поток забирается трубами
2. Вырезаю ненужную категорию
3. Отдаю поток моему скрипту на моём сервере
4. Заношу в БД только новые записи
5. На сервере запущен крон, который раз в минуту обрабатывает по 10 записей без текста - загружает для них текст.
6. Если есть что отдать трубам, то это отдаётся (с полным текстом в записи)
цикл на 1

То есть, в первый заход к нам труб они ничего не получают.
В следующий заход они получат то, что было закешировано прежде, и отдадут новые пустые записи.
По сути, небольшая задержка, но без этого не обойтись, так как за раз трубы отдают до 60 записей, а их скачать вряд ли получится за 30 секунд.

Comments (6):

  • Односайтовый Feedex.net?
    • где ж ты был раньше?
    • но твой не умеет вырезать ненужное.
    • нет. не односайтовый.

      в трубах я могу объединить (union) потоки (feeds) . и в мой скрипт будет подаваться все они.
    • не чисто твой выдиратель делает . оставляет много лишнего. даже навигацию оставляет.

      а мой скрипт можно использовать и для других потоков, просто настроить на адрес и поставить в нужную точку нужный regexp... или по сути, ввести вод regexp через БД или тупо массивом.

      по сути. сделаю также и для потоков
      //webplanet.ru/news/
      //www.business-magazine.ru/news/

      то есть, осталось просто прописать rss-потоки в трубы - пару минут, настроить регулярку для выдирания полного текста - пару минут и прописать-заменить в гугл-ридере прежний прямой поток на поток от труб - пару минут.
      • А ты автору пожалуйся. Он - не я. Хотя я его знаю лично.