Небольшую задачку реализовал на досуге, чтобы получать (находить) нужные мне вакансии быстрее и без лишнего поиска среди сотни мишуровых вакансий от спамных компаний.

Есть rss, вакансии на хабре career.habr.com/vacancies/rss?currency=RUR&remote=true&sort=date&type=all

Гружу его каждые 15 минут и заношу вакансии в базу данных.
Там у каждой вакансии есть Требуемые навыки, это теги

// Требуемые навыки: #senior, #Java, #Kotlin, #PostgreSQL, #MySQL, #ApacheKafka, #RabbitMQ, #Kubernetes, #Docker, #SpringBoot.

Эти теги я заношу в другую таблицу как уникальные.
Через третью таблицу связываю их с вакансиями.
Можно, например, вывести список наиболее нужных тегов (умений), которые требуются.

Через пару дней после начала сбора данных написал статью с предварительными выводами "Это всё о чём нужно знать про "вакансии" на хабр-карьере"

Сейчас, спустя 2 недели, стало понятно, что есть компании и их много, которые тупо автоматически поднимают вакансии раз в неделю, бывает и чаще. Подобные вакансии висят месяцами и не закрываются. Они как минимум мешаются, потому что за этой мишурой не видны хорошие живые компании с вакансиями, за которыми есть настоящая работа. А вся эта мишура непонятно зачем сделана, но как минимум, для сбора данных точно. То есть, если попытаться откликнуться на эту мишуру, то тебе как минимум или не ответят, или ответит робот и предложит типа позвонить. Ежу понятно, что это типичный спам.

Так вот, цель проекта - создать свой rss, потому что на самом сайте career.habr.com очень ограниченное количество фильтров. Например, там нет фильтра, чтобы исключить из списка более одной компании.
Или чтобы исключить из списка какие-либо теги.

Ну и самое главное, чтобы исключить из списка офисные вакансии. Дело в том, что тот признак "можно удалённо", который сейчас есть, процентов на 80 не соответствует признаку "только удалённо". То есть, вроде список выдаёт вакансию, на которую можно работать удалённо, но при ближайшем рассмотрении это обычная офисная вакансия, но можно, например, пару дней в неделю работать удалённо, или другие подобные неинтересные условия и ограничения, то есть, вакансии совершенно не представляют интереса для полного удалёнщика. Попытки переговоров и просьбы ввести галку "только удалённо" ни к чему не привело, там считают, что это одно и то же, вот смешные.
Поэтому здесь я планирую дополнительно анализировать каждую вакансию и если там будут 100% признаки офисной работы, то исключать такие вакансии тоже, чтобы не тратить на них время.