Технический руководитель группы Ops

з/п не указана

Требуемый опыт работы: 1–3 года

Полная занятость, полный день

Мы в Skyeng меняем традиционное образование с помощью технологий. Сейчас в нашей IT-команде более 500 сотрудников, включая 200+ разработчиков. Наша разработка — это 49 независимых и быстрых продуктовых команд с опытными тимлидами и продактами.

Наши продукты — это онлайн-платформа Vimbox, Android и IOS-приложения, словари, браузерные расширения, внутренние CRM и финансовые системы. В 2020 году Skyeng вошел в топ 10 IT-компаний России.

За что отвечает команда Ops в Skyeng:

  • За стабильную работу production окружения. У нас гибридная инфраструктура из облачных решения и on premise в нескольких ЦОДах, для реализации изменений требуются качественные технические решения, которые прорабатывает Технический руководитель. Для этого необходимо обеспечивать развитие следующих направлений:

    1. Docker кластер - мы умеем готовить Swarm до состояния production ready, в планах миграция в Kubernetes;

    2. IaC - на базе Ansible + AWX;

    3. Мониторинг - собираем несколько десятков тысяч метрик, хотим знать все что происходит в инфраструктуре и влияет на работу прода. Реализованоа на базе Prometheus + Alertmanager (мигрируем из Zabbix), Graphite, Newrelic (как APM);

    4. Базы данных - много postgresql, меньше mysql и clickhouse, как в виде RDS так и на bare metal;

    5. Шина данных - Кластера RabbitMQ и Kafka, органический рост и бесперебойная работа в любых условиях;

    6. Сеть в ЦОД, VPN - мы умеем измерять качественную работу сети, требуется поддерживать ее работу в рамках SLA;

    7. Группа серверов балансировки трафика - используем Nginx, есть несколько подгрупп для разного типа трафика;

    8. Резервное копирование данных - активно используем обычные сервера и S3 для хранения резервных данных.

  • Катастрофоустойчивость инфраструктуры - возможность переключить нагрузку всех сервисов в резервный ЦОД;

  • Международные площадки - мы активно развиваемся и пробуем предоставлять услуги в других странах;

  • Стабильная работа ключевых сервисов - в экосистеме сервисов есть ряд крупных подсистем (сервис авторизации, сервис проведения уроков), от работы которых зависит возможность оказания услуг. Для стабильной работы требуется обеспечить развитие инфраструктуры без простоя в работе сервисов;

Наша инфраструктура:

  • 293 продуктивных сервера, как в облаках так и on premise;

  • ~232 сервиса в prod, из них 205 в Docker swarm кластере, и остальные в облаке или на on premise;

  • Backend всех сервисов написан на PHP, 85% на фреймворке Symfony.

Ближайшие планы:

  • Q2 - повысить стабильность работы баз данных, автоматизировать отказоустойчивость;

  • Q3 - MVP kuber: для тестового и prod окружения;

  • Q3 - DBaaS для тестового и prod окружения;

  • Q4 - 100% kuber;

  • <неизвестно когда> выход на международный рынок: деплой на несколько площадок, распределенный мониторинг, синхронизация данных между площадками.

Для общения и документации у нас современные инструменты: Slack, Google Meet, JIRA, Confluence, Github.

Мы не любим бюрократии: мы не боимся ошибаться, а если так происходит, то проводим post mortem, разбираем ошибки и работаем дальше.

Чем предстоит заниматься

  • Принятием ключевых технических решений, проектированием и реализацией архитектуры новых сервисов, контролем качества реализованных технических решений;

  • Техническим руководством командой из 6 инженеров;

  • Техническим развитием команды;

  • Поддержкой процесса технического ревью задач;

  • Обеспечением бесперебойной работы серверов и сервисов в режиме 24х7;

  • Активно работать вместе с Тимлидом над реализацией задач и проектов;

Наши ожидания от кандидата:

  • Есть опыт управления командой системных администраторов или devops от года;

  • Опыт реализации сложных технической проектов на основании запроса от бизнеса;

  • Опыт проведения технических собеседований;

  • Опыт поддержки и развития Docker, Swarm или Kubernetes кластеров, понимание принципов их работы;

  • Опыт настройки и сопровождения Linux-based систем на базе Debian/Ubuntu;

  • Опыт настройки Nginx, PHP-FPM под высокие нагрузки;

  • Опыт работы с системами управления конфигурациями (Ansible или Chef или Puppet);

  • Опыт программирования на Python, Bash;

  • Опыт поддержки и развития систем мониторинга (Prometheus/Grafana/Zabbix);

  • Будет плюсом опыт администрирования СУБД MySQL, PostgreSQL, оптимизации конфигурации под высокие нагрузки;

  • Понимание как бесперебойно эксплуатировать продуктивные системы под постоянной нагрузкой;

  • Ответственность, целеустремленность;

Пара причин работать с нами

  • Позиция идеально подходит кандидатам которые хотят развиваться в техническом направлении, без преобладающей менеджерской нагрузки.

  • Меняем образование — это важная цель в глобальном масштабе, делать социально-важное нереально круто, попробуй!

  • Уникальный опыт: действительно сложные проблемы, которые можно встретить только в нагруженных проектах и сильно растущих компаниях.

  • Учимся сами: регулярные доклады разработчиков внутри компании, участие и выступления на конференциях.

  • Скидка 50% на уроки английского каждому сотруднику и другу.

  • Конференции, профессиональные курсы, выбирай и учись с оплатой от компании.

  • Можно влиять на компанию и её процессы.

  • Оплачиваемые отпуск и больничный.

  • Стабильная заработная плата два раза в месяц.

  • Работа в большой и амбициозной IT-компании с процессами, но без бюрократии.

  • Можно работать удаленно из любой точки мира, а также из нашего уютного офиса в Москве (м. Таганская).

Ключевые навыки

devOps
SRE

Контактная информация

Вакансия опубликована 30 марта 2021 в Новосибирске

Похожие вакансии