Проекты, которые я реализовал в Data Science (с ноября 2019 по текущий момент).
Все проекты факультативные - не в рамках основной рабочей деятельности.
Тема проекта/Год | Название проекта | Описание | Стек и методы |
---|---|---|---|
Quick Repo Folder Copy/2024 | Утилита для копирования папок из GitHub репозиториев | Проект одного дня: быстрое копирование конкретных папок из GitHub репозиториев без создания вложенных подпапок и .gitmodules |
Python, Git |
8 место и бронза🥉 RecSys Competition/2024 |
ML-чемпионат от hh.ru на boosters | Предсказание вакансии, на которую пользователь откликнется по последовательности событий внутри сессий | Polars, ASL, SASRec |
15 место ML training Yandex/2023 |
Первые ML тренировки Яндекса, которое созданы совместно со Школой анализа данных | 8 лекций + 4 домашних задания + сорев | numpy, sklearn, PyTorch |
11 место Competition Alice/2022 |
Идентификация пользователя в Интернете по истории последовательности переходов по сайтам | Построить линейную модель предсказания заданного пользователя в Интеренете. Дополнительно: необходимо использовать только линейные модели, использовать ранее не использованные методы отбора признаков | sklearn, LogisticRegression, SequentialFeatureSelector |
Бронза🥉 Competition AlfaBattle2.0 |
Кредитный скоринг на данных карточных транзакций | Построить "white-box" и "black-box" модели предсказания дефолта клиента (соревнование AlfaBattle2.0) Дополнительно: провести качественный анализ моделей ML, развернуть прототип модели на heroku. | lightgbm, catboost, sklearn, shap, tensorflow, GRU, GPU, gc, EDA, feature engineering, feature importance, feature permutation, target permutation, EarlyStopping |
Multi-input NN:CV, NLP, Tab/2020 | Опредедение рыночной стоимости авто по данным сайта объявлений | Построить Multi-input NN для определения рыночной стоимости авто по табличным данным, фото и текстовому описанию с сайта объявлений для компании занимающейся перепродажей подержанных авто | catboost, sklearn, tensorflow, keras, albumentations, nltk, pymorphy2, efficientNet[B3,B4,B6], GPU, EDA, fine_tuning, LR-circle, EarlyStopping, blending |
Computer Vision/2020 | Классификация изображений авто по фото | Построить CNN модель классификации изображений автомобилей по их фотографиям | tensorflow, keras, albumentations, Xception, efficientNet[B0,B3], GPU, EDA, transfer learning, fine_tuning, BIAS OFF + BatchNormalization, regularization l2 + DROPOUT, Adam, Adamax Nadam, EarlyStopping, EPOCHS_DROP, LR_UPDATE, extra fit on image size+, TTA, blending |
Parsing + ML/2020 | Парсинг данных с сайта и ML-модель прогноза рыночной стоимости авто | Спарсить все данные объвлений сайта auto.ru г.Москвы и построить на них модель прогноза рыночной стоимости авто по его характеристикам | requests, json, beautifulsoup, EDA, feature engineering, feature selection methods(correlation matrix, ANOVA F test, Student t-test, feature_importances_RF, noise), sklearn(LinearReg, RandomForest, GradientBoostingReg, ExtraTreeReg, BaggingReg), stacking ensemble, blending |
Этот список содержит самые значимые и крупные проекты. В репозитории собраны все проекты (описания проектов доступны внутри каждого).