rss_feedEugene Yan ·20.06.2015 open_in_newОригинал

DataScience SG Meetup - How we got top 3% in Kaggle

#Data Science #Kaggle Competitions #Machine Learning

auto_awesomeКраткое саммари

Юджин Янь рассказывает о своём выступлении на митапе DataScience SG, где он поделился опытом участия в соревновании Kaggle Otto Group Product Classification вместе с напарником Weimin — они заняли 85-е место из 3514 участников (топ 3%). Встреча прошла в SMU в субботу днём и собрала полный зал, что показало живой интерес к data science в Сингапуре. За примерно 45 минут авторы разобрали метрику оценки (multi-class log loss), подходы к валидации, feature engineering, трансформации признаков и создание агрегатных и t-SNE признаков. Также обсуждались методы машинного обучения (деревья и нейросети), техники ансамблирования, лучшие решения и предложенный фреймворк для участия в соревнованиях Kaggle. Подробности доступны в прилагаемых слайдах.

translate EN + RU EN RU

eugeneyan

Начните здесь Статьи Выступления Прототипирование Обо мне

DataScience SG Meetup - How we got top 3% in Kaggle

Митап DataScience SG — Как мы попали в топ 3% на Kaggle

[ machinelearning ] · 1 min read

[ machinelearning ] · 1 мин чтения

One Saturday afternoon, I volunteered to share about my recent effort in Kaggle’s Otto competition where I placed 85th / 3514 with my fellow competitor Weimin.

В одну из суббот я вызвался рассказать о своём недавнем участии в соревновании Kaggle Otto, где вместе с моим напарником Weimin мы заняли 85-е место из 3514.

Given that it was a lazy Saturday afternoon, I did not expect the lecture room at SMU to be fully packed. The data science meetup scene in Singapore was more vibrant and hotter than I thought.

Учитывая, что это была ленивая субботняя пора, я не ожидал, что аудитория в SMU будет забита под завязку. Сцена data science митапов в Сингапуре оказалась куда более живой и активной, чем я думал.

In approximately 45 minutes, we shared about how we thought about and had an in-depth discussion with the audience on the topics below:

Примерно за 45 минут мы рассказали о том, как мы подходили к задаче, и провели подробное обсуждение с аудиторией по следующим темам:

The evaluation metric (multi-class log loss)

Validation approaches

Feature engineering and selection

Feature transformation (e.g., standardization, log-transformation, tf-idf)

Creating aggregate and t-sne features

Machine learning techniques (trees and neural nets)

Ensembling techniques

Top solutions and architectures

A suggested framework for Kaggle competitions

Метрика оценки (multi-class log loss) Подходы к валидации Feature engineering и отбор признаков Трансформация признаков (например, стандартизация, логарифмическое преобразование, tf-idf) Создание агрегатных и t-SNE признаков Методы машинного обучения (деревья и нейросети) Техники ансамблирования Лучшие решения и архитектуры Предложенный фреймворк для соревнований Kaggle

More details can be found in the slides below.

Подробности можно найти в слайдах ниже.

Questions? Want to follow my journey? Reach out on Twitter @eugeneyan!

Вопросы? Хотите следить за моим путём? Напишите мне в Twitter @eugeneyan!

If you found this useful, please cite this write-up as:

Если этот материал оказался полезным, пожалуйста, ссылайтесь на него так:

Yan, Ziyou. (Jun 2015). DataScience SG Meetup - How we got top 3% in Kaggle. eugeneyan.com. https://eugeneyan.com/speaking/dssg-kaggle-top-3-percent-talk/.

или

@article{yan2015kaggle, title = {DataScience SG Meetup - How we got top 3% in Kaggle}, author = {Yan, Ziyou}, journal = {eugeneyan.com}, year = {2015}, month = {Jun}, url = {https://eugeneyan.com/speaking/dssg-kaggle-top-3-percent-talk/} }

Join 11,800+ readers getting updates on machine learning, RecSys, LLMs, and engineering.

Присоединяйтесь к 11 800+ читателей, получающих обновления о машинном обучении, RecSys, LLM и инженерии.