Чему вы научитесь
- познакомитесь с основами работы с текстом
- освоите парсинг и скрапинг данных
- потренируете базовые подходы к обработке и векторизации текстовых данных
- закрепите полученные знания, выполняя тесты и домашние задания в рамках курса
- поучаствуете в соревновании по анализу текстовых данных на платформе Kaggle
О курсе
Первый из серии мини-курсов, посвященный введению в Natural Language Processing и основам работы со строками в Python. Обновлен в ноябре 2023 года. Курс проводится преподавателями онлайн-магистратуры "Машинное обучение и высоконагруженные системы" факультета компьютерных наук Высшей школы экономики
Для кого этот курс
Этот курс будет интересен тем, кто уже знаком с Python, уверенно знает математику в рамках школьной программы и хотел бы познакомиться с машинным обучением и подходами к решению задач обработки естественного языка, а также научиться собирать данные из открытых источников при помощи скрапинга и парсинга.
Если вы уже имеете опыт решения задач машинного обучения, то курс вам тоже понравится - вы сможете посоревноваться в задаче NLP с другими участниками курса в рамках соревнования на платформе Kaggle.
Начальные требования
- уверенные знания школьного курса математики
- умение писать код на Python (на начальном уровне)
Преподаватели курса
Как проходит обучение
Курс состоит из четырех онлайн-занятий:
- Работа со строками в Python. Регулярные выражения.
- Bag-of-words. Tf-Idf.
- Скрапинг и парсинг.
- Стоп-слова, лемматизация, стемминг. N-граммы. Word2Vec.
Кроме занятий, для слушателей будут доступны дополнительные текстовые материалы на Stepik и предложены практические задания для самостоятельного решения.
После всех занятий откроется соревнование по решению NLP-задачи на платформе Kaggle!
Что вы получите
- Повторите основные понятия и терминологию из области машинного обучения
- Научитесь решать табличные задачи классификации и регрессии
- Овладеете базовыми методами работы с текстами
- Научитесь добывать информацию из интернета при помощи скрапинга и Парсинга
- Получите опыт участия в соревновании по анализу текстовых данных на платформе Kaggle
Нагрузка
4-5 часов в неделю