Why should I trust You? Применения пакета LIME для задач машинного обучения
16 ноября состоялося очередной семинар НУГ, в рамках которого Ольга Силютина рассказала о способах применения метода LIME. В качестве примера использовались классические задачи машинного обучения: регрессия и классификация, при этом демонстрация осуществлялась как на R, так и на Python.
Машинное обучение сегодня активно используется в различных областях индустрии и науки, а также является основным направлением нашей научно-учебной группы. При этом, большинство существующих моделей реализуются на основе принципа “black box”, а принятие решения об их использовании базируется на показателе точности и других агрегированных метриках, которые зачастую могут вводить в заблуждение относительно предсказательной способности той или иной модели в условиях реальных задач. LIME - метод, который позволяет оценить полезность различных моделей машинного обучения и повысить уровень доверия к ним посредством рассмотрения их работы на конкретных примерах из имеющейся выборки.
Таким образом, с помощью LIME возможна проверка предсказания - вы можете посмотреть внутрь модели и понять, какие предикторы внесли вклад в итоговое предсказание модели для каждого кейса. Ольга представила в качестве примера предсказательную регрессионную модель цены дома в зависимости от нескольких его характеристик. Однако большее внимание было уделено классификатору текстов медицинских симптомов, соотнесенных впоследствии с диагнозами квалифицированных врачей-специалистов.
На семинаре Оля рассказала об очень интересной и полезной теме, о которой, возможно, еще рано рассказывать на втором курсе на майноре, т.к по программе до машинного обучения еще далеко, однако мне кажется, пакет LIME очень помогает в обучении. Когда еще не совсем понимаешь, как работают модели, бывает важно посмотреть на каждый случай в отдельности, чтобы разобраться почему модель выдала тот или иной результат. Мы разобрали пару реальных примеров с обученными моделями для разных задач: обработке текста, прогнозировании цены и т.д. Появилось много интересных идей для экспериментов. Надеюсь, что смогу применить данный пакет в будущих проектах.
Александр Никулин
студент 2 курса ОП "Социология и Социальная Информатика"