DATAx - A Production ML system for SEA's Biggest Hospital Group
Юджин Ян рассказывает о выступлении на конференции DATAx, где представил кейс uCare.ai и Parkway Pantai Group — крупнейшей сети больниц Юго-Восточной Азии. Команда разработала ML-систему, которая прогнозирует итоговую сумму счёта пациента ещё на этапе пред-госпитализации, что повышает прозрачность и снижает споры при выписке. Новая модель сократила среднюю абсолютную ошибку на 55% и корень среднеквадратичной ошибки на 60% по сравнению с прежней системой Parkway. Внедрение прошло незаметно для медперсонала: фронтенд не изменился, а бэкенд стал обращаться к новому API, и жалоб практически не поступало. Главный вывод доклада — машинное обучение составляет лишь около 20% работы; остальное приходится на инженеров данных, DevOps и инфраструктуру, а ключевую роль играют постановка задачи и грамотный деплой.
DATAx — продакшен-ML-система для крупнейшей больничной сети Юго-Восточной Азии
[ production machinelearning ] · 4 мин чтения
Для меня было большой честью получить приглашение от DATAx выступить на их конференции. Они искали практикующего Applied Scientist, который рассказал бы о применении data science и машинного обучения в здравоохранении, и я был рад помочь.
Я представил кейс о том, как uCare.ai помогла разработать ML-систему для Parkway Pantai Group (крупнейшая медицинская группа Юго-Восточной Азии), которая оценивает итоговый счёт пациента ещё на этапе пред-госпитализации.
Это обеспечивает большую прозрачность для пациентов и помогает снизить потенциальные проблемы с оплатой в момент выписки. Это также выгодно поставщикам услуг: повышенная прозрачность улучшает клиентский опыт и удержание. Наконец, это требование Министерства здравоохранения Сингапура.
Со страницы мероприятия page:
Расходы на здравоохранение в ближайшие годы будут расти. Стоимость, несомненно, будет влиять на решения пациентов о диагностике и лечении.
Для медицинских учреждений предварительная оценка расходов улучшает клиентский опыт и повышает вероятность повторного обращения. Для пациентов точная оценка ещё до госпитализации даёт возможность принимать осознанные решения и адекватно подготовиться, снижая проблемы с оплатой после лечения. В конечном счёте этот кейс — первый шаг к (i) стандартизации оценки стоимости медицинских услуг и (ii) ценовой прозрачности для укрепления доверия между медучреждениями, плательщиками и пациентами.
В этом докладе UCARE.AI расскажет, как мы разработали автоматизированную и масштабируемую систему прогнозирования стоимости госпитализации на этапе пред-госпитализации (то есть без обширных данных вроде измерений, итоговых исходов и т. д.). Мы пройдёмся по (i) методологии, (ii) полезным признакам, (iii) техническому стеку, (iv) трудностям и тому, как мы их преодолели.
Необходимые предварительные знания
Базовое понимание устройства больниц и процессов (то есть вы хотя бы раз были в больнице). Базовое понимание DS-проектов от начала до конца — от планирования до сдачи. Базовое понимание облачных технологий, архитектуры и моделей развёртывания.
Что вы узнаете
Как использовать данные для понимания состояния пациентов и прогнозирования затрат. Как мы вместе с Parkway планировали, разрабатывали и развёртывали ML-систему продакшен-уровня. Как мы преодолевали трудности, плюс полезные приёмы и хитрости.
Цель доклада
В докладе я хотел рассказать, как нам удалось улучшить существующую систему Parkway, вдвое снизив ошибку прогноза. Доклад вошёл в технические детали: общая архитектура, организация кода, а также пошаговые этапы, включающие:
Валидация и приём данных. Подготовка данных. Feature engineering. Валидация модели перед деплоем. Машинное обучение. Деплой.
Результаты
В целом система сократила среднюю абсолютную ошибку на 55%, а корень среднеквадратичной ошибки — на 60%. Также снизилась доля заниженных оценок (одной из ключевых задач было сместить смещение в сторону завышения, чтобы лучше управлять ожиданиями пациентов).
Раскатка прошла легко и незаметно для конечных пользователей: интерфейс остался прежним, а бэкенд был обновлён так, чтобы обращаться к нашему API; сотрудники продолжали работать в привычном им интерфейсе.
После раскатки администраторы больниц сообщают, что жалоб от персонала и пациентов практически не поступает — это большое улучшение по сравнению с прежней системой.
Ключевые выводы
Я выделил для аудитории несколько ключевых тезисов.
Во-первых, создание полезных data-продуктов — это командная работа. Если посмотреть на диаграмму архитектуры выше, видно, что data science — это лишь часть. Data-инженеры помогали с шифрованием данных, их передачей и ETL. DevOps занимался деплоем упакованных моделей (например, pickle-файлов, docker-образов). Инфраструктурная команда настраивала всё необходимое в облаке (хранилище, вычисления, сети).
С учётом сказанного должно быть очевидно, что машинное обучение составляло лишь небольшую долю усилий — примерно ~20%. Это противоположно тому, что часто думают непрофессионалы, академики или новички в data science: что машинное обучение — это 80%. Я надеялся, что доклад показал: гораздо важнее методология (то есть как сформулировать задачу под машинное обучение) и грамотный инжиниринг (для деплоя и эксплуатационной поддержки).
Заключение
С технической точки зрения, распространённая ошибка, которую я вижу в стартапах (и даже в некоторых средних компаниях), — слишком сильно фокусироваться на применении машинного обучения к пакетным данным, обычно CSV-файлам, ради достижения (искусственно) сильного результата, который, скорее всего, переобучен и не воспроизводится в продакшене.
Kaggle — отличный пример этого: победные решения состоят из сложных ансамблей, которые обучаются днями. Я не говорю, что Kaggle — это плохо; это отличное место, чтобы исследовать разные подходы на чистых датасетах в разных предметных областях. Тем не менее это довольно далеко от реальности продакшен-систем машинного обучения.
Надеюсь, доклад помог лучше понять процесс разработки ML-систем продакшен-уровня и что организации в Юго-Восточной Азии станут эффективнее в этом.
Слайды
Если эта заметка оказалась полезной, ссылайтесь на неё так:
Yan, Ziyou. (Mar 2019). DATAx - A Production ML system for SEA's Biggest Hospital Group. eugeneyan.com. https://eugeneyan.com/speaking/machine-learning-largest-hospital-group-talk/.
или
@article{yan2019hospital, title = {DATAx - A Production ML system for SEA's Biggest Hospital Group}, author = {Yan, Ziyou}, journal = {eugeneyan.com}, year = {2019}, month = {Mar}, url = {https://eugeneyan.com/speaking/machine-learning-largest-hospital-group-talk/} }
Присоединяйтесь к 11 800+ читателей, получающих обновления о машинном обучении, RecSys, LLM и инжиниринге.