ИИ в руках несовершенных пользователей
npj Digital Medicine, том 5, Номер статьи: 197 (2022) Цитировать эту статью
5965 Доступов
3 цитаты
35 Альтметрика
Подробности о метриках
Поскольку использование искусственного интеллекта и машинного обучения (ИИ/МО) в здравоохранении продолжает расширяться, большое внимание уделяется устранению предвзятости в алгоритмах, чтобы обеспечить их справедливое и прозрачное использование. Меньше внимания уделяется устранению потенциальной предвзятости среди людей-пользователей ИИ/МО или факторов, влияющих на доверие пользователей. Мы выступаем за системный подход к выявлению существования и влияния предубеждений пользователей при использовании инструментов искусственного интеллекта и машинного обучения и призываем к разработке встроенных функций проектирования интерфейсов, опираясь на идеи науки принятия решений и поведенческой экономики, чтобы подтолкнуть пользователей к более критичному и рефлексивному подходу. принятие решений с использованием AI/ML.
Использование искусственного интеллекта и машинного обучения (ИИ/МО) в здравоохранении продолжает расширяться, что дает большие перспективы для повышения эффективности принятия персонализированных клинических решений1. Поскольку инструменты искусственного интеллекта и машинного обучения становятся все более распространенными, большое внимание уделяется уменьшению предвзятости в алгоритмах, чтобы обеспечить их справедливое и прозрачное использование. Однако меньше внимания уделяется смягчению потенциальной предвзятости среди пользователей ИИ. Поскольку автоматизированные системы становятся все более совершенными в своих возможностях прогнозировать, проверять или диагностировать заболевания, соблазн полагаться на них при принятии клинических решений будет возрастать2. Однако факторы, влияющие на зависимость пользователей от ИИ, плохо изучены, а у медицинских работников нет руководств относительно роли, которую ИИ должен играть в принятии ими решений. Мы выступаем за более систематический подход к выявлению существования и влияния предубеждений пользователей при использовании инструментов ИИ и их влияния на принятие клинических решений и результаты лечения пациентов. В частности, мы призываем к расширению эмпирических исследований того, как смягчить предубеждения с ожидаемыми негативными результатами за счет использования встроенных функций проектирования интерфейса, опираясь на идеи науки принятия решений и поведенческой экономики, чтобы подтолкнуть пользователей к более критичному и обдуманному принятию решений с использованием инструментов ИИ.
Признавая потенциальный вред чрезмерной зависимости от систем ИИ в контексте принятия важных решений, регулирующие органы и политики, похоже, одобряют держать людей «в курсе событий» и сосредотачивают свои планы действий и рекомендации на повышении безопасности систем ИИ/МО, например, посредством повышенная точность вычислений3,4,5. Тем временем разработчики изобретают новые способы обеспечения надежности, подотчетности и объяснимости «черного ящика» ИИ/МО, который включает в себя глубокое обучение или нейронные сети со значительными ограничениями интерпретируемости6,7. Эти цели кажутся особенно важными при использовании ИИ/МО в принятии клинических решений не только потому, что издержки неправильной классификации и потенциального вреда для пациентов высоки, но и потому, что необоснованный скептицизм или недостаток доверия могут снизить принятие заинтересованными сторонами многообещающих новых технологий ИИ. и препятствовать их использованию и доступности за пределами экспериментальных условий.
Однако один из нас (SG в Babic et al.8) недавно предупредил медицинских работников, чтобы они с осторожностью относились к объяснениям, которые им представляют для моделей искусственного интеллекта и машинного обучения «черного ящика».
Объяснимый ИИ/МО... предлагает апостериорно сгенерированные алгоритмами обоснования предсказаний черного ящика, которые не обязательно являются фактическими причинами этих предсказаний или причинно-следственными связями с ними. Соответственно, очевидное преимущество объяснимости — это «золото для дураков», поскольку постфактум рационализации черного ящика вряд ли будет способствовать нашему пониманию его внутреннего устройства. Вместо этого у нас, скорее всего, останется ложное впечатление, что мы понимаем это лучше».
Следовательно, вместо того, чтобы сосредотачиваться на объяснимости как строгом условии для ИИ/МО в здравоохранении, регулирующим органам, таким как Управление по контролю за продуктами и лекарствами США (FDA), следует более комплексно сосредоточиться на тех аспектах систем ИИ/МО, которые напрямую влияют на их безопасность и эффективность: особенно то, как эти системы работают в руках своих предполагаемых пользователей. Хотя FDA недавно опубликовало свое окончательное руководство, открыто признающее риски предвзятости автоматизации9, и работает над новой нормативной базой для внесения изменений в программное обеспечение на основе искусственного интеллекта/МО в качестве медицинского устройства (т. е. программного обеспечения, которое само классифицируется как медицинское устройство в разделе 201(h)(1) Федерального закона США о пищевых продуктах, лекарствах и косметике10), Babic et al. утверждают, что регулирующим органам, таким как FDA, также следует, по крайней мере в некоторых случаях, уделять особое внимание хорошо спланированным клиническим испытаниям для проверки человеческого фактора и других результатов использования ИИ в реальных условиях. Герке и др.11,12 аналогичным образом утверждают, что необходимо проспективно тестировать больше алгоритмических инструментов, чтобы понять их эффективность в различных процедурных контекстах, которые отражают настройки их предполагаемого использования и взаимодействие человека и ИИ. Тип пользовательского тестирования, который предлагают эти ученые, выходит за рамки типичного тестирования удобства использования и приемлемости, которое характеризует конвейер от бета-версии до более завершенной версии инструмента ИИ. Этот тип тестирования чаще всего проводится эвристически13 с использованием небольшой группы оценщиков для изучения интерфейса и оценки его соответствия соответствующим принципам юзабилити (например, интерпретируемость, воспринимаемая полезность, удобство навигации, удовлетворенность использованием и т. д.). Хотя эти метрики часто полезны для оценки непосредственного взаимодействия пользователей (например, «UX»-тестирования) с интерфейсом инструмента, необходим более глубокий уровень пользовательского тестирования14, чтобы помочь выявить и устранить потенциальные источники «внезапных» или «контекстных» ошибок15, которые возникают. из-за несоответствия дизайна продукта характеристикам его пользователей, вариантам использования или настройкам использования. Эти несоответствия может быть труднее предсказать и учесть в случае инструментов искусственного интеллекта, чем в случае традиционных медицинских устройств или фармацевтических препаратов, эффективность которых в меньшей степени зависит от взаимодействия и интерпретации пользователя12 или чьи адаптивные алгоритмы постоянно меняются16. Смягчить эти несоответствия можно только за счет расширения нашего понятия пользовательского тестирования за пределы его нынешнего фокуса на показателях производительности ИИ и непосредственном удобстве использования для изучения человеческих и системных факторов, определяющих то, как системы ИИ применяются на практике17,18 несовершенными пользователями в несовершенных условиях. Кроме того, тестирование не должно ограничиваться простым наблюдением за тем, как люди в различных контекстах взаимодействуют с инструментами ИИ; мы также можем проверить, как лучше всего формировать эти взаимодействия, используя существующие знания поведенческих наук, о чем мы поговорим ниже.