Мир цвета и текстуры вскоре может стать более доступным для слепых или слабовидящих людей благодаря новому программному обеспечению, которое озвучивает то, что записывает камера.
Инструмент под названием WorldScribe был разработан исследователями Мичиганского университета. Он отображает изображения с камеры в виде текстовых и звуковых описаний.
Инструмент использует языковые модели генеративного искусственного интеллекта (GenAI) и регулирует уровень детализации и громкость в зависимости от обстановки.
Презентация на симпозиуме ACM 2024
WorldScribe будет представлен на симпозиуме ACM 2024 в Питтсбурге.
Исследование "WorldScribe: На пути к контекстно-зависимым живым визуальным описаниям" опубликовано на сервере препринтов arXiv.
Реакция пользователей
Сэм Рау, слепой участник исследования, отметил, что инструмент помогает ему ориентироваться в мире.
Он считает, что WorldScribe помогает сосредоточиться на том, чтобы быть человеком, а не разбираться в происходящем.
Процесс тестирования
Рау использовал наушники с камерой смартфона для получения описаний объектов.
Инструмент генерировал описания, соответствующие тому, что попадало в поле зрения камеры.
Модели искусственного интеллекта
Модель YOLO World генерирует простые описания для кратковременных объектов.
GPT-4 обрабатывает подробные описания для длительных объектов.
Moondream обеспечивает промежуточный уровень детализации. Проблемы и перспективы
Некоторые участники исследования отметили проблемы с обнаружением определенных предметов.
Рау считает, что инструмент неудобен для повседневного использования, но хотел бы его интегрировать в умные очки.
Исследователи подали заявку на патент и ищут партнеров для усовершенствования технологии.