Данные, лежащие в основе физического интеллекта
Каждый робот, перемещающийся по заво дскому цеху, каждый автономный автомобиль, распознающий пешехода, и каждый дрон, совершающий посадку на движущуюся цель, зависят от одного — от высококачественных размеченных данных. Однако по мере усложнения физических ИИ-систем усложняется и их поток данных. Робототехнические и автономные системы должны интерпретировать данные с камер, лидаров, радаров, инерциальных измерительных устройств и GPS-датчиков — зачастую в режиме реального времени. Именно здесь разметка данных для 3D-сенсорного слияния становится критически важной.
Проблема восприятия в физических системах искусственного интеллекта
Современные физические системы искусственного интеллекта зависят от мультимодального восприятия — способности видеть, ощущать и понимать окружающую среду. Однако исходные данные, которые они получают, часто неструктурированы:
- Облака точек Lidar с миллионами точек на кадр.
- Сигналы радара, которые фиксируют глубину и скорость, но не форму.
- Видеопотоки с RGB- или инфракрасных камер.
- Инерциальные и GPS-сигналы, требующие временной синхронизации.
Объединение этих потоков в единый набор данных требует сложного процесса слияния и специалистов, разбирающихся в 3D-геометрии, системах координат и калибровке датчиков. Обычная разметка 2D-рамками здесь не подходит.
Почему 3D-разметка данных настолько сложна — и так затратна
Разметка 3D-данных требует специализированных инструментов и экспертизы:
- 3D-ограничивающие рамки и семантическая сегментация должны точно соответствовать калибровочным матрицам сенсоров.
- Синхронизация времени между несколькими сенсорами обеспечивает соответствие кадров одному и тому же моменту времени.
- Обработка окклюзий и отслеживание на нескольких кадрах позволяют определить, появляется ли объект снова или выходит из поля зрения.
- Согласованность аннотаций и согласие между разметчиками (IAA) напрямую влияют на эффективность модели.
Из-за этих сложностей многие компании сталкиваются с узкими местами при обучении моделей восприятия — ограниченные ресурсы, низкое качество и длительные сроки. Поэтому они обращаются к корпоративным партнёрам, способным обеспечить масштабируемые и проверяемые процессы аннотирования.
Sensor Fusion Labeling — будущее аннотирования данных для робототехники
Разметка слияния данных с датчиков объединяет информацию из различных источников (лидар, радар, видео), чтобы создать более полное представление физического мира. Для робототехники и автономных транспортных средств это означает:
- Более высокая точность обнаружения объектов при плохом освещении или неблагоприятных погодных условиях. Улучшенная оценка глубины и скорости.
- Более надежное понимание окружающей среды благодаря перекрестной проверке данных с разных датчиков.
- Меньше слепых зон и сбоев в нестандартных ситуациях.
Uber AI Solutions на протяжении десяти лет совершенствует этот процесс на собственной платформе для мобильности и в партнерских программах по всему миру.
Заключение — от исходных данных к восприятию в реальном мире
Физический искусственный интеллект настолько эффективен, насколько качественны данные, на которых он обучается видеть и действовать. Объединяя передовые технологии разметки сенсорных данных с глобальной сетью специалистов и строгими стандартами качества, Uber AI Solutions помогает компаниям создавать надежных роботов, автомобили и машины, которые безопасно работают в реальном мире.