Дані, що лежать в основі фізичного інтелекту
Кожен робот, що пересувається заводським цехом, кожен автономний транспортний засіб, який розпізнає пішохода, і кожен дрон, що приземляється на рухому ціль, покладається на одне: якісно розмічені дані. Однак із ускладненням фізичного штучного інтелекту ускладнюється й його дата-пайплайн. Робототехніка та автономні системи мають інтерпретувати дані з камер, лідарів, радарів, IMU та GPS-датчиків — часто в режимі реального часу. Саме тут розмітка для 3D-сенсорного злиття стає критично важливою.
Проблема сприйняття у фізичних системах штучного інтелекту
Сучасні фізичні системи зі штучним інтелектом залежать від мультимодального сприйняття — бачення, відчуття та розуміння свого оточення. Але необроблені дані, які вони отримують, є неструктурованими:
- Хмари точок Lidar з мільйонами точок на кадр.
- Відгуки радара, які фіксують глибину та швидкість, але не форму.
- Відеопотоки з RGB або інфрачервоних камер.
- Інерціальні та GPS-сигнали, які потребують тимчасового узгодження.
Об’єднання цих потоків у єдиний набір даних вимагає конвеєра злиття та команди, яка розуміється на 3D-геометрії, системах координат і калібруванні сенсорів. Традиційне маркування 2D-рамками просто не підходить.
Чому 3D-розмітка даних така складна — і така дорога
Маркування 3D-даних вимагає спеціалізованих інструментів і експертизи:
- 3D-обмежувальні рамки та семантична сегментація повинні точно відповідати матрицям калібрування сенсорів.
- Синхронізація часу між кількома сенсорами гарантує, що кадри відображають один і той самий момент.
- Обробка оклюзій і відстеження на кількох кадрах визначають, чи об'єкт з'являється знову, чи виходить із поля зору.
- Послідовність анотацій і узгодженість між анотаторами (IAA) безпосередньо впливають на ефективність моделі.
Через ці виклики багато компаній стикаються з вузькими місцями під час навчання моделей сприйняття — обмежені ресурси, низька якість і тривалі терміни виконання. Саме тому вони звертаються до партнерів корпоративного рівня, які можуть забезпечити масштабовані та контрольовані процеси анотування.
Маркування сенсорного злиття — майбутнє анотування даних у робототехніці
Маркування злиття сенсорних даних поєднує інформацію з кількох типів датчиків (лідар, радар, відео), щоб створити більш повне уявлення про фізичний світ. Для робототехніки та автономних транспортних засобів це означає :
- Вища точність виявлення об'єктів при поганому освітленні або несприятливих погодних умовах. Покращена оцінка глибини та швидкості.
- Більш надійне розуміння сцени завдяки перехресній перевірці даних із різних сенсорів.
- Менше сліпих зон і збоїв у крайових випадках.
Uber AI Solutions протягом десяти років удосконалює цей процес на власній платформі мобільності та у партнерських програмах по всьому світу.
Висновок — від необроблених даних до сприйняття реального світу
Фізичний штучний інтелект настільки якісний, наскільки якісні дані, які навчають його бачити й діяти. Об'єднуючи передові технології маркування сенсорних даних із глобальною мережею людей і суворими стандартами якості, Uber AI Solutions допомагає компаніям створювати надійних роботів, транспортні засоби та машини, які безпечно працюють у реальному світі.
Рішення для галузей
Індустрії
Довідники