SAM 3: Open-Vocabulary Image and Video Segmentation

Özet

SAM 3 (Segment Anything Model 3), Meta Superintelligence Labs tarafından geliştirilmiş, açık kaynaklı bir bilgisayarlı görü temel modelidir. Görüntülerde ve videolarda metin veya görsel istemlerle (nokta, kutu, maske) nesne tespiti, bölütleme (segmentasyon) ve takibi yapabilmek için tasarlanmıştır. Önceki model SAM 2’ye kıyasla, açık kelime dağarcığıyla belirtilen kavramların tüm örneklerini bulma yeteneği gibi önemli geliştirmeler sunar.
SAM 3’ün temel özellikleri arasında:

  • Birleşik model: Metin ve görsel istemleri kabul ederek, hem görüntü hem de video için bölütleme ve takip yeteneklerini tek bir modelde birleştirir.

  • Açık kelime dağarcığı (Open-Vocabulary): Kısa bir metin ifadesi veya örnek görüntü ile belirtilen çok geniş bir kavram kümesindeki nesneleri tanıyıp bölütleyebilir.

  • Gelişmiş mimari: Yakın anlamlı metin istemleri arasında daha iyi ayrım yapmayı sağlayan bir “varlık belirteci” ve görev karışımını en aza indiren ayrık bir dedektör-izleyici tasarımı içerir.

  • Kapsamlı veri seti: Model, otomatik olarak açıklanan 4 milyondan fazla benzersiz kavramdan oluşan, şimdiye kadarki en büyük yüksek kaliteli açık kelime dağarcıklı bölütleme veri seti üzerinde eğitilmiştir.

  • Yeni benchmark: 270 bin benzersiz kavram içeren ve mevcut kıyaslamalardan 50 kat daha geniş olan yeni SA-CO (Segment Anything - Concepts) değerlendirme setini tanıtır.

  • Kapsamlı örnekler: Görüntüler ve videolar için metin, kutu, nokta gibi çeşitli istem türlerinin kullanımını gösteren Jupyter notebook örnekleri sağlanır.

  • Esnek kullanım: Kullanıcılar hem çıkarım yapabilir hem de modeli kendi verileri üzerinde fine-tuning (ince ayar) yaparak özelleştirebilir.

  • Performans: Görüntülerde LVIS ve yeni SA-CO/Gold seti gibi zorlu veri setlerinde önceki açık kelime dağarcıklı modelleri önemli ölçüde geride bırakan bir performans sergiler.

Summary

SAM 3 (Segment Anything Model 3) is an open-source computer vision foundation model developed by Meta Superintelligence Labs. It is designed for promptable object detection, segmentation, and tracking in images and videos using text or visual prompts such as points, boxes, and masks. Compared to its predecessor SAM 2, it introduces significant advancements like the ability to exhaustively segment all instances of concepts specified via open-vocabulary.
Key features of SAM 3 include:

  • Unified model: Accepts text and visual prompts to unify segmentation and tracking capabilities for both images and videos in a single model.

  • Open-vocabulary: Can detect and segment objects from a vastly large set of concepts specified by a short text phrase or exemplar images.

  • Advanced architecture: Incorporates a presence token for better discrimination between closely related text prompts and a decoupled detector-tracker design to minimize task interference.

  • Comprehensive dataset: Trained on the largest high-quality open-vocabulary segmentation dataset to date, with over 4 million unique concepts annotated automatically.

  • New benchmark: Introduces the new SA-CO (Segment Anything - Concepts) evaluation set containing 270K unique concepts, over 50 times larger than existing benchmarks.

  • Extensive examples: Provides Jupyter notebook examples demonstrating the use of various prompt types like text, boxes, and points for images and videos.

  • Flexible usage: Allows users to run inference as well as fine-tune the model on their own data for customization.

  • Performance: Demonstrates strong performance on challenging image datasets like LVIS and the new SA-Co/Gold set, significantly outperforming prior open-vocabulary models.

1 Like