Vision-Language Models for Vision Tasks: A Survey Vision-Language Pretraining Methods - Search Videos

Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks

Oscar: Object-Semantics Aligned Pre-training for Vision-Language T…

Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation

Reinforced Cross-Modal Matching and Self-Supervised Imitation Lear…

Vison-language pretraining is pushing AI forward in novel object captioning and image caption generation. Learn about powerful new VLP methods in this webinar and how advances permit captioning without image-text pairs on February 11 at 10 AM PT. Register now: https://aka.ms/AAaz6bh | Microsoft Research

Vison-language pretraining is pushing AI forward in novel objec…

169K viewsJan 30, 2021

FacebookMicrosoft Research

In vision-and-language pretraining (VLP), objects can be used as anchor points to make aligning semantics between image-text pairs easier. Learn how Oscar, a novel VLP framework utilizing objects, sets new state of the art on six vision-and-language tasks: https://aka.ms/AA8flix | Microsoft Research

In vision-and-language pretraining (VLP), objects can be used as anc…

22.5K viewsMay 15, 2020

FacebookMicrosoft Research

Research talk: Large-scale, self-supervised pretraining: From language to vision

Research talk: Large-scale, self-supervised pretraining: From lang…

2601.21420 - ConceptMoE: Adaptive Token-to-Concept Compression for Implicit Compute Allocation

2601.21420 - ConceptMoE: Adaptive Token-to-Concept Compression fo…

YouTubeAI Paper Cast

NICE Session 80: ICCV 2025 Paper Sharing Session 2

NICE Session 80: ICCV 2025 Paper Sharing Session 2

50 views6 months ago

YouTubeNLP Academic Exchange Platform

VLAs: Resilience to Catastrophic Forgetting

24 views1 month ago

YouTubeAI Research Roundup

Pretraining a Unified PDDL Domain from Real-World Videos!

2 views1 week ago

YouTubePanpan CAI

Agent security bypasses in practice & Governance gaps for enterprise …

YouTubeThe Automated Daily

TII Releases Falcon Perception for Vision and Language Tasks

26 views4 weeks ago

YouTubeThe AI Opus

ICL CHARACTERIZATION OF MULTI-MODAL GEO-FOUNDATIO…

YouTubeDr. Mosab Hawarey

Beyond Language Modeling: Multimodal Pretraining & Transfus…

42 views1 month ago

YouTubeSciPulse

TIPSv2: Precise Image Patch to Text Alignment

42 views2 weeks ago

YouTubeAI Research Roundup

Top Vision-Language-Action Models | RT-2, Octo, OpenVLA, SmolVLA

130 views1 month ago

YouTubeNotes from my Life

What do Language Models Learn and When? The Implicit Curriculu…

52 views2 weeks ago

YouTubeAI Paper Slop

Train robot arms once.Deploy them on drones.That’s the promise here…

10.9K views1 month ago

𝗙𝗶𝗻𝗲-𝘁𝘂𝗻𝗲 𝗮 𝗳𝗼𝘂𝗻𝗱𝗮𝘁𝗶𝗼𝗻 𝗽𝗼𝗹𝗶𝗰𝘆 𝗳𝗼𝗿 𝘁𝗵𝗿𝗲𝗲 𝗺𝗼𝗻𝘁𝗵𝘀. 𝗠𝗼𝘃𝗲 𝘁𝗵𝗲 𝗯𝗶𝗻 𝘁𝘄𝗼 𝗶𝗻𝗰𝗵𝗲𝘀. 𝗪𝗮𝘁𝗰𝗵 𝗶𝘁 𝗳𝗮𝗶𝗹. 𝗧𝗵𝗮𝘁 𝗹𝗼𝗼𝗽 𝗶𝘀 𝘁𝗵𝗲 𝗿𝗲𝗮𝘀𝗼𝗻 𝗺𝗼𝘀𝘁 𝗽𝗿𝗲𝘁𝗿𝗮𝗶𝗻𝗲𝗱 𝗿𝗼𝗯𝗼𝘁𝗶𝗰𝘀 𝗽𝗼𝗹𝗶𝗰𝗶𝗲𝘀 𝗻𝗲𝘃𝗲𝗿 𝗹𝗲𝗮𝘃𝗲 𝘁𝗵𝗲 𝗹𝗮𝗯, 𝗮𝗻𝗱 𝗮 𝗻𝗲𝘄 𝗽𝗮𝗽𝗲𝗿 𝗽𝗿𝗼𝗽𝗼𝘀𝗲𝘀 𝗮 𝘄𝗮𝘆 𝘁𝗼 𝗯𝗿𝗲𝗮𝗸 𝗶RT-1 learned from 130,000 demonstrati…

8.4K views6 days ago

x.comStephen James

OpenAI CLIP: ConnectingText and Images (Paper Explained)

173.7K viewsJan 12, 2021

YouTubeYannic Kilcher

Contrastive Language-Image Pretraining (CLIP)

753 viewsApr 10, 2025

YouTubeAntonio Rueda-Toicen

Vision Transformers explained

70.8K viewsJul 1, 2023

YouTubeCode With Aarohi

Contrastive Language-Image Pre-training (CLIP)

12.5K viewsApr 27, 2022

YouTubeSamuel Albanie

What is LLM Distillation ?

33.3K viewsFeb 2, 2025

YouTubeNew Machina

逐篇解析机器人基座模型和VLA经典论文（含投屏版）——“人就是最智 …

4.1K viewsApr 7, 2025

YouTubeZhang Xiaojun Podcast

Qwen3-VL is here!

782.9K views7 months ago

Python + AI: Vision models

3.4K views6 months ago

YouTubeMicrosoft Reactor

Multimodal Machine Learning | Introduction | Part 1 | CVPR 2022 T…

40.9K viewsAug 9, 2022

YouTubeArtificial Intelligence

Introduction to Vision Language Models (VLM)

14.2K views5 months ago

SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

196 views7 months ago

OpenAI CLIP Explained | Multi-modal ML

27K viewsSep 15, 2022

YouTubeJames Briggs

See more videos