audio-visual

Star

Here are 34 public repositories matching this topic...

TaoRuijie / TalkNet-ASD

Star

ACM MM 2021: 'Is Someone Speaking? Exploring Long-term Temporal Features for Audio-visual Active Speaker Detection'

multimedia audio-visual active-speaker-detection awesome-asd

Updated Oct 23, 2023
Python

guyyariv / TempoTokens

Star

This repo contains the official PyTorch implementation of: Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation

deep-learning pytorch audio-visual diffusion-models ai-art audio-to-video generative-ai video-synthesis modelscope

Updated Feb 13, 2025
Python

ekazakos / temporal-binding-network

Star

Implementation of "EPIC-Fusion: Audio-Visual Temporal Binding for Egocentric Action Recognition, ICCV, 2019" in PyTorch

fusion convolutional-networks action-recognition egocentric audio-visual

Updated Jan 25, 2021
Python

v-iashin / Synchformer

Star

Source code for "Synchformer: Efficient Synchronization from Sparse Cues" (ICASSP 2024)

synchronization multi-modal video-understanding audio-visual contrastive-learning

Updated Feb 6, 2025
Python

v-iashin / SparseSync

Star

Source code for "Sparse in Space and Time: Audio-visual Synchronisation with Trainable Selectors." (Spotlight at the BMVC 2022)

synchronization pytorch transformer lrs sparse multi-modal audio-visual bmvc vggsound

Updated Jan 29, 2024
Python

MengyuanChen21 / CVPR2023-CMPAE

Star

[CVPR 2023] Collecting Cross-Modal Presence-Absence Evidence for Weakly-Supervised Audio-Visual Event Perception

video-understanding audio-visual audio-visual-learning cvpr2023 audio-visual-video-parsing

Updated Jun 17, 2023
Python

joannahong / AV-RelScore

Star

Audio-Visual Corruption Modeling of our paper "Watch or Listen: Robust Audio-Visual Speech Recognition with Visual Corruption Modeling and Reliability Scoring" in CVPR23

avsr multimodal audio-visual

Updated Jun 20, 2023
Python

jinxiang-liu / anno-free-AVS

Star

Official code for WACV 2024 paper, "Annotation-free Audio-Visual Segmentation"

segmentation semantic-segmentation audio-visual audio-visual-segmentation

Updated Oct 11, 2024
Python

ruohaoguo / ovavss

Star

Official Implementation of "Open-Vocabulary Audio-Visual Semantic Segmentation" [ACM MM 2024 Oral].

deep-learning transformer video-processing semantic-segmentation sound-localization audio-visual open-vocabulary

Updated Nov 2, 2024
Python

MCG-NJU / JoMoLD

Star

[ECCV 2022] Joint-Modal Label Denoising for Weakly-Supervised Audio-Visual Video Parsing

audio-visual

Updated Jul 15, 2022
Python

dialogtekgeek / AudioVisualSceneAwareDialog

Star

dialog scene-aware-dialog audio-visual dstc7

Updated May 4, 2020
Python

georgesterpu / Taris

Sponsor

Star

Transformer-based online speech recognition system with TensorFlow 2

python online deep-learning tensorflow transformer speech-recognition audio-visual-speech-recognition speech-recognizer multimodal multimodal-deep-learning mahcine-learning audio-visual tensorflow2 live-caption taris

Updated Jan 22, 2021
Python

Yu-Wu / Modaily-Aware-Audio-Visual-Video-Parsing

Star

Code for CVPR 2021 paper Exploring Heterogeneous Clues for Weakly-Supervised Audio-Visual Video Parsing

cvpr audio-visual cvpr2021

Updated Dec 29, 2021
Python

JaesungHuh / av-diarization

Star

Audio-visual diarization pipeline used for creating VoxConverse dataset

speaker-diarization audio-visual voxconverse

Updated Jun 6, 2025
Python

hmartelb / avlit

Star

Official source code of the INTERSPEECH 2023 paper: "Audio-Visual Speech Separation in Noisy Environments with a Lightweight Iterative Model" (AVLIT)

lightweight pytorch multi-modal iterative speech-separation speech-enhancement audio-visual pytorch-lightning

Updated Sep 1, 2023
Python

dkurzend / ClipClap-GZSL

Star

Audio-Visual Generalized Zero-Shot Learning using Large Pre-Trained Models

learning clip clap zero-shot-learning audio-visual generalized-zero-shot-learning gzsl zsl audio-visual-learning audio-visual-generalized-zero-shot-learning

Updated Apr 15, 2024
Python

Sreyan88 / LipGER

Star

Code for InterSpeech 2024 Paper: LipGER: Visually-Conditioned Generative Error Correction for Robust Automatic Speech Recognition

speech-recognition audio-visual-speech-recognition audio-visual llm prompting generative-ai

Updated Jul 16, 2024
Python

FannyChao / AVS360_audiovisual_saliency_360

Star

Towards Audio-Visual Saliency Prediction for Omnidirectional Video with Spatial Audio

vr virtual-reality ambisonics spatial-audio 360-video audio-visual saliency-prediction

Updated Dec 28, 2021
Python

Overcautious / ADENet

Star

Accepted by TMM 2022

multimodel speech-enhancement audio-visual active-speaker-detection

Updated Aug 18, 2022
Python

SAGNIKMJR / move2hear-active-AV-separation

Star

Code and datasets for 'Move2Hear: Active Audio-Visual Source Separation' (ICCV 2021)

reinforcement-learning active-learning audio-separation multimodal-deep-learning audio-visual

Updated Jan 17, 2023
Python

Improve this page

Add a description, image, and links to the audio-visual topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the audio-visual topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

audio-visual

Here are 34 public repositories matching this topic...

TaoRuijie / TalkNet-ASD

guyyariv / TempoTokens

ekazakos / temporal-binding-network

v-iashin / Synchformer

v-iashin / SparseSync

MengyuanChen21 / CVPR2023-CMPAE

joannahong / AV-RelScore

jinxiang-liu / anno-free-AVS

ruohaoguo / ovavss

MCG-NJU / JoMoLD

dialogtekgeek / AudioVisualSceneAwareDialog

georgesterpu / Taris

Yu-Wu / Modaily-Aware-Audio-Visual-Video-Parsing

JaesungHuh / av-diarization

hmartelb / avlit

dkurzend / ClipClap-GZSL

Sreyan88 / LipGER

FannyChao / AVS360_audiovisual_saliency_360

Overcautious / ADENet

SAGNIKMJR / move2hear-active-AV-separation

Improve this page

Add this topic to your repo