VIP-ANT: VIsually-Pivoted Audio and(N) Text

Code for the paper Connecting the Dots between Audio and Text without Parallel Data through Visual Knowledge Transfer @ NAACL 2022.

Data

AudioSet can be downloaded and preprocessed via this tool.

AudioSet Data

See AudioSet. It elaborates on our customized index files for pre-training on AudioSet.

Curated Audio-Text Data

See AudioTxt. It elaborates on our curation methods and customized index files for audio-text fine-tuning.

Vision-Audio (VA) Pre-training

Check out the running script bash/run_bimodal_va.sh.

Audio-Text (AT) Fine-tuning

Check out the running script bash/run_bimodal_at.sh. Fine-tuning starts with a VA pre-trained audio encoder.

Pre-trained Models

We provide a checkpoint that performs best for each task.

Pre-trained Models for Audio-Text Retrieval

Model	AudioCaps	Clotho (18s)	Clotho (10s)
VIP-ANT	00051623	00043681	00043681
+AT w/ GC	00006210	00006900	00004140

Pre-trained Models for Zero-shot Audio Classification

Model	ESC50 (w/ prompt)	US8K (w/ prompt)
VIP-ANT	00083391	00079420
+AT w/ GC	00004140	00004140

Dependencies

Dockerfile defines minimum dependencies of the repo.

License

MIT

Name		Name	Last commit message	Last commit date
Latest commit History 94 Commits
bash		bash
clip		clip
configs		configs
cvap		cvap
.gitignore		.gitignore
Dockerfile		Dockerfile
README.md		README.md
requirements.txt		requirements.txt
train.py		train.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

VIP-ANT: VIsually-Pivoted Audio and(N) Text

Data

AudioSet Data

Curated Audio-Text Data

Vision-Audio (VA) Pre-training

Audio-Text (AT) Fine-tuning

Pre-trained Models

Pre-trained Models for Audio-Text Retrieval

Pre-trained Models for Zero-shot Audio Classification

Dependencies

License

About

Uh oh!

Uh oh!

Languages

zhaoyanpeng/vipant

Folders and files

Latest commit

History

Repository files navigation

VIP-ANT: VIsually-Pivoted Audio and(N) Text

Data

AudioSet Data

Curated Audio-Text Data

Vision-Audio (VA) Pre-training

Audio-Text (AT) Fine-tuning

Pre-trained Models

Pre-trained Models for Audio-Text Retrieval

Pre-trained Models for Zero-shot Audio Classification

Dependencies

License

About

Resources

Uh oh!

Stars

Watchers

Forks

Uh oh!

Languages