MLCommons Datasets

Multilingual Spoken Words

MLCommons Multilingual Spoken Words corpus is a large and growing audio dataset of spoken words in 50 languages for academic research and commercial applications in keyword spotting and spoken term search, licensed under CC-BY 4.0.

About the dataset

The MLCommons Multilingual Spoken Words dataset The dataset contains more than 340,000 keywords, totaling 23.4 million 1-second spoken examples (over 6,000 hours).

It has many use cases, ranging from voice-enabled consumer devices to call center automation. All alignments are included in the dataset. Please see our paper for a detailed analysis of the contents of the data and methods for detecting potential outliers, along with baseline accuracy metrics on keyword spotting models trained from our dataset compared to models trained on a manually-recorded keyword dataset.

Read our full paper here.
Join the MSWC mailing list here.
Connect with other MSWC users on
the MLCommons Discord server.
Get started by trying out our introductory
tutorial notebook here on Google Colab.
Watch our NeurIPS talk here.

Download Disclaimers
By using the Cloudflare mirror, MLCommons requires that you agree not to attempt to determine the identity of the speakers in the dataset. By using the Alibaba Mirror, MLCommons requires that you agree not to attempt to determine the identity of the speakers in the dataset. By using the Google mirror, Google requires that you agree not to attempt to determine the identity of the speakers in the dataset.

Full Dataset

License: CC-BY 4.0
Audio Format: Opus
Size: 124 GB
Description: All 50 languages

Download via Cloudflare Mirror

Download via Alibaba mirror

Download via Google mirror

Microset

License: CC-BY 4.0
Audio Format: Opus
Size: 584 MB
Description: Small subset of 51 English and Spanish words for prototyping

Download via Cloudflare Mirror

Download via Alibaba mirror

Download via Google mirror

Metadata

License: CC-BY 4.0
Size: 103 MB
Description: The metadata file contains our dataset version info, and metadata organized as json dictionaries by each language isocode. The per-language metadata contains the following items: the full language name, the number of words we contain in the language, a dictionary of each word and the number of clips for each word, and another dictionary of each word and the opus filenames for each clip.

Download via Cloudflare Mirror

Download via Alibaba mirror

Download via Google mirror

Language

Language	License	Size	Cloudflare mirror	Alibaba Mirror	Google Mirror
English	CC-BY 4.0	32.45 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
German	CC-BY 4.0	17.95 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
French	CC-BY 4.0	12.44 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Catalan	CC-BY 4.0	11.18 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Kinyarwada	CC-BY 4.0	8.08 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Spanish	CC-BY 4.0	6.85 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Russian	CC-BY 4.0	2.84 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Italian	CC-BY 4.0	3.02 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Polish	CC-BY 4.0	2.47 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Basque	CC-BY 4.0	2.33 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Persian	CC-BY 4.0	6.33 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Dutch	CC-BY 4.0	1.13 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Esparanto	CC-BY 4.0	1.55 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Portuguese	CC-BY 4.0	1.09 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Welsh	CC-BY 4.0	1.70 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Tatar	CC-BY 4.0	0/53 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Czech	CC-BY 4.0	0.42 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Ukranian	CC-BY 4.0	0.34 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Estonian	CC-BY 4.0	0.31 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Turkish	CC-BY 4.0	0.38 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Mongolian	CC-BY 4.0	0.18 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Kyrgyz	CC-BY 4.0	0.23 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Arabic	CC-BY 4.0	0.16 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Frisian	CC-BY 4.0	0.15 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Swedish	CC-BY 4.0	0.18 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Maltese	CC-BY 4.0	0.12 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Indonesian	CC-BY 4.0	0.20 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Greek	CC-BY 4.0	0.12 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Breton	CC-BY 4.0	0.08 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Sursilvan	CC-BY 4.0	0.08 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Romania	CC-BY 4.0	0.09 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Slovenian	CC-BY 4.0	0.06 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Sakha	CC-BY 4.0	0.05 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Latvian	CC-BY 4.0	0.07 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Interlingua	CC-BY 4.0	0.07 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Slovak	CC-BY 4.0	0.03 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Chuvash	CC-BY 4.0	0.04 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Irish	CC-BY 4.0	0.05 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Chinese	CC-BY 4.0	0.06 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Georgian	CC-BY 4.0	0.02 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Hakha Chin	CC-BY 4.0	0.03 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Hausa	CC-BY 4.0	0.02 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Vallader	CC-BY 4.0	0.02 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Tamil	CC-BY 4.0	0.01 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Vietnamese	CC-BY 4.0	0.00 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Assamese	CC-BY 4.0	0.00 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Guarani	CC-BY 4.0	0.00 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Oriya	CC-BY 4.0	0.00 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Dhivehi	CC-BY 4.0	0.00 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments
Lithuanian	CC-BY 4.0	0.14 GB	Audio Splits Alignments	Audio Splits Alignments	Audio Splits Alignments

Primary languages in our dataset by country

This map depicts 28 primary languages which are included in our 50-language dataset, highlighted by country. Our dataset contains keywords in the following 50 languages: Arabic, Assamese, Basque, Breton, Catalan, Chinese, Chuvash, Czech, Dhivehi, Dutch, English, Esparanto, Estonian, French, Frisian, Georgian, German, Greek, Guarani, Hakha Chin, Hausa, Indonesian, Interlingua, Irish, Italian, Kinyarwada, Kyrgyz, Latvian, Lithuanian, Maltese, Mongolian, Oriya, Persian, Polish, Portuguese, Romanian, Russian, Sakha, Slovak, Slovenian, Spanish, Sursilvan, Swedish, Tamil, Tatar, Turkish, Ukranian, Vallader, Vietnamese, and Welsh.

Multilingual Spoken Words

About the dataset

Full Dataset

Microset

Metadata

Language All

Primary languages in our dataset by country

Language