Common Voice — адна з ініцыятыў Mozilla, прысвечаных таму, каб навучыць машыны голасу сапраўдных людзей. Гэты праект — спроба па выпраўленні хібаў у сферы лічбавых маўленчых тэхналогій.
Менавіта таму праект заклікае ўсіх беларусаў далучыцца да «марафона» агучвання невялікіх сказаў на роднай мове. Па меркаванні стваральнікаў, праект [3] пойдзе на карысць развіцця тэхналогій распазнавання беларускага маўлення. Да таго ж далучыцца да яго можа абсалютна кожны.
Дэвайсы набываюць чалавечае вымярэнне дзякуючы тэхналогіям распазнавання маўлення, але праграмістам патрабуецца велізарны аб'ём галасавых дадзеных для іх распрацоўкі. На сённяшні дзень большасць такіх дадзеных — прапрыетарныя і дарагія. Стваральнікі праекта хочуць зрабіць галасавыя дадзеныя свабоднымі і агульнадаступнымі, а таксама забяспечыць іх разнастайнасць, як у сапраўдным жыцці.
«Мы пайшлі праз паўаўтаматычны шлях. З беларускай „Вікіпедыі“ намі было выгружана блізу 85 000 сказаў. Далей адбылася праверка выпадковай падвыбаркі ў 4000 сказаў мовазнаўцамі-валанцёрамі, за што ім асабісты і асаблівы дзякуй! Апынулася, што каля 7% усіх сказаў беларускай „Вікіпедыі“ змяшчаюць граматычная, арфаграфічныя, маўленчыя або іншыя памылкі, але гэта знаходзіцца ў прымальных межах нормы і дазволіла мэйнтэйнерам Mozilla Common Voice актывізаваць беларускую мову і распачаць працэс агучвання!» — распавядаюць стваральнікі ініцыятывы.
Працэс для ўдзелу просты:
- Трэба зайсці на https://commonvoice.mozilla.org/be [3] і націснуць на мікрафон.
- Пачаць начытваць сказы. Можна з тэлефона, можна без рэгістрацыі.
- Таксама можна правяраць ужо начытаныя іншымі людзьмі сказы.
Падчас агучвання ваш голас мусіць гучаць натуральна, нібы адбываецца звычайная размова. Памятайце і пра свой беларускі акцэнт — цвёрдае ч, фрыкатыўнае г, дзеканне і цеканне, мяккасць пры спалучэнні зычных: напрыклад, «свет» чытаецца як «сьвет», «насенне» — як «насеньне».
Onliner.by [4]
