Задача №1605
Автор: А. А. Сомин
Явления: 6-граммы, n-граммы, перепутанные соответствия
Язык: русский / russ1263 / Indo-European; Balto-Slavic; Slavic; East Slavic; Russian
Условие
В компьютерной лингвистике N-граммами называют последовательности из N слов подряд. По данным Национального корпуса русского языка, включающего в себя тексты разных жанров и стилей (от официально-делового до разговорного), размером более 600 миллионов слов, три самых частых 2-граммы (биграммы) — это последовательности и не, и в и потому что, а три самых частых 3-граммы (триграммы) — это о том что, в том что и до сих пор. Среди 4-грамм второе место занимает в том числе и, а среди 5-грамм на четырнадцатом месте находится последовательность есть не что иное как.
Ниже приведён алфавитный список слов, образующих двадцать из наиболее частых 6-грамм по данным Национального корпуса русского языка. Слова приведены в той форме, в которой они встречаются в N-граммах; знаки препинания убраны.
3.1. Составьте как можно больше исходных 6-грамм.
Решение
Список исходных 6-грамм:
- в одно и то же время
- в том и в другом случае
- во имя отца и сына и
- во что бы то ни стало
- и в голову не приходило что
- и т д и т д
- и т д и т п
- и так далее и так далее
- и это несмотря на то что
- как бы то ни было но
- как ни в чём не бывало
- не говоря уже о том что
- не на жизнь а на смерть
- не по дням а по часам
- ни для кого не секрет что
- ни за что ни про что
- ни к селу ни к городу
- ни с того ни с сего
- но в том-то и дело что
- о внесении изменений и дополнений в
Засчитывались также не входящие в исходный список, но тоже частотные 6-граммы:
- и в то же время не
- и в том и в другом
- и как ни в чём не
- но в то же время и
- но как бы то ни было
- одно и то же время и
За первые семь найденных 6-грамм ставилось по 1 баллу, за следующие шесть — по 2 балла, и еще за семь — по 3 балла (таким образом, возможный максимум и составлял 40 баллов). Таблица пересчёта:
шт. | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
балл | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 9 | 11 | 13 |
шт. | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 |
балл | 15 | 17 | 19 | 22 | 25 | 28 | 31 | 34 | 37 | 40 |
5-граммы, в которых сохранён порядок слов исходного 6-грамма (например, но это несмотря на то что вместо и это несмотря на то что), засчитывались следующим образом: если есть 0–7 найденных 6-грамм — по 0,5 балла, 8-13 6-грамм — по 1 баллу, 14–19 6-грамм — по 1,5 балла. В решениях, где вопреки условию задачи приводилось больше двадцати ответов, 5-граммы не учитывались, а за лишние 6-граммы сверх двадцати снималось по одному штрафному баллу.
Баллы за 6-граммы ставились только при условии точного соблюдения порядка слов (в порядке исключения, о внесении дополнений и изменений в засчитывалось наряду с о внесении изменений и дополнений в).
Комментарии