Лексические омонимы и омоформы. Подсчет слов, символов и списка ключевых слов в тексте А какие английские слова учить

Вместо того, чтобы учить тематическую лексику из учебников, сосредоточьтесь на самом главном – и вы будете поражены результатом. Нейросети проанализировали тысячи текстов книг, статей и дискуссий на английском и выявили слова, на которые имеет смысл тратить время. Рассказываем о этом подробнее.

В советских и постсоветских школах важно было знать грамматику. Поэтому их выпускникам сложно разговаривать. Английский изучали по абстрактным героям учебников, энциклопедиям и литературе, упуская самое важное - обычную человеческую речь.

Сколько слов нужно знать?

Составители современных учебных программ хором произносят цифру 3000 - это такой «золотой запас» английских слов. Мы назвали его Gold 3000 и сейчас все про это расскажем.

Как понять, много это или мало?

3000 слов - это первая глава поэмы Евгений Онегин, 15 страниц текста А4 12 кеглем, полчаса неторопливого чтения вслух. Словом, это не так уж много. Но здесь начинается tricky thing. Нельзя выучить три тысячи любых слов и быть уверенным, что свободно знаешь язык. Это как пытаться составить слово «счастье» из известного набора букв.

Читайте также:

А какие английские слова учить?

Чтобы сойти за человека, который говорит по-английски, учить нужно распространенные, разговорные слова, устойчивые выражения, фразы высокой частотности, которые все собраны в одном списке от составителей Оксфордовского словаря. Чтобы профессионально расти - нужны те, что относятся к вашей профессии. Чтобы разбираться в предмете - по предмету.

Кто учил частотные слова, тот легко читает тексты в New York Times, смотрит BBC и общается с носителями о Брекзите и Дональде Трампе. Потому что занимался по подходящим и актуальным материалам. А кое-кто в это время зачем-то запоминал слово serendipity, чтобы потом встретить его однажды в статье о биполярном расстройстве.

Сколько вообще слов в английском языке?

Успокойтесь, всех слов не знает никто. Более-менее образованный носитель английского языка в среднем владеет запасом от 10 000 до 30 000 слов.

Составители легендарного словаря Macmillan считают, что 2500 самых частотных выражений покрывают 80% английской речи. 7500 слов покрывают уже 90% речи. То есть, выучив больше, вы зарабатываете себе шансы общаться на профессиональные темы, читать тематическую литературу или как-то особенно глубоко говорить о своих чувствах.

Как они это поняли?

Это понял искусственный интеллект, выполнив компьютерный анализ тысячи текстов книг, статей, сочинений и обсуждений (сейчас в корпусе Macmillan уже 1,6 млрд слов).

Авторы словаря Longman выделили 3000 (в реальности чуть больше) слов, которые, согласно их исследованию , покрывают 86% всех текстов на английском языке.

Оксфордский словарь также имеет собственный список самых важных слов английского языка. Здесь их тоже 3000 (и тут округлили в меньшую сторону до ровного числа), но авторы не упоминают, какой процент речи и/или текстов они помогут понять.


Так и что это за слова?

Для примера можно прогнать фрагмент статьи The Guardian в специальном сервисе Оксфордского словаря, который показывает, сколько слов из списка Oxford 3000™ используются в тексте. Как видно, 90% текста приходится на те самые 3000 самых частотных слов.

Читайте также:

Этот же список выгрузили в мобильное приложение для заучивания слов Skyeng на iOs и Android . Поскольку список называется Gold 3000, каждое частотное, заслуживающее вашего времени слово маркировано золотым мешком. Приложением можно пользоваться не только, чтобы учить слова, но и в целом, чтобы учиться (делать домашки и читать полезные материалы, этот - в том числе).

Здесь представлены вопросы и ответы конкурса "Русский медвежонок - языкознание для всех" за 2000 год для 9-11 классов.

Задачи, оцениваемые в 3 балла

1. Для скольких из перечисленных слов подходит определение «посуда, предназначенная для хранения еды или питья»: банка, бутылка, чайник, чашка, тарелка?

(А) для одного; (Б) для двух; (В) для трех; (Г) для четырех; (Д) для всех.

2. В скольких словах из приведённых букву е можно читать и как е, и как ё: берет, жилет, живет, запрет, скребет?

(А) ни в одном; (Б) в одном; (В) в двух; (Г) в трёх; (Д) в четырёх.

3. Отметьте из приведённых ниже слов слова с одинаковыми приставками:
1) подоконник, 2) подорожник, 3) подруга, 4) подлец, 5) подарок, 6) подагра.

(А) 1, 2 (Б) 1, 2, 3, 4 (В) 2, 5 (Г) 2, 5, 6 (Д) 2, 3, 5

4. Сколько слов из списка можно понять и как существительное, и как глагол:
бой, вой, пой, рой, стой, лечь, печь, речь?

5. Даны фразы:
1) Бессчётны образчики черезчур расчётливой бесвкусицы.
2) Бессчётны образщики чересчур расчётливой безвкусицы.
3) Бесчётны образчики черезчур рассчётливой бесвкусицы.
4) Бессчётны образчики чересчур расчётливой безвкусицы.
Выберите вариант, где нет орфографических ошибок:

(А) 1; (Б) 2; (В) 3; (Г) 4; (Д) все варианты содержат ошибки.

6. Как называют жителей Тулы?

(А) тулянами; (Б) тульцами; (В) туляками; (Г) туличами; (Д) туличанами.

7. Посмотрите на список слов: дебют, десерт, декабрь, держава, деталь, демократ, дебош, демагог.
В скольких из них вторая буква (е) не смягчает предыдущий согласный?

(А) 0, (Б) 1; (В) 2, (Г) 3, (Д) 4.

8. Даны пять слов: 1) бабочка, 2) воробей, 3) мельница, 4) самолет, 5) стул.
Какое из них по смыслу является лишним?

(А) 1; (Б) 2; (В) 3; (Г) 4; (Д) 5?

9. Прочтите загадку, зашифрованную в ребусе, и найдите подходящую отгадку.

(А) печь; (Б) окно; (В) крыльцо; (Г) фабрика; (Д) тыква.

10. Укажите, в каких предложениях из приведённых ниже слово грустно является прилагательным:
1) Нам грустно расставаться.
2) Расставание всегда грустно.
3) Он грустно взглянул на меня.

(А) ни в каких; (Б) 1; (В) 1, 2; (Г) 1, 2, 3; (Д) 2.

Задачи, оцениваемые в 4 балла

11. Что означает выражение ставить на вид?

(А) помещать на витрину; (Б) покупать акции телекомпании "ВИД";
(В) делать замечание, близкое к выговору; (Г) отправлять на выставку; (Д) так не говорят.

12. До орфографической реформы 1917–1918 гг. каждое прилагательное имело в именительном падеже множественного числа две разные формы, например: новые учебники, но новыя книги; старые ботинки, но старыя письма и телеграммы; светлые классы, но светлыя окна. Как до орфографической реформы записывались словосочетания красивые вазы и просторные поля?

(А) красивыя вазы, просторныя поля; (Б) красивые вазы, просторныя поля;
(В) красивыя вазы, просторные поля; (Г) красивые вазы, просторные поля;
(Д) ни один из вариантов (А)–(Г) не верен.

13. Иногда они называли себя "будетлянами". А под каким именем они вошли в историю литературы?

(А) имажинисты; (Б) футуристы; (В) акмеисты; (Г) обэриуты; (Д) символисты?

14. В каких предложениях представлен союз что: 1) Возьми книгу, что лежит на столе.
2) Я не знаю, что нам задали на дом. 3) Как хорошо, что завтра начинаются каникулы.

(А) 1; (Б) 2; (В) 3; (Г) 1, 2; (Д) 2, 3.

15. Сколько различных смыслов имеет фраза Письмо знакомой из Москвы?

(А) 1; (Б) 2; (В) 3; (Г) 4; (Д) 6?

16. Как называется забор, сделанный из досок?

(А) досчатым; (Б) досочным; (В) досковым; (Г) дощатым; (Д) досщатым.

17. Даны русские и соответствующие им сербскохорватские слова:
голод – глад, борода – брада, голорукий – голоруки.
Каковы сербскохорватские соответствия для русских слов золоторогий и мороз?

(А) златраги, мраз; (Б) златороги, мраз; (В) золотраги, мраз;
(Г) золотороги, мраз; (Д) златороги, мороз.

18. Рассмотрим пять фраз:
– Весь мусор сдавайте дворнику, который накопился.
– Чехов считал «Счастье» лучшим из всех написанным им до тех пор вещей.
– Проходя под мостом, сверху кто-то плюнул.
– Несмотря на неопровержимость предъявленных обвинений преступнику, приговор пока еще не вынесен.
– Петя не только участвовал в «Русском медвежонке», но и в «Кенгуру».
Сколько среди них неправильно построенных?

(А) 1; (Б) 2; (В) 3; (Г) 4; (Д) 5.

19. Сколько общих звуков содержится в словах стог и гость?

20. В русском языке есть слова с наложением морфем, например: колонный (корень колонн- накладывается на суффикс -н-), рассорить (приставка рас- накладывается на корень -ссор-).
В каких словах из приведенных представлено подобное явление:
1) встать, 2) придет, 3) одесский, 4) антенна?

(А) 2; (Б) 3, 4; (В) 1, 2; (Г) 1, 2, 3, 4; (Д) 1, 2, 3.

Задачи, оцениваемые в 5 баллов

21. Сколько глаголов из приведенного списка являются двувидовыми, т. е. могут употребляться и в совершенном, и в несовершенном виде: велеть, просить, простить, казнить, ранить?

(А) 1; (Б) 2; (В) 3; (Г) 4; (Д) 5.

22. Среди приведенных слов выберите слово, происшедшее от того же корня, что и слово излучина.

(А) лукавый; (Б) луковый; (В) излучение; (Г) лучший; (Д) получить.

23. Современная русская пословица: «Пьяному море по колено» – это только первая половина более длинной старой пословицы. Какой была её вторая половина?

(А) «...а трезвому – с головой»; (Б) «...а башка – как полено»; (В) «...а лужа – по уши»;
(Г) «...пока в кабаке сидит»; (Д) среди ответов (А)–(Г) нет правильного.

24. Какое слово заменено буквой Х в «смысловой пропорции»:
разбудить: заснуть = остановить: пойти = погасить: Х?

(А) погаснуть; (Б) зажечь; (В) гореть; (Г) гасить; (Д) загореться.

25. В каких предложениях из перечисленных представлено составное глагольное сказуемое:
1) Иван будет работать. 2) Иван хочет работать. 3) Иван поехал работать. 4) Иван стал учителем?

(А) 2; (Б) 1, 2; (В) 2, 3; (Г) 1, 2, 3; (Д) 1, 2, 3, 4.

26. Сколько одушевлённых существительных представлено в списке:
ребёнок, игрушка, плюшевый мишка, коллектив, утопленник, ферзь?

(А) 1; (Б) 2; (В) 3; (Г) 4; (Д) 5.

27. Сколько числительных среди перечисленных однокоренных слов:
три, трёшка, трояк, тройка, троица, трое, втроём, в-третьих?

(А) 1; (Б) 2; (В) 3; (Г) 4; (Д) 5.

28. В старой орфографии слова: белизна, стрелять, беднота, верить, жена, перина, темнота, медовый –записывались так: бЈлизна, стрЈлять, бЈднота, вЈрить, жена, перина, темнота, медовый.
Как в старой орфографии записывались слова: весло, стена?

(А) весло, стена; (Б) вЈсло, стЈна; (В) вЈсло, стена;
(Г) весло, стЈна; (Д) висло, стЈна.

29. Даны слова: лампочка, лавочка, дырочка, булочка. В каких из этих слов одинаковые суффиксы?

(А) лампочка и булочка; (Б) лавочка и дырочка; (В) лампочка и дырочка; (Г) лавочка и булочка; (Д) булочка и дырочка.

30. Дано четыре пары слов-омонимов:
норка (зверь) – норка (маленькая нора)
ключ (родник) – ключ (от замка)
наряд (одежда) – наряд (распоряжение о работе)
проводник (в поезде) – проводник (тока)
Однако в некоторых парах составляющие их омонимы имеют небольшие различия в склонении. Сколько здесь таких пар?

(А) 0; (Б) 1; (В) 2; (Г) 3; (Д) 4.

ОТВЕТЫ НА ЗАДАНИЯ ДЛЯ 9–11 КЛАССОВ:

1. Б
2. В
3. Д
4. В
5. Г
6. В
7. А
8. Д
9. А
10. Д

11. В
12. А
13. Б
14. В
15. Г
16. Г
17. Б
18. Д
19. Б
20. Д

21. В
22. А
23. В
24. Д
25. А
26. Г
27. Б
28. Г
29. Г
30. В

Данный сервис автоматически анализирует введенный текст и выдает результат подсчета слов, символов с учетом / без учета пробелов и список ключевых слов текста.

Задание минимальной длины слова

Если задать границу отсечения по длине слова, то определитель не будет учитывать слова, короче заданной длины (это может понадобиться, чтобы исключить предлоги, союзы).

Учет и исключение из расчета специальных символов и цифр

Определитель может вести подсчте количества слов, исключая цифры и спецсимволы. Данный параметр удобно использовать, если необходимо рассчитать объем текста в словах табличных документов, например, прайс-листов, когда несколько колонок содержат цифры, переводить которые не нужно. Этот сервис полезен при расчете стоимости перевода документов, в которых часто встречаются специальные символы, например, html-теги и другие управляющие команды.

Составление списка ключевых слов

Данный сервис окажет неоценимую помощь переводчикам при анализе больших текстов перед началом работы по переводу. Алгоритм работы сервиса основан на давно разработанном и отлаженом механизме определения меток текста и перевода и связи текстов через найденные метки. В базе данных бюро переводов определено более 25.000 меток на разных языках. В процессе поиска меток в загруженном тексте отфильтровываются ненужные с точки зрения смыслового содержания слова, даже часто повторяющиеся. Именно это свойство определителя является наиболее ценным, т.к. составить список просто частотных слов текста не представляется сложной задачей. Проанализировать и отобрать только содержательные слова - это задача, которую призван решать данный сервис.
Исключать при подсчете цифры