Московский
государственный технический университет им. Н.Э. Баумана
кафедра
"Системы обработки информации и управления"
АНАЛИЗ
ТЕКСТА журнала
“ХАКЕР”
#73, ЯНВАРЬ 2005 г.
Расчетно-пояснительная
записка
курсовой работы по
дисциплине
"Семиотика
информационных технологий"
студент группы ИУ5-101
Александров
Максим Юревич.
Шифр:101_3
Преподаватель:
к.т.н.,доц. Ю.Н.Филиппович
Москва,
2.1. Проведение частотного
анализа ЕЯ описания ПО
2.1.1. Построение частотных
словников
2.1.2. Построение графиков
ступенчатой функции распределения частот
2.1.3. Вычисление основных
частотных характеристик
2.1.4. Построение графиков
распределения частот слов
2.2. Предметный
(терминологический) и именной указатели
2.2.1. Предметный
(терминологический указатель)
2.3. Индексирование
фрагментов ЕЯ описания ПО
2.4. Анализ использования
метафоры в ЕЯ описания ПО
2.4.1. Анализ метафор в
научно-технических текстах
2.4.2. Анализ метафор в
рекламе
2.6.1. Составление словаря
словосочетаний
2.7. Словарь определений
терминов
2.9. Информационно-поисковый
терминологический тезаурус
3.Технология проведения исследования
В
процессе выполнения данной работы будут решены следующие задачи:
1. Проведен частотный
анализ ЕЯ описания ПО.
2. Составлен
предметный (терминологический) и именной указатели.
3. Проведено
индексирование фрагментов ЕЯ описания ПО.
4. Проведено анализ
использования метафоры в ЕЯ описании ПО.
5. Составлен
грамматический словарь.
6. Составлен
конкорданс.
7. Составлен словарь
определений терминов.
8. Составлен словарь
метафор.
9. Составлен
информационно-поисковый терминологический тезаурус.
Целью
решения задач настоящего документа является приобретение практических навыков
разработки материалов представления и рекламы информационно-программного
изделия.
В
качестве информационного изделия был выбран журнал iXBT.com,
который содержит новости мира информационных технологий, описание различных
программных и аппаратных средств, их тестирование.
Для построения частотных словников текст журнала был
разбит на фрагменты (статьи):
Таблица
1. Соответствие статей журнала и файлов.
Название статьи |
Название файла |
HardNews |
1.txt |
Компактная цифра |
2.txt |
Алло, кто на проводе? |
3.txt |
WebMoney: ставим точки над Ё |
4.txt |
Двое из ларца |
5.txt |
Стань диггером IP-телефонии |
6.txt |
Голубозубастики: кариес современных
технологий |
7.txt |
Товарищ киборг |
8.txt |
hackFAQ |
9.txt |
Как я ломал hotbox.ru |
10.txt |
Обзор эксплойтов |
11.txt |
IDS под
микроскопом |
12.txt |
Хакерский конвейер |
13.txt |
Компьютерный муравейник |
14.txt |
Неверный маршрут |
15.txt |
Банка с медом |
16.txt |
Брутфорс по-нашему! |
17.txt |
Для построения частотных словников
используется программный продукт INTERLEX (а именно функции
вкладки «Словник»). Фрагменты словников по словоформам и парным словосочетаниям
приведены ниже.
Для получения словников по всем статьям
журнала использовалась утилита Database Desktop
и следующие SQL – запросы:
·
Запрос для
формирования словника по словоформам:
SELECT Wordform, Frequency
FROM 'freqtbl.db', 'wordform.db'
WHERE WordformID=RecordID
ORDER BY Frequency DESC;
·
Запрос для
формирования словника по парным словосочетаниям:
SELECT A.Wordform, C.Wordform, B.Frequency
FROM 'wordform.db' A,
'pairfreq.db' B, 'wordform.db' C
WHERE B.FirstID=A.RecordID AND B.SecondID=C.RecordID
ORDER BY B.Frequency DESC;
Результат запросов представлен в файле
словник.xls.
Ниже
приведены фрагменты словников.
Таблица 2. Словник 1.txt
Словник по словоформам |
Словник по парным словосочетаниям |
|||||
1 |
И |
121 |
1 |
ТАК |
ЖЕ |
8 |
2 |
В |
116 |
2 |
ВСЕ |
ЭТО |
5 |
3 |
НА |
85 |
3 |
В |
ОБЩЕМ |
4 |
4 |
НЕ |
49 |
4 |
ПРИ |
ЭТОМ |
4 |
5 |
С |
41 |
5 |
НЕ |
БЫЛО |
4 |
6 |
ЧТО |
34 |
6 |
ПРЕСС |
РЕЛИЗЕ |
4 |
7 |
ПО |
30 |
7 |
И |
НЕ |
4 |
8 |
ДЛЯ |
27 |
8 |
В |
ПРЕСС |
3 |
9 |
КАК |
24 |
9 |
ЧТО |
В |
3 |
10 |
А |
22 |
10 |
ТОМ |
ЧТО |
3 |
Таблица 3. Словник 2.txt
Словник по словоформам |
Словник по парным словосочетаниям |
|||||
1 |
И |
62 |
1 |
ХАРАКТЕРИСТИКИ |
МАТРИЦА |
8 |
2 |
В |
57 |
2 |
МАКСИМАЛЬНОЕ |
РАЗРЕШЕНИЕ |
8 |
3 |
НЕ |
41 |
3 |
МПИКС |
МАКСИМАЛЬНОЕ |
8 |
4 |
НА |
32 |
4 |
ФОРМАТ |
ПАМЯТИ |
6 |
5 |
С |
30 |
5 |
Г |
ЦЕНА |
5 |
6 |
ЧТО |
23 |
6 |
ММ |
ВЕС |
4 |
7 |
ПРИ |
20 |
7 |
ТАК |
ЧТО |
4 |
8 |
НО |
19 |
8 |
И |
НЕ |
4 |
9 |
КАК |
15 |
9 |
НЕ |
СТОИТ |
3 |
10 |
А |
14 |
10 |
В |
РЕЖИМЕ |
3 |
Таблица 4. Словник 3.txt
Словник по словоформам |
Словник по парным словосочетаниям |
|||||
1 |
И |
61 |
1 |
У |
ТЕБЯ |
7 |
2 |
В |
53 |
2 |
НО |
НЕ |
6 |
3 |
НЕ |
50 |
3 |
ЕСЛИ |
ТЫ |
5 |
4 |
С |
30 |
4 |
ТЕБЕ |
НЕ |
5 |
5 |
НА |
27 |
5 |
О |
СЕБЕ |
5 |
6 |
ТЫ |
25 |
6 |
И |
ВООБЩЕ |
4 |
7 |
ЧТО |
25 |
7 |
СИСТЕМЫ |
ВМ |
4 |
8 |
ТЕБЕ |
21 |
8 |
В |
СЕТИ |
4 |
9 |
ТО |
18 |
9 |
ТАК |
ЧТО |
4 |
10 |
ТЕБЯ |
16 |
10 |
ДА |
И |
3 |
Таблица 5. Словник 4.txt
Словник по словоформам |
Словник по парным словосочетаниям |
|||||
1 |
И |
77 |
1 |
В |
ТРЕЕ |
5 |
2 |
В |
70 |
2 |
В |
ТОМ |
5 |
3 |
НА |
32 |
3 |
К |
ПРИМЕРУ |
4 |
4 |
НЕ |
24 |
4 |
ЧТО |
В |
4 |
5 |
С |
24 |
5 |
ПО |
УМОЛЧАНИЮ |
3 |
6 |
ЧТО |
23 |
6 |
ОТ |
ТОГО |
3 |
7 |
ДЛЯ |
18 |
7 |
ТАК |
И |
3 |
8 |
МОЖНО |
17 |
8 |
РАБОТА |
С |
3 |
9 |
ЕСЛИ |
14 |
9 |
ДЛЯ |
ЭТОГО |
3 |
10 |
Я |
14 |
10 |
ОТ |
ИМЕНИ |
3 |
Таблица 6. Словник 5.txt
Словник по словоформам |
Словник по парным словосочетаниям |
|||||
1 |
И |
86 |
1 |
И |
В |
6 |
2 |
В |
76 |
2 |
С |
ТОБОЙ |
5 |
3 |
НЕ |
36 |
3 |
ТО |
ЕСТЬ |
5 |
4 |
НА |
35 |
4 |
ИЗ |
НИХ |
4 |
5 |
ЧТО |
34 |
5 |
ЕСЛИ |
ТЫ |
3 |
6 |
С |
33 |
6 |
ТОМ |
ЧТО |
3 |
7 |
ПО |
32 |
7 |
ТАК |
КАК |
3 |
8 |
А |
29 |
8 |
НЕ |
БУДЕМ |
3 |
9 |
ТО |
20 |
9 |
А |
ТАКЖЕ |
3 |
10 |
К |
20 |
10 |
В |
ОБЩЕМ |
3 |
Таблица 7. Словник 6.txt
Словник по словоформам |
Словник по парным словосочетаниям |
|||||
1 |
В |
57 |
1 |
РЕЗУЛЬТАТЫ |
ТЕСТОВ |
28 |
2 |
И |
44 |
2 |
ПРИ |
АА+АФ |
4 |
3 |
ПРОТИВ |
34 |
3 |
НЕБОЛЬШОЕ |
ОТСТАВАНИЕ |
3 |
4 |
ЧТО |
31 |
4 |
В |
ДРАЙВЕРАХ |
3 |
5 |
РЕЗУЛЬТАТЫ |
28 |
5 |
В |
ЦЕНЕ |
3 |
6 |
ТЕСТОВ |
28 |
6 |
ЧТО |
У |
3 |
7 |
НЕ |
19 |
7 |
ДОЛЛАРОВ |
США |
3 |
8 |
С |
19 |
8 |
ЭТОТ |
ТЕСТ |
3 |
9 |
НА |
16 |
9 |
С |
АА+АФ |
3 |
10 |
У |
15 |
10 |
МЫ |
ВИДИМ |
3 |
Таблица 8. Словник 7.txt
Словник по словоформам |
Словник по парным словосочетаниям |
|||||
1 |
В |
108 |
1 |
С |
ПОМОЩЬЮ |
9 |
2 |
И |
90 |
2 |
В |
МОЗГ |
6 |
3 |
НА |
40 |
3 |
ИСКУССТВЕННОЙ |
СЕТЧАТКИ |
4 |
4 |
С |
37 |
4 |
В |
БУДУЩЕМ |
4 |
5 |
НЕ |
27 |
5 |
И |
РЕЧИ |
3 |
6 |
ЧТО |
22 |
6 |
ТО |
ЕСТЬ |
3 |
7 |
К |
22 |
7 |
НО |
КАК |
3 |
8 |
ДЛЯ |
20 |
8 |
А |
ТАКЖЕ |
3 |
9 |
ИЗ |
19 |
9 |
О |
ТОМ |
3 |
10 |
ОТ |
17 |
10 |
НА |
ПОВЕРХНОСТИ |
3 |
Таблица 9. Словник 8.txt
Словник по словоформам |
Словник по парным словосочетаниям |
|||||
1 |
В |
35 |
1 |
ЧТО |
У |
4 |
2 |
И |
30 |
2 |
НА |
БАЗЕ |
4 |
3 |
НА |
24 |
3 |
У |
ТЕБЯ |
4 |
4 |
С |
20 |
4 |
ЭТОЙ |
ТЕХНОЛОГИИ |
3 |
5 |
ЧТО |
14 |
5 |
КАК |
МНЕ |
3 |
6 |
НЕ |
14 |
6 |
ИЗ |
ЗА |
3 |
7 |
КАК |
9 |
7 |
ТАК |
ЧТО |
3 |
8 |
ИЗ |
9 |
8 |
С |
ПОМОЩЬЮ |
3 |
9 |
ДЛЯ |
8 |
9 |
ОНИ |
ИСПОЛЬЗУЮТ |
2 |
10 |
К |
8 |
10 |
ЧТО |
В |
2 |
Таблица 10. Словник 9.txt
Словник по словоформам |
Словник по парным словосочетаниям |
|||||
1 |
В |
53 |
1 |
ПОКА |
НЕ |
4 |
2 |
Я |
52 |
2 |
У |
МЕНЯ |
4 |
3 |
И |
49 |
3 |
ТО |
ЧТО |
3 |
4 |
НА |
45 |
4 |
Я |
УВИДЕЛ |
3 |
5 |
НЕ |
40 |
5 |
НАЗАД |
НА |
3 |
6 |
ЧТО |
30 |
6 |
КАКОЙ |
ТО |
3 |
7 |
С |
21 |
7 |
В |
КАТАЛОГ |
2 |
8 |
НО |
19 |
8 |
ТОМ |
ЧТО |
2 |
9 |
МНЕ |
17 |
9 |
ВЫЯСНИЛОСЬ |
ЧТО |
2 |
10 |
К |
16 |
10 |
НА |
ФАЙЛЫ |
2 |
Таблица 11. Словник 10.txt
Словник по словоформам |
Словник по парным словосочетаниям |
|||||
1 |
В |
20 |
1 |
НЕ |
ТОЛЬКО |
3 |
2 |
И |
16 |
2 |
И |
В |
3 |
3 |
С |
8 |
3 |
ТОЛЬКО |
В |
2 |
4 |
НЕ |
8 |
4 |
ИЗ |
КОМАНДЫ |
2 |
5 |
ЧТО |
8 |
5 |
С |
САЙТА |
2 |
6 |
НА |
7 |
6 |
ПО |
АДРЕСУ |
2 |
7 |
ДЛЯ |
6 |
7 |
БРЕШЬ |
В |
2 |
8 |
ТОЛЬКО |
6 |
8 |
НО |
И |
2 |
9 |
БАГ |
6 |
9 |
ДО |
БОЛЕЕ |
2 |
10 |
ЭКСПЛОЙТ |
6 |
10 |
НУЖНО |
ПЕРЕДАТЬ |
2 |
Таблица 12. Словник 11.txt
Словник по словоформам |
Словник по парным словосочетаниям |
|
|||||
1 |
И |
82 |
1 |
ОБНАРУЖЕНИЯ |
АТАК |
7 |
|
2 |
В |
66 |
2 |
СОВЕТЫ |
АДМИНИСТРАТОРУ |
5 |
|
3 |
НА |
43 |
3 |
ТО |
ЕСТЬ |
4 |
|
4 |
НЕ |
40 |
4 |
СКАНИРОВАНИЕ |
ПОРТОВ |
4 |
|
5 |
С |
27 |
5 |
ТЫ |
СМОЖЕШЬ |
4 |
|
6 |
К |
20 |
6 |
ПОПЫТКУ |
СКАНИРОВАНИЯ |
4 |
|
7 |
ДЛЯ |
20 |
7 |
У |
ТЕБЯ |
3 |
|
8 |
ЧТО |
20 |
8 |
А |
ЗАТЕМ |
3 |
|
9 |
ЕСЛИ |
19 |
9 |
НЕ |
СМОЖЕТ |
3 |
|
10 |
ТО |
19 |
10 |
ПО |
АДРЕСУ |
3 |
|
Таблица 13. Словник 12.txt
Словник по словоформам |
Словник по парным словосочетаниям |
|||||
1 |
В |
66 |
1 |
С |
ПОМОЩЬЮ |
4 |
2 |
И |
45 |
2 |
В |
ТОМ |
3 |
3 |
Я |
25 |
3 |
ТОМ |
ЧТО |
3 |
4 |
ЧТО |
22 |
4 |
ЭТОТ |
КОМПЛЕКТ |
3 |
5 |
С |
20 |
5 |
И |
В |
3 |
6 |
НА |
19 |
6 |
КАК |
ТОЛЬКО |
3 |
7 |
НЕ |
19 |
7 |
ЭКСПЛОЙТ |
КОТОРЫЙ |
3 |
8 |
ДЛЯ |
16 |
8 |
ЧТО |
ЭТО |
2 |
9 |
КАК |
12 |
9 |
ЭКСПЛОЙТ |
ДОЛЖЕН |
2 |
10 |
КОТОРЫЙ |
12 |
10 |
ЛЕТ |
НАЗАД |
2 |
Таблица 14. Словник 13.txt
Словник по словоформам |
Словник по парным словосочетаниям |
|||||
1 |
И |
50 |
1 |
В |
ОДИНОЧКУ |
4 |
2 |
В |
40 |
2 |
ВОТ |
ТАК |
4 |
3 |
НА |
24 |
3 |
КАК |
ТО |
3 |
4 |
С |
24 |
4 |
УПРАВЛЯЮЩИЙ |
СКРИПТ |
3 |
5 |
ДЛЯ |
22 |
5 |
И |
Т |
3 |
6 |
КАК |
21 |
6 |
И |
НЕ |
3 |
7 |
ЧТО |
17 |
7 |
В |
ЭТОМ |
3 |
8 |
НЕ |
16 |
8 |
ДЛЯ |
ЭТОГО |
3 |
9 |
ЕСЛИ |
12 |
9 |
ПРИ |
ПОМОЩИ |
2 |
10 |
ВОТ |
12 |
10 |
В |
ГОЛОВУ |
2 |
Таблица 15. Словник
14.txt
Словник по словоформам |
Словник по парным словосочетаниям |
|||||
1 |
И |
54 |
1 |
И |
НЕ |
5 |
2 |
В |
42 |
2 |
ТО |
ЕСТЬ |
3 |
3 |
НА |
27 |
3 |
А |
ПОТОМУ |
3 |
4 |
ЧТО |
26 |
4 |
КОГДА |
Я |
2 |
5 |
НЕ |
25 |
5 |
КОНФИГУРАЦИИ |
СЕТИ |
2 |
6 |
ДЛЯ |
24 |
6 |
ЭТОГО |
ПРОТОКОЛА |
2 |
7 |
С |
24 |
7 |
К |
СЛОВУ |
2 |
8 |
ПО |
16 |
8 |
В |
РЕЖИМЕ |
2 |
9 |
КАК |
15 |
9 |
ПО |
ЭТОМУ |
2 |
10 |
ТО |
12 |
10 |
В |
РЕЗУЛЬТАТЕ |
2 |
Таблица 16. Словник
15.txt
Словник по словоформам |
Словник по парным словосочетаниям |
|||||
1 |
И |
78 |
1 |
ПРИ |
ПОМОЩИ |
5 |
2 |
В |
62 |
2 |
ТОМ |
ЧТО |
5 |
3 |
ЧТО |
39 |
3 |
В |
САМОМ |
5 |
4 |
НЕ |
36 |
4 |
САМОМ |
ДЕЛЕ |
5 |
5 |
НА |
35 |
5 |
ДЛЯ |
РАБОТЫ |
4 |
6 |
С |
34 |
6 |
В |
ЭТОМ |
4 |
7 |
ДЛЯ |
31 |
7 |
КАК |
ТЫ |
4 |
8 |
ВСЕ |
26 |
8 |
В |
ТОМ |
4 |
9 |
МОЖНО |
25 |
9 |
О |
ТОМ |
4 |
10 |
КАК |
23 |
10 |
У |
ТЕБЯ |
4 |
Таблица 17. Словник
16.txt
Словник по словоформам |
Словник по парным словосочетаниям |
|||||
1 |
И |
19 |
1 |
НА |
СВОЕМ |
3 |
2 |
ДЛЯ |
19 |
2 |
С |
ПАРОЛЯМИ |
3 |
3 |
В |
16 |
3 |
ФАЙЛ |
С |
3 |
4 |
НА |
15 |
4 |
ВРЯД |
ЛИ |
3 |
5 |
К |
14 |
5 |
ДЛЯ |
ЭТОГО |
3 |
6 |
ЧТО |
14 |
6 |
ТАК |
ЖЕ |
3 |
7 |
С |
12 |
7 |
ПОНЯЛ |
ЧТО |
2 |
8 |
МОЖНО |
10 |
8 |
ЭТО |
МЫ |
2 |
9 |
НЕ |
10 |
9 |
СВОЕМ |
КОМПЕ |
2 |
10 |
ЖЕ |
8 |
10 |
ДЛЯ |
ПЕРЕБОРА |
2 |
Таблица 17. Словник 16.txt
Словник по словоформам |
Словник по парным словосочетаниям |
|||||
1 |
И |
19 |
1 |
НА |
СВОЕМ |
3 |
2 |
ДЛЯ |
19 |
2 |
С |
ПАРОЛЯМИ |
3 |
3 |
В |
16 |
3 |
ФАЙЛ |
С |
3 |
4 |
НА |
15 |
4 |
ВРЯД |
ЛИ |
3 |
5 |
К |
14 |
5 |
ДЛЯ |
ЭТОГО |
3 |
6 |
ЧТО |
14 |
6 |
ТАК |
ЖЕ |
3 |
7 |
С |
12 |
7 |
ПОНЯЛ |
ЧТО |
2 |
8 |
МОЖНО |
10 |
8 |
ЭТО |
МЫ |
2 |
9 |
НЕ |
10 |
9 |
СВОЕМ |
КОМПЕ |
2 |
10 |
ЖЕ |
8 |
10 |
ДЛЯ |
ПЕРЕБОРА |
2 |
Графики функций строятся на основе частотных
словников.
Графики построены в EXCEL
и представлены в следующей таблице:
Таблица 28. Графики
ступенчатых функций частот
название текста |
График ступенчатой функции
распределения частот |
|
1.TXT |
|
|
2.TXT |
|
|
3.TXT |
|
|
4.TXT |
|
|
5.TXT |
|
|
6.TXT |
|
|
7.TXT |
|
|
8.TXT |
|
|
9.TXT |
|
|
10.TXT |
|
|
11.TXT |
|
|
12.TXT |
|
|
13.TXT |
|
|
14.TXT |
|
|
15.TXT |
|
|
16.TXT |
|
|
17.TXT |
|
Построение
графиков приведено в документе «Ступенчатые функции.xls».
Для расчета динамики
структуры текстов использовалась функция «Динамический анализ» программы
«Интерлекс».
Анализ проводился на
следующих частотных интервалах:
Рисунок 1. Ввод частотных интервалов.
Для расчета динамики
структуры текстов использовалась функция «Динамический анализ» программы
«Интерлекс».
Перенесем в EXCEL
данные, сформированные «Интерлекс».
Таблица исходных данных имеет следующий вид:
Таблица
29. Данные динамического анализа для расчета
динамики структуры текстов
структуры текстов
|
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
1..2 |
2260 |
1051 |
1060 |
987 |
1131 |
1388 |
1033 |
1585 |
692 |
3..5 |
2796 |
1317 |
1371 |
1285 |
1507 |
1794 |
1345 |
2051 |
808 |
6..10 |
3014 |
1555 |
1496 |
1463 |
1751 |
2029 |
1547 |
2264 |
899 |
11..20 |
3264 |
1658 |
1720 |
1682 |
1887 |
2223 |
1702 |
2442 |
947 |
21..99999 |
3856 |
1903 |
2000 |
1974 |
2137 |
2584 |
1975 |
2788 |
1036 |
|
10 |
11 |
12 |
13 |
14 |
15 |
16 |
17 |
1..2 |
1037 |
399 |
1233 |
977 |
908 |
1018 |
1236 |
603 |
3..5 |
1278 |
483 |
1548 |
1248 |
1214 |
1249 |
1599 |
776 |
6..10 |
1460 |
538 |
1811 |
1390 |
1363 |
1381 |
1939 |
837 |
11..20 |
1536 |
574 |
2059 |
1510 |
1420 |
1436 |
2073 |
946 |
21..99999 |
1826 |
574 |
2317 |
1668 |
1601 |
1658 |
2462 |
946 |
Результаты расчета динамики структуры текстов приведены в
следующей таблице:
Таблица 30.
Результаты расчета динамики структуры текстов.
|
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
1..2 |
0,5861 |
0,272562 |
0,274896 |
0,255965 |
0,293309 |
0,359959 |
0,267894 |
0,411048 |
0,179461 |
3..5 |
0,725104 |
0,341546 |
0,35555 |
0,333247 |
0,39082 |
0,465249 |
0,348807 |
0,531898 |
0,209544 |
6..10 |
0,781639 |
0,403268 |
0,387967 |
0,379409 |
0,454098 |
0,526193 |
0,401193 |
0,587137 |
0,233143 |
11..20 |
0,846473 |
0,429979 |
0,446058 |
0,436203 |
0,489367 |
0,576504 |
0,44139 |
0,633299 |
0,245591 |
21..99999 |
1 |
0,493517 |
0,518672 |
0,511929 |
0,554201 |
0,670124 |
0,512189 |
0,723029 |
0,268672 |
|
10 |
11 |
12 |
13 |
14 |
15 |
16 |
17 |
1..2 |
0,268932 |
0,103475 |
0,319761 |
0,253371 |
0,235477 |
0,264004 |
0,320539 |
0,15638 |
3..5 |
0,331432 |
0,125259 |
0,401452 |
0,323651 |
0,314834 |
0,323911 |
0,414678 |
0,201245 |
6..10 |
0,378631 |
0,139523 |
0,469658 |
0,360477 |
0,353475 |
0,358143 |
0,502853 |
0,217064 |
11..20 |
0,39834 |
0,148859 |
0,533973 |
0,391598 |
0,368257 |
0,372407 |
0,537604 |
0,245332 |
21..99999 |
0,473548 |
0,148859 |
0,600882 |
0,432573 |
0,415197 |
0,429979 |
0,638485 |
0,245332 |
Представим результаты в виде графика:
Рисунок 2. Динамика структуры текстов.
Для расчета динамики
структуры текстов использовалась функция «Динамический анализ» программы
«Интерлекс».
Перенесем в EXCEL
данные, сформированные «Интерлекс».
Таблица исходных данных имеет следующий вид:
Таблица
31. Данные динамического анализа для расчета
динамики структуры словников.
|
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
||||||||||
1..2 |
2014 |
914 |
931 |
870 |
977 |
1220 |
941 |
1381 |
631 |
||||||||||
3..5 |
2166 |
989 |
1016 |
951 |
1085 |
1336 |
1029 |
1508 |
662 |
||||||||||
6..10 |
2195 |
1020 |
1033 |
975 |
1118 |
1368 |
1055 |
1538 |
675 |
||||||||||
11..20 |
2212 |
1027 |
1050 |
991 |
1128 |
1381 |
1065 |
1551 |
678 |
||||||||||
21..99999 |
2224 |
1033 |
1056 |
999 |
1134 |
1389 |
1072 |
1558 |
681 |
||||||||||
|
|
10 |
11 |
12 |
13 |
14 |
15 |
16 |
17 |
|
|||||||||
|
1..2 |
898 |
362 |
1063 |
848 |
790 |
897 |
1061 |
526 |
|
|||||||||
|
3..5 |
966 |
386 |
1152 |
922 |
876 |
960 |
1158 |
573 |
|
|||||||||
|
6..10 |
990 |
394 |
1189 |
941 |
896 |
978 |
1203 |
581 |
|
|||||||||
|
11..20 |
995 |
396 |
1205 |
949 |
900 |
982 |
1212 |
588 |
|
|||||||||
|
21..99999 |
1002 |
396 |
1210 |
953 |
906 |
989 |
1222 |
588 |
|
|||||||||
Результаты расчета динамики структуры словников приведены в
следующей таблице:
Таблица 32.
Результаты расчета динамики структуры словников.
|
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
1..2 |
0,186292 |
0,183424 |
0,183052 |
0,18178 |
0,17953 |
0,182253 |
0,182294 |
0,183254 |
0,18966 |
3..5 |
0,200351 |
0,198475 |
0,199764 |
0,198705 |
0,199375 |
0,199582 |
0,199341 |
0,200106 |
0,198978 |
6..10 |
0,203034 |
0,204696 |
0,203107 |
0,203719 |
0,205439 |
0,204362 |
0,204378 |
0,204087 |
0,202885 |
11..20 |
0,204606 |
0,206101 |
0,206449 |
0,207062 |
0,207277 |
0,206304 |
0,206315 |
0,205812 |
0,203787 |
21..99999 |
0,205716 |
0,207305 |
0,207629 |
0,208734 |
0,208379 |
0,207499 |
0,207671 |
0,206741 |
0,204689 |
|
10 |
11 |
12 |
13 |
14 |
15 |
16 |
17 |
1..2 |
0,185116 |
0,187177 |
0,182677 |
0,183828 |
0,180861 |
0,186642 |
0,181182 |
0,184174 |
3..5 |
0,199134 |
0,199586 |
0,197972 |
0,19987 |
0,200549 |
0,19975 |
0,197746 |
0,20063 |
6..10 |
0,204082 |
0,203723 |
0,204331 |
0,203989 |
0,205128 |
0,203496 |
0,20543 |
0,203431 |
11..20 |
0,205112 |
0,204757 |
0,20708 |
0,205723 |
0,206044 |
0,204328 |
0,206967 |
0,205882 |
21..99999 |
0,206555 |
0,204757 |
0,20794 |
0,20659 |
0,207418 |
0,205784 |
0,208675 |
0,205882 |
Представим результаты в виде графика:
Рисунок 3. Динамика структуры словников.
Ранг и частота
являются важнейшими атрибутами элементов частотного словника:
– Ранг – это порядковый номер слова в
упорядоченном по убыванию частоты словнике
– Частота – формальный параметр слова
(словоформы) в словнике, характеризующий частоту его (ее) появления в исходном
тексте.
Наиболее известны два
закона, связывающие эти две характеристики:
1.
Первый
з-н Ципфа: ,
где k – число слов в тексте; r - ранг слова, i(k,r) – абсолютная частота.
2.
Второй
з-н Ципфа в общем виде: ,
где k – число слов в тексте; r - ранг слова, i(k,r) – абсолютная частота; p, b
– параметры распределения.
3.
З-н
Мандельброта: ,
где k – число слов в тексте; p, v, b – параметры распределения; r - ранг слова,
i(k,r) – абсолютная частота.
С помощью системы
«Интерлекс» можно найти параметры распределения Ципфа и Мандельброта, а также
получить свое собственное распределение для текстов определенного класса.
Система «Интерлекс»
позволяет аппроксимировать реальное распределение «ранг-частота» с помощью
полиномов первого, второго, третьего, четвертого и пятого порядка (на основе
метода наименьших квадратов). Система рассчитывает коэффициенты этих полиномов,
которые могут быть преобразованы в соответствующие параметры распределения
Ципфа и Мандельброта.
Расчет параметров ведется по всем текстам, частотные
словники которых были построены в системе.
Результаты расчета всегда помещаются в таблицу с именем
«_rfprm_.db», которая расположена в подкаталоге DATA.
Таблица имеет
следующую структуру:
–TextID
– идентификатор текста, к которому относятся рассчитанные параметры
– WordsCount – число
разных слов в тексте (число слов в словнике)
– WordsSum – общее
число слов в тексте
– С0, С1,
..., C5 – коэффициенты полинома:
, где:
i(k, r) – абсолютная частота
k – число слов в тексте (т.е. WordsSum)
r – ранг слова
Для получения приближенных значений
параметров в законе Мандельброта можно воспользоваться формулами:
Значения C0,
C1, C2 – коэффициенты полинома второго порядка.
Для вычисления
параметров распределения закона Ципфа можно воспользоваться точными формулами,
которые можно получить так:
;
Здесь, С0 и C1 – это коэффициенты
полинома первого порядка.
Для проведения расчета выберем соответствующий
раздел программы, а в качестве модели аппроксимации полином второй степени.
Рисунок 4. Форма
расчета параметров модели «ранг-частота».
Результирующая таблица имеет следующий вид:
Таблица 33.
Результаты расчета.
№ |
Разных
слов |
Всего
слов |
C0 |
C1 |
C2 |
v |
b |
p |
1 |
2224 |
3856 |
-3,63874 |
1,320819 |
-1,87E+00 |
6,26E-01 |
-8,98E-02 |
4,69E-03 |
2 |
1033 |
1903 |
-3,29186 |
-0,31696 |
-4,10E-01 |
1,74E-01 |
-3,20E-02 |
2,11E-03 |
3 |
1056 |
2000 |
-3,19338 |
-0,41221 |
-3,23E-01 |
1,41E-01 |
-2,70E-02 |
1,85E-03 |
4 |
999 |
1974 |
-3,32193 |
-0,7451 |
1,54E-01 |
-3,52E-02 |
-1,57E-03 |
5,61E-04 |
5 |
1134 |
2137 |
-3,31061 |
1,40E-02 |
-9,39E-01 |
4,01E-01 |
-6,91E-02 |
4,16E-03 |
6 |
1389 |
2584 |
-3,55981 |
0,975213 |
-1,60E+00 |
5,74E-01 |
-8,92E-02 |
5,02E-03 |
7 |
1072 |
1975 |
-3,33081 |
-0,65751 |
7,48E-02 |
-1,76E-02 |
-2,78E-03 |
5,67E-04 |
8 |
1558 |
2788 |
-3,36538 |
0,736067 |
-1,70E+00 |
6,55E-01 |
-1,04E-01 |
5,82E-03 |
9 |
681 |
1036 |
-3,15927 |
-1,54024 |
1,00E+00 |
-3,97E-01 |
6,24E-02 |
-3,31E-03 |
10 |
1002 |
1826 |
-3,48128 |
0,651866 |
-1,11E+00 |
3,62E-01 |
-5,37E-02 |
3,02E-03 |
11 |
396 |
574 |
-3,20589 |
-2,03138 |
1,63E+00 |
-6,53E-01 |
1,07E-01 |
-6,01E-03 |
12 |
1210 |
2317 |
-3,36013 |
0,123804 |
-8,82E-01 |
3,50E-01 |
-5,91E-02 |
3,56E-03 |
13 |
953 |
1668 |
-3,15641 |
-0,88647 |
-1,37E-02 |
6,11E-02 |
-1,74E-02 |
1,40E-03 |
14 |
906 |
1601 |
-3,43238 |
-4,87E-02 |
-7,08E-01 |
2,97E-01 |
-5,22E-02 |
3,27E-03 |
15 |
989 |
1658 |
-3,34003 |
-0,51059 |
-1,36E-01 |
5,22E-02 |
-1,08E-02 |
8,53E-04 |
16 |
1222 |
2462 |
-3,55311 |
0,647866 |
-1,26E+00 |
4,71E-01 |
-7,64E-02 |
4,47E-03 |
17 |
588 |
946 |
-3,85417 |
0,169776 |
-4,86E-01 |
1,65E-01 |
-2,98E-02 |
2,12E-03 |
Примечание: параметры
распределения закона Мандельброта рассчитаны по формуле (*).
Построим групповые словники по каждому тексту
журнала. Групповые словники приведены в файле «графики распределения частот
слов.xls».
Построим графики распределения
(теоретического и физического) частот слов для каждого текста.
Примечание: на графиках ряд 1 отображает
физическое распределение, а ряд 4 – теоретическое распределение.
Таблица 34. Графики
распределения частот слов.
Название файла |
График |
1.txt |
|
2.txt |
|
3.txt |
|
4.txt |
|
5.txt |
|
6.txt |
|
7.txt |
|
8.txt |
|
9.txt |
|
10.txt |
|
11.txt |
|
12.txt |
|
13.txt |
|
14.txt |
|
15.txt |
|
16.txt |
|
17.txt |
|
Построение графиков частот слов представлено
в документе «Графики_ распределения_частот_слов.xls».
Таблица
35.Аббревиатуры
№ |
Аббревиатура |
Полное название |
Название
статьи(.txt) |
№ страницы в
печатном издании |
1 |
AMD |
Организация |
1.txt |
2 |
2 |
AOpen |
Организация |
1.txt |
3 |
3 |
Athlon
64/64 FX |
Продукция |
1.txt |
2 |
4 |
Bell
Labs |
Организация |
6.txt |
31 |
5 |
BlueSnarfing |
Продукция |
7.txt |
37 |
6 |
BlueSpam |
Продукция |
7.txt |
37 |
7 |
BTExplorer |
Продукция |
7.txt |
36 |
8 |
BuddyTalk |
Продукция |
3.txt |
21 |
9 |
Carl
Zeiss |
Организация |
2.txt |
14,16 |
10 |
Casio |
Организация |
2.txt |
15 |
11 |
Catalyst |
Организация |
15.txt |
61 |
12 |
Cisco |
Организация |
15.txt |
61,62,64 |
13 |
CONTAX |
Организация |
2.txt |
14 |
14 |
Contax
SL300R |
Продукция |
2.txt |
14 |
15 |
Cyber
Shot DSC-T3 |
Продукция |
2.txt |
16 |
16 |
CyberCar |
Продукция
|
1.txt |
4 |
17 |
Digimax
U-CA 401 |
Продукция |
2.txt |
15 |
18 |
DVD
MovieWriter 3.5SE |
Продукция |
1.txt |
2 |
19 |
DVR-ABN16A |
Продукция |
1.txt |
1 |
20 |
DWL-2210AP |
Продукция |
1.txt |
1 |
21 |
Exilim
EX-Z55 |
Продукция |
2.txt |
15 |
22 |
Fedora
Core 3 |
Продукция |
9.txt |
44 |
23 |
File2Cable |
Продукция |
15.txt |
63 |
24 |
Fluxy |
Продукция |
17.txt |
70 |
25 |
FreeBSD
5.3 |
Продукция |
9.txt,12.txt,16.txt |
44,4,66 |
26 |
Gigabyte |
Организация |
1.txt |
2 |
27 |
GoDogGo |
Организация |
1.txt |
5 |
28 |
honeypot |
Продукция |
16.txt |
65,66,67,68 |
29 |
Internet
Explorer |
Продукция |
14.txt |
57,60 |
30 |
IRDPresponder |
Продукция |
15.txt |
63 |
31 |
ITRACE
|
Продукция |
15.txt |
63 |
32 |
Joltid
PeerEnabler |
Организация |
6.txt |
35 |
33 |
KaZaA |
Организация |
6.txt |
35 |
34 |
Konica
Minolta |
Организация |
1.txt |
1 |
35 |
Kuka |
Организация |
1.txt |
6 |
36 |
LiftPort
Group |
Организация |
1.txt |
6 |
37 |
LogSentry |
Продукция |
12.txt |
51 |
38 |
Lumix
FX7 |
Продукция |
2.txt |
14 |
39 |
Lycos |
Организация |
1.txt |
10 |
40 |
Lynch
Exhibits |
Организация |
1.txt |
3 |
41 |
Magicolor
2400W |
Продукция |
1.txt |
1 |
42 |
Memory
Stick Duo |
Продукция |
2.txt |
16 |
43 |
Microsoft |
Организация |
1.txt,11.txt |
9,48 |
44 |
Mobiluck |
Продукция |
7.txt |
36 |
45 |
MySQL |
Продукция |
14.txt |
58 |
46 |
Nanotechnology
News Network |
Организация |
8.txt |
43 |
47 |
NetBSD |
Продукция |
9.txt |
44 |
48 |
nnCron |
Продукция |
4.txt |
25 |
49 |
Nokia |
Организация |
7.txt |
37 |
50 |
OCZ45012U |
Продукция
|
1.txt |
3 |
51 |
Olympus |
Организация |
2.txt |
13 |
52 |
Olympus
mju-mini |
Продукция |
2.txt |
13 |
53 |
OpenBSD |
Продукция |
9.txt,16.txt |
44,66 |
54 |
Optio
S5i |
Продукция |
2.txt |
16 |
55 |
Panasonic |
Организация |
2.txt |
14 |
56 |
PENTAR |
Организация |
2.txt |
13 |
57 |
Pentax |
Организация |
2.txt |
16 |
58 |
PortSentry |
Продукция |
12.txt |
49,50 |
59 |
Protos |
Продукция |
15.txt |
63 |
60 |
Robotlab |
Организация |
1.txt |
6 |
61 |
Roger
Wilco |
Продукция |
3.txt |
17 |
62 |
Samsung |
Организация |
2.txt |
13,15 |
63 |
Sendmail |
Продукция |
9.txt |
44 |
64 |
ShoeDoctor |
Продукция
|
1.txt |
5 |
65 |
Skype |
Продукция |
6.txt |
35 |
66 |
SMan |
Продукция |
7.txt |
37 |
67 |
Snort |
Продукция |
12.txt |
49,50 |
68 |
Sony |
Организация |
2.txt |
16 |
69 |
Sophos |
Организация |
1.txt |
7 |
70 |
ThinkFitness |
Продукция
|
1.txt |
5 |
71 |
Ulead
DVD Player |
Продукция |
1.txt |
2 |
72 |
Verb
of Shoe |
Продукция |
1.txt |
5 |
73 |
Windows
XP |
Продукция |
11.txt,16.txt |
48,69 |
74 |
XC
Cube EZ855 |
Продукция
|
1.txt |
3 |
75 |
Адриан
Чианг |
Персоналии |
7.txt |
36,37 |
76 |
Алекс
Соза |
Персоналии |
1.txt |
6 |
77 |
Винсент
Тао |
Персоналии |
1.txt |
10 |
78 |
Джеймс
Сой |
Персоналии |
1.txt |
7 |
79 |
МТС |
Организация |
1.txt |
9 |
80 |
Роберт
Фрайтас |
Персоналии |
8.txt |
42 |
81 |
Рэй
Курцвейл |
Персоналии |
8.txt |
38 |
82 |
Сивма
фототехника |
Организация |
2.txt |
13 |
83 |
Хенк
ван де Мин |
Персоналии |
1.txt |
6 |
Таблица
36.Прочие понятия предметной области
№ |
Понятие |
Название
статьи(.txt) |
№ страницы в
печатном издании |
1 |
Bluetooth |
6.txt |
33 |
2 |
DVD-RW |
1.txt |
1 |
3 |
Flash
reader |
2.txt |
16 |
4 |
FreeBsd |
8.txt |
44 |
5 |
IP
- телефония |
3.txt,5.txt |
18,29 |
6 |
Java |
6.txt |
34 |
7 |
Linux |
6.txt |
35,26 |
8 |
Palm
OS |
6.txt |
35,26 |
9 |
Pocket
PC |
6.txt |
34 |
10 |
WebMoney |
4.txt |
21 |
11 |
Windows |
6.txt |
34 |
12 |
Symbian |
6.txt |
36,37 |
13 |
Авторизация |
4.txt |
27 |
14 |
Автороутер |
13.txt |
53 |
15 |
Администратор |
15.txt |
61 |
16 |
Адрес |
16.txt |
65 |
17 |
Аккаунт |
4.txt,9,txt |
21,46 |
18 |
Архив |
8.txt |
45 |
19 |
Аутентификация |
1.txt |
8 |
20 |
Баг |
10.txt |
47 |
21 |
Библиотека |
12.txt |
50 |
22 |
Брутфорс |
17.txt |
69 |
23 |
Браузер |
1.txt |
8 |
24 |
Буфер |
4.txt |
28 |
25 |
Видеоискатель |
2.txt |
17 |
26 |
Винт(винчестер) |
3.txt |
20 |
27 |
Вирус |
1.txt |
7 |
28 |
Графический
адаптер |
1.txt |
4 |
29 |
Дисплей |
2.txt |
14 |
30 |
Домен |
4.txt |
28 |
31 |
Загрузка |
8.txt |
44 |
32 |
Загрузочный
раздел |
8.txt |
44 |
33 |
Идентификация |
3.txt |
19 |
34 |
Иконка |
4.txt |
25 |
35 |
Инсталлировать |
8.txt |
44 |
36 |
Интернет |
1.txt,3.txt |
18 |
37 |
интернет-пейджер |
3.txt |
19 |
38 |
Интерфейс |
4.txt |
25,26 |
39 |
Исходники |
16.txt |
67 |
40 |
Канал |
3.txt |
18 |
41 |
Карта
(памяти) |
2.txt |
13,16 |
42 |
Квота |
8.txt |
45 |
43 |
Кибертакси |
1.txt |
5 |
44 |
Киборг |
7.txt |
38 |
45 |
Кодек |
5.txt |
32 |
46 |
Кодировка |
5.txt |
31 |
47 |
Компьютер |
2.txt |
16 |
48 |
Контроллер |
1.txt |
4 |
49 |
Кроссплатформенность |
12.txt |
49 |
50 |
Курсор |
1.txt |
10 |
51 |
Логин |
4.txt |
28 |
52 |
Маршрутизатор |
1.txt,15.txt |
1,61 |
53 |
Материнска
плата |
1.txt |
2 |
54 |
Матрица |
2.txt |
14,15,16,17 |
55 |
Микропроцессор |
7.txt |
41 |
56 |
Монитор |
1.txt,2.txt |
10,14 |
57 |
Нанотехнология |
7.txt |
43 |
58 |
Нейронная
сеть |
7.txt |
40 |
59 |
Опция |
4.txt |
28 |
60 |
Память |
1.txt,2.txt |
3,15,16,17 |
61 |
Периферия |
6.txt |
33 |
62 |
Плагин |
4.txt |
27 |
63 |
Портал |
4.txt |
25 |
64 |
Почтовый
ящик |
9.txt |
46 |
65 |
Принтер |
1.txt |
1 |
66 |
Провайдер |
1.txt |
10 |
67 |
Программа |
3.txt |
18,19 |
68 |
Прокси |
14.txt |
57 |
69 |
Протокол |
5.txt,8.txt |
31,45 |
70 |
Профиль |
4.txt |
28 |
71 |
Процесс |
4.txt |
26 |
72 |
Процессор |
1.txt |
3 |
73 |
Сайт |
1.txt |
10 |
74 |
Сервер |
8.txt |
44 |
75 |
Сервис |
4.txt |
25 |
76 |
Сисадмин |
10.txt |
48 |
77 |
Скин |
4.txt |
25 |
78 |
Скринсейвер |
1.txt |
10 |
79 |
Скриншот |
3.txt |
19 |
80 |
Скрипт |
8.txt |
45 |
81 |
Софт |
1.txt,3.txt |
1,18 |
82 |
Спам |
1.txt |
7 |
83 |
Ссылка |
9.txt |
46 |
84 |
Сценарий |
9.txt |
46 |
85 |
Телекоммуникации |
3.txt |
18 |
86 |
Трафик |
17.txt |
69 |
87 |
Трей |
4.txt |
25 |
88 |
Троян |
14.txt |
57 |
89 |
Утилита |
3.txt |
18 |
90 |
Фаервол |
12.txt |
49 |
91 |
Файл |
4.txt |
25 |
92 |
Файловая
система |
8.txt |
44 |
93 |
Факс |
5.txt |
29 |
94 |
Флеш-карта |
2.txt |
14 |
95 |
Фокусировка |
1.txt |
2 |
96 |
Форум |
6.txt |
34 |
97 |
Фотоаппарат |
2.txt |
13,14,15.16,17 |
98 |
Фотопринтер |
2.txt |
13 |
99 |
Чат |
6.txt |
34 |
100 |
Червь |
1.txt |
7 |
101 |
Чипсет |
1.txt |
2 |
102 |
Чувствительность |
1.txt |
2 |
103 |
Шлюз |
5.txt |
30 |
104 |
Эксплоит |
10.txt,13.txt |
47,53 |
105 |
Экспозиция |
2.txt |
15 |
106 |
Электронная
почта |
7.txt |
39 |
107 |
Эргономика |
2.txt |
13,14 |
№ |
Название |
Тип |
название статьи в
электронном виде(.txt) |
№ страницы в
печатном издании |
1 |
AMD |
Организация |
1.txt |
2 |
2 |
AOpen |
Организация |
1.txt |
3 |
3 |
Athlon
64/64 FX |
Продукция |
1.txt |
2 |
4 |
Bell
Labs |
Организация |
6.txt |
31 |
5 |
BlueSnarfing |
Продукция |
7.txt |
37 |
6 |
BlueSpam |
Продукция |
7.txt |
37 |
7 |
BTExplorer |
Продукция |
7.txt |
36 |
8 |
BuddyTalk |
Продукция |
3.txt |
21 |
9 |
Carl
Zeiss |
Организация |
2.txt |
14,16 |
10 |
Casio |
Организация |
2.txt |
15 |
11 |
Catalyst |
Организация |
15.txt |
61 |
12 |
Cisco |
Организация |
15.txt |
61,62,64 |
13 |
CONTAX |
Организация |
2.txt |
14 |
14 |
Contax
SL300R |
Продукция |
2.txt |
14 |
15 |
Cyber
Shot DSC-T3 |
Продукция |
2.txt |
16 |
16 |
CyberCar |
Продукция
|
1.txt |
4 |
17 |
Digimax
U-CA 401 |
Продукция |
2.txt |
15 |
18 |
DVD
MovieWriter 3.5SE |
Продукция |
1.txt |
2 |
19 |
DVR-ABN16A |
Продукция |
1.txt |
1 |
20 |
DWL-2210AP |
Продукция |
1.txt |
1 |
21 |
Exilim
EX-Z55 |
Продукция |
2.txt |
15 |
22 |
Fedora
Core 3 |
Продукция |
9.txt |
44 |
23 |
File2Cable |
Продукция |
15.txt |
63 |
24 |
Fluxy |
Продукция |
17.txt |
70 |
25 |
FreeBSD
5.3 |
Продукция |
9.txt,12.txt,16.txt |
44,4,66 |
26 |
Gigabyte |
Организация |
1.txt |
2 |
27 |
GoDogGo |
Организация |
1.txt |
5 |
28 |
honeypot |
Продукция |
16.txt |
65,66,67,68 |
29 |
Internet
Explorer |
Продукция |
14.txt |
57,60 |
30 |
IRDPresponder |
Продукция |
15.txt |
63 |
31 |
ITRACE
|
Продукция |
15.txt |
63 |
32 |
Joltid
PeerEnabler |
Организация |
6.txt |
35 |
33 |
KaZaA |
Организация |
6.txt |
35 |
34 |
Konica
Minolta |
Организация |
1.txt |
1 |
35 |
Kuka |
Организация |
1.txt |
6 |
36 |
LiftPort
Group |
Организация |
1.txt |
6 |
37 |
LogSentry |
Продукция |
12.txt |
51 |
38 |
Lumix
FX7 |
Продукция |
2.txt |
14 |
39 |
Lycos |
Организация |
1.txt |
10 |
40 |
Lynch
Exhibits |
Организация |
1.txt |
3 |
41 |
Magicolor
2400W |
Продукция |
1.txt |
1 |
42 |
Memory
Stick Duo |
Продукция |
2.txt |
16 |
43 |
Microsoft |
Организация |
1.txt,11.txt |
9,48 |
44 |
Mobiluck |
Продукция |
7.txt |
36 |
45 |
MySQL |
Продукция |
14.txt |
58 |
46 |
Nanotechnology
News Network |
Организация |
8.txt |
43 |
47 |
NetBSD |
Продукция |
9.txt |
44 |
48 |
nnCron |
Продукция |
4.txt |
25 |
49 |
Nokia |
Организация |
7.txt |
37 |
50 |
OCZ45012U |
Продукция
|
1.txt |
3 |
51 |
Olympus |
Организация |
2.txt |
13 |
52 |
Olympus
mju-mini |
Продукция |
2.txt |
13 |
53 |
OpenBSD |
Продукция |
9.txt,16.txt |
44,66 |
54 |
Optio
S5i |
Продукция |
2.txt |
16 |
55 |
Panasonic |
Организация |
2.txt |
14 |
56 |
PENTAR |
Организация |
2.txt |
13 |
57 |
Pentax |
Организация |
2.txt |
16 |
58 |
PortSentry |
Продукция |
12.txt |
49,50 |
59 |
Protos |
Продукция |
15.txt |
63 |
60 |
Robotlab |
Организация |
1.txt |
6 |
61 |
Roger
Wilco |
Продукция |
3.txt |
17 |
62 |
Samsung |
Организация |
2.txt |
13,15 |
63 |
Sendmail |
Продукция |
9.txt |
44 |
64 |
ShoeDoctor |
Продукция
|
1.txt |
5 |
65 |
Skype |
Продукция |
6.txt |
35 |
66 |
SMan |
Продукция |
7.txt |
37 |
67 |
Snort |
Продукция |
12.txt |
49,50 |
68 |
Sony |
Организация |
2.txt |
16 |
69 |
Sophos |
Организация |
1.txt |
7 |
70 |
ThinkFitness |
Продукция
|
1.txt |
5 |
71 |
Ulead
DVD Player |
Продукция |
1.txt |
2 |
72 |
Verb
of Shoe |
Продукция |
1.txt |
5 |
73 |
Windows
XP |
Продукция |
11.txt,16.txt |
48,69 |
74 |
XC
Cube EZ855 |
Продукция
|
1.txt |
3 |
75 |
Адриан
Чианг |
Персоналии |
7.txt |
36,37 |
76 |
Алекс
Соза |
Персоналии |
1.txt |
6 |
77 |
Винсент
Тао |
Персоналии |
1.txt |
10 |
78 |
Джеймс
Сой |
Персоналии |
1.txt |
7 |
79 |
МТС |
Организация |
1.txt |
9 |
80 |
Роберт
Фрайтас |
Персоналии |
8.txt |
42 |
81 |
Рэй
Курцвейл |
Персоналии |
8.txt |
38 |
82 |
Сивма
фототехника |
Организация |
2.txt |
13 |
83 |
Хенк
ван де Мин |
Персоналии |
1.txt |
6 |
При индексировании текстовых фрагментов
(статей) для каждого из них составлены поисковые образы, включающие 10–20
ключевых слов, словосочетаний, аббревиатур, имен.
Ключевые слова статей журнала приведены в
следующей таблице:
Таблица 15. Индексы фрагментов ЕЯ описания ПО.
№ |
Номер статьи |
Заголовок |
Ключевые
слова |
1 |
1.txt |
HardNews |
Магия
цвета |
Умный
WiFi |
|||
Прожигатель
дисков |
|||
Цифра
от CASIO |
|||
Плата
Gigabyte |
|||
Бронированный
корпус |
|||
Элитные
блоки |
|||
Телеармрестлинг |
|||
Реактивный
сортир |
|||
Кибертакси |
|||
Умные
шузы |
|||
Апорт! |
|||
Космический
лифт |
|||
2 |
2.txt |
Компактная
цифра |
Фотоаппарат |
Мегапикселей |
|||
Бумага |
|||
Характеристики |
|||
Разрешение |
|||
Матрица |
|||
Съемка |
|||
Эргонимика |
|||
Память |
|||
Размер |
|||
Масса |
|||
3 |
3.txt |
Алло,
кто на проводе? |
IP-телефония |
Общение |
|||
Голос |
|||
Утилита |
|||
Программа |
|||
Микрофон |
|||
Видеоконференция |
|||
Абонент |
|||
Интернет |
|||
Звонок |
|||
Собеседник |
|||
4 |
4.txt |
WebMoney: ставим точки над Ё |
электронная
валюта |
интернете |
|||
аккаунт |
|||
Покупка |
|||
Товап |
|||
Аттестат |
|||
Система |
|||
Подлиность |
|||
Услуга |
|||
Соглашение |
|||
Арбитраж |
|||
5 |
5.txt |
Двое
из ларца |
Автоматизация |
Прцесс |
|||
Компьютер |
|||
Пользователь |
|||
nnCron |
|||
Файл |
|||
Консоль |
|||
Напоминание |
|||
Создание |
|||
Задача |
|||
Установка |
|||
6 |
6.txt |
Стань диггером IP-телефонии |
разговор |
абонент |
|||
Сигнал |
|||
Декодер |
|||
Интернет |
|||
Кодирование |
|||
Модем |
|||
Снифер |
|||
Шифрование |
|||
Атака |
|||
Микрофон |
|||
7 |
7.txt |
Голубозубастики: кариес современных
технологий |
Bluetooth |
мобильный
телефон |
|||
BlueJacking |
|||
Общение |
|||
Посетитель |
|||
Визитка |
|||
Софт |
|||
Устройство |
|||
Функция |
|||
адресной
книге |
|||
Клуб |
|||
8 |
8.txt |
Товарищ киборг |
имплантат |
человек |
|||
интеллект |
|||
информация |
|||
общение |
|||
управление |
|||
мозг |
|||
чип |
|||
интерфейс |
|||
матрица |
|||
Нейрон |
|||
Иследование |
|||
Сигнал |
|||
9 |
9.txt |
hackFAQ |
Проюлема |
Использование |
|||
Файл |
|||
Система |
|||
Тормозить |
|||
Доступ |
|||
Ресурс |
|||
Технология |
|||
Установка |
|||
Вирус |
|||
10 |
10.txt |
Как
я ломал hotbox.ru |
почтовый
ящик |
Взлом |
|||
Админ |
|||
Сценарий |
|||
Параметр |
|||
Страница |
|||
Скрипт |
|||
Ссылка |
|||
Атрибут |
|||
Сервер |
|||
Каталог |
|||
Баг |
|||
11 |
11.txt |
Обзор
эксплойтов |
Ошибка |
Уязвимость |
|||
Скрипт |
|||
Защита |
|||
Сценарий |
|||
Взлом |
|||
Критическая |
|||
Админ |
|||
Сервер |
|||
Адрес |
|||
12 |
12.txt |
IDS
под микроскопом |
Сервер |
Атака |
|||
Защита |
|||
Софт |
|||
Безопасность |
|||
операционная
система |
|||
Обнаружение |
|||
Snort |
|||
PortSentry |
|||
Tripwire |
|||
13 |
13.txt |
Хакерский
конвейер |
Уязвимость |
Эксплоит |
|||
Права |
|||
Автоматизация |
|||
Авторутер |
|||
Massrooter |
|||
Mscan |
|||
Файл |
|||
Сканер |
|||
Шелл |
|||
Запрос |
|||
Парсер |
|||
14 |
14.txt |
Компьютерный
муравейник |
Сеть |
распределенные
вычисления |
|||
Компьютер |
|||
Управление |
|||
Библиотека |
|||
Плагин |
|||
Клиент |
|||
Порт |
|||
Скрипт |
|||
Функция |
|||
Фаервол |
|||
Запускать |
|||
15 |
15.txt |
Неверный
маршрут |
Администратор |
Оборудование |
|||
Уязвимость |
|||
Cisco |
|||
Несанкционированный |
|||
Роутер |
|||
Интерфейс |
|||
Флудинг |
|||
IRPAS |
|||
Протокол |
|||
Трассировка |
|||
16 |
16.txt |
Банка с медом |
honeypot |
Сканирование |
|||
Безопасность |
|||
Сбор
информации |
|||
Сетевая
атака |
|||
Эмулировать |
|||
Эксперимент |
|||
Исходники |
|||
Сценарий |
|||
Конфигурация |
|||
Виртуальная
машина |
|||
17 |
17.txt |
Брутфорс по-нашему! |
подбору
паролей |
Fluxay |
|||
Hydra |
|||
Аккаунт |
|||
Маршрутизатор |
|||
Сервер |
|||
Домен |
|||
Поток |
|||
Скорость |
|||
Простой
пароль |
Результаты анализа использования метафор в
текстах журнала приведены в следующей таблице.
Таблица 16. Анализ использования метафор в
текстах журнала.
№ |
метафора |
прямое значение |
переносное значение |
раздел рубрикатора |
библиографическое описание
источника(.txt) |
1 |
Magicolor 2400W унаследовал многие
параметры от своего старшего брата Magicolor 2300W |
Брат
- человек |
Ранняя
модель |
3 |
1 |
2 |
оба этих варианта являют собой ни что иное,
как NEC’овский резак ND-3520A |
резак
- инструмент для кислородной резки |
Устройство
для записи CD |
3 |
1 |
3 |
Не буду долго втирать тебе про ее
достоинства и недостатки, вот ТТХ |
втирать
- растирать какое-либо вещество на чем, для пропитания первым последнего |
убеждать |
6 |
1 |
4 |
софтину Easy Tune 5,которая на лету позволяет
менять частоту процессора, памяти, графического процессора, скорость работы
PCI Express x16 и PCI |
на
лету - в полете |
во
время работы |
8.13 |
1 |
5 |
если раньше 300 Вт казалось большой цифрой,
то сейчас это стандарт для хилых офисных систем |
хилый
- болезненный, недугующий, недужливый, недужный |
Малопроизводительный |
3 |
1 |
6 |
Главное в этой ситуации - полностью
довериться жестянке |
жестяной ящичек, коробочка, трубка и пр.… |
Робот |
6 |
1 |
7 |
Во время первой проверки на вшивость
по тончайшей ленте, используя только |
вшивость
- поражение кожи, обусловленное вшами |
Проверка
на ошибки |
6 |
1 |
8 |
и к моменту ареста успела навариться
на несколько сотен тысяч |
навариться
- сварить в количестве |
Наворовать |
- |
1 |
9 |
Применение таких систем, как Flash Assist
позволяет получить более «живой» снимок |
живой
- подвижный |
Реалистичный |
6 |
2 |
10 |
так что картинка не покажется размытой
при фокусировке |
размытая
- с углубление русла водотока, вызванное течением воды или порогом на дне
водотока |
Нечеткая |
6 |
2 |
11 |
а корпус из металла не легко будет
продавить и повредить «начинку» аппарата |
начинка
- предмет, чем пустота начинена |
Внутренние
детали |
6 |
2 |
12 |
локальных сетей с доступом по толстому
каналу в интернет |
толстый
- полный, плотный, грузный, ботелый, дебелый, дородный, жирный, гладкий,
пухлый, тучный, откормленный |
С
большой пропускной способностью |
6.22 |
3 |
13 |
Учитывая малый вес этой проги |
вес
- сравнительный, относительный, удельный, вес тела условного объема,
сравнительно с весом другого тела того же объема |
Малое
занимаемое место |
8 |
3 |
14 |
После этого на мыло придет письмо |
мыло
-предст. средние щелочные соли высших жирных кислот, действие которых при
мытье основано на разложении М. водою, причем образуется кислая соль жирной
кислоты и свободная щелочь, в присутствии которой грязь удаляется легче, чем
при мытье простой водой |
Электронный
почтовый ящик, mail. |
8.44 |
3 |
15 |
не желают загромождать свою машину тучей
всякого разного софта |
раскладушка-вид
кровати |
вид
сотового телефона |
8 |
3 |
16 |
Лишний трафик жрать? |
Скорострельность
оружия, способность данного оружия производить определённое количество
выстрелов в единицу времени (обычно в 1 мин). |
скорость
передачи данных |
8 |
3 |
17 |
оплачиваешь мобильный через интернет, а
твой коннект в этот момент рвется |
рвать
-порывать, дергать, тянуть порывами, разами, ухать |
Отключение
соединения |
6.14.15 |
4 |
18 |
то плохой коннект может привести к «глотанию»
слов |
глотание
- акт, посредством которого пища или питье переводятся из полости рта в
желудок |
пропадание |
8.36 |
6 |
19 |
Для передачи же целой серии фрагментов
требуется канал шириной 64 Кбит/с |
ширина
- размер предмета, определяемый
расстоянием между его кромками в установленном для измерения месте в
направлении, перпендикулярном его продольной оси |
Пропускная
способность |
6.22 |
6 |
20 |
На телефонную коробку, которая обычно
располагается в подъезде жилого дома потерпевшего, при помощи специальных
зажимов-«крокодилов» |
крокодил
- зубастое, болотное животное, вроде огромной ящерицы |
Вид
зажима |
7 |
6 |
21 |
Рекомендую обязательно слить и
попробовать эти две софтинки |
Сливать
- переливать жижу в другую посудину |
Скачать
программу |
8 |
6 |
22 |
можешь воспользоваться утилитой BTClass,
которая работает исключительно под пальмой |
пальма
- растение из класса однодольных, заключающее большей частью большие
древовидные растения с мощным колонновидным стволом и кроной верхушечных
листьев различной формы |
Palm
OS - операционная система для карманных компьютеров |
8.25.3 |
7 |
23 |
крутые программеры обнаружили в этой
технологии нехилые дыры |
Дыра
- отверстие сквозное, либо яма, ямка |
Уязвимость,
ошибка, баг. |
8.18 |
7 |
24 |
То есть подключайся к ближайшему фрюшному зеркалу
и ставь tgz-файлы |
Зеркало
- тело, обладающее полированной поверхностью и способное образовывать
оптическое изображение, отражающее излучение |
Копия
сайта, размещенная на другом сервере и доступная для посещения |
11.17 |
9 |
25 |
Я поднял шлюз на OpenBSD, но мои
NAT’ные клиенты не могут устанавливать соединения |
поднимать
- подносить, взнять, повысить, вознести; отделив силой от места, держать выше
его |
показать
свою крутость |
8.36 |
9 |
26 |
нужно заворачивать весь исходящий
ftp-трафик на 8021-й порт |
заворачивать
- заворотить, ворочать куда-либо |
Перенаправлять |
8.36 |
9 |
27 |
где будет висеть штатная ftp-прокся |
Висеть
- быть повешанным, быть укрепленным или наложенным одним концом к возвышенной
точке, оставаться свободным на воздухе, без опоры |
Быть
загруженной, запущенной |
8.36 |
9 |
28 |
Запускаясь, Sendmail примерно на минуту подвисает |
подвисать
- подвешиваться к чему либо, под чем либо |
Тормозить,
резкое уменьшение скорости работы программы |
8 |
9 |
29 |
Как мне организовать доступ работникам,
чтобы они могли и дальше лазать на сервер обычными FTP-клиентами |
лазать
- ходить не по уровню, а подымаясь либо спускаясь; идти круто кверху или
книзу; карабкаться, взбираться, цепляясь руками; ползать, продираться,
втираться, подвигаться ползком или силою |
Подключатся
к серверу и просматривать различные html страницы, папки и.т.п |
11.17 |
9 |
30 |
позволял вставить созданное мыло в сценарий
отправки сообщения |
сценарий
- список лиц, участвующих в пьесе с указанием порядка их появления на сцене |
Порядок
выполнения команд |
8.13 |
10 |
31 |
Срыв стека проявляется при попытке распаковать
файл с длинным именем |
Распаковывать
- извлечение предметов из упаковки. |
Разархивирование,
извлечение файла из сжатого архива |
8 |
11 |
32 |
но так ты хоть будешь знать, с какого
адреса поломали твой сервер :). |
Ломать
- разделять силою, дробить |
Получение
прав администратора на сервере |
3 |
12 |
33 |
Чтобы не заморачиваться с компиляцией,
рекомендую стянуть уже собранные бинарники |
Стягивать
- тянуть сближая, сводить, соединять |
Украсть |
8 |
12 |
34 |
После установки IDS рекомендуется удалить
все текстовые файлы с текущей политикой |
Политика
- сфера деятельности, связанная с отношениями между классами, нациями и др.
социальными группами, ядром которой является проблема завоевания, удержания и
использования государственной власти |
Правила |
8.13 |
12 |
35 |
При желании можно даже написать скрипт,
который снимает контрольную сумму с файла |
снимать
- совлекать, стаскивать, срывать, скидывать, лишать; арендовать;
фотографировать |
Вычислять |
8.36 |
12 |
36 |
Во-первых, конечно же, нужен эксплойт,
который способен хакнуть какой-нибудь демон с помощью горячего,
недавно вышедшего бага |
демон
- злой дух, Диавол, сатана, бес, черт,
нечистый, лукавый |
Сервер
домена |
8.36 |
13 |
37 |
Таким образом, этот движок без
проблем скачает из Сети нужный модуль |
движок
- ум. От двигатель, устройство для непрерывного преобразования энергии
рабочего тела в механическую энергию |
программа,
реализующая функциональность веб-сайта, отличную от простого показа готовых
веб-страниц |
8.36 |
14 |
38 |
Они заточены под ISDN-соединения |
Затачивать
- Оттачивать, отточить остро на бруске, на точиле |
Оптимизировать |
6.22.2 |
15 |
1 |
Magicolor 2400W унаследовал многие
параметры от своего старшего брата Magicolor 2300W |
Брат
- человек |
Ранняя
модель |
3 |
1 |
2 |
оба этих варианта являют собой ни что иное,
как NEC’овский резак ND-3520A |
резак
- инструмент для кислородной резки |
Устройство
для записи CD |
3 |
1 |
3 |
Не буду долго втирать тебе про ее
достоинства и недостатки, вот ТТХ |
втирать
- растирать какое-либо вещество на чем, для пропитания первым последнего |
убеждать |
6 |
1 |
4 |
софтину Easy Tune 5,которая на лету позволяет
менять частоту процессора, памяти, графического процессора, скорость работы
PCI Express x16 и PCI |
на
лету - в полете |
во
время работы |
8.13 |
1 |
5 |
если раньше 300 Вт казалось большой цифрой,
то сейчас это стандарт для хилых офисных систем |
хилый
- болезненный, недугующий, недужливый, недужный |
Малопроизводительный |
3 |
1 |
В
текстах рекламы журнала метафоры не обнаружены.
Грамматический словарь разработан с
использованием программного средства «Леммалекс».
Для получения
грамматического словаря были выполнены следующие действия:
1)
обработка
текстов статей анализатором «Леммалекс». При этом автоматически сформировался
словарь. Фрагмент словаря представлен на следующем рисунке:
Рисунок 5. Фрагмент
словаря лемм.
2)
формирование
отчета, содержащего грамматический словарь.
Грамматический словарь содержит слова, встретившиеся в текстовых фрагментах и
относящиеся к следующим грамматическим классам:
1)
Существительные;
2)
Прилагательные;
3)
Глаголы;
4)
Наречия;
5)
Числительные;
6)
Предлоги;
7)
Междометия;
8)
Союзы;
9)
Частицы;
10) Местоимения.
Словарь имеет следующую структуру:
<ЛЕММА>
{s} <МИ>
<СЛОВОФОРМА1> {s}
<МИ1>
<СЛОВОФОРМА2>
{s} <МИ2>
...
<СЛОВОФОРМАk>
<МИk> [ik],
где:
ЛЕММА — слово в
основной форме;
МИ — морфологическая
информация о слове (грамматический класс, подкласс);
МИj — подробная
грамматическая информация);
s — количество
словоформ в тексте;
ij —
частота j-ой словоформы.
Т.к. размер словаря очень велик, то в
пояснительной записке приведен только фрагмент словаря. Полный грамматический
словарь приведен в документе «грамматический словарь.xls».
Пояснения:
Существительные
м, мо, ж, жо, с, со,
мо-жо
в названии класса
задается род и одушевленность (например, мо-мужской род, одушевленное)
Глаголы
св, нсв, св-нсв
в названии класса
задается вид.
Другие
классы
п – прилагательные
Таблица 17. Фрагмент грамматического словаря.
слово |
морфологическая информация |
Количество |
словоформа |
подробная морфологическая
информация |
Частота |
а |
межд.; |
161 |
а |
с; |
161 |
а |
союз; |
161 |
а |
част.; |
161 |
абзац |
м; |
1 |
абсолютный |
п; |
3 |
автоматизация |
ж; |
3 |
автоматически |
п; |
7 |
автоматический |
п; |
5 |
автономность |
ж; |
1 |
автономный |
п; |
1 |
автор |
мо; |
4 |
адаптер |
м; |
2 |
адаптер-соединитель |
м; |
2 |
адекватный |
п; |
2 |
адрес |
м; |
2 |
адресация |
ж; |
2 |
адресовать |
св-нсв; |
1 |
аккумулятор |
м; |
6 |
аккумуляторный |
п; |
1 |
аккуратный |
п; |
2 |
акселератор |
м; |
1 |
аксессуар |
м; |
1 |
активация |
ж; |
1 |
активизироваться |
св-нсв; |
1 |
активировать |
св-нсв; |
3 |
активность |
ж; |
1 |
активный |
п; |
2 |
актуальный |
п; |
3 |
акустический |
п; |
1 |
алгоритм |
м; |
11 |
александр |
мо; |
1 |
алексей |
мо; |
2 |
альбом |
м; |
4 |
альтернатива |
ж; |
1 |
альтернативный |
п; |
1 |
алюминиевый |
п; |
2 |
алюминий |
м; |
1 |
американский |
п; |
1 |
амплитуда |
ж; |
1 |
анализ |
м; |
2 |
аналог |
м; |
4 |
аналогичный |
п; |
16 |
аналоговый |
п; |
1 |
андрей |
мо; |
5 |
анизотропия |
ж; |
1 |
анизотропный |
п; |
1 |
анонс |
м; |
3 |
анонсировать |
св-нсв; |
2 |
антенна |
ж; |
1 |
антенный |
п; |
1 |
аппаратный |
п; |
18 |
аппаратура |
ж; |
2 |
арбитр |
мо; |
1 |
арбитраж |
м; |
1 |
аргумент |
м; |
1 |
арена |
ж; |
1 |
архитектура |
ж; |
8 |
архитектурный |
п; |
2 |
асинхронный |
п; |
1 |
ассоциативность |
ж; |
17 |
атрибут |
м; |
1 |
аудио |
п; |
2 |
аудиотракт |
м; |
1 |
баз |
м; |
13 |
база |
ж; |
13 |
базовый |
п; |
1 |
байт |
м; |
13 |
балалайка |
ж; |
2 |
банальный |
п; |
1 |
бас |
м; |
1 |
бас |
мо; |
1 |
бассейн |
м; |
1 |
батарейка |
ж; |
1 |
батарейный |
п; |
1 |
без |
предл.; |
22 |
бездействие |
с; |
1 |
безжалостный |
п; |
1 |
безотносительный |
п; |
1 |
безусловно |
вводн.; |
2 |
безусловный |
п; |
3 |
бело-сера |
ж; |
1 |
бело-серый |
п; |
1 |
белый |
п; |
1 |
берет |
м; |
3 |
бесполезно |
н; |
1 |
бесполезно |
предик; |
1 |
бесполезный |
п; |
1 |
бессильный |
п; |
2 |
библиотека |
ж; |
1 |
бит |
м; |
14 |
бита |
ж; |
14 |
битый |
п; |
13 |
бицепс |
м; |
1 |
Конкорданс ЕЯ
описания ПО составлен для понятий предметного указателя, полученного при
решении третьей задачи курсовой работы.
При
составлении конкорданса предварительно из списка понятий, вошедших в предметный
указатель, были выделены устойчивые словосочетания и составлен “словарь словосочетаний”,
имеющий следующую структуру словарной статьи:
<ЛЕММА>
(СЛОВОСОЧЕТАНИЕ1),
(СЛОВОСОЧЕТАНИЕ2),
...
(СЛОВОСОЧЕТАНИЕk).
Здесь:
ЛЕММА — слово в основной форме из грамматического словаря, предметного
указателя; СЛОВОСОЧЕТАНИЕ — двух–, трехсловное словосочетание из предметного
указателя, являющееся термином или основным понятием ЕЯ описания ПО.
Словарь словосочетаний
приведен в следующей таблице.
Таблица 18. Словарь словосочетаний.
№ |
Лемма |
Словосочетание |
1 |
Алгоритм |
Алгоритм
расчета |
2 |
видеокарта |
AGP-видеокарта |
3 |
время
доступа |
среднее
время доступа |
4 |
графический
слот |
графический
слот расширения |
5 |
дизайн |
стильный
дизайн |
6 |
Диск |
компакт-диск |
7 |
драйвер |
драйвер
для видеокарты |
8 |
жесткий
диск |
внешний
жесткий диск |
9 |
ЖК-дисплей |
15
дюймовый ЖК-дисплей |
10 |
игра |
компьютерная
игра |
11 |
интерфейсы |
беспроводные
интерфейсы |
12 |
кодек |
кодек
для просмотра видеофайлов |
13 |
компьютер |
персональный
компьютер |
14 |
Кэш |
Кэш
процессора |
15 |
матрица |
матрица
ЖК-дисплея |
16 |
Модель |
модель
ноутбука |
17 |
ноутбук |
модель
ноутбука |
18 |
Объем
хранимой информации |
Объем
хранимой информации на жестком диске |
19 |
Память |
оперативная
память |
20 |
плагин |
плагин
для фотошопа |
21 |
плата |
материнская
плата |
22 |
Платформа |
производительная
платформа |
23 |
плеер |
MP3-плеер |
24 |
производитель |
производитель
видеокарты |
25 |
производительность
|
производительность
системы |
26 |
Пропускная
способность |
Пропускная
способность памяти |
27 |
Процессор |
центральный
процессор |
28 |
разрешение |
разрешение
экрана |
29 |
разъемы |
разъемы
материнской платы |
30 |
Сервер |
Сервер
базы данных |
31 |
системные
требования |
минимальные
системные требования |
32 |
Слот
расширения |
Слот
расширения AGP |
33 |
смартфон |
многфункциональный
смартфон |
34 |
Такт |
Такт
процессора |
35 |
ТВ-тюнер |
внешний
ТВ-тюнер |
36 |
Тест |
тест
памяти |
37 |
типы
файлов |
различные
типы файлов |
38 |
усилитель |
операционный
усилитель |
39 |
файловая
система |
файловая
система FAT |
40 |
Функциональность |
Функциональность
системы |
41 |
частота |
тактовая
частота |
42 |
частота
ядра |
частота
ядра процессора |
43 |
чипсет |
чипсет
материнской платы |
44 |
экран |
сенсорный
экран |
45 |
энергопотребление |
энергопотребление
компьютера |
46 |
эргономика |
эргономика
устройства |
47 |
Ядро |
Ядро
процессора |
Конкорданс ЕЯ
описания ПО представлен в виде “словаря контекстов”, имеющего следующую
структуру словарной статьи:
<ЛЕММА/
СЛОВОСОЧЕТАНИЕ> <КОНТЕКСТ> <АДРЕС>.
Здесь: КОНТЕКСТ —
ближайшее “окружение” словоформы или словосочетания,
АДРЕС — указание на
источник контекста — фрагмент текста (статья).
Конкорданс построен с
использованием программного средства «Леммалекс» (функция «Построение
конкордансов и словников»):
Рисунок 6. Построение
конкорданса.
Так как размер конкорданса слишком велик, то
в пояснительной записке приведен лишь его фрагмент. Полный конкорданс приведен
в файле «конкорданс.xls»
Таблица 19. Фрагмент конкорданса.
лемма |
конкорданс |
адрес(.txt) |
AGP |
Теперь
вернемся к материнской плате B9D-FGR и кратко перечислим ее функциональные
характеристики, обусловленные возможностями чипсета: поддержка процессоров
AMD Athlon 64/FX и Sempron (Socket 939), до 2 ГБ памяти DDR200/266/333/400
(на плате всего 2 слота DIMM) с возможностью работы в двухканальном режиме,
шина `AGP` 8x для внешних видеоускорителей, 2 порта SATA с функцией RAID 0 и
1, 2 канала UATA133 для 4 устройств, 8 портов USB 2. |
4 |
AGP |
MSI
K8T Neo2-FIR на чипсете VIA K8T800 Pro |
5 |
AGP |
реализован на чипе), а `AGP` 8х платы с этим
чипом, видимо, пока, не планируются. |
6 |
AMD |
В
заключение <описательной> части скажем пару слов о тестировавшихся
инженерных образцах материнских плат на ATI Xpress 200/P. Подробного описания
они, на наш взгляд, не заслуживают, так как неясна их схожесть с финальными
экземплярами (а модель на RS480 вообще произведена на мощностях самой ATI и
на массовое производство, очевидно, не рассчитана). Впечатлило количество
настроек в BIOS, а вот стабильности работы иногда не хватало - впрочем, мы
тестировали, <выжимая> максимум из памяти, да и видеокарта
использовалась от NVIDIA (ATI не рекомендует такое сочетание - якобы ввиду
потенциальных проблем из-за переходного моста PCI-E-AGP у последних). |
5 |
AMD |
Установка
и драйверы |
8 |
ATA |
А
вот жесткий диск здесь с параллельным интерфейсом, поддержка Serial `ATA` еще
не задействована. |
15 |
ATA |
Приятно,
что мосты чипсета на плате прикрыты лишь игольчатыми радиаторами, а
комплектные шлейфы `ATA` и FDD разрезаны на полоски, стянуты по всей длине в
узкий пучок и упрятаны под экранирующую оплетку - эти вроде бы мелочи,
безусловно, влияют на температурный и акустический режим работы. |
4 |
BIOS |
Процессор:
Intel Pentium 4 3.6 ГГц (ядро Prescott, CPUID 0F41h) |
1 |
BIOS |
В
`BIOS` Setup можно увеличивать частоту FSB до 250 МГц с шагом 1 МГц, повышать
напряжение на памяти и AGP до 2,9 и 1,8 В соответственно с шагом 0,1 В,
изменять напряжение на процессоре с 0,8 до 1,7 В с шагом 0,025 В, а также
регулировать настройки таймингов памяти и фиксировать частоту шин PCI/AGP. |
4 |
BIU |
эффективность
алгоритма Hardware Prefetch не изменяется при увеличении разгрузки Bus
Interface Unit (`BIU`) процессора. |
2 |
BIU |
Тем
не менее, работу в этом направлении вполне можно продолжать - достигнув
темсамым почти 100% эффективность утилизации шины процессор-память
(`BIU`),котораяуже достигнута в упомянутом выше ядре Prescott. |
3 |
CD |
Как правило, в алгоритмах есть коррекция
ошибок нескольких уровней, иногда ошибка исправляется автоматически, а иногда
действия повторяются, как при считывании потрепанного `CD` в CD-ROM (на очень
медленной скорости подвешивая систему). |
11 |
CD |
Буклет
WInXP и диск Recovery (все на японском, включая ОС, выглядит очень забавно
:)) |
13 |
CDMA |
Чем так отличился набор схем для работы с
GSM (`CDMA`, UMTS, другое) от всем привычных Bluetooth, WiFi? |
19 |
CDMA |
В
ближайшем будущем первые две аббревиатуры могут смениться на GSM, `CDMA` или
что-то еще. |
19 |
CPU |
RightMark `CPU` Clock Utility (RMClock) версии 1. |
1 |
Словарная статья словаря
определений терминов ПО включает следующие сведения: заголовочное слово
(понятие из предметного указателя), варианты определений (толкований),
устойчивые словосочетания (из "словаря словосочетаний") и 2-3
эксцерпции (примеры контекстов из текстов ЕЯ описания ПО с указанием их
источника из конкорданса):
<ЗАГОЛОВОЧНОЕ СЛОВО>
<ОПРЕДЕЛЕНИЕ 1>
…
<ОПРЕДЕЛЕНИЕ N>
<УСТОЙЧИВОЕ СЛОВОСОЧЕТАНИЕ 1>
…
< УСТОЙЧИВОЕ СЛОВОСОЧЕТАНИЕ N>
< ЭКСЦЕРПЦИЯ 1>
…
< ЭКСЦЕРПЦИЯ N>
Ниже
приведен фрагмент словаря терминов. Полный словарь приведен в документе «словарь
терминов.xls».
Словарь терминов был загружен в БД ACCESS.
Структура БД приведена на следующем
рисунке:
Рисунок 7. Структура
БД.
Описание структуры БД приведено в следующей
таблице:
Таблица 20. Описание структуры БД.
Название таблицы |
Название поля |
Описание поля |
TERMIN |
ID_TERM |
Идентификатор
термина |
TERM_NAME |
Текст
термина |
|
DEFINITION |
ID |
Идентификатор
записи |
ID_TERM |
Идентификатор
термина |
|
DEF |
Определение |
|
UST_SLOV |
ID |
Идентификатор
записи |
ID_TERM |
Идентификатор
термина |
|
UST_SLOV |
Устойчивое
словосочетание |
|
KONCORD |
ID |
Идентификатор
записи |
ID_TERM |
Идентификатор
термина |
|
KONCORD |
Конкорданс |
|
ADDRESS |
Адрес |
Таблица 21. Фрагмент словаря определений
терминов.
номер |
название |
описание |
Эксцерпции |
адрес |
Устойчивые
словосочетания |
1 |
AGP |
разъем под видеокарту |
поддержка процессоров AMD Athlon 64/FX и Sempron (Socket 939),
до 2 ГБ памяти DDR200/266/333/400 (на плате всего 2 слота DIMM) с возможностью
работы в двухканальном режиме, шина `AGP` 8x для внешних видеоускорителей, 2
порта SATA с функцией RAID 0 и 1, 2 |
4 |
|
1 |
AGP |
разъем под видеокарту |
|
5 |
|
1 |
AGP |
разъем под видеокарту |
реализован на чипе, а
`AGP` 8х платы с этим чипом, видимо, пока, не планируются. |
6 |
|
2 |
AMD |
производитель процессоров |
|
5 |
|
2 |
AMD |
производитель процессоров |
Установка и драйверы |
8 |
|
3 |
ATA |
стандарт передачи данных |
А вот жесткий диск здесь с параллельным интерфейсом, поддержка
Serial `ATA` еще не задействована. |
15 |
|
3 |
ATA |
стандарт передачи данных |
Приятно, что мосты чипсета на плате прикрыты лишь игольчатыми
радиаторами, а комплектные шлейфы `ATA` и FDD разрезаны на полоски, стянуты
по всей длине в узкий пучок и упрятаны под экранирующую оплетку - эти вроде
бы мелочи, безусловно, влияют на температ |
4 |
|
4 |
BIOS |
базовая система ввода/вывода |
Процессор: Intel Pentium 4 3.6 ГГц (ядро Prescott, CPUID 0F41h) |
1 |
|
4 |
BIOS |
базовая система ввода/вывода |
В `BIOS` Setup можно увеличивать частоту FSB до 250 МГц с шагом
1 МГц, повышать напряжение на памяти и AGP до 2,9 и 1,8 В соответственно с
шагом 0,1 В, изменять напряжение на процессоре с 0,8 до 1,7 В с шагом 0,025
В, а также регулировать настройки таймин |
4 |
|
5 |
BIU |
шина |
эффективность алгоритма Hardware Prefetch не изменяется при
увеличении разгрузки Bus Interface Unit (`BIU`) процессора. |
2 |
|
5 |
BIU |
шина |
Тем не менее, работу в этом направлении вполне можно продолжать
- достигнув темсамым почти 100% эффективность утилизации шины
процессор-память (`BIU`),котораяуже достигнута в упомянутом выше ядре
Prescott. |
3 |
|
6 |
CD |
компакт-диск |
Как правило, в алгоритмах
есть коррекция ошибок нескольких уровней, иногда ошибка исправляется
автоматически, а иногда действия повторяются, как при считывании потрепанного
`CD` в CD-ROM (на очень медленной скорости подвешивая систему). |
11 |
|
6 |
CD |
компакт-диск |
Буклет WInXP и диск Recovery (все на японском, включая ОС,
выглядит очень забавно :)) |
13 |
|
7 |
CDMA |
стандарт передачи данных |
Чем так отличился набор
схем для работы с GSM (`CDMA`, UMTS, другое) от всем привычных Bluetooth,
WiFi? |
19 |
|
7 |
CDMA |
стандарт передачи данных |
В ближайшем будущем первые две аббревиатуры могут смениться на
GSM, `CDMA` или что-то еще. |
19 |
|
8 |
CPU |
процессор |
RightMark `CPU` Clock Utility (RMClock) версии 1. |
1 |
|
8 |
CPU |
процессор |
6800GT SLI - против 6800GT/RADEON X850 XT PE - почти все то же
самое, только лишь прирост от SLI выше (это понятно: чем слабее карта, тем
меньше ограничений от `CPU`, тем контрастнее результаты); а вот относительно
X850 превосходство чуть ниже, но все рав |
8 |
|
9 |
CPUID |
номер процессора |
Не прошло недели с момента публикации предыдущего материала на
тему технологий управления энергопотреблением современных процессоров, как в
распоряжении нашей тестовой лаборатории оказался процессор Intel Pentium 4, а
неделей позже - Intel Xeon с новой ре |
1 |
|
9 |
CPUID |
номер процессора |
Ассоциативность первого
уровня кэша данных равна четырем (а не восьми, как указано в дескрипторах
`CPUID`), ассоциативность второго уровня - восьми (т. |
3 |
|
10 |
DDR |
тип памяти |
ASUS K8V SE Deluxe |
12 |
|
10 |
DDR |
тип памяти |
Материнские платы: |
4 |
|
Словарь метафор был построен с использованием системы «Fine Style».
В систему была введена метафорическая модель
«Информационные технологии» и добавлены метафоры, выявленные в задании 4
настоящей курсовой работы.
Для ввода метафор использовалась следующая функция:
Рисунок 4. Форма ввода метафор.
Отчет формировался «от метафоры к термину». Система
формирует отчет в формате rtf.
Ниже приведена экранная форма формирования отчета и текст
отчета.
Рисунок 5. Форма формирования отчета.
Отчет имеет
следующий вид:
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ
"младший брат" - Celeron -
Процессор Celeron(1)
рождение и смерть ядер -
Ядро(1)
на экране метель
- Экран(1)
нога-подставка
- ТВ-тюнер(1)
нога у тюнера
- ТВ-тюнер(1)
коробка соврала
- ТВ-тюнер(1)
шляпка рукоятки
- Рукоятка джойстика(1)
рукоятка переплюнула
- Рукоятка джойстика(1)
крышечка перекочевала -
Рукоятка джойстика(1)
секретное оружие
- дисплей(1)
софта развелось
- программное
обеспечение(1)
принтер переваривает
- принтер(1)
принтер зажевал
- принтер(1)
продукты грешат
- поисковая программа(1)
занудно индексирует
- поисковая программа(1)
DDR видела -
Память DDR(1)
Материнка заявила
- Материнская плата(1)
компания решила нанести удар -
Компания(1)
Программное обеспечение -
«потрохи» - программное обеспечение(1)
Windows 98 имеет кучу обновлений -
Windows 98(1)
система заводится с пол-оборота -
операционная система(1)
антивирус ругается
- антивирус(1)
mirc - разрушительное
оружие - антивирус mirc(1)
Norton Internet
Security-монстр - Файрвол(1)
Соединяться шнурком
- кабель(1)
Дискеты имеют привычку -
дискета(1)
Дискеты умирают
- дискета(1)
Лингвистическая глыба
- Электронный словарь Lingvo(1)
Вклеить интерфейс
- Электронный словарь Lingvo(1)
Программа после недолгих раздумий -
Электронный словарь Lingvo(1)
Программа предложила услуги -
Электронный словарь Lingvo(1)
Битва кодировщиков
- Кодировщик(1)
Спамеры похоронят сервис -
Электронная почта(1)
Программа вылетает
- Электронная почта(1)
Компьютерное железо
- Аппаратное обеспечение(1)
Монитор - подопытный кролик -
Монитор(1)
на ринг выходит LaCie Elec-tron19Blue IV -
Монитор(1)
туша кинескопного собрата -
Монитор(1)
Матрица рядом не валялась -
Монитор(1)
Любовно настроенная мышь -
Мышь(1)
ОС греет душу
- операционная система(1)
ЭЛТ-монитор может похвастаться -
Монитор(1)
Родное разрешение матрицы -
Монитор(1)
Монитор - новейшая железка -
Монитор(1)
Процессор имеет 423 ноги -
Процессор(1)
Процессор смог драться
- Процессор(1)
Процессор обзавелся
- Процессор(1)
Процессоры трудятся
- Процессор(1)
Athlon 64
Clawhammer -Младший брат - Процессор(1) Процессор -
кувалда - Процессор(1) Память – пара
мозгов - Память(1) Шнурок с выходами
а-ля PS/2 - Кабель(1) |
Информационно – поисковый
терминологический тезаурус построен для терминов предметного указателя.
Тезаурус включает в себя следующие типы отношений:
1)
Лингвистические:
·
Аббревиатура;
·
Акроним;
·
Антоним;
·
Синоним;
·
Перевод;
2)
Экстралингвистические:
·
Класс-подкласс;
·
Род-вид;
·
Целое-часть;
Информационно-поисковый тезаурус приведен в следующей
таблице:
Таблица 22. Информационно-поисковый тезаурус.
№ |
Понятие-посылка |
Тип отношения |
Наименование
отношения |
Понятие -
результат |
1.
|
Instant Messenger 2 |
Лингвистическое |
Аббревиатура |
IM2 |
2.
|
opml |
Лингвистическое |
Аббревиатура |
Outline Processor
Markup Language |
3.
|
SMS |
Лингвистическое |
Аббревиатура |
Send Message
Service |
Синоним |
Текстовое сообщение |
|||
4.
|
RSS |
Лингвистическое |
Аббревиатура |
Really Simple Syndication |
5.
|
RSS-клиент |
Лингвистическое |
Синоним |
RSS-агрегатор |
RSS-ридер |
||||
Экстралингвистическое |
Род - вид |
FeedDemon1.11.03 |
||
Род - вид |
Opera 7.5x |
|||
Род - вид |
Abilon 2.5.1 |
|||
Род - вид |
Active-Refresh |
|||
6.
|
Windows |
Экстралингвистическое |
Класс – подкласс |
ОС |
Класс – подкласс |
Операционная система |
|||
7.
|
Антивирус |
Лингвистическое |
Антоним |
Вирус |
Экстралингвистическое |
Класс – подкласс |
AVP 5.0 |
||
8.
|
Администратор |
Лингвистическое |
Перевод |
system administrator |
9.
|
Апгрейд |
Лингвистическое |
Синоним |
Модернизация |
10.
|
Видео |
Экстралингвистическое |
Род - вид |
DVI |
11.
|
Видеоадаптер |
Экстралингвистическое |
Класс – подкласс |
VGA |
12.
|
Деинсталлятор |
Лингвистическое |
Антоним |
Инсталлятор |
Синоним |
Программа деинсталляции |
|||
Экстралингвистическое |
Класс – подкласс |
Ashampoo |
||
13.
|
Диск |
Лингвистическое |
Перевод |
Disc |
Экстралингвистическое |
Род - вид |
Винчестер |
||
Род - вид |
Дискета |
|||
Род - вид |
CD |
|||
Род - вид |
CD-R |
|||
Род - вид |
CD-RW |
|||
Род - вид |
DVD |
|||
Род - вид |
DVD-R |
|||
Род - вид |
DVD-RW |
|||
Род - вид |
Flop Disc |
|||
14.
|
Дискета |
Лингвистическое |
Синоним |
Гибкий диск |
Синоним |
НГМД |
|||
Перевод |
Flop |
|||
Перевод + аббревиатура |
FDD |
|||
15.
|
Винчестер |
Лингвистическое |
Синоним |
Жесткий диск |
Перевод |
Hard |
|||
Перевод + аббревиатура |
HDD |
|||
16.
|
Вычислительная техника |
Лингвистическое |
Перевод |
Computer science |
17.
|
Дисплей |
Лингвистическое |
Синоним |
Экран |
Синоним |
Кинескоп |
|||
18.
|
Игра |
Лингвистическое |
Перевод |
Game |
19.
|
Инсталляция |
Лингвистическое |
Синоним |
Установка |
Антоним |
Деинсталляция |
|||
Антоним |
Удаление |
|||
20.
|
Интернет |
Лингвистическое |
Перевод |
Internet |
Экстралингвистическое |
Целое-часть |
Сайт |
||
21.
|
Интернет-пейджер |
Экстралингвистическое |
Класс – подкласс |
ICQ |
Класс – подкласс |
Miranda |
|||
Класс – подкласс |
AIM |
|||
Класс – подкласс |
IRC |
|||
Род-вид |
Instant Messenger 2 |
|||
22.
|
Кодер |
Лингвистическое |
Антоним |
Декодер |
Синоним |
Кодировщик |
|||
23.
|
Компьютер |
Экстралингвистическое |
Класс – подкласс |
Ноутбук |
Класс – подкласс |
Персональный компьютер |
|||
Класс – подкласс |
Сервер |
|||
Целое-часть |
Процессор |
|||
Целое-часть |
Дисковод |
|||
Целое-часть |
Винчестер |
|||
Целое-часть |
Клавиатура |
|||
Целое-часть |
Мышь |
|||
Целое-часть |
Джойстик |
|||
Лингвистическое |
Перевод |
Computer |
||
Синоним |
Вычислительная машина |
|||
24.
|
Материнская плата |
Лингвистическое |
Перевод |
motherboard |
Экстралингвистическое |
Целое-часть |
Чипсет |
||
Целое-часть |
Кристалл |
|||
25.
|
Микросхема |
Лингвистическое |
Род-вид |
DDR |
Род-вид |
DDRII |
|||
26.
|
Монитор |
Лингвистическое |
Перевод |
Monitor |
Экстралингвистическое |
Целое - часть |
Матрица |
||
Целое - часть |
Дисплей |
|||
Класс – подкласс |
LCD - монитор |
|||
Класс – подкласс |
ЖК - монитор |
|||
27.
|
Память |
Лингвистическое |
Перевод |
memory |
Экстралингвистическое |
Род-вид |
SDRAM |
||
Род-вид |
ОП |
|||
Род-вид |
кэш |
|||
28.
|
ПК |
Лингвистическое |
Аббревиатура |
Персональный компьютер |
Синоним |
Вычислительная машина |
|||
Перевод |
PC |
|||
Перевод + аббревиатура |
Personal Computer |
|||
Экстралингвистическое |
Класс – подкласс |
Intel |
||
Класс – подкласс |
Macintosh |
|||
29.
|
Поисковый сервис |
Экстралингвистическое |
Род-вид |
Search Google |
Род-вид |
Britannica |
|||
Род-вид |
Microsoft KB |
|||
Род-вид |
Whols |
|||
Род-вид |
YahooStock |
|||
Род-вид |
MSDN |
|||
30.
|
Поисковая программа |
Лингвистическое |
Синоним |
Поисковик |
31.
|
Порт |
Экстралингвистическое |
Род - вид |
ИК |
Род - вид |
LPT |
|||
Род - вид |
USB |
|||
32.
|
Почтовый клиент |
Экстралингвистическое |
Класс – подкласс |
MS Outlook |
33.
|
Принтер |
Экстралингвистическое |
Класс – подкласс |
Samsung ML-1520 |
Целое-часть |
Картридж |
|||
34.
|
Программа |
Лингвистическое |
Синоним |
Приложение |
Перевод |
program |
|||
Экстралингвистическое |
Класс – подкласс |
Антивирус |
||
Класс – подкласс |
Файрволл |
|||
Класс – подкласс |
Утилита |
|||
35.
|
Программное обеспечение |
Лингвистическое |
Аббревиатура |
ПО |
36.
|
Процессор |
Лингвистическое |
Перевод |
processor |
Перевод + аббревиатура |
CPU |
|||
Экстралингвистическое |
Класс – подкласс |
Intel Pentium M
(Centrino) |
||
37.
|
Реестр |
Лингвистическое |
Перевод |
Register |
38.
|
ОС |
Лингвистическое |
Акроним |
Операционная система |
Перевод |
OS |
|||
Акроним + Перевод |
Operation System |
|||
Экстралингвистическое |
Род - вид |
Windows |
||
Род - вид |
Linux |
|||
Род - вид |
OS/2 |
|||
Род - вид |
Unix |
|||
39.
|
Сеть |
Экстралингвистическое |
Род - вид |
ЛВС |
40.
|
Сайт |
Экстралингвистическое |
Целое-часть |
Веб-страница |
41.
|
Сжатие |
Лингвистическое |
Синоним |
Компрессия |
Синоним |
Архивация |
|||
Антоним |
Декомпрессия |
|||
Антоним |
Разархивация |
|||
42.
|
Система |
Экстралингвистическое |
Класс – подкласс |
АСУ |
Класс – подкласс |
IPS |
|||
43.
|
Слот |
Лингвистическое |
Синоним |
Разъем |
44.
|
ТВ-тюнер |
Лингвистическое |
Синоним |
Каналоуловитель |
45.
|
Текстовый редактор |
Экстралингвистическое |
Род - вид |
MS Word |
Род - вид |
Lexicon |
|||
Род - вид |
Word Pad |
|||
46.
|
Файрвол |
Экстралингвистическое |
Класс – подкласс |
Norton Internet
Security 2004 |
47.
|
Частота |
Лингвистическое |
Перевод |
frequency |
48.
|
Шина |
Экстралингвистическое |
Класс – подкласс |
USB |
49.
|
Электронный словарь |
Экстралингвистическое |
Класс – подкласс |
Lingvo |
50.
|
Электронная почта |
Лингвистическое |
Синоним |
Email |
51.
|
ЭЛТ |
Лингвистическое |
Аббревиатура |
Электронно-лучевая трубка |
Перевод |
LCD |
В данном разделе
приводится описание общей технологии проведения исследования, программного
обеспечения, баз данных, "ручных" и автоматизированных процедур и
операций.
Следующая таблица
содержит перечень проведенных работ с описанием входящих в состав их процедур и
операций.
Таблица 23. Описание технологии проведения
исследования.
№ |
Название |
описание |
1.
|
Подготовка
материалов исследования |
|
1.1.
|
Выбор
журнала |
Для
исследования был выбран журнал «iXBT.com». |
1.2. |
Разбиение
текста журнала на фрагменты |
Журнал
был разбит на фрагменты по статьям. Часть статей была взята с веб - ресурса,
другая часть – с диска,идущего в комплекте с журналом. |
2.
|
Проведение
частотного анализа текста |
Для
проведения частотного анализа использовалась программа Interlex. Данные программы Interlex
были перенесены в EXEL для последующей
обработки и построения графиков. |
3.
|
Составление
предметного и именного указателей |
Работа
выполнялась вручную на основе словников, построенных программой Interlex. |
4.
|
Индексирование
фрагментов ЕЯ описания ПО |
Работа
выполнялась вручную на основе словников, построенных программой Interlex, предметных и именных указателей. |
5.
|
Анализ
метафор в тексте журнала |
Работа
выполнялась вручную. Для толкования прямых и переносных значений метафор
использовались словари и энциклопедии веб-ресурса www.yandex.ru |
6.
|
Составление
грамматического словаря |
Работа
выполнялась с использованием программы Lemmalex.
Данные, выданные Lemmalex, были перенесены в
EXEL. |
7.
|
Составление
конкорданса |
Сначала
был составлен вручную словарь словосочетаний. Построение
конкорданса осуществлялось с использованием программы Lemmalex. Данные, выданные Lemmalex,
были перенесены в EXEL. |
8.
|
Составление
словаря терминов |
Работа
выполнялась вручную. Для толкования терминов предметной области
использовались словари и энциклопедии веб-ресурса www.yandex.ru. При
составлении словаря использовались предметные указатели и конкорданс,
разработанные ранее. Словарь
терминов был перенесен в БД ACCESS. |
В ходе исследовании текста
компьютерного журнала "iXBT.com"
(№2(29), февраль 2005
г) было выявлены следующие особенности:
§ При вычислении
основных частотных характеристик и построении графиков ступенчатой функции
видно, что практические исследования текста практически полностью подтверждают
закон Мандельброта.
§ Наиболее часто слова
попадают в частотный интервал 1..2.
§ Наиболее
встречающимися словоформами в текстах являются предлоги, а также следующие
слова: «частота» и «процессор».
§ В текстах данного
естественно-языкового описания рассматриваемой ПО часто используются метафоры
различных типов.
1)
А.В.Прохоров.
"Система автоматизированного анализа естественно-языкового описания
предметной области "ИНТЕРЛЕКС". Описание системы".
2)
Ю.Н.Филиппович.
Методические указания к выполнению курсовой работы по дисциплине
"Интеграция программного обеспечения АСОИУ" для студентов групп ИУ5 -
91, 92, 93, 94.
3)
http://ivb.unact.ru/glossary/index-a.html
4)
http://www.computermaster.ru/articles/slovar.html#b
5)
http://dmoz.ru/World/Russian/