3. Возникла необходимость выделения терминов из текста: В Библиотечном деле В Обработке документов В Информационном поиске Для автоматического формирования тезаурусов
4. Основания для внесения словосочетания в словарь - высокая частотность - высокая степень ассоциации - синонимичность лексической единице - значительная многозначность компонентов ( состояние дел, повестка дня );
5. ( Браславский и др., 2006) 1.Исходная информация: 1)Статистика встречаемости пар и отдельных слов в тексте 2)некоторые предположения о структуре двусловных терминов
6. Основные методы извлечения двухсловных терминов: прямой подсчет количества пар ( freq ); t-тест ; χ2-тест ; отношение функций правдоподобия ( LR ).
8. Данные Олифер Н.А., Олифер В.Г. Сетевые операционные системы. СПб.: Питер, 2005. 2. Щедровицкий Г.П. Философия. Наука. Методология. М.: ШКП, 1989.
9. Примеры извлеченных терминов. Первые 30 (Щедровицкий) 54 сложный процесс 56 онтологическая картина 59 научное исследование 64 целый ряд 67 методологическая работа 67 всякий случай 72 научный предмет 73 математическое отношение 74 картина мира 78 научное мышление 81 суть дела 85 одна сторона 89 знаковая форма 227 точка зрения 254 процесс мышления Freq Двусловие 35 меньшая мера 36 научн ое знание 37 мыслительный процесс 38 исходн ое знание 39 теория познания 40 исходный материал 41 теория мышления 42 эмпирический материал 44 процесс соотнесения 46 формальн ая логика 46 форма организации 47 един ая картина 48 краевой процесс 50 методологическ ое мышление 52 с ия пора Freq Двусловие
10. Результаты: Результаты экспертной оценки, «Сетевые операционные системы» Результаты экспертной оценки, «Философия. Методология. Наука»
11. Проблема: -Устойчивые словосочетания общей лексики («суть дела») Предложенное решение: Использование дополнительного «контрастного» корпуса ( web )
12. 2. (Браславский и др. 2007) Методы ранжирования терминов-кандидатов Freq – частота встречаемости в тексте ; iFreq – частота встречаемости в интернете ; TF*IDF (применительно к словосочетанию) ; Freq/iFreq – худшие кандидаты из iFreq вычеркиваются из списка Freq ; coherence – отражает взаимосвязь терминов-кандидатов из списка.
13. coherence iFreq(term 1 ) и iFreq(term 2 ) – кол-во документов в интернете, содержащих term 1 и term 2 соответственно. iFreq(term 1 ∩ term 2 ) – кол-во документов в интернете, содержащих одновременно оба термина. где
14. Данные 11 719 180 048 ФНМ Щедровицкий Г.П. Философия. Наука. Методология. М, 1989. 30 245 256 255 ВОГиС «Информационный вестник ВОГиС», http :// www . bionet . nsc .ru/ vogis СОС ID 9 391 99 337 Олифер Н.А., Олифер В.Г. Сетевые операционные системы. СПб., 2005. Пар Слов
17. Top-15 списков Freq и coherence ( ФНМ ) онтологическая картина сложный процесс методологическое мышление научное исследование тип мышления онтологическая картина особый род решение задачи организм деятельности целый ряд краевое знание краевой процесс типы знания методологическая работа подобные треугольники научный предмет познавательное действие математическое отношение процесс соотнесения картина мира предмет изучения научное мышление краевой процесс суть дела числовое значение знаковая форма исходное знание точка зрения словесно-алгебраическое выражение процесс мышления coherence Freq
19. Top-15 списков Freq и coherence ( ВОГиС ) дифференциация популяций боковая петля частоты аллелей число повторов поток генов микросателлитный локус фосфодиэфирная связь подавление экспрессии генетическая дифференциация популяция человека генное разнообразие окружающая среда искусственная рибонуклеаза точка зрения химические рибонуклеазы этническая группа микросателлитная изменчивость стволовая клетка одноцепочечный участок фосфодиэфирная связь специфичность расщепления генетическое разнообразие микросателлитный локус наследственная болезнь подразделенная популяция естественный отбор случайный инбридинг настоящее время индекс Кроу экспрессия генов coherence Freq
20. -Ухудшение на наборах СОС и ФНМ -Существенное улучшение на наборе ВОГиС. Причина: -происхождение данных - Особенности терминологии соответствующих предметных областей. Пример (ФНМ): точка зрения, решение задачи, постановка вопроса, новая проблема. -несбалансированность web как корпуса текстов Разбор результатов
21. Выводы: Использование Веба в качестве «контрастного корпуса» при извлечении терминов подходит не для любой предметной области . Метод скорее всего будет работать для областей со специфичной терминологией . «Затратность» метода coherence в случае ВОГиС оправдывается: в первую сотню попал 71 термин из 75 (по строгой экспертной оценке), содержавшихся в списке freq-150.
22. 3. (Добров и др., 2003) Терминологические словосочетания произвольной длинны
24. Метод Terms-- Идея: в тексте слова термина встречаются рядом чаще, чем в разбивку -Склейка пары слов , если они часто появляются как непосредственные соседи -Пересчет таблиц
25. TERMS++ - TERMS + отсечения имён и географических названий TERMS+THES – TREMS++, в качестве начальных словарей – термины РуТез
26. С- Value a – кандидат в термины, |a| - длина словосочетания, измеряемая в количестве слов, freq(a) – частотность a, T a – множество словосочетаний, которые содержат a, P(T a ) – количество словосочетаний, содержащих a.
28. Постановка задачи Многие термины-словосочетания являются устойчивыми словосочетаниями Устойчивое словосочетание- словосочетание, значение которого не равно сумме значений отдельных слов Есть какая-то особенность Альтернативная служба – альтернативная гражданская служба – служба в армии Зарплатная карта – пластиковая карта
29. Постановка задачи-2 Дано: словосочетание W1W2 Запрос к поисковой системе Сбор текстов выдачи Анализ наиболее характерных слов в текстах выдачи (частотность в выдаче по отношению к частотности в контрастной коллекции)
30. Пример Запросы к Университетской системе Россия (УИС РОССИЯ) Правая колонка – информер – наиболее характерные слова выдачи Два запроса: Альтернативная служба Пластиковая карта