ݺߣ

ݺߣShare a Scribd company logo
Извлечение терминологических словосочетаний из текстов
Используемые статьи: -СРАВНЕНИЕ ЧЕТЫРЕХ МЕТОДОВ АВТОМАТИЧЕСКОГО ИЗВЛЕЧЕНИЯ ДВУХСЛОВНЫХ ТЕРМИНОВ ИЗ ТЕКСТА(2006) П. Браславский  Е. Соколов -АВТОМАТИЧЕСКОЕ ИЗВЛЕЧЕНИЕ ТЕРМИНОЛОГИИ С ИСПОЛЬЗОВАНИЕМ ПОИСКОВЫХ МАШИН ИНТЕРНЕТА(2007) П. Браславский  Е. Соколов - Формирование базы терминологических словосочетаний по текстам предметной области  ♣  © Б.В.Добров  Н.В.Лукашевич  С.В.Сыромятников
Возникла необходимость выделения терминов из текста: В Библиотечном деле В Обработке документов В Информационном поиске Для автоматического формирования  тезаурусов
Основания для внесения словосочетания в словарь -   высокая частотность -     высокая степень ассоциации  -    синонимичность лексической единице  -   значительная многозначность компонентов ( состояние дел, повестка дня );
( Браславский и др., 2006) 1.Исходная информация: 1)Статистика встречаемости пар и отдельных слов в тексте 2)некоторые предположения о структуре двусловных терминов
Основные методы извлечения двухсловных терминов: прямой подсчет количества пар ( freq ); t-тест ; χ2-тест ; отношение функций правдоподобия ( LR ).
Морфологические шаблоны-фильтры [ Прил. + Сущ.]  файловая система [Прич. + Сущ.]  вытесняющая многозадачность [Сущ. + Сущ., Род.п.]  менеджер памяти [Сущ. + Сущ., Твор.п.]  управление ресурсами [Сущ. + ‘-’ + Сущ.]  файл-сервер
Данные Олифер Н.А., Олифер В.Г. Сетевые операционные системы. СПб.: Питер, 2005. 2. Щедровицкий Г.П. Философия. Наука. Методология. М.: ШКП, 1989.
Примеры извлеченных терминов. Первые 30 (Щедровицкий) 54 сложный процесс 56 онтологическая картина 59 научное исследование 64 целый ряд 67 методологическая работа 67 всякий случай 72 научный предмет 73 математическое отношение 74 картина мира 78 научное мышление 81 суть дела 85 одна сторона 89 знаковая форма 227 точка зрения 254 процесс мышления Freq Двусловие 35 меньшая мера 36 научн ое  знание 37 мыслительный процесс 38 исходн ое  знание 39 теория познания 40 исходный материал 41 теория мышления 42 эмпирический материал 44 процесс соотнесения 46 формальн ая  логика 46 форма организации 47 един ая  картина 48 краевой процесс 50 методологическ ое  мышление 52 с ия  пора Freq Двусловие
Результаты: Результаты экспертной оценки, «Сетевые операционные системы» Результаты экспертной оценки, «Философия. Методология. Наука»
Проблема: -Устойчивые словосочетания общей лексики («суть дела») Предложенное   решение: Использование дополнительного «контрастного» корпуса ( web )
2. (Браславский и др. 2007) Методы ранжирования терминов-кандидатов Freq  –  частота встречаемости в тексте ; iFreq  – частота встречаемости в интернете  ; TF*IDF  (применительно к словосочетанию)  ; Freq/iFreq  – худшие кандидаты из  iFreq  вычеркиваются из списка  Freq ; coherence  –  отражает взаимосвязь терминов-кандидатов из списка.
coherence iFreq(term 1 )   и  iFreq(term 2 )   –   кол-во документов   в интернете, содержащих  term 1   и  term 2  соответственно. iFreq(term 1   ∩   term 2 ) –   кол-во документов в интернете,    содержащих одновременно оба термина. где
Данные 11 719 180 048 ФНМ Щедровицкий Г.П.  Философия. Наука. Методология. М, 1989. 30 245 256 255 ВОГиС «Информационный вестник ВОГиС»,  http :// www . bionet . nsc .ru/ vogis СОС ID 9 391 99 337 Олифер Н.А., Олифер В.Г.  Сетевые операционные системы. СПб., 2005. Пар Слов
Результаты оценки  top -100 ( СОС )
Результаты оценки  top -100 ( ФМН )
Top-15  списков  Freq  и  coherence ( ФНМ ) онтологическая картина сложный процесс методологическое мышление научное исследование тип мышления онтологическая картина особый род решение задачи организм деятельности целый ряд краевое знание краевой процесс типы знания методологическая работа подобные треугольники научный предмет познавательное действие математическое отношение процесс соотнесения картина мира предмет изучения научное мышление краевой процесс суть дела числовое значение знаковая форма исходное знание точка зрения словесно-алгебраическое выражение процесс мышления coherence Freq
Результаты оценки  top -100 ( ВОГиС )
Top-15  списков  Freq  и  coherence ( ВОГиС ) дифференциация популяций боковая петля частоты аллелей число повторов поток генов микросателлитный локус фосфодиэфирная связь подавление экспрессии генетическая дифференциация популяция человека генное разнообразие окружающая среда искусственная рибонуклеаза точка зрения химические рибонуклеазы этническая группа микросателлитная изменчивость стволовая клетка одноцепочечный участок фосфодиэфирная связь специфичность расщепления генетическое разнообразие микросателлитный локус наследственная болезнь подразделенная популяция естественный отбор случайный инбридинг настоящее время индекс Кроу экспрессия генов coherence Freq
-Ухудшение на наборах  СОС и ФНМ -Существенное улучшение на наборе  ВОГиС. Причина: -происхождение данных -  Особенности терминологии соответствующих предметных областей. Пример (ФНМ):  точка зрения, решение задачи, постановка вопроса, новая проблема. -несбалансированность  web  как корпуса текстов Разбор результатов
Выводы: Использование Веба в качестве «контрастного корпуса» при извлечении терминов подходит не для   любой предметной области . Метод скорее всего будет работать для областей со специфичной терминологией . «Затратность» метода  coherence  в случае ВОГиС оправдывается: в первую сотню попал 71 термин из 75 (по строгой экспертной оценке), содержавшихся в списке freq-150.
3. (Добров и др., 2003) Терминологические словосочетания произвольной длинны
Основные методы -C-VALUE -TERMS- - -TERMS++ -TREMS+THES
Метод  Terms-- Идея: в тексте слова термина встречаются рядом чаще, чем в разбивку -Склейка пары слов , если они часто появляются как непосредственные соседи  -Пересчет таблиц
TERMS++   -  TERMS  + отсечения имён   и географических названий TERMS+THES   –   TREMS++,  в качестве начальных словарей – термины РуТез
С- Value a – кандидат в термины, |a| - длина словосочетания, измеряемая в количестве слов, freq(a) – частотность a, T a  – множество словосочетаний, которые содержат a, P(T a ) – количество словосочетаний, содержащих a.
Результат для «Длинных» словосочетаний
Постановка задачи Многие термины-словосочетания являются устойчивыми словосочетаниями Устойчивое словосочетание- словосочетание, значение которого не равно сумме значений отдельных слов Есть какая-то особенность  Альтернативная служба – альтернативная гражданская служба – служба в армии Зарплатная карта – пластиковая карта
Постановка задачи-2 Дано: словосочетание  W1W2 Запрос к поисковой системе Сбор текстов выдачи Анализ наиболее характерных слов в текстах выдачи (частотность в выдаче по отношению к частотности в контрастной коллекции)
Пример Запросы к Университетской системе Россия (УИС РОССИЯ) Правая колонка – информер – наиболее характерные слова выдачи Два запроса: Альтернативная служба Пластиковая карта
Это Последний Слайд

More Related Content

Извлечение терминологических словосочетаний из текстов

  • 2. Используемые статьи: -СРАВНЕНИЕ ЧЕТЫРЕХ МЕТОДОВ АВТОМАТИЧЕСКОГО ИЗВЛЕЧЕНИЯ ДВУХСЛОВНЫХ ТЕРМИНОВ ИЗ ТЕКСТА(2006) П. Браславский Е. Соколов -АВТОМАТИЧЕСКОЕ ИЗВЛЕЧЕНИЕ ТЕРМИНОЛОГИИ С ИСПОЛЬЗОВАНИЕМ ПОИСКОВЫХ МАШИН ИНТЕРНЕТА(2007) П. Браславский Е. Соколов - Формирование базы терминологических словосочетаний по текстам предметной области ♣ © Б.В.Добров Н.В.Лукашевич С.В.Сыромятников
  • 3. Возникла необходимость выделения терминов из текста: В Библиотечном деле В Обработке документов В Информационном поиске Для автоматического формирования тезаурусов
  • 4. Основания для внесения словосочетания в словарь - высокая частотность - высокая степень ассоциации - синонимичность лексической единице - значительная многозначность компонентов ( состояние дел, повестка дня );
  • 5. ( Браславский и др., 2006) 1.Исходная информация: 1)Статистика встречаемости пар и отдельных слов в тексте 2)некоторые предположения о структуре двусловных терминов
  • 6. Основные методы извлечения двухсловных терминов: прямой подсчет количества пар ( freq ); t-тест ; χ2-тест ; отношение функций правдоподобия ( LR ).
  • 7. Морфологические шаблоны-фильтры [ Прил. + Сущ.] файловая система [Прич. + Сущ.] вытесняющая многозадачность [Сущ. + Сущ., Род.п.] менеджер памяти [Сущ. + Сущ., Твор.п.] управление ресурсами [Сущ. + ‘-’ + Сущ.] файл-сервер
  • 8. Данные Олифер Н.А., Олифер В.Г. Сетевые операционные системы. СПб.: Питер, 2005. 2. Щедровицкий Г.П. Философия. Наука. Методология. М.: ШКП, 1989.
  • 9. Примеры извлеченных терминов. Первые 30 (Щедровицкий) 54 сложный процесс 56 онтологическая картина 59 научное исследование 64 целый ряд 67 методологическая работа 67 всякий случай 72 научный предмет 73 математическое отношение 74 картина мира 78 научное мышление 81 суть дела 85 одна сторона 89 знаковая форма 227 точка зрения 254 процесс мышления Freq Двусловие 35 меньшая мера 36 научн ое знание 37 мыслительный процесс 38 исходн ое знание 39 теория познания 40 исходный материал 41 теория мышления 42 эмпирический материал 44 процесс соотнесения 46 формальн ая логика 46 форма организации 47 един ая картина 48 краевой процесс 50 методологическ ое мышление 52 с ия пора Freq Двусловие
  • 10. Результаты: Результаты экспертной оценки, «Сетевые операционные системы» Результаты экспертной оценки, «Философия. Методология. Наука»
  • 11. Проблема: -Устойчивые словосочетания общей лексики («суть дела») Предложенное решение: Использование дополнительного «контрастного» корпуса ( web )
  • 12. 2. (Браславский и др. 2007) Методы ранжирования терминов-кандидатов Freq – частота встречаемости в тексте ; iFreq – частота встречаемости в интернете ; TF*IDF (применительно к словосочетанию) ; Freq/iFreq – худшие кандидаты из iFreq вычеркиваются из списка Freq ; coherence – отражает взаимосвязь терминов-кандидатов из списка.
  • 13. coherence iFreq(term 1 ) и iFreq(term 2 ) – кол-во документов в интернете, содержащих term 1 и term 2 соответственно. iFreq(term 1 ∩ term 2 ) – кол-во документов в интернете, содержащих одновременно оба термина. где
  • 14. Данные 11 719 180 048 ФНМ Щедровицкий Г.П. Философия. Наука. Методология. М, 1989. 30 245 256 255 ВОГиС «Информационный вестник ВОГиС», http :// www . bionet . nsc .ru/ vogis СОС ID 9 391 99 337 Олифер Н.А., Олифер В.Г. Сетевые операционные системы. СПб., 2005. Пар Слов
  • 15. Результаты оценки top -100 ( СОС )
  • 16. Результаты оценки top -100 ( ФМН )
  • 17. Top-15 списков Freq и coherence ( ФНМ ) онтологическая картина сложный процесс методологическое мышление научное исследование тип мышления онтологическая картина особый род решение задачи организм деятельности целый ряд краевое знание краевой процесс типы знания методологическая работа подобные треугольники научный предмет познавательное действие математическое отношение процесс соотнесения картина мира предмет изучения научное мышление краевой процесс суть дела числовое значение знаковая форма исходное знание точка зрения словесно-алгебраическое выражение процесс мышления coherence Freq
  • 18. Результаты оценки top -100 ( ВОГиС )
  • 19. Top-15 списков Freq и coherence ( ВОГиС ) дифференциация популяций боковая петля частоты аллелей число повторов поток генов микросателлитный локус фосфодиэфирная связь подавление экспрессии генетическая дифференциация популяция человека генное разнообразие окружающая среда искусственная рибонуклеаза точка зрения химические рибонуклеазы этническая группа микросателлитная изменчивость стволовая клетка одноцепочечный участок фосфодиэфирная связь специфичность расщепления генетическое разнообразие микросателлитный локус наследственная болезнь подразделенная популяция естественный отбор случайный инбридинг настоящее время индекс Кроу экспрессия генов coherence Freq
  • 20. -Ухудшение на наборах СОС и ФНМ -Существенное улучшение на наборе ВОГиС. Причина: -происхождение данных - Особенности терминологии соответствующих предметных областей. Пример (ФНМ): точка зрения, решение задачи, постановка вопроса, новая проблема. -несбалансированность web как корпуса текстов Разбор результатов
  • 21. Выводы: Использование Веба в качестве «контрастного корпуса» при извлечении терминов подходит не для любой предметной области . Метод скорее всего будет работать для областей со специфичной терминологией . «Затратность» метода coherence в случае ВОГиС оправдывается: в первую сотню попал 71 термин из 75 (по строгой экспертной оценке), содержавшихся в списке freq-150.
  • 22. 3. (Добров и др., 2003) Терминологические словосочетания произвольной длинны
  • 23. Основные методы -C-VALUE -TERMS- - -TERMS++ -TREMS+THES
  • 24. Метод Terms-- Идея: в тексте слова термина встречаются рядом чаще, чем в разбивку -Склейка пары слов , если они часто появляются как непосредственные соседи -Пересчет таблиц
  • 25. TERMS++ - TERMS + отсечения имён и географических названий TERMS+THES – TREMS++, в качестве начальных словарей – термины РуТез
  • 26. С- Value a – кандидат в термины, |a| - длина словосочетания, измеряемая в количестве слов, freq(a) – частотность a, T a – множество словосочетаний, которые содержат a, P(T a ) – количество словосочетаний, содержащих a.
  • 27. Результат для «Длинных» словосочетаний
  • 28. Постановка задачи Многие термины-словосочетания являются устойчивыми словосочетаниями Устойчивое словосочетание- словосочетание, значение которого не равно сумме значений отдельных слов Есть какая-то особенность Альтернативная служба – альтернативная гражданская служба – служба в армии Зарплатная карта – пластиковая карта
  • 29. Постановка задачи-2 Дано: словосочетание W1W2 Запрос к поисковой системе Сбор текстов выдачи Анализ наиболее характерных слов в текстах выдачи (частотность в выдаче по отношению к частотности в контрастной коллекции)
  • 30. Пример Запросы к Университетской системе Россия (УИС РОССИЯ) Правая колонка – информер – наиболее характерные слова выдачи Два запроса: Альтернативная служба Пластиковая карта
  • 31.
  • 32.