狠狠撸

狠狠撸Share a Scribd company logo
ELasticsearch
ElasticSearch 介绍
? 构建在 Apache Lucene 之上的的搜索引擎服务,开源( Apache2 协议)
? 分布式索引,分布式搜索,自动负载均衡
? 海量数据实时索引、实时分析
? 高可靠性,开源社区比较活跃
? JSON 格式的文档型数据
? 并非是只一个全文检索系统,正蜕变为一个完整的数据分析平台
ElasticSearch 典型用户
? Github 在 2013 年 1 月升级了他们的代码搜索, Solr->Elasticsearch
? 20TB 的数据, 13 亿的文件, 1300 亿行的代码
? 26 个索引存储节点和 8 个客户端节点(负责处理搜索请求)
Elasticsearch 与关系数据库对比
Relational DB Databases Tables Rows Columns
Elasticsearch Indices Types Documents Fields
Elasticsearch 初步探索
Elasticsearch
颗粒度问题
? 最难的问题 . 颗粒度的大小很难把握
? 颗粒度越小歧义越高 , 歧义多召回率高
? 颗粒度越大 , 准确率越低 , 召回率低
? 系统不同需要的平衡点不同
? Example: 中国银行知春路分行
? NLP 语法分析 : 中国银行 / 知春路分行
? 搜索 :[ 中国 / 银行 ][ 中国银行 ][ 知春路 / 分行 ][ 知春路分行 ]
一些有趣的 case
? 他说的确实在理
? 结婚的和尚未结婚的
? 上海大学城书店
? 北京大学生前来应聘
? 学习近平和李克强将成为一种风尚
? 发展中国家庭养猪事业
? 门把手坏了 , 门把手夹了
? 两毛五一斤 . 一斤八两
? 一次性交多少钱
ElasticSearch + Logstash + Kibana 实时日志收集
、查询和分析系统
? Logstash 是一个完全开源的工具,可以对你的日志进行收集、分析,并
将其存储供以后使用。
? kibana 是一个功能强大的 elasticsearch 数据显示客户端,最新版的
kibana3 是纯 html+js 客户端,可以很方便的部署到 Apache 、 Nginx 等
Http 服务器。
ELK 日志分析与监控应用场景
? 根据关键字查询日志详情
? 监控系统的运行状况
? 统计分析,比如接口的调用次数、执行时间、成功率等
? 异常数据自动触发消息通知
? 基于日志的数据挖掘
splunk
功能强大的日志管理工具
可以用多种方式来添加日志
生产图形化报表
最厉害的是它的搜索功能 - 被称为“ Google for IT”
个人永久免费——每天最大索引量 500MB
ELK 架构模式
Elasticsearch
添加数据

More Related Content

Elasticsearch

Editor's Notes

  • #3: 简单介绍 ElasticSearch 是开源搜索平台领域的一个新成员。 ElasticSearch(简称 ES) 是一个基于 Lucene 构建的开源,分布式,RESTful 搜索引擎。 设计用于云计算中,能够达到搜索实时、稳定、可靠和快速,并且安装使用方便。 支持通过 HTTP 请求,使用 JSON 进行数据索引。 特点优势 (1)Open Source(开源) (2)Apache Lucene(基于 Lucene) (3)Schema Free(模式自由) (4)Document Oriented(面向文档型的设计) (5)Real Time Data & Analytics(实时索引数据) (6)Distributed(分布式) (7)High Availability(高可靠性) (8)其他特性:RESTful API;JSON format;multi-tenancy;full text search;conflict management;per-operation persistence GitHub searches 20TB of data using Elasticsearch, including 1.3 billion files and 130 billion lines of code.
  • #13: 工作流程就是 logstash agent 监控并过滤日志,将过滤后的日志内容发给redis(这里的redis只处理队列不做存储),logstash index将日志收集在一起交给 全文搜索服务ElasticSearch 可以用ElasticSearch进行自定义搜索 通过Kibana 来结合 自定义搜索进行页面展示