YaCy

YaCy

YaCy是一个基于P2P原理的免费分布式搜索引擎。其核心是用Java编写,该程序分布在数百台计算机。每个YaCy点在互联网上自主抓取,分析和索引到的网页,并将索引结果储存在一个公共数据库(所谓的指数),其他YaCy点也使用P2P原理来共享。

YaCy网络相较于半分布式搜索引擎,它具有分布式体系结构。所有的YaCy点都是平等的,不存在中央服务器。它是基于一个爬行模式或作为本地代理服务器在用户电脑上运行,索引用户访问的网页。它拥有有几个机制来保护用户隐私。

YaCy搜索引擎是基于以下四个要素:
1、爬虫:一个搜索机器人,它可以抓取网页并分析其内容。
2、索引:创建一个Reverse Word Index (RWI),即每一个字母都来自于RWI,里面包含相关的URL和排名信息列表。字母都保存在字母哈希表。
3、搜索和管理界面:一个本地HTTP与servlet的servlet引擎提供的网络接口。
4、数据存储:用于存储分布式哈希表的Word Index索引数据库。

发表评论
手机访问当前页面