智能Web算法
第一章 什么是智能Web?
link analysis 链接分析(Google搜索)
collective intelligence 集体智能(Wikipedia)
构成智能应用的三个基本要素: 内容聚合 aggregated content (Raw Data)、algorithms 算法 (Thinking)、reference structure 参考结构(Knowledge)
mashup 混搭:从外部数据源获得内容,创造出全新的服务
crawler 爬虫:访问一份URL列表,跟踪其中的每个链接,不断重复,重复深度称为爬行深度depth of crawling
screen scraping 信息抓取:从HTML网页中获取信息
website syndication 网站聚合:RSS, Atom
Representational state transfer RESTFUL服务:将每个服务映射成一个URL
第二章 用Lucene实现搜索
information retrieval 信息获取(或简单搜索)
outlink外链
user click analysis用户点击分析
精确度precision和查全率recall
第三章 推荐系统
协同过滤collaborative filtering和基于内容content-based
第四章 聚类系统
聚类就是将类似的事物分组放在一起。聚类没有任何先验知识,在机器学习中属于无监督学习(unsupervised learning)。
评论