Soliton

智能Web算法

第一章 什么是智能Web? 

  • link analysis 链接分析(Google搜索)

  • collective intelligence 集体智能(Wikipedia)

  • 构成智能应用的三个基本要素: 内容聚合 aggregated content (Raw Data)、algorithms 算法 (Thinking)、reference structure 参考结构(Knowledge)

  • mashup 混搭:从外部数据源获得内容,创造出全新的服务

  • crawler 爬虫:访问一份URL列表,跟踪其中的每个链接,不断重复,重复深度称为爬行深度depth of crawling

  • screen scraping 信息抓取:从HTML网页中获取信息

  • website syndication 网站聚合:RSS, Atom

  • Representational state transfer RESTFUL服务:将每个服务映射成一个URL

第二章 用Lucene实现搜索

  • information retrieval 信息获取(或简单搜索)

  • outlink外链

  • user click analysis用户点击分析

  • 精确度precision和查全率recall

第三章 推荐系统 

  • 协同过滤collaborative filtering和基于内容content-based

第四章 聚类系统 

  • 聚类就是将类似的事物分组放在一起。聚类没有任何先验知识,在机器学习中属于无监督学习(unsupervised learning)。

评论

热度(1)