前言:

  • 正在臺灣大學修學陳建錦老師的「資料檢索與文字探勘導論」(Information Retrieval and Text Mining)這門課,又恰巧有大學同學在中科院大學修王斌老師的「信息檢索導論」,而王斌老師正好是中文版教材《信息檢索導論》的翻譯者,於是便萌發整理學術資源的想法,供往後翻閱。
  • 我會把部分相關人物或機構的網址附上,方便直接訪問。

國際著名機構和代表人物:

  • 美國康奈爾大學Salton(1927 - 1995):IR領域的奠基者,也因對向量空間模型(VSM)的貢獻( In this model, both documents and queries are represented as vectors of term counts)而被世人熟知,人稱「the Father of Information Retrieval」。
  • 英國劍橋大學Spark Jones(1935 - 2007):NLP和IR的傑出先驅,同時也是概率檢索模型Probabilistic model of retrieval)的提出者之一。我們現在用的IDF term weighting就是她的貢獻之一。
  • 微軟英國劍橋研究院Stephen Robertson:概率檢索模型的倡導者之一,並且開發了OKAPI檢索系統(期中考試我沒答上什麼是OKapi BM25>_<)。
  • 美國UMass CIIR W.B. Crofit:基於統計語言建模IR模型的提出者,並和CMU共同開發了Lemur工具(搜索引擎、開源的哦)。
  • 英國Glasgow大學C. J. van Rijsbergen:信息檢索邏輯推理學派的提出者,現在試圖用量子理論解決IR問題。
  • 微軟研究院Susan Dumais:隱形語義索引LSI的提出者(大佬的主頁詮釋了什麼叫著作等身d=====( ̄▽ ̄*)b厲害)。
  • 德國Duisburg-Essen大學Norbert Fuhr:信息檢索和資料庫方面的大牛,也是互動式檢索(Interactive Retrieval)的重要人物。
  • 美國羅格斯新澤西州立大學的nicholas J. Belkin:人與信息系統交互(Interaction between humans and information retrieval systems)的重要貢獻者。
  • 另外,著名的研究機構還有:CMU、UIUC、微軟研究院、IBM研究院、Google研究院...

活躍的華裔學者及國內相關研究機構:

  • 加拿大蒙特利爾大學聶建雲:跨語言檢索、IR模型。
  • 美國UIUC翟成祥:IR模型、主題模型(Topic Model),另外,翟博士在Cousera上有開IR課。
  • 美國CMU楊頤明:文本分類領域最著名的學者之一。
  • Google臺灣簡立峯:號稱「中文檢索第一人」,現任Google臺灣總經理。(臺大資管的直系學長>_<)
  • 國內相關研究機構:北京大學、清華大學、復旦大學、哈爾濱大學、上海交通大學、國科大、中科院計算所..

重要會議:

  • SIGIR、ACL、WWW、SIGKDD、WSDM、ICML
  • CIKM、EMNLP、COLING
  • TREC、NTCIR評測會議
  • ECIR、AIRS
  • 全國信息檢索學術會議(1年一屆)
  • 全國計算語言學聯合會議(2年一屆)
  • ACM SIGIR Conference:IR領域的最重要會議,起始於1978年,2014年是第37屆。(SIGIR:Special Interest Group on Information Retrieval特定興趣組、ACM:美國計算機學會)

IR及相關研究領域重要會議

重要期刊:

  • ACM Transactions on Information Systems(TOIS)
  • ACM Transactions on Asian Language Information Processing (TALIP)
  • Information Processing & Management(IP&M)
  • Information Retrieval
  • JASIST (美國情報學會會刊)
  • 中文信息學報
  • 計算機學報/軟體學報/計算機研究與發展

IR領域的工具:

實驗平臺:

  • SMART:向量空間模型工具, C編寫。
  • Lemur、Indri:包含各種IR模型的實驗平臺,C++,可以直接對TREC語料進行處理,CMU&Umass聯合開發。
  • Terrier:格拉斯哥大學開發的IR實驗平臺,除其他IR模型外,還包含該組倡導的DFR模型。
  • Weka:數據挖掘工具,Java編寫。

開發平臺:

  • Lucene:檢索工具,Java版是維護版本,存在其他各種版本,主要是向量空間模型。
  • Sphinx:C++檢索工具,實現了BM25概率模型,和MySQL集成較好,據說不好定製。
  • Xapian: C++檢索工具,實現了BM25概率模型,據說易定製
  • Solr: 一個高性能、採用Java5開發、基於Lucene的全文搜索伺服器。
  • ElasticSearch: 一個基於Lucene的搜索伺服器。它提供了一個分散式多用戶能力的全文搜索引擎,基於RESTful web介面。
  • Larbin:採集工具,C++。
  • Mahout:分散式數據挖掘平臺,Java開發。

參考書籍及文獻:

  • Christopher D. Manning, Prabhakar Raghavan & Hinrich Schütze, Introduction to Information Retrieval,
  • Cambridge University Press 2008 Electronic version (draft) can be downloadedfrom www-csli.stanford.edu/~
  • B. Croft, D. Metzler, T. Strohman,Search Engine: Information Retrieval in Practice, Pearson Education, 2009 (國內機械工業出版社出版的影印版和哈工大劉挺等老師翻譯的中文版)
  • Baeza-Yates, R. & B. Ribeiro-Neto. eds. Modern Information Retrieval. ACMPress, 1999 (目前已出第二版,復旦黃萱菁等老師翻譯的中文版)
  • 李曉明,閆宏飛,王繼民著,搜索引擎--原理、技術與系統,北京:科學出版社,2005
  • Witten, Ian et al. Managing Gigabytes. Orlando, FL: Morgan Kaufmann Publishers Incorporated, 1999 (國內有清華樑斌的翻譯版)
  • William Frakes & Ricardo Baeza-Yates, Information Retrieval Data Structures and Algorithms. PrenticeHall, 1992
  • Karen Sparck Jones & Peter Willet eds.Readings in Information Retrieval, Morgan Kaufmann, 1997
  • 劉挺等著,信息檢索系統導論,機械工業出版社,2008
  • SIGIR/WWW/SIKDD/TREC/CIKM/Proceedings
  • Gerard Salton, Automatic Text processing – The Transformation, Analysis, and Retrievalof Information by Computer, Addison Wesley, 1989.
  • Christopher D. Manning and Hinrich Schütze,

    Foundations of Statistical Natural language Processing, The MIT Press, 1999.


相關聲明:

  • 以上整理主要是基於王斌老師的信息檢索課件及維基百科的資料。
  • 更多資源請瀏覽: 斯坦福Information Retrieval Resources

推薦閱讀:

相关文章