前几天读到google研究员吴军的数学之美系列篇,颇有感触。而恰好自己前段时间做了个基于统计语言模型的中文切分系统的课程项目,于是乎,帖出来与大家共同学习。分词技术在搜索
前几天读到google研究员吴军的数学之美系列篇,颇有感触。而恰好自己前段时间做了个基于统计语言模型的中文切分系统的课程项目,于是乎,帖出来与大家共同学习。
分词技术在搜索引擎,信息提取,机器翻译等领域的重要地位与应用就不敖述了。步入正题:)
一、 项目概述
本切分系统的统计语料是用我们学校自己开放的那部分,大家可以在 这里 下载,中文字符约184万,当然这都是已切分好了的,可以用此建立一个比较小的语料库。本系统我主要分下面四个步骤完成:
1、 语料预处理
2、 建立 2-gram(统计二元模型)
3、 实现全切分
4、 评估测试
下面我分别对这四个方面一一道来。
1、 语料预处理
下载的已切分的语料都是形如“19980131-04-012-001/m 现实/n 的/u 顿悟/vn 却/d 被/p 描/v 出/v 形/Ng 来/v 。/w ” ,有的前面还保留了日期编号,因为这些切分语料的来源是人民日报。预处理主要是按标点符号分句,句子简单定义为( 。?! : ;)这五种标点符号结尾的词串,句子首尾分别添加推荐内容
- 08-25Java应用:Fedora Linux 8系统
- 07-30源码分享:蜘蛛抓取淘宝
- 07-30AJAX 开发的两种不同的方法
- 07-30IT行业培训必读 优秀程序
- 07-30J2EE面向对象
- 07-30JAVA的事件处理机制
- 12-02JAVA-MyEclipse 自动提示(按
- 12-02一些关于中文乱码问题的
- 07-30AIX字体丢失——解决方案
- 08-25Java应用:Fedora Linux 8系统
- 07-30Security
- 02-23用Java构造自己的媒体播放
- 01-05深入浅出Java堆的管理--垃
- 02-21Java Robot对象实现服务器屏
- 07-30用JavaFX写用户界面控制器
- 11-17让Java说话
搜索引擎之中文分词实现(java版)
时间:2006-07-18 作者: 点击: 2次 来源:
相关创意
我喜欢
(0)
0%
没意思
(0)
style="width:0%"
0%
| 上一篇:使用浮点数和小数中的技巧和陷阱 | ↑上帝请打分↑ | 下一篇:Java EE 常见性能问题解决手册 |










