2009年8月12日星期三

[GFW Blog] 下一步,用拼音搜索屏蔽词?

作者:redraiment   来源:http://redraiment.blogspot.com/2009/08/blog-post_5064.html

  最近,国外的Twitter、国内的饭否相继遭墙,与此相似的一些网站也都组织调整。

  比如“做啥网”表态准备上线搜索屏蔽词功能,就是类似 baidu 和 g.cn 的“据当地法律法规和政策,部分搜索结果未予显示。”

  这我让回忆起以前逛论坛时看的帖子,很多论坛(例如DVBBS)都自带屏蔽敏感词功能,如果帖子中有词组与后台敏感词数据库匹配得上,就用‘*’来代替。我尤记得周杰伦的《听妈妈的话》被系统自动改成《听妈**话》。

  但他们也提到:现在的网友也很厉害,会运用谐音啊或者自己创造一些词语,婉转表达敏感信息。理论上需要每条信息人工审核后才能发布,不过限于人力,目前“做啥”还没有准备这样做。

   这我在想起很多年前用WinTC时里面自带了一个点阵字模工具,除了能将一个汉字转换成点阵字模,还会用这个汉字的拼音来做数组名。当时很好奇,就去找 了一点相关了资料,才知道像GBK、Unicode等编码本身就是和拼音相关的。撇开这些不算,即使直接对65536个汉字建立映射表,假设汉字2个字 节,拼音最长的zhuang算6个字节,整个映射表也不到1MB的空间。

  所以,为相应有关部门的号召,也许不久的将来论坛、微博等会采用拼音来搜索敏感词汇的工具来。到时候“草泥马”此类神兽通通都得贴上和谐标签。

--
Posted By GFW Blog to GFW Blog at 8/12/2009 10:27:00 PM
--~--~---------~--~----~------------~-------~--~----~
1、请点击www.chinagfw.org访问我们,订阅地址:http://feeds2.feedburner.com/chinagfwblog。2、需要Psiphon2注册邀请的朋友,请向english@sesawe.net发送电子邮件请求,说明 "can I have psiphon2 access" 并告诉您所在的国家。也可以使用Twitter Direct Messages或登陆Psiphon网站直接向Psiphon索取使用邀请。3、GFW Blog现提供最新翻墙工具下载(地址一、二、三),翻墙(突破网络封锁)方法介绍请见本站anti-censorship部分。4、本站热烈欢迎各位朋友投稿或推荐文章,请发邮件至chinagfwblog[at]gmail.com。5、敬请关注、支持、参与Sesawe和黑箱监管集体诉讼。
To unsubscribe from this group, send email to
gfw-blog+unsubscribe@googlegroups.com
For more options, visit this group at
http://groups.google.com/group/gfw-blog?hl=zh-CN
-~----------~----~----~----~------~----~------~--~---

没有评论:

发表评论