代码语言
.
CSharp
.
JS
Java
Asp.Net
C
MSSQL
PHP
Css
PLSQL
Python
Shell
EBS
ASP
Perl
ObjC
VB.Net
VBS
MYSQL
GO
Delphi
AS
DB2
Domino
Rails
ActionScript
Scala
代码分类
文件
系统
字符串
数据库
网络相关
图形/GUI
多媒体
算法
游戏
Jquery
Extjs
Android
HTML5
菜单
网页交互
WinForm
控件
企业应用
安全与加密
脚本/批处理
开放平台
其它
【
Python
】
统计英文词频
作者:
sorcerdu
/ 发布于
2013/1/15
/
1022
# -*- encoding: utf-8 -*- # by sorcerdu #基本功能和用法在提示中 #原理是利用分隔符分词存入列表,然后从列表读出存入字典,键为词,值存放词的数量 #中文统计词频的话,得先分词后再进行。 import os,string,codecs import sys,time def readfile(): wordlist=[] base=open('base.txt','r') baseinfo=base.readlines() tagf=open('tag.txt','r') tagfinfo=tagf.readlines() for i in tagfinfo: tags=i.split(' ') for i in baseinfo: words=i.split(' ') for word in words: if word != '\t'and word != '\n' and word!=' ' and word != '' and word>=2: word=word.replace('\t','') word=word.replace('\n','') word=word.replace(' ','') word=word.replace('.\n','') if word!='': wordlist.append(word) ## tags=['.','"',',','!','?','(',')'] for x in range(len(tags)): tag=tags[x] for k in range(len(wordlist)): if tag in wordlist[k]: #用符号分割 words=wordlist[k].split(tag) del wordlist[k] for j in range(len(words)): #去掉判断后的空字符 if words[j]!='': wordlist.append(words[j]) base.close() tagf.close() return wordlist def getstr(word,count,allwordnum): countstr=word+'--------'+str(count)+'--------'+str(allwordnum) return countstr if __name__=="__main__": wordcnt={} wordlist=readfile() wordlistall=wordlist allwordnum=len(wordlistall) outdata=open('count.txt','w') print '******************************************' print(u'提示:') print(u' 1、要统计的文章放置于本程序路径下的base.txt中') print(u' 2、单词分割符存放在本程序路径下的tag.txt中,以空格为分隔符,默认已对换码符,换行符,空格,句号(英文)处理') print(u' 3、统计的结果保存在本程序路径下的count.txt中') print '******************************************' print(u"开始统计咯......") print'------------------------------------------------------------------------' for i in wordlistall: if i in wordcnt: wordcnt[i]+=1 else: wordcnt[i]=1 for word,cnt in wordcnt.iteritems(): print word+'--------'+str(cnt)+'--------'+str(allwordnum) outdata.write(getstr(word,cnt,allwordnum)+'\n') print'------------------------------------------------------------------------' print(u"完成") print(u'按任意键退出') outdata.close() os.system("pause")
试试其它关键字
英文词频
同语言下
.
比较两个图片的相似度
.
过urllib2获取带有中文参数的url内容
.
不下载获取远程图片的宽度和高度及文件大小
.
通过qrcode库生成二维码
.
通过httplib发送GET和POST请求
.
Django下解决小文件下载
.
遍历windows的所有窗口并输出窗口标题
.
根据窗口标题调用窗口
.
python 抓取搜狗指定公众号
.
pandas读取指定列
可能有用的
.
C#实现的html内容截取
.
List 切割成几份 工具类
.
SQL查询 多列合并成一行用逗号隔开
.
一行一行读取txt的内容
.
C#动态修改文件夹名称(FSO实现,不移动文件)
.
c# 移动文件或文件夹
.
c#图片添加水印
.
Java PDF转换成图片并输出给前台展示
.
网站后台修改图片尺寸代码
.
处理大图片在缩略图时的展示
sorcerdu
贡献的其它代码
(
3
)
.
批量查找替换文件名
.
jQuery鼠标滑向当前图片高亮显示
.
统计英文词频
Copyright © 2004 - 2024 dezai.cn. All Rights Reserved
站长博客
粤ICP备13059550号-3