過濾詞庫
1. 為什麼掛機簡訊在編輯簡訊時會跳出編輯內容含有非法字元
為確保電信掛機簡訊的簡訊內容的合法性,掛機簡訊採用敏感詞詞庫過濾方式,如果編輯的短專信內容含有黃屬、賭、毒以及敏感信息,將都無法通過敏感詞字型檔過濾,建議用戶遇到這樣的問題需要檢查簡訊內容是否合法,重新修改簡訊後再提交。
2. 怎樣可以有效地整理SEO詞庫
第一、你首先後集自身行業詞
第二、去渠道拓展(比如:網路知道、網路蜂巢、相關搜索等)
第三、過濾掉不需要的詞和符號
第四、以詞根為界限提取後綴,統計詞頻和搜索量
第五、根據詞綴找出對應的變數和組合方式
第六、歸類
3. 如何利用聚合頁和詞庫做SEO流量
對大中型網站的SEO工作來說,人工分類只能解決中短尾詞的著陸頁需求,可能做成分類列表,也可能做成專題頁來搶占關鍵詞排名。
但還有大量的長尾搜索需求該如何覆蓋呢?
常規做法是長尾詞聚合頁。
聚合頁是什麼?
舉個例子,看下面的阿里巴巴產品聚合頁
通過關鍵詞去站內搜索出一些結果做成SEO Friendly的靜態化頁面。
聚合頁面之間需要做一些內鏈,並且在網站高權重頁面加索引入口,以加快收錄,從而獲得大量長尾流量。
這種做法對於B2B和分類信息網站來說都是慣用手段。
搜索引擎也會時不時打擊下這種頁面類型,但如果網站內容足夠豐富,搜索相關性不是太離譜,內容足夠支撐頁面的話,這種優化方法必須要做。
詞庫搭建
因為聚合頁是由大量長尾關鍵詞自動生成,所以詞庫質量好壞,直接影響到搜索流量。
如何獲得大量長尾詞?
金花關鍵詞工具
戰神關鍵詞工具
5118關鍵詞拓展
5118付費會員可以下載某個域名下的全部網路PC關鍵詞。
通過以上工具,可以獲得大量長尾關鍵詞,以便於做後續的研究分析。
詞庫清洗
雖然可以通過第三方工具可以獲得大量關鍵詞,但是你需要做數據清洗,比如過濾一些違法詞,或者對關鍵詞進行文本分析替換或刪除。
如果詞量巨大,動輒百萬,甚至千萬的時候,常規的文本編輯器都很難處理了。(比如sublime,editplus等)
這時候需要用靠編程的手段來輔助處理,或者使用一些Linux下的強大文本處理指令,如Sed或Awk。這些工具Mac也是默認支持的。
比如我需獲取從300萬詞中提取純關鍵詞,就是不包含地區名(主要是城市名)、不包含」供應「、」價格「、」批發「等,最好是一個專有名詞,不包含其他修飾詞或組合。
比如」石家莊小松挖掘機價格「,處理後的」純詞「應為」小松挖掘機「。
這樣方便以後自己拓展,比如為了搶產品的價格和報價,我們可以組合詞 」小松挖掘機價格「,」小松挖掘機報價「等長尾詞,這樣頁面設計和SEO元素都會更加精準,頁面質量也可以更高。
如果想做圖片詞聚合頁面,使用」純詞「 另外組合出」小松挖掘機圖片「即可。
為了實現這樣的效果,需要簡單學一些sed命令。
刪除包含某個關鍵詞的行
比如我要刪除包含:」美女「 關鍵詞的行。
sed -i.bak '/美女/d' filename
這個命令就可以刪除詞庫中包含」美女「這個關鍵詞的行,直接更新當前文件,並且對原始文件做一個備份,擴展名為.bak。(filename.bak)
關鍵詞替換
比如我要把所有關鍵詞中包含的」出口「換成「進口」:
sed -i.bak 's/出口/進口/g' filename
s字元代表替換,g代表全局替換,如果只替換第一個出現的「出口」,則可以去掉。
關鍵詞刪除
那刪除呢?其實就是也是一種替換,那就是把符合的詞,替換成空。
比如我要把所有關鍵詞中開頭包含的」供應「去掉:
sed -i.bak 's/^供應//g' filename
s字元代表替換,「^供應」代表以「供應」開頭的關鍵詞(支持正則),g代表替換所有「供應」,如果只替換第一個出現的「供應」,則可以去掉。
如果我要把所有關鍵詞中結尾包含的」廠「去掉:
sed -i.bak 's/廠$//g' filename
「廠$」代表以「廠」結尾的關鍵詞
根據關鍵詞長度過濾詞
刪除小於等於三個字元的關鍵詞
sed -i.bak -r '/^.{,3}$/d' filename
注意:這里不是按位元組算的長度,比如即使UTF-8格式,也是每個漢字算1個,而不是算3。
刪除大於等於十個字元的關鍵詞
sed -i.bak -r '/^.{10,}$/d' filename
當然,值得字元長度區間也是可以的。
4. 阿里巴巴國際站關鍵詞怎麼管理過濾品牌禁售詞
使用TXT文檔積累和記錄下品牌詞,作為你的品牌詞庫,以後你被投訴的品牌詞,或者證實內是阿里禁容發的品牌詞,都可以添加到詞庫里去
附件是我整理的國際站品牌詞庫,內含4500多個品牌詞,包括阿里巴巴國際站系統已公示和收錄的品牌詞(這類詞用在標題和關鍵詞系統會提示疑似品牌詞,請勿發布;如果發布則系統會自動抽檢基本立馬扣0.2分一個產品),以及我遇到的和收集的品牌詞
你可以下載,發布產品的時候遇到感覺拼寫奇怪或是品牌詞的可以在這個文檔里對比一下,並同時去網路多判斷
注:發布產品時系統不提示是品牌詞,則阿里未收錄,系統不抽檢扣分,但是品牌方可以進行投訴。這種詞一般沒有什麼影響,第一次投訴並不扣分,所以想用也可以用用
5. 如何編輯搜狗拼音輸入的詞庫
你是要創建詞庫,還是編輯已有的詞庫呢?
搜狗官方不提供本地的詞庫編輯器,
一般來說需要你將已經編輯好的詞條上傳到搜狗官網,
由官方轉化成可以使用的詞庫格式。
無論是創建還是編輯詞庫,第一步都是到搜狗官網注冊一個賬號
http://pinyin.sogou.com/
創建詞庫
1.選擇要創建的詞庫類型 >> 2.創建一個新的細胞詞庫 >> 3.預覽結果 >> 4.提交審核
請選擇您要創建的詞庫類型
一般詞庫
個人專用詞庫
細胞詞庫上傳注意事項:
* 1. 上傳文本格式為一行一詞,每行不得超過10個漢字,多餘的部分將會被過濾
* 2. 確保文本中無字母(拼音除外)、數字、亂碼、標點等符號,否則將被過濾
* 3. 合格詞條數目不得小於5條,不得多於5萬條
* 4. 為確保詞條質量,請勿上傳單字,否則將被過濾
* 5. 如需注音請在單個漢字後標注,如「長chang相守」;切勿在詞語後標注多個拼音
* 6. 本系統提供創建或增刪詞條的對比預覽功能,請確認修改無誤後提交
編輯詞庫
先下載已有的詞庫,為TXT格式,經過修改後,進入「創建詞庫」中的步驟。。。
6. 那位達人有非法關鍵詞的詞庫...在線等...
最近剛好網監的朋友給我發了份最新的非法信息關鍵詞過濾,不過在家裡,晚上回家傳到我的網站上。
7. sqlserver中有一張非法過濾詞庫表,表中5000+條數據,後台用C#,如何以最快速度對一篇文章進行非法過濾。
先把詞庫讀到內存中的字典:以第一個字元為Key的字典,以List<string>為Value(考慮到可能有詞彙版第一個字權符是相同的)
Dictionary<char, List<String>> 詞庫 = newDictionary<char, List<String>>();
再用 System.IO.FileStream類 讀取文件。
先讀取一行string line = FileStream1.ReadLine()
然後一個一個字元Read,判斷是不是ContainsKey('字元'),如果含有,再把這個字元開頭的列表中完整字元串讀出來,然後進行比對
foreach (string 字元串 in 列表)
{
int 開始位置 =當前字元在行中位置
int 搜索長度 =要比較的字元串長度
使用line.IndexOf(字元串, 開始位置, 搜索長度) > 0 或者使用
line.Contains(字元串) //哪種效率高要試試才知道
這樣只需要把文件掃描一次,每次調用哈希表來判斷字元,時間復雜度O(1),匹配時搜索當前行的小范圍,性能比多次掃描大大提升。
}
我只提供思路,具體代碼的自己寫把。
如滿意,請採納,謝謝。
8. 關於javaweb的過濾器filter的疑問
過濾器只過濾請求,不過濾響應。請求方式有REQUEST、INCLUE、FORWARD、ERROR四種。
=============
你在說什麼?
用戶在請求頁面時,伺服器不會直接把請求給頁面,而是先通過Filter,直到所有Filter都通過之後,再給要請求的頁面。容器再把動態頁面轉成靜態的,再發給用戶端瀏覽器。
9. C++編程題:輸入一段文字,其中包含一些非法的單詞,請將這些非法單詞刪除或替換,然後輸出過濾後的文字
提供一個思路
做一個合法單詞庫
把所有合法單詞按照一定組織存起來
然後依次比較單詞值 相同則合法,不同則刪除
如果要替換的話,就查找最像的單詞,這個演算法就多了,你可以查一下
10. 高分求論壇過濾詞庫
不好意思,我找不到,或許你上http://bbs.house365.com/printthread.php?threadid=985072看看吧,或許會有,我確實幫你不到了。