TermExtract::ICTCLAS -- 検餤モテユZウ魑筵ク・蟀`・襭quot;ICTCLAS"井)
use TermExtract::ICTCLAS;
秘薦テキストを、"ICTCLAS"嶄猟の瞳奩・ソ・ークカモラ・愠ー・鬣爛ゥ、ヒ、ォ 、ア。「、ス、ホスYケ訷筅ネ、ヒネヲ・ニ・ュ・ケ・ネ、ォ、骭滄TモテユZ、魑ケ、ラ・愠ー・鬣爍」
オア・筵ク・蟀`・襪諒荒歎┐砲弔い討蓮HクラスTermExtract::Calc_Imp)か、 參和のサンプルスクリプトを歌孚のこと。
#!/usr/local/bin/perl -w # # ex_ICT.pl # # ファイルから ICTCLAS のИタ晳Yケ訷i、゜ネ。、 # 侏慳ウヲ、ヒ検餤モテユZ、ネ、ス、ホヨリメェカネ、オ、ケ・ラ・愠ー・鬣 # # version 0.07 # # use TermExtract::ICTCLAS; #use strict; my $data = new TermExtract::ICTCLAS; my $InputFile = "ICT_out.txt"; # 秘薦ファイル峺協 # プロセスのョ正」スKチヒ瓶Иタ # (ロックディレクトリを聞喘した因コマ、ホ、゜」ゥ $SIG{INT} = $SIG{QUIT} = $SIG{TERM} = 'sigexit'; # ウヲ・筰`・ノ、クカィ # 1 。検餤モテユZ」ォヨリメェカネ。「2 。検餤モテユZ、ホ、゜ # 3 。カンマ曝俳り my $output_mode = 1; # # 嶷勣業モ桐网ヌ。「゜BスモユZ、ホ"ムモ、ルハquot;、"ョ畝ハ、quot;。「"・ムゥ`・ラ・譽⑤轡謄quot;のい # ずれをとるか゜x談。」・ムゥ`・ラ・譽⑤轡謄蓮狐Я蕗Cトワ。ケ、ケ、ィ、ハ、、 # 、゛、ソ。「"゜BスモユZ、ホヌ驤ケ、ハ、、"゜x談、筅「、遙「、ウ、ホ因コマ、マモテユZウFサリハ # (、ネヤOカィ、オ、ニ、、、ミIDF、ホスM、゜コマ、錣撮④盃慴ⅱ飯磴鯰个 # デフォルトは"决べ方"をとる $obj->use_total) # #$data->use_total; # 决べ方をとる #$data->use_uniq; # ョ畝ハ、ネ、 #$data->use_Perplexity; # ・ムゥ`・ラ・ュ・キ・ニ・」、ネ、TermExtract 3.04 メヤノマ) #$data->no_LR; # スモヌ驤ケ、ハ、、 (TermExtract 4.02 メヤノマ) # # ヨリメェカネモ桐网ヌ。「゜Bスモヌ驤ヒ廷、アコマ、サ、テユZウF精カネヌ驤x談、ケ、 # $data->no_LR; との粛、゜コマ、サ、ヌモテユZウF精カネ、ホ、゜、ホヨリメェカネ、簍羌ノトワ # 」ィ・ヌ・ユ・ゥ・襯箸"Frequency" $data->use_frq) # TFはある喘ユZ、ャヒ訷ホモテユZ、ホメサイソ、ヒハケ、ニ、、、ソ因コマ、ヒ、筵ォ・ヲ・ネ # Frequency 、マモテユZ、ャヒ訷ホモテユZ、ホメサイソ、ヒハケ、錣譴討い呂縫㎤Ε鵐箸靴覆 # #$data->use_TF; # TF (Term Frequency) (TermExtract 4.02 參貧) #$data->use_frq; # Frequencyによる喘ユZ精カネ #$data->no_frq; # 精カネヌ驤ケ、ハ、、 # # ヨリメェカネモ桐网ヌ。「ムァチ蕗Cトワ、ケ、ヲ、ォ、ノ、ヲ、ォ゜x談 # 」ィ・ヌ・ユ・ゥ・襯箸蓮∧荒辰靴覆$obj->no_stat) # #$data->use_stat; # 僥チ蕗Cトワ、ケ、ヲ #$data->no_stat; # ムァチ蕗Cトワ、ケ、錣覆 # # 嶷勣業モ桐网ヌ。「。ク・ノ・ュ・螂皈ネヨミ、ホモテユZ、ホ精カネ。ケ、ネ。ク゜BスモユZ、ホヨリメェカネ。ケ # 、ホ、ノ、チ、鬢ヒアネヨリ、ェ、ッ、ォ、Oカィ、ケ、襦 # デフォルトn、マ」ア # n、ャエュ、、、ロ、ノ。ク・ノ・ュ・螂皈ネヨミ、ホモテユZ、ホ精カネ。ケ、ホアネヨリ、ャク゜、゛、 # #$data->average_rate(0.5); # # ムァチ蕗CトワモテDB、ヒ・ヌゥ`・ソ、﨧e、ケ、襪㎠匹Δx談 # ヨリメェカネモ桐网ヌ。「ムァチ蕗Cトワ、ケ、ヲ、ネ、ュ、マ。「・サ・テ・ネ、キ、ニ、ェ、、、ソ、ロ、ヲ、ャ # 殪︻。」Иタ甯斫ヒムァチ蕗CトワモテDB、ヒオヌ乕、オ、譴討い覆ふZが根まれる # と屎しく恬しない。 # デフォルトは、們キe、キ、ハ、、 $obj->no_storage」ゥ # #$data->use_storage; # ミ﨧e、ケ、 #$data->no_storage; # ミ﨧e、キ、ハ、、 # # ムァチ蕗CトワモテDB、ヒハケモテ、ケ、訥BMをSDBM_Fileに峺協 # デフォルトは、DB_FileのBTREEモ❹・ノ」ゥ # #$data->use_SDBM; # # ゜^ネ・、ホ・ノ・ュ・螂皈ネ、ホタロキeスyモ共ケ、ヲ因コマ、ホ・ヌゥ`・ソ・ルゥ`・ケ、ホ # ・ユ・。・、・訝獷鬟札奪 # デフォルトは "stat.db"と"comb.db" # $data->stat_db("statICT.db"); $data->comb_db("combICT.db"); # # デ❹・ソ・ルゥ`・ケ、ホナナヒ詹愠テ・ッ、ホ、ソ、皃ホメサ瓶・ヌ・」・譽肇蠅鰆原 # ディレクトリ兆が腎猟忖双デフォルトの因コマ、マ・愠テ・ッ、キ、ハ、、 # #$data->lock_dir("lock_dir"); # # ニキヤ~・ソ・ークカ、ア徃、゜、ホ・ニ・ュ・ケ・ネ、ォ、鬘「・ヌゥ`・ソ、i、゜゛z、゜ # 検餤モテユZ・ケ・ネ、菽ミ、ヒキオ、ケ # 」ィタロキeスyモ汽Bハケモテ。「・ノ・ュ・螂皈ネヨミ、ホ精カネハケモテ、ヒ・サ・テ・ネ」ゥ # #my @noun_list = $data->get_imp_word($str, 'var'); # ネ訌Δ篳 my @noun_list = $data->get_imp_word($InputFile); # 秘薦がファイル # # 念指實、゜゛z、タニキヤ~・ソ・ークカ、ア徃、゜・ニ・ュ・ケ・ネ・ユ・。・、・襪鰓Ⅳ # モ❹・ノ、荀ィ、ニ。「検餤モテユZ・ケ・ネ、菽ミ、ヒキオ、ケ #$data->use_stat->no_frq; #my @noun_list2 = $data->get_imp_word(); # 、゛、ソ。「、ス、ホスYケ訷e、ホ・筰`・ノ、ヒ、隍Yケ訷ネ廷、アコマ、サ、 #@noun_list = $data->result_filter (\@noun_list, \@noun_list2, 30, 1000); # # 検餤モテユZ・ケ・ネ、ネモ桐网キ、ソヨリメェカネ、ヒ慳ウヲ、ヒウケ # foreach (@noun_list) { # ハ痔ホ、゜、マア桄セ、キ、ハ、、 next if $_->[0] =~ /^\d+$/; # 1ホトラヨ(GB)、ホ、゜、マア桄セ、キ、ハ、、 next if $_->[0] =~ /^[\x00-\x7F]$/; next if $_->[0] =~ /^[\x81-\xFE][\x40-\xFE]$/; next if $_->[0] =~ /^[\x81-\xEF][\x30-\x39][\x81-\xEF][\x30-\x39]$/;
# スYケ﨣桄セ printf "%-60s %16.2f\n", $_->[0], $_->[1] if $output_mode == 1; printf "%s\n", $_->[0] if $output_mode == 2; printf "%s,", $_->[0] if $output_mode == 3; }
、ウ、ホ・筵ク・蟀`・ヌ、マ。「get_imp_word 、ホ、゜携ラー、キ。「、ス、ヤヘ筅ホ・皈ス・テ・ノ、マモH ・筵ク・蟀`・TermExtract::Calc_Imp 、ヌ携ラー、オ、ニ、、、」 get_imp_word 、マニキヤ~・ソ・ークカモミ、、ウ魑オ、ソ⑽ユZ、「。ゥ、ホ⑽ユZ、ホユZ嶸 、ネニキヤ~ヌ驤ェ、ヒム}コマユZ、ヒノ嵭ノ、キ、ニ、、、襦修賻塒發離瓮愁奪匹砲弔い討蓮 TermExtract::Calc_Imp のPODドキュメントを歌孚すること。
嶄猟の瞳奩・ソ・ークカモ觸Y惚を肝のル❹ルによりム}コマユZ、ヒノ嵭ノ、ケ、」オレ」アメマ。「 Иタ甯斫ホ・ヌゥ`・ソ。「オレ」イメ狼擅衛侶N、ヌ、「、襦妊侫⑤襯箸任蓮擅 哈方は、瞳ヤ~・ソ・ークカ、ア徃、゜、ホ・ニ・ュ・ケ・ネ・ユ・。・、・襪箸覆襦5擅禍卜鍔崛 'var'がセットされたときには、及匯哈方を瞳ヤ~・ソ・ークカ、ア徃、ホ・ニ・ュ・ケ・ネ・ヌゥ`・ソ 、ャネ襪辰織好㎤薊`我ハネス粃共ケ、」
」ア」ョクキヤ~、マエホ、ホ、ネ、ェ、Yコマ、ケ、 1兆奩、ヒ譿、ケ、Z(ng n nr ns nt nz nx vn an i j) *メヤ矣。クテ鋕~。ケ 。奛。テ鋕~。「ミホネンヤ~。「ヨ昤~。「コモウノキヨ。「゜Bヤ~」ィコヘ。「モ襭④暴Y栽する。 劑コマユZ、ホマネ硤、ヒ、ハ、」 」ィ」イ」ゥミホネンヤ~(ag, a) 。奛。ミホネンヤ~。「ヨ昤~。「コモウノキヨ。「゜Bヤ~」ィコヘ。「モ襭④暴Y栽する。ム}コマユZ、ホ マネ硤、ヒ、ハ、 」ィ」ウ」ゥヨ昤~(u), コモウノキヨ(k) 。奛。テ鋕~。「ミホネンヤ~、ヒスYコマ、ケ、 」ィ」エ」ゥ゜Bヤ~(c) 。奛。コヘ,モ襪ホ因コマ、ホ、゜。」テ鋕~、ヒスYコマ、ケ、」 」ィ」オ」ゥヌeヤ~(b) 。奛。テ鋕~, ヨ昤~。「゜Bヤ~」ィコヘ。「モ襭④暴Y栽する。ム}コマユZ、ホマネ硤、ヒ、ハ、/pre>2個佩があった因コマ、マ。「、ス、ウ、ヌム}コマユZ、ホヌミ、熙ネ、ケ、/pre>」ウ」ョユZ硤、ホネォスヌ・ケ・レゥ`・ケ、マネ。、ッ。。」エ」ョエホ、ホモ崋ナ、萍痔ヌハシ、゛、Z、ホ因コマ、マ。「、ス、ウ、ヌム}コマユZ、ホヌミ、熙ネ、ケ、 +-%\&\$*#^|<>;:」オ」ョム}コマユZ、マテ鋕~、ヌスK、錣襪發里箸掘壤瓩惑个齟ホ、ニ、/pre>」カ」ョヨリメェカネモ桐网ヒ、ェ、、、ニエホ、ホユZ」ィヨ昤~」ォ矣スモヤ~」ォ゜Bヤ~」ゥ、マ殪メ弗ケ、 才 嚥 議 岻 吉 侏 塀 來
SEE ALSO
TermExtract::Calc_Imp TermExtract::Chasen TermExtract::MeCab TermExtract::BrillsTagger TermExtract::EnglishPlainText TermExtract::ChainesPlainTextUC TermExtract::ChainesPlainTextGB TermExtract::JapanesePlainTextEUC TermExtract::JapanesePlainTextSJIS
COPYRIGHT
このプログラムは、翻セゥエァ ヨミエィヤ」ヨセスフハレ、ホヨミホト検餤モテユZウ魑ホ・「・、・ヌ・「 。。、ェ、ヒ。「翻セゥエァ ヌーフ鐇(maeda@lib.u-tokyo.ac.jp)が恬撹したものである。 碧、ホ・チ・ァ・テ・ッ、マ。「翻セゥエァ ミ。講コニヨョ(kojime@e.u-tokyo.ac.jp)、ャミミ、テ、ソ。」、ハ、ェ。「アセ・ラ・愠ー・鬣爨ホハケモテ、ヒ、ェ、、、ニノ妤ク、ソ、、、ォ、ハ、觸Yケ訷ヒ騅、キ、ニ、箏アキス、ヌ、マ メサヌミリ淙ホ、豆錣覆ぁ/pre>