การสร้าง, วิทยาลัยและมหาวิทยาลัย

คอร์ปัสภาษาศาสตร์คืออะไร?

เพียงแค่ไม่กี่ทศวรรษที่ผ่านมาโดยอัตโนมัติการวิจัยภาษาศาสตร์นักวิทยาศาสตร์เท่านั้นสามารถฝันของ ทำงานก็ทำด้วยมือมันจะดึงดูดจำนวนมากของนักเรียนมีความเป็นไปได้ที่สำคัญความผิดพลาด "ประมาท" และที่สำคัญที่สุด - ทั้งหมดนี้เอาระยะเวลานาน

ด้วยการพัฒนาของเทคโนโลยีคอมพิวเตอร์ได้กลายเป็นไปได้ที่จะดำเนินการวิจัยเกี่ยวกับลำดับความสำคัญได้เร็วขึ้นและวันนี้เป็นหนึ่งในเส้นทางที่มีแนวโน้มมากที่สุดในการศึกษาของภาษาเป็นภาษาศาสตร์คลัง คุณสมบัติหลักของมันคือการใช้ข้อมูลจำนวนมากข้อความข้อมูลลงในฐานข้อมูลเดียวในลักษณะพิเศษและเรียกร่างกายที่ทำเครื่องหมายไว้

ในวันที่มีอาคารหลายหลังที่สร้างขึ้นด้วยวัตถุประสงค์ที่แตกต่างบนพื้นฐานของวัสดุภาษาต่างๆทอดจากล้านนับพันล้านหน่วยศัพท์ ทิศทางนี้ได้รับการยอมรับว่าเป็นแนวโน้มและแสดงให้เห็นถึงความคืบหน้าอย่างมีนัยสำคัญต่อการประยุกต์ใช้และวัตถุประสงค์ในการวิจัย ผู้เชี่ยวชาญทางเดียวหรือการจัดการกับภาษาธรรมชาติอื่นก็จะแนะนำให้ได้รู้จักกับร่างกายของข้อความอย่างน้อยในระดับพื้นฐาน

ประวัติความเป็นมาของภาษาศาสตร์คลังข้อมูล

การก่อตัวของแนวโน้มนี้เกิดจากการสร้างสรรค์ของสหรัฐฯในร่างกายของบราวน์ในช่วงต้นยุค 60 โอบอุ้มของศตวรรษที่ผ่านมา คอลเลกชันรวมถึงตำราทั้ง 1 ล้านรูปแบบคำและในวันนี้ร่างกายขนาดนี้จะไม่มีการแข่งขันกันโดยสิ้นเชิง นี้เป็นส่วนใหญ่เนื่องจากการก้าวของการพัฒนาของเทคโนโลยีคอมพิวเตอร์เช่นเดียวกับความต้องการที่เพิ่มขึ้นสำหรับการวิจัยทรัพยากรใหม่

ใน 90s ภาษาศาสตร์คลังโผล่ออกมาเป็นวินัยเต็มรูปแบบและเป็นอิสระ, คอลเลกชันของตำราได้รับการวาดขึ้นและทำเครื่องหมายสำหรับหลายภาษา ในช่วงเวลานี้มันถูกสร้างขึ้นตัวอย่างเช่นชาติอังกฤษ Corpus 100 ล้านราชสกุล

กับการพัฒนาของพื้นที่ของภาษาศาสตร์นี้ปริมาณข้อความที่มีมากขึ้นและมากขึ้น (และถึงพันล้านหน่วยพจนานุกรม) และรูปแบบที่จะกลายเป็นความหลากหลายมากขึ้น ในวันที่พื้นที่ Internet ที่สามารถพบซากพูดและเขียนภาษาพูดได้หลายภาษาและวรรณกรรมศิลปะหรือวิชาการการเรียนรู้ที่มุ่งเน้นการเช่นเดียวกับสายพันธุ์อื่น ๆ อีกมากมาย

สิ่งที่เป็นที่อยู่อาศัย

ประเภทร่างกายภาษาศาสตร์ร่างกายอาจจะให้เหตุผลหลายประการ สัญชาตญาณพื้นฐานสำหรับการจัดหมวดหมู่อาจจะเป็นข้อความภาษา (รัสเซีย, เยอรมัน), โหมดการเข้าถึง (เปิดแหล่งที่มาปิดพาณิชย์), ประเภทของวัสดุที่แหล่งที่มา (นิยายสารคดีวิชาการสื่อสารมวลชน)

วิธีที่น่าสนใจสร้างวัสดุของภาษาพูด ตั้งแต่การบันทึกโดยเจตนาในการพูดดังกล่าวเพื่อสร้างสภาพแวดล้อมเทียมสำหรับผู้ตอบแบบสอบถามและวัสดุที่ส่งผลให้ไม่สามารถเรียกว่า "ธรรมชาติ" ภาษาศาสตร์คลังสมัยใหม่ได้ไปทางอื่น อาสาสมัครมาพร้อมกับไมโครโฟนและในระหว่างวันที่ผลิตบันทึกการสนทนาทั้งหมดในการที่จะมีส่วนร่วม ผู้คนรอบ ๆ แน่นอนอาจไม่ทราบว่าในการสนทนาในชีวิตประจำวันมีส่วนช่วยในการพัฒนาวิทยาศาสตร์

ต่อมาได้รับการบันทึกเก็บไว้ในฐานข้อมูลและจะมาพร้อมกับข้อความที่พิมพ์ประเภทหลักฐานการศึกษา ดังนั้นจึงเป็นไปได้ที่มาร์กอัปจำเป็นในการสร้างที่อยู่อาศัยการพูดในชีวิตประจำวันในช่องปาก

ใบสมัคร

หากเป็นไปได้การใช้ภาษาและบางทีอาจจะใช้อาคารตำรา วิธีการที่จะใช้เรือในภาษาศาสตร์อาจจะเป็น:

การสร้างโปรแกรมการพิจารณาที่สำคัญถูกนำมาใช้กันอย่างแพร่หลายในการเมืองและธุรกิจเพื่อติดตามการตอบสนองในเชิงบวกและเชิงลบของผู้มีสิทธิเลือกตั้งและลูกค้าตามลำดับ
ระบบสารสนเทศเพื่อการเชื่อมต่อกับพจนานุกรมและนักแปลในการปรับปรุงประสิทธิภาพการทำงานของพวกเขา
ความหลากหลายของงานวิจัยที่นำไปสู่ความเข้าใจของหน่วยภาษาประวัติศาสตร์ของการพัฒนาและการคาดการณ์ของการเปลี่ยนแปลงในอนาคตอันใกล้
การพัฒนาระบบการดึงข้อมูลขึ้นอยู่กับลักษณะทางสัณฐานวิทยาประโยคความหมายและคุณสมบัติอื่น ๆ
การเพิ่มประสิทธิภาพของระบบภาษาที่แตกต่างกันและคนอื่น ๆ

การใช้งานของอาคาร

อินเตอร์เฟซทรัพยากรที่คล้ายกันด้วยเครื่องมือค้นหาทั่วไปและแจ้งให้ผู้ใช้ป้อนคำหรือการรวมกันของคำที่จะค้นหาฐานข้อมูล นอกจากรูปแบบการค้นหาที่แน่นอนสามารถใช้รุ่นที่เพิ่มขึ้นซึ่งจะช่วยให้การค้นหาข้อมูลเกี่ยวกับใจในแทบเกณฑ์ภาษาใด ๆ

ฐานการค้นหาอาจจะเป็น:

สมาชิกของกลุ่มเฉพาะของชิ้นส่วนในการพูด;
คุณสมบัติไวยากรณ์
ความหมาย;
สีโวหารและอารมณ์

นอกจากนี้คุณยังสามารถรวมเกณฑ์การค้นหาลำดับของคำสำหรับตัวอย่างเช่นการหาที่เกิดขึ้นทั้งหมดของคำกริยาในปัจจุบันกาลคนแรกเอกพจน์ซึ่งมาหลังจากคำบุพบท "ใน" และเป็นรูปธรรมในกรณีที่กล่าวหา วิธีการแก้ปัญหาดังกล่าวเป็นงานที่ง่ายจะนำผู้ใช้ไม่กี่วินาทีและต้องใช้เพียงไม่กี่คลิกเมาส์ในสาขาที่ระบุ

กระบวนการของการสร้าง

ค้นหาตัวเองสามารถดำเนินการใน subcorpus และเลือกหนึ่งโดยเฉพาะอย่างขึ้นอยู่กับความต้องการในการบรรลุเป้าหมายโดยเฉพาะอย่างยิ่ง:

ขั้นตอนแรกคือการกำหนดซึ่งตำรารูปแบบพื้นฐานสำหรับกรณีที่ สำหรับวัตถุประสงค์ในทางปฏิบัติก็มักจะถูกใช้หนังสือพิมพ์ข่าวความคิดเห็นออนไลน์ โครงการวิจัยคือการใช้ความหลากหลายของประเภทแพคเกจ แต่ข้อความที่ควรจะเลือกตามที่พื้นดินทั่วไป
คอลเลกชันที่เกิดจากตำราอาจมีการปรับสภาพมีแก้ไขข้อผิดพลาดถ้าใด ๆ ที่จัดทำโดยรายละเอียดบรรณานุกรมและพิเศษภาษาของข้อความ
จะถูกกำจัดออกข้อมูลที่ไม่ใช่ต้นฉบับเดิมทั้งหมด: ล้างกราฟิก, รูปภาพ, ตาราง
การจัดสรรของสัญญาณซึ่งมักจะมีการพูดสำหรับการประมวลผลต่อไป
ในที่สุดก็ดำเนินการทางสัณฐานวิทยา, การสร้างประโยคและเครื่องหมายอื่น ๆ ส่วนใหญ่ได้รับขององค์ประกอบ

ผลของการทำธุรกรรมทั้งหมดโดยโครงสร้างประโยคที่มีการกระจายอยู่ในนั้นส่วนใหญ่ขององค์ประกอบแต่ละแห่งซึ่งเป็นส่วนหนึ่งที่ระบุในการพูดไวยากรณ์และในบางกรณีคุณลักษณะความหมาย

ความยากลำบากในการสร้างอาคาร

มันเป็นสิ่งสำคัญที่จะเข้าใจว่าไม่เพียงพอที่จะใส่กันชุดของคำหรือประโยคสำหรับร่างกาย ในมือข้างหนึ่งคอลเลกชันของข้อความควรมีความสมดุลที่เป็นตัวแทนของประเภทที่แตกต่างกันของข้อความในบางสัดส่วน ในอื่น ๆ - เนื้อหาของสิ่งที่แนบมาควรจะเว้นระยะห่างในลักษณะพิเศษ

ปัญหาแรกที่ได้รับการแก้ไขโดยข้อตกลง: ยกตัวอย่างเช่นในคอลเลกชันรวมถึง 60% ของวรรณกรรม, 20% ของสารคดีร้อยละหนึ่งจะได้รับการแสดงที่เป็นลายลักษณ์อักษรของภาษาพูดกฎหมายผลงานทางวิทยาศาสตร์ ฯลฯ ที่สมบูรณ์แบบสูตรสมดุลของร่างกายในวันนี้ไม่ได้อยู่ ...

คำถามที่สองเกี่ยวกับการจัดวางเนื้อหาการแก้ปัญหาที่ท้าทาย มีโปรแกรมพิเศษและอัลกอริทึมที่ใช้สำหรับการทำเครื่องหมายโดยอัตโนมัติจากตำรามี แต่พวกเขาไม่ได้ให้ผลที่สมบูรณ์แบบสามารถก่อให้เกิดการหยุดชะงักและต้องทำใหม่คู่มือ โอกาสและความท้าทายในการจัดการกับปัญหานี้จะมีการอธิบายในรายละเอียดในกระดาษวีพี Zaharova ภาษาศาสตร์คลัง

มาร์กอัปข้อความจะดำเนินการในหลายระดับซึ่งเรารายชื่อด้านล่าง

การติดแท็กลักษณะทางสัณฐานวิทยา

จากโรงเรียนเราจำได้ว่าในภาษารัสเซียมีส่วนที่แตกต่างกันในการพูดและแต่ละคนมีลักษณะของตนเอง ยกตัวอย่างเช่นคำกริยามีหมวดหมู่ของการเอียงและเวลาที่ไม่มีคำนาม เจ้าของภาษาโดยไม่ลังเลปฏิเสธคำนามและคำกริยาผัน แต่เพื่อทำเครื่องหมายร่างกาย 100 ล้านบาท. โทเค็นการใช้แรงงานจะไม่ทำงาน ทั้งหมดการดำเนินงานที่จำเป็นสามารถรันคอมพิวเตอร์ แต่สำหรับเรื่องนี้จะต้องมีการเรียนการสอน

การติดแท็กทางสัณฐานวิทยาคอมพิวเตอร์ต้อง "เข้าใจ" แต่ละคำเป็นส่วนหนึ่งในการพูดที่มีคุณสมบัติไวยากรณ์บางอย่าง เนื่องจากรัสเซีย (และภาษาอื่น ๆ ) ดำเนินการจำนวนของกฎปกติก็เป็นไปได้ที่จะสร้างขั้นตอนโดยอัตโนมัติสำหรับการวิเคราะห์ลักษณะทางสัณฐานวิทยา, การลงทุนในรถสำหรับจำนวนของอัลกอริทึม แต่มีข้อยกเว้นกฎเช่นเดียวกับปัจจัยแทรกซ้อนต่างๆ เป็นผลให้คอมพิวเตอร์วิเคราะห์สุทธิของวันนี้อยู่ไกลจากอุดมคติและความผิดพลาดแม้อัตราผลตอบแทน 4% มูลค่า 4 ล้าน. คำในร่างกาย 100 ล้าน. หน่วยที่ต้องทำใหม่คู่มือ

หนังสืออธิบายรายละเอียดของปัญหา Zaharova วีพี "คอร์ปัสภาษาศาสตร์"

คำอธิบายประกอบประโยค

การแยกหรือการแยกวิเคราะห์ - ขั้นตอนที่กำหนดความสัมพันธ์ของคำในประโยค ใช้ชุดของขั้นตอนวิธีการเป็นไปได้ในการกำหนดข้อความของเรื่องกริยาเติมหลายผลัดกันในการพูด หาที่คำพูดเป็นลำดับหลักและที่ - ขึ้นอยู่กับเราอย่างมีประสิทธิภาพสามารถดึงข้อมูลจากข้อความและการสอนเครื่องที่จะออกในการตอบสนองต่อการร้องขอการค้นหาเฉพาะข้อมูลที่น่าสนใจเรา

โดยวิธีการที่เครื่องมือค้นหาที่ทันสมัยใช้นี้จะให้ออกตัวเลขที่เฉพาะเจาะจงแทนตำราที่มีความยาวในการตอบสนองต่อคำสั่งที่เกี่ยวข้องเช่น "วิธีการหลายแคลอรี่ในแอปเปิ้ล" หรือ "ระยะทางจากกรุงมอสโกไปเซนต์ปีเตอร์สเบิร์ก." อย่างไรก็ตามเพื่อให้เข้าใจแม้แต่พื้นฐานของกระบวนการที่อธิบายไว้โดยจำเป็นที่จะต้องปรึกษา "รู้เบื้องต้นเกี่ยวกับคอร์ปัสภาษาศาสตร์" หรือกวดวิชาพื้นฐานอื่น ๆ

ความหมายมาร์กอัป

ความหมายของคำว่า - คือในแง่ง่ายความหมาย วิธีการที่ใช้กันอย่างแพร่หลายกับการวิเคราะห์ความหมายของคำว่าแท็กระบุแหล่งที่มาสะท้อนให้เห็นถึงของเขาที่อยู่ในชุดของความหมายประเภทและหมวดหมู่ย่อย ข้อมูลดังกล่าวที่มีคุณค่าสำหรับการเพิ่มประสิทธิภาพขั้นตอนวิธีการวิเคราะห์เสียงข้อความสรุปอัตโนมัติและวิธีการอื่น ๆ ของภาษาศาสตร์คลังข้อมูล

มีจำนวนของ "ราก" ของต้นไม้ที่เป็นตัวแทนของคำที่เป็นนามธรรมที่มีความหมายกว้างมาก ในฐานะที่เป็นสาขาของโหนดจะเกิดขึ้นมีองค์ประกอบคำศัพท์มากขึ้นและเฉพาะเจาะจงมากขึ้น ยกตัวอย่างเช่นคำว่า "สิ่งมีชีวิต" อาจจะเกี่ยวข้องกับแนวคิดดังกล่าวเป็น "มนุษย์" และ "สัตว์" คำแรกจะยังคงออกไปในสาขาอาชีพที่แตกต่างกันคำเรียกญาติสัญชาติและที่สอง - ชั้นเรียนและชนิดของสัตว์

การใช้ระบบการดึงข้อมูล

พื้นที่การใช้งานของภาษาศาสตร์คลังข้อมูลครอบคลุมหลากหลายสาขาของกิจกรรม ตัวเรือนจะใช้สำหรับการเตรียมความพร้อมและการแก้ไขของพจนานุกรมสร้างระบบการแปลอัตโนมัติ annotating เรียกข้อเท็จจริงการกำหนดโทนสีและการประมวลผลข้อความอื่น ๆ

นอกจากนี้ทรัพยากรดังกล่าวจะถูกใช้อย่างแข็งขันในการศึกษาภาษาทั่วโลกและกลไกการทำงานของภาษาโดยทั่วไป การเข้าถึงข้อมูลปริมาณมากก่อนเตรียมอำนวยความสะดวกในการศึกษาได้อย่างรวดเร็วและครอบคลุมของแนวโน้มของภาษาการพัฒนาและการเปลี่ยนแปลงที่มีเสถียรภาพก่อ neologisms ความเร็วการพูดค่าหน่วยคำศัพท์และอื่น ๆ

เนื่องจากการทำงานที่มีจำนวนมากเช่นข้อมูลต้องใช้ระบบอัตโนมัติในวันนี้มีการทำงานร่วมกันอย่างใกล้ชิดระหว่างคอมพิวเตอร์และคลังภาษาศาสตร์

รัสเซีย Corpus แห่งชาติ

กรณีนี้ (ย่อ NKRYA) รวมถึงจำนวนของ subcorpus ที่ช่วยให้การใช้ทรัพยากรสำหรับหลากหลายของงาน

วัสดุในฐานข้อมูลจะถูกแบ่งออก NKRYA:

สิ่งพิมพ์ใน 90s สื่อ' และยุค 2000 ทั้งในประเทศและต่างประเทศ
บันทึกคำพูด;
aktsentologicheski ทำเครื่องหมายตำรา (นั่นคือเครื่องหมายของความเครียด);
การพูดภาษา;
บทกวี;
วัสดุที่มีประโยคและอื่น ๆ เครื่องหมาย

ระบบสารสนเทศยังมี Subcorpus กับการแปลแบบขนานของผลงานจากรัสเซียเป็นภาษาอังกฤษ, เยอรมัน, ฝรั่งเศสและภาษาอื่น ๆ อีกมากมาย (และในทางกลับกัน)

นอกจากนี้ในฐานข้อมูลมีส่วนของตำราประวัติศาสตร์ที่เป็นตัวแทนของคำพูดที่เขียนในรัสเซียในช่วงเวลาที่แตกต่างกันของการพัฒนา นอกจากนี้ยังมีร่างกายการฝึกอบรมซึ่งจะเป็นประโยชน์สำหรับประชาชนในต่างประเทศการเรียนรู้ภาษารัสเซีย

แห่งชาติของรัสเซียคอร์ปัสประกอบด้วย 400 ล้านหน่วยศัพท์และในหลายข้างหน้าของการเป็นส่วนสำคัญของภาษาของร่างกายยุโรป

กลุ่มเป้าหมาย

ความเป็นจริงในความโปรดปรานของการรับรู้ของแนวโน้มนี้คือการมีแนวโน้มที่ภาษาศาสตร์คลังข้อมูลห้องปฏิบัติการในมหาวิทยาลัยรัสเซียเช่นเดียวกับต่างประเทศ ด้วยการใช้และการวิจัยในกรอบของข้อมูลและการค้นหานี้ทรัพยากรที่ส่งผลต่อการพัฒนาของพื้นที่บางส่วนในด้านของเทคโนโลยีชั้นสูงระบบคำถามตอบ แต่ก็เป็นที่กล่าวถึงข้างต้น

พัฒนาต่อไปของภาษาศาสตร์คลังข้อมูลเป็นที่คาดการณ์ในทุกระดับตั้งแต่เทคนิคและในแง่ของการดำเนินการตามขั้นตอนวิธีการใหม่ที่เพิ่มประสิทธิภาพของกระบวนการของการค้นหาและการประมวลผลข้อมูลเพิ่มขีดความสามารถคอมพิวเตอร์, RAM มากขึ้นและผู้บริโภคเนื่องจากผู้ใช้มีวิธีการมากขึ้นเพื่อใช้ชนิดของทรัพยากรนี้ในชีวิตประจำวันของพวกเขา ชีวิตและการทำงาน

สรุป

ในช่วงกลางของศตวรรษที่ผ่านมาในปี 2017 ดูเหมือนอนาคตไกลที่ยานอวกาศเดินทางผ่านจักรวาลและหุ่นยนต์ทำทุกงานสำหรับคนที่ ในความเป็นจริงทางวิทยาศาสตร์คือประกอบไปด้วย "จุดสีขาว" และทำให้ความพยายามที่จะตอบคำถามของมนุษย์มานานหลายศตวรรษรบกวน คำถามที่ทำงานของภาษาที่นี่ครอบครองสถานที่มีเกียรติและตู้และภาษาศาสตร์ช่วยให้เราสามารถตอบคำถามเหล่านี้

การประมวลผลของชุดข้อมูลขนาดใหญ่สามารถตรวจสอบรูปแบบไม่สามารถเข้าถึงได้ก่อนหน้านี้คาดการณ์การพัฒนาคุณลักษณะของภาษาเฉพาะการติดตามการก่อตัวของคำในเวลาจริงเกือบ

ในระดับการปฏิบัติที่เปลือกทั่วโลกสามารถมองเห็นได้เช่นเป็นเครื่องมือที่มีศักยภาพในการประเมินอารมณ์สาธารณะ - อินเทอร์เน็ตเป็นปรับปรุงอย่างต่อเนื่องพื้นฐานตำราชีวิตประจำวันต่างๆที่สร้างขึ้นโดยผู้ใช้งานจริง: นี้แสดงความคิดเห็นและความคิดเห็นและบทความและรูปแบบอื่น ๆ อีกมากมายในการพูด

นอกจากนี้การทำงานร่วมกับหน่วยงานที่ก่อให้เกิดการพัฒนาของฮาร์ดแวร์เดียวกันที่มีส่วนร่วมในการดึงข้อมูลที่เรามีความคุ้นเคยกับบริการ "Google" หรือ "Yandex" เครื่องแปลภาษา, พจนานุกรมอิเล็กทรอนิกส์

เรามั่นใจสามารถยืนยันว่าภาษาศาสตร์คลังทำเพียงขั้นตอนแรกและในอนาคตอันใกล้จะอวด

การสร้าง, วิทยาลัยและมหาวิทยาลัย

คอร์ปัสภาษาศาสตร์คืออะไร?

ประวัติความเป็นมาของภาษาศาสตร์คลังข้อมูล

สิ่งที่เป็นที่อยู่อาศัย

ใบสมัคร

การใช้งานของอาคาร

กระบวนการของการสร้าง

ความยากลำบากในการสร้างอาคาร

การติดแท็กลักษณะทางสัณฐานวิทยา

คำอธิบายประกอบประโยค

ความหมายมาร์กอัป

การใช้ระบบการดึงข้อมูล

รัสเซีย Corpus แห่งชาติ

กลุ่มเป้าหมาย

สรุป

Similar articles

การสร้าง

การสร้าง

การสร้าง

การสร้าง

การสร้าง

การสร้าง

Trending Now

ข่าวและสังคม

สุขภาพ

การเดินทาง

คอมพิวเตอร์

ของเทคโนโลยี

การเดินทาง

Newest

ศิลปะและความบันเทิง

อาหารและเครื่องดื่ม

สุขภาพ

บ้านและครอบครัว

อาหารและเครื่องดื่ม

สุขภาพ