การสร้างวิทยาลัยและมหาวิทยาลัย

คอร์ปัสภาษาศาสตร์คืออะไร?

เพียงแค่ไม่กี่ทศวรรษที่ผ่านมาโดยอัตโนมัติการวิจัยภาษาศาสตร์นักวิทยาศาสตร์เท่านั้นสามารถฝันของ ทำงานก็ทำด้วยมือมันจะดึงดูดจำนวนมากของนักเรียนมีความเป็นไปได้ที่สำคัญความผิดพลาด "ประมาท" และที่สำคัญที่สุด - ทั้งหมดนี้เอาระยะเวลานาน

ด้วยการพัฒนาของเทคโนโลยีคอมพิวเตอร์ได้กลายเป็นไปได้ที่จะดำเนินการวิจัยเกี่ยวกับลำดับความสำคัญได้เร็วขึ้นและวันนี้เป็นหนึ่งในเส้นทางที่มีแนวโน้มมากที่สุดในการศึกษาของภาษาเป็นภาษาศาสตร์คลัง คุณสมบัติหลักของมันคือการใช้ข้อมูลจำนวนมากข้อความข้อมูลลงในฐานข้อมูลเดียวในลักษณะพิเศษและเรียกร่างกายที่ทำเครื่องหมายไว้

ในวันที่มีอาคารหลายหลังที่สร้างขึ้นด้วยวัตถุประสงค์ที่แตกต่างบนพื้นฐานของวัสดุภาษาต่างๆทอดจากล้านนับพันล้านหน่วยศัพท์ ทิศทางนี้ได้รับการยอมรับว่าเป็นแนวโน้มและแสดงให้เห็นถึงความคืบหน้าอย่างมีนัยสำคัญต่อการประยุกต์ใช้และวัตถุประสงค์ในการวิจัย ผู้เชี่ยวชาญทางเดียวหรือการจัดการกับภาษาธรรมชาติอื่นก็จะแนะนำให้ได้รู้จักกับร่างกายของข้อความอย่างน้อยในระดับพื้นฐาน

ประวัติความเป็นมาของภาษาศาสตร์คลังข้อมูล

การก่อตัวของแนวโน้มนี้เกิดจากการสร้างสรรค์ของสหรัฐฯในร่างกายของบราวน์ในช่วงต้นยุค 60 โอบอุ้มของศตวรรษที่ผ่านมา คอลเลกชันรวมถึงตำราทั้ง 1 ล้านรูปแบบคำและในวันนี้ร่างกายขนาดนี้จะไม่มีการแข่งขันกันโดยสิ้นเชิง นี้เป็นส่วนใหญ่เนื่องจากการก้าวของการพัฒนาของเทคโนโลยีคอมพิวเตอร์เช่นเดียวกับความต้องการที่เพิ่มขึ้นสำหรับการวิจัยทรัพยากรใหม่

ใน 90s ภาษาศาสตร์คลังโผล่ออกมาเป็นวินัยเต็มรูปแบบและเป็นอิสระ, คอลเลกชันของตำราได้รับการวาดขึ้นและทำเครื่องหมายสำหรับหลายภาษา ในช่วงเวลานี้มันถูกสร้างขึ้นตัวอย่างเช่นชาติอังกฤษ Corpus 100 ล้านราชสกุล

กับการพัฒนาของพื้นที่ของภาษาศาสตร์นี้ปริมาณข้อความที่มีมากขึ้นและมากขึ้น (และถึงพันล้านหน่วยพจนานุกรม) และรูปแบบที่จะกลายเป็นความหลากหลายมากขึ้น ในวันที่พื้นที่ Internet ที่สามารถพบซากพูดและเขียนภาษาพูดได้หลายภาษาและวรรณกรรมศิลปะหรือวิชาการการเรียนรู้ที่มุ่งเน้นการเช่นเดียวกับสายพันธุ์อื่น ๆ อีกมากมาย

สิ่งที่เป็นที่อยู่อาศัย

ประเภทร่างกายภาษาศาสตร์ร่างกายอาจจะให้เหตุผลหลายประการ สัญชาตญาณพื้นฐานสำหรับการจัดหมวดหมู่อาจจะเป็นข้อความภาษา (รัสเซีย, เยอรมัน), โหมดการเข้าถึง (เปิดแหล่งที่มาปิดพาณิชย์), ประเภทของวัสดุที่แหล่งที่มา (นิยายสารคดีวิชาการสื่อสารมวลชน)

วิธีที่น่าสนใจสร้างวัสดุของภาษาพูด ตั้งแต่การบันทึกโดยเจตนาในการพูดดังกล่าวเพื่อสร้างสภาพแวดล้อมเทียมสำหรับผู้ตอบแบบสอบถามและวัสดุที่ส่งผลให้ไม่สามารถเรียกว่า "ธรรมชาติ" ภาษาศาสตร์คลังสมัยใหม่ได้ไปทางอื่น อาสาสมัครมาพร้อมกับไมโครโฟนและในระหว่างวันที่ผลิตบันทึกการสนทนาทั้งหมดในการที่จะมีส่วนร่วม ผู้คนรอบ ๆ แน่นอนอาจไม่ทราบว่าในการสนทนาในชีวิตประจำวันมีส่วนช่วยในการพัฒนาวิทยาศาสตร์

ต่อมาได้รับการบันทึกเก็บไว้ในฐานข้อมูลและจะมาพร้อมกับข้อความที่พิมพ์ประเภทหลักฐานการศึกษา ดังนั้นจึงเป็นไปได้ที่มาร์กอัปจำเป็นในการสร้างที่อยู่อาศัยการพูดในชีวิตประจำวันในช่องปาก

ใบสมัคร

หากเป็นไปได้การใช้ภาษาและบางทีอาจจะใช้อาคารตำรา วิธีการที่จะใช้เรือในภาษาศาสตร์อาจจะเป็น:

  • การสร้างโปรแกรมการพิจารณาที่สำคัญถูกนำมาใช้กันอย่างแพร่หลายในการเมืองและธุรกิจเพื่อติดตามการตอบสนองในเชิงบวกและเชิงลบของผู้มีสิทธิเลือกตั้งและลูกค้าตามลำดับ
  • ระบบสารสนเทศเพื่อการเชื่อมต่อกับพจนานุกรมและนักแปลในการปรับปรุงประสิทธิภาพการทำงานของพวกเขา
  • ความหลากหลายของงานวิจัยที่นำไปสู่ความเข้าใจของหน่วยภาษาประวัติศาสตร์ของการพัฒนาและการคาดการณ์ของการเปลี่ยนแปลงในอนาคตอันใกล้
  • การพัฒนาระบบการดึงข้อมูลขึ้นอยู่กับลักษณะทางสัณฐานวิทยาประโยคความหมายและคุณสมบัติอื่น ๆ
  • การเพิ่มประสิทธิภาพของระบบภาษาที่แตกต่างกันและคนอื่น ๆ

การใช้งานของอาคาร

อินเตอร์เฟซทรัพยากรที่คล้ายกันด้วยเครื่องมือค้นหาทั่วไปและแจ้งให้ผู้ใช้ป้อนคำหรือการรวมกันของคำที่จะค้นหาฐานข้อมูล นอกจากรูปแบบการค้นหาที่แน่นอนสามารถใช้รุ่นที่เพิ่มขึ้นซึ่งจะช่วยให้การค้นหาข้อมูลเกี่ยวกับใจในแทบเกณฑ์ภาษาใด ๆ

ฐานการค้นหาอาจจะเป็น:

  • สมาชิกของกลุ่มเฉพาะของชิ้นส่วนในการพูด;
  • คุณสมบัติไวยากรณ์
  • ความหมาย;
  • สีโวหารและอารมณ์

นอกจากนี้คุณยังสามารถรวมเกณฑ์การค้นหาลำดับของคำสำหรับตัวอย่างเช่นการหาที่เกิดขึ้นทั้งหมดของคำกริยาในปัจจุบันกาลคนแรกเอกพจน์ซึ่งมาหลังจากคำบุพบท "ใน" และเป็นรูปธรรมในกรณีที่กล่าวหา วิธีการแก้ปัญหาดังกล่าวเป็นงานที่ง่ายจะนำผู้ใช้ไม่กี่วินาทีและต้องใช้เพียงไม่กี่คลิกเมาส์ในสาขาที่ระบุ

กระบวนการของการสร้าง

ค้นหาตัวเองสามารถดำเนินการใน subcorpus และเลือกหนึ่งโดยเฉพาะอย่างขึ้นอยู่กับความต้องการในการบรรลุเป้าหมายโดยเฉพาะอย่างยิ่ง:

  1. ขั้นตอนแรกคือการกำหนดซึ่งตำรารูปแบบพื้นฐานสำหรับกรณีที่ สำหรับวัตถุประสงค์ในทางปฏิบัติก็มักจะถูกใช้หนังสือพิมพ์ข่าวความคิดเห็นออนไลน์ โครงการวิจัยคือการใช้ความหลากหลายของประเภทแพคเกจ แต่ข้อความที่ควรจะเลือกตามที่พื้นดินทั่วไป
  2. คอลเลกชันที่เกิดจากตำราอาจมีการปรับสภาพมีแก้ไขข้อผิดพลาดถ้าใด ๆ ที่จัดทำโดยรายละเอียดบรรณานุกรมและพิเศษภาษาของข้อความ
  3. จะถูกกำจัดออกข้อมูลที่ไม่ใช่ต้นฉบับเดิมทั้งหมด: ล้างกราฟิก, รูปภาพ, ตาราง
  4. การจัดสรรของสัญญาณซึ่งมักจะมีการพูดสำหรับการประมวลผลต่อไป
  5. ในที่สุดก็ดำเนินการทางสัณฐานวิทยา, การสร้างประโยคและเครื่องหมายอื่น ๆ ส่วนใหญ่ได้รับขององค์ประกอบ

ผลของการทำธุรกรรมทั้งหมดโดยโครงสร้างประโยคที่มีการกระจายอยู่ในนั้นส่วนใหญ่ขององค์ประกอบแต่ละแห่งซึ่งเป็นส่วนหนึ่งที่ระบุในการพูดไวยากรณ์และในบางกรณีคุณลักษณะความหมาย

ความยากลำบากในการสร้างอาคาร

มันเป็นสิ่งสำคัญที่จะเข้าใจว่าไม่เพียงพอที่จะใส่กันชุดของคำหรือประโยคสำหรับร่างกาย ในมือข้างหนึ่งคอลเลกชันของข้อความควรมีความสมดุลที่เป็นตัวแทนของประเภทที่แตกต่างกันของข้อความในบางสัดส่วน ในอื่น ๆ - เนื้อหาของสิ่งที่แนบมาควรจะเว้นระยะห่างในลักษณะพิเศษ

ปัญหาแรกที่ได้รับการแก้ไขโดยข้อตกลง: ยกตัวอย่างเช่นในคอลเลกชันรวมถึง 60% ของวรรณกรรม, 20% ของสารคดีร้อยละหนึ่งจะได้รับการแสดงที่เป็นลายลักษณ์อักษรของภาษาพูดกฎหมายผลงานทางวิทยาศาสตร์ ฯลฯ ที่สมบูรณ์แบบสูตรสมดุลของร่างกายในวันนี้ไม่ได้อยู่ ...

คำถามที่สองเกี่ยวกับการจัดวางเนื้อหาการแก้ปัญหาที่ท้าทาย มีโปรแกรมพิเศษและอัลกอริทึมที่ใช้สำหรับการทำเครื่องหมายโดยอัตโนมัติจากตำรามี แต่พวกเขาไม่ได้ให้ผลที่สมบูรณ์แบบสามารถก่อให้เกิดการหยุดชะงักและต้องทำใหม่คู่มือ โอกาสและความท้าทายในการจัดการกับปัญหานี้จะมีการอธิบายในรายละเอียดในกระดาษวีพี Zaharova ภาษาศาสตร์คลัง

มาร์กอัปข้อความจะดำเนินการในหลายระดับซึ่งเรารายชื่อด้านล่าง

การติดแท็กลักษณะทางสัณฐานวิทยา

จากโรงเรียนเราจำได้ว่าในภาษารัสเซียมีส่วนที่แตกต่างกันในการพูดและแต่ละคนมีลักษณะของตนเอง ยกตัวอย่างเช่นคำกริยามีหมวดหมู่ของการเอียงและเวลาที่ไม่มีคำนาม เจ้าของภาษาโดยไม่ลังเลปฏิเสธคำนามและคำกริยาผัน แต่เพื่อทำเครื่องหมายร่างกาย 100 ล้านบาท. โทเค็นการใช้แรงงานจะไม่ทำงาน ทั้งหมดการดำเนินงานที่จำเป็นสามารถรันคอมพิวเตอร์ แต่สำหรับเรื่องนี้จะต้องมีการเรียนการสอน

การติดแท็กทางสัณฐานวิทยาคอมพิวเตอร์ต้อง "เข้าใจ" แต่ละคำเป็นส่วนหนึ่งในการพูดที่มีคุณสมบัติไวยากรณ์บางอย่าง เนื่องจากรัสเซีย (และภาษาอื่น ๆ ) ดำเนินการจำนวนของกฎปกติก็เป็นไปได้ที่จะสร้างขั้นตอนโดยอัตโนมัติสำหรับการวิเคราะห์ลักษณะทางสัณฐานวิทยา, การลงทุนในรถสำหรับจำนวนของอัลกอริทึม แต่มีข้อยกเว้นกฎเช่นเดียวกับปัจจัยแทรกซ้อนต่างๆ เป็นผลให้คอมพิวเตอร์วิเคราะห์สุทธิของวันนี้อยู่ไกลจากอุดมคติและความผิดพลาดแม้อัตราผลตอบแทน 4% มูลค่า 4 ล้าน. คำในร่างกาย 100 ล้าน. หน่วยที่ต้องทำใหม่คู่มือ

หนังสืออธิบายรายละเอียดของปัญหา Zaharova วีพี "คอร์ปัสภาษาศาสตร์"

คำอธิบายประกอบประโยค

การแยกหรือการแยกวิเคราะห์ - ขั้นตอนที่กำหนดความสัมพันธ์ของคำในประโยค ใช้ชุดของขั้นตอนวิธีการเป็นไปได้ในการกำหนดข้อความของเรื่องกริยาเติมหลายผลัดกันในการพูด หาที่คำพูดเป็นลำดับหลักและที่ - ขึ้นอยู่กับเราอย่างมีประสิทธิภาพสามารถดึงข้อมูลจากข้อความและการสอนเครื่องที่จะออกในการตอบสนองต่อการร้องขอการค้นหาเฉพาะข้อมูลที่น่าสนใจเรา

โดยวิธีการที่เครื่องมือค้นหาที่ทันสมัยใช้นี้จะให้ออกตัวเลขที่เฉพาะเจาะจงแทนตำราที่มีความยาวในการตอบสนองต่อคำสั่งที่เกี่ยวข้องเช่น "วิธีการหลายแคลอรี่ในแอปเปิ้ล" หรือ "ระยะทางจากกรุงมอสโกไปเซนต์ปีเตอร์สเบิร์ก." อย่างไรก็ตามเพื่อให้เข้าใจแม้แต่พื้นฐานของกระบวนการที่อธิบายไว้โดยจำเป็นที่จะต้องปรึกษา "รู้เบื้องต้นเกี่ยวกับคอร์ปัสภาษาศาสตร์" หรือกวดวิชาพื้นฐานอื่น ๆ

ความหมายมาร์กอัป

ความหมายของคำว่า - คือในแง่ง่ายความหมาย วิธีการที่ใช้กันอย่างแพร่หลายกับการวิเคราะห์ความหมายของคำว่าแท็กระบุแหล่งที่มาสะท้อนให้เห็นถึงของเขาที่อยู่ในชุดของความหมายประเภทและหมวดหมู่ย่อย ข้อมูลดังกล่าวที่มีคุณค่าสำหรับการเพิ่มประสิทธิภาพขั้นตอนวิธีการวิเคราะห์เสียงข้อความสรุปอัตโนมัติและวิธีการอื่น ๆ ของภาษาศาสตร์คลังข้อมูล

มีจำนวนของ "ราก" ของต้นไม้ที่เป็นตัวแทนของคำที่เป็นนามธรรมที่มีความหมายกว้างมาก ในฐานะที่เป็นสาขาของโหนดจะเกิดขึ้นมีองค์ประกอบคำศัพท์มากขึ้นและเฉพาะเจาะจงมากขึ้น ยกตัวอย่างเช่นคำว่า "สิ่งมีชีวิต" อาจจะเกี่ยวข้องกับแนวคิดดังกล่าวเป็น "มนุษย์" และ "สัตว์" คำแรกจะยังคงออกไปในสาขาอาชีพที่แตกต่างกันคำเรียกญาติสัญชาติและที่สอง - ชั้นเรียนและชนิดของสัตว์

การใช้ระบบการดึงข้อมูล

พื้นที่การใช้งานของภาษาศาสตร์คลังข้อมูลครอบคลุมหลากหลายสาขาของกิจกรรม ตัวเรือนจะใช้สำหรับการเตรียมความพร้อมและการแก้ไขของพจนานุกรมสร้างระบบการแปลอัตโนมัติ annotating เรียกข้อเท็จจริงการกำหนดโทนสีและการประมวลผลข้อความอื่น ๆ

นอกจากนี้ทรัพยากรดังกล่าวจะถูกใช้อย่างแข็งขันในการศึกษาภาษาทั่วโลกและกลไกการทำงานของภาษาโดยทั่วไป การเข้าถึงข้อมูลปริมาณมากก่อนเตรียมอำนวยความสะดวกในการศึกษาได้อย่างรวดเร็วและครอบคลุมของแนวโน้มของภาษาการพัฒนาและการเปลี่ยนแปลงที่มีเสถียรภาพก่อ neologisms ความเร็วการพูดค่าหน่วยคำศัพท์และอื่น ๆ

เนื่องจากการทำงานที่มีจำนวนมากเช่นข้อมูลต้องใช้ระบบอัตโนมัติในวันนี้มีการทำงานร่วมกันอย่างใกล้ชิดระหว่างคอมพิวเตอร์และคลังภาษาศาสตร์

รัสเซีย Corpus แห่งชาติ

กรณีนี้ (ย่อ NKRYA) รวมถึงจำนวนของ subcorpus ที่ช่วยให้การใช้ทรัพยากรสำหรับหลากหลายของงาน

วัสดุในฐานข้อมูลจะถูกแบ่งออก NKRYA:

  • สิ่งพิมพ์ใน 90s สื่อ' และยุค 2000 ทั้งในประเทศและต่างประเทศ
  • บันทึกคำพูด;
  • aktsentologicheski ทำเครื่องหมายตำรา (นั่นคือเครื่องหมายของความเครียด);
  • การพูดภาษา;
  • บทกวี;
  • วัสดุที่มีประโยคและอื่น ๆ เครื่องหมาย

ระบบสารสนเทศยังมี Subcorpus กับการแปลแบบขนานของผลงานจากรัสเซียเป็นภาษาอังกฤษ, เยอรมัน, ฝรั่งเศสและภาษาอื่น ๆ อีกมากมาย (และในทางกลับกัน)

นอกจากนี้ในฐานข้อมูลมีส่วนของตำราประวัติศาสตร์ที่เป็นตัวแทนของคำพูดที่เขียนในรัสเซียในช่วงเวลาที่แตกต่างกันของการพัฒนา นอกจากนี้ยังมีร่างกายการฝึกอบรมซึ่งจะเป็นประโยชน์สำหรับประชาชนในต่างประเทศการเรียนรู้ภาษารัสเซีย

แห่งชาติของรัสเซียคอร์ปัสประกอบด้วย 400 ล้านหน่วยศัพท์และในหลายข้างหน้าของการเป็นส่วนสำคัญของภาษาของร่างกายยุโรป

กลุ่มเป้าหมาย

ความเป็นจริงในความโปรดปรานของการรับรู้ของแนวโน้มนี้คือการมีแนวโน้มที่ภาษาศาสตร์คลังข้อมูลห้องปฏิบัติการในมหาวิทยาลัยรัสเซียเช่นเดียวกับต่างประเทศ ด้วยการใช้และการวิจัยในกรอบของข้อมูลและการค้นหานี้ทรัพยากรที่ส่งผลต่อการพัฒนาของพื้นที่บางส่วนในด้านของเทคโนโลยีชั้นสูงระบบคำถามตอบ แต่ก็เป็นที่กล่าวถึงข้างต้น

พัฒนาต่อไปของภาษาศาสตร์คลังข้อมูลเป็นที่คาดการณ์ในทุกระดับตั้งแต่เทคนิคและในแง่ของการดำเนินการตามขั้นตอนวิธีการใหม่ที่เพิ่มประสิทธิภาพของกระบวนการของการค้นหาและการประมวลผลข้อมูลเพิ่มขีดความสามารถคอมพิวเตอร์, RAM มากขึ้นและผู้บริโภคเนื่องจากผู้ใช้มีวิธีการมากขึ้นเพื่อใช้ชนิดของทรัพยากรนี้ในชีวิตประจำวันของพวกเขา ชีวิตและการทำงาน

สรุป

ในช่วงกลางของศตวรรษที่ผ่านมาในปี 2017 ดูเหมือนอนาคตไกลที่ยานอวกาศเดินทางผ่านจักรวาลและหุ่นยนต์ทำทุกงานสำหรับคนที่ ในความเป็นจริงทางวิทยาศาสตร์คือประกอบไปด้วย "จุดสีขาว" และทำให้ความพยายามที่จะตอบคำถามของมนุษย์มานานหลายศตวรรษรบกวน คำถามที่ทำงานของภาษาที่นี่ครอบครองสถานที่มีเกียรติและตู้และภาษาศาสตร์ช่วยให้เราสามารถตอบคำถามเหล่านี้

การประมวลผลของชุดข้อมูลขนาดใหญ่สามารถตรวจสอบรูปแบบไม่สามารถเข้าถึงได้ก่อนหน้านี้คาดการณ์การพัฒนาคุณลักษณะของภาษาเฉพาะการติดตามการก่อตัวของคำในเวลาจริงเกือบ

ในระดับการปฏิบัติที่เปลือกทั่วโลกสามารถมองเห็นได้เช่นเป็นเครื่องมือที่มีศักยภาพในการประเมินอารมณ์สาธารณะ - อินเทอร์เน็ตเป็นปรับปรุงอย่างต่อเนื่องพื้นฐานตำราชีวิตประจำวันต่างๆที่สร้างขึ้นโดยผู้ใช้งานจริง: นี้แสดงความคิดเห็นและความคิดเห็นและบทความและรูปแบบอื่น ๆ อีกมากมายในการพูด

นอกจากนี้การทำงานร่วมกับหน่วยงานที่ก่อให้เกิดการพัฒนาของฮาร์ดแวร์เดียวกันที่มีส่วนร่วมในการดึงข้อมูลที่เรามีความคุ้นเคยกับบริการ "Google" หรือ "Yandex" เครื่องแปลภาษา, พจนานุกรมอิเล็กทรอนิกส์

เรามั่นใจสามารถยืนยันว่าภาษาศาสตร์คลังทำเพียงขั้นตอนแรกและในอนาคตอันใกล้จะอวด

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 th.birmiss.com. Theme powered by WordPress.